black-box adversarial attack

Et black-box adversarial attack er et angreb på en maskinlæringsmodel, hvor angriberen kun har adgang til modellens input-output-adfærd og ikke kender modellens arkitektur, parametre eller træningsdata.

Kort fortalt

Kort fortalt: et angreb, hvor man manipulerer input for at narre en AI-model, uden at kende dens indre virkemåde.

Kategori: teknik
Niveau: øvet

Betydninger

1
Et angreb, hvor angriberen genererer adversarial eksempler uden direkte adgang til modellens parametre eller gradienter, typisk ved at forespørge modellen gentagne gange.
- I et black-box adversarial attack sendes et let modificeret billede til en billedklassifikator, som fejlklassificerer det. — Practical Black-Box Attacks against Machine Learning, Papernot et al., 2017
- Angriberen anvender en substitutionsmodel til at efterligne den oprindelige model og generere adversarial eksempler. — Practical Black-Box Attacks against Machine Learning, Papernot et al., 2017

Hvornår bruges det

Black-box adversarial attacks bruges i praksis til at teste robustheden af modeller i virkelige scenarier, f.eks. ved at sende modificerede billeder til en klassifikator. De er mere realistiske end white-box-angreb, da angriberen sjældent har fuld adgang til modellen.

Oprindelse

Udtrykket 'black-box' refererer til systemer, hvis indre funktion er skjult; 'adversarial attack' stammer fra sikkerhedsområdet og beskriver fjendtlige handlinger mod maskinlæringssystemer.

Afledte ord

substitution attack query-based attack

Kilder

Practical Black-Box Attacks against Machine Learning
ZOO: Zeroth Order Optimization Based Black-box Attacks to Deep Neural Networks

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →