black-box adversarial attack
Et black-box adversarial attack er et angreb på en maskinlæringsmodel, hvor angriberen kun har adgang til modellens input-output-adfærd og ikke kender modellens arkitektur, parametre eller træningsdata.
Kort fortalt
Kort fortalt: et angreb, hvor man manipulerer input for at narre en AI-model, uden at kende dens indre virkemåde.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
Et angreb, hvor angriberen genererer adversarial eksempler uden direkte adgang til modellens parametre eller gradienter, typisk ved at forespørge modellen gentagne gange.
- I et black-box adversarial attack sendes et let modificeret billede til en billedklassifikator, som fejlklassificerer det. — Practical Black-Box Attacks against Machine Learning, Papernot et al., 2017
- Angriberen anvender en substitutionsmodel til at efterligne den oprindelige model og generere adversarial eksempler. — Practical Black-Box Attacks against Machine Learning, Papernot et al., 2017
Hvornår bruges det
Black-box adversarial attacks bruges i praksis til at teste robustheden af modeller i virkelige scenarier, f.eks. ved at sende modificerede billeder til en klassifikator. De er mere realistiske end white-box-angreb, da angriberen sjældent har fuld adgang til modellen.
Oprindelse
Udtrykket 'black-box' refererer til systemer, hvis indre funktion er skjult; 'adversarial attack' stammer fra sikkerhedsområdet og beskriver fjendtlige handlinger mod maskinlæringssystemer.
Afledte ord
2Kilder
2- Practical Black-Box Attacks against Machine Learning
- ZOO: Zeroth Order Optimization Based Black-box Attacks to Deep Neural Networks