black-box adversarial attack

Et black-box adversarial attack er et angreb på en maskinlæringsmodel, hvor angriberen kun har adgang til modellens input-output-adfærd og ikke kender modellens arkitektur, parametre eller træningsdata.

Kort fortalt

Kort fortalt: et angreb, hvor man manipulerer input for at narre en AI-model, uden at kende dens indre virkemåde.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    Et angreb, hvor angriberen genererer adversarial eksempler uden direkte adgang til modellens parametre eller gradienter, typisk ved at forespørge modellen gentagne gange.

    • I et black-box adversarial attack sendes et let modificeret billede til en billedklassifikator, som fejlklassificerer det.Practical Black-Box Attacks against Machine Learning, Papernot et al., 2017
    • Angriberen anvender en substitutionsmodel til at efterligne den oprindelige model og generere adversarial eksempler.Practical Black-Box Attacks against Machine Learning, Papernot et al., 2017

Hvornår bruges det

Black-box adversarial attacks bruges i praksis til at teste robustheden af modeller i virkelige scenarier, f.eks. ved at sende modificerede billeder til en klassifikator. De er mere realistiske end white-box-angreb, da angriberen sjældent har fuld adgang til modellen.

Oprindelse

Udtrykket 'black-box' refererer til systemer, hvis indre funktion er skjult; 'adversarial attack' stammer fra sikkerhedsområdet og beskriver fjendtlige handlinger mod maskinlæringssystemer.

Afledte ord

2

Kilder

2
  • Practical Black-Box Attacks against Machine Learning
  • ZOO: Zeroth Order Optimization Based Black-box Attacks to Deep Neural Networks