adversarial robustness
Adversarial robustness betegner en maskinlæringsmodel's evne til at modstå bevidst fremstillede, små perturbationer i inputdata, der har til formål at narre modellen til at lave fejl.
Kort fortalt
Kort fortalt: Det er modelens immunitet over for 'ondskabsfulde' input, der ligner normale data, men indeholder små, men beregnede ændringer, der får modellen til at tage fejl.
- Kategori
- begreb
- Niveau
- øvet
- Udtale
- /ædˈvɜːrsəriəl rəˈbʌstnəs/
Betydninger
1- 1
En maskinlæringsmodel's modstandsdygtighed over for adversarial attacks, målt ved dens evne til at forblive nøjagtig, når input bevidst modificeres med små, uopdagelige ændringer.
- En model med høj adversarial robustness kan klassificere et billede af en panda korrekt, selv efter at der er tilføjet en lille, målrettet støj, der ville narre en mindre robust model.
- Adversarial robustness testes ofte ved at anvende PGD-angreb under evalueringsfasen for at måle modellens præcision under angreb.
Hvornår bruges det
Når en maskinlæringsmodel anvendes i sikkerhedskritiske applikationer som selvkørende biler eller ansigtsgenkendelse, er adversarial robustness afgørende for at forhindre angreb. Forskere måler ofte robusthed ved at teste modellen mod kendte adversarial attacks som FGSM eller PGD og træner den med metoder som adversarial training for at forbedre den.
Oprindelse
Begrebet opstod i forbindelse med opdagelsen af, at selv state-of-the-art deep learning-modeller er sårbare over for små, bevidst designede støjforstyrrelser (adversarial examples), først påvist af Szegedy et al. i 2013.
Afledte ord
2Kilder
2- Intriguing properties of neural networks (Szegedy et al., 2013)
- Explaining and harnessing adversarial examples (Goodfellow et al., 2014)