adversarial robustness

Adversarial robustness betegner en maskinlæringsmodel's evne til at modstå bevidst fremstillede, små perturbationer i inputdata, der har til formål at narre modellen til at lave fejl.

Kort fortalt

Kort fortalt: Det er modelens immunitet over for 'ondskabsfulde' input, der ligner normale data, men indeholder små, men beregnede ændringer, der får modellen til at tage fejl.

Kategori
begreb
Niveau
øvet
Udtale
/ædˈvɜːrsəriəl rəˈbʌstnəs/

Betydninger

1
  1. 1

    En maskinlæringsmodel's modstandsdygtighed over for adversarial attacks, målt ved dens evne til at forblive nøjagtig, når input bevidst modificeres med små, uopdagelige ændringer.

    • En model med høj adversarial robustness kan klassificere et billede af en panda korrekt, selv efter at der er tilføjet en lille, målrettet støj, der ville narre en mindre robust model.
    • Adversarial robustness testes ofte ved at anvende PGD-angreb under evalueringsfasen for at måle modellens præcision under angreb.

Hvornår bruges det

Når en maskinlæringsmodel anvendes i sikkerhedskritiske applikationer som selvkørende biler eller ansigtsgenkendelse, er adversarial robustness afgørende for at forhindre angreb. Forskere måler ofte robusthed ved at teste modellen mod kendte adversarial attacks som FGSM eller PGD og træner den med metoder som adversarial training for at forbedre den.

Oprindelse

Begrebet opstod i forbindelse med opdagelsen af, at selv state-of-the-art deep learning-modeller er sårbare over for små, bevidst designede støjforstyrrelser (adversarial examples), først påvist af Szegedy et al. i 2013.

Afledte ord

2

Kilder

2
  • Intriguing properties of neural networks (Szegedy et al., 2013)
  • Explaining and harnessing adversarial examples (Goodfellow et al., 2014)