Adversarial example
Et adversarial example er en input, der er blevet manipuleret med små, uopdagede ændringer for at få en model til at lave en forkert forudsigelse.
Kort fortalt
Et adversarial example er et billede, lyd eller tekst, som er ændret så lidt, at et menneske ikke opdager det, men som får en AI-model til at tage fejl.
- Kategori
- begreb
- Niveau
- øvet
- Udtale
- /ædˈvɜːrsəriəl ɪɡˈzæmpəl/
Betydninger
1- 1
Et adversarial example er et input (som et billede, lyd eller tekst) der er konstrueret ved at tilføje små, målrettede forstyrrelser til et legitimt input med det formål at forårsage en forkert klassifikation eller output fra en maskinlæringsmodel, samtidig med at forstyrrelserne er umærkelige for mennesker.
- Ved at tilføje næsten usynlig støj til et billede af en panda, kan man skabe et adversarial example, som et neuralt netværk klassificerer som en gibbon. — Goodfellow et al., Explaining and Harnessing Adversarial Examples, 2015
- Adversarial examples i tale kan få en stemmegenkendelsesmodel til at transskribere en helt anden besked end hvad der blev sagt. — Carlini & Wagner, Audio Adversarial Examples, 2018
Hvornår bruges det
Adversarial examples bruges til at teste og afsløre sårbarheder i maskinlæringsmodeller, især i sikkerhedskritiske systemer som ansigtsgenkendelse eller selvkørende biler. Forskere bruger dem til at forbedre modellens robusthed gennem adversarial træning.
Oprindelse
Termen stammer fra forskning i maskinlæringssikkerhed, især fra Szegedy et al. (2013), der opdagede at små perturbationer kan narre neurale netværk.
Afledte ord
3Kilder
2- Explaining and Harnessing Adversarial Examples (Goodfellow et al., 2015)
- Intriguing properties of neural networks (Szegedy et al., 2013)