Adversarial example

Et adversarial example er en input, der er blevet manipuleret med små, uopdagede ændringer for at få en model til at lave en forkert forudsigelse.

Kort fortalt

Et adversarial example er et billede, lyd eller tekst, som er ændret så lidt, at et menneske ikke opdager det, men som får en AI-model til at tage fejl.

Kategori
begreb
Niveau
øvet
Udtale
/ædˈvɜːrsəriəl ɪɡˈzæmpəl/

Betydninger

1
  1. 1

    Et adversarial example er et input (som et billede, lyd eller tekst) der er konstrueret ved at tilføje små, målrettede forstyrrelser til et legitimt input med det formål at forårsage en forkert klassifikation eller output fra en maskinlæringsmodel, samtidig med at forstyrrelserne er umærkelige for mennesker.

    • Ved at tilføje næsten usynlig støj til et billede af en panda, kan man skabe et adversarial example, som et neuralt netværk klassificerer som en gibbon.Goodfellow et al., Explaining and Harnessing Adversarial Examples, 2015
    • Adversarial examples i tale kan få en stemmegenkendelsesmodel til at transskribere en helt anden besked end hvad der blev sagt.Carlini & Wagner, Audio Adversarial Examples, 2018

Hvornår bruges det

Adversarial examples bruges til at teste og afsløre sårbarheder i maskinlæringsmodeller, især i sikkerhedskritiske systemer som ansigtsgenkendelse eller selvkørende biler. Forskere bruger dem til at forbedre modellens robusthed gennem adversarial træning.

Oprindelse

Termen stammer fra forskning i maskinlæringssikkerhed, især fra Szegedy et al. (2013), der opdagede at små perturbationer kan narre neurale netværk.

Afledte ord

3

Kilder

2
  • Explaining and Harnessing Adversarial Examples (Goodfellow et al., 2015)
  • Intriguing properties of neural networks (Szegedy et al., 2013)