rød-holdsøvelse

En struktureret testmetode, hvor et hold (rød-hold) forsøger at finde sårbarheder, fejl eller utilsigtede adfærd i en AI-model.

Kort fortalt

Rød-holdsøvelse er en sikkerhedstest, hvor en gruppe bevidst prøver at narre eller bryde en AI-model for at finde svagheder.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    En kontrolleret angrebssimulering mod et AI-system med formål at identificere og afhjælpe sårbarheder.

    • Virksomheden gennemførte en rød-holdsøvelse på deres store sprogmodel for at teste, om den kunne manipuleres til at afgive fortrolige oplysninger.

Hvornår bruges det

Bruges i forbindelse med sikkerhedsvurdering af sprogmodeller og andre AI-systemer. Holdet konstruerer modstridende input for at afsløre uønsket adfærd som bias, farlige svar eller sikkerhedsbrud.

Oprindelse

Begrebet stammer fra militære krigsspil, hvor 'rødt hold' simulerer fjenden. I AI anvendes termen fra omkring 2010'erne.