rød-holdsøvelse
En struktureret testmetode, hvor et hold (rød-hold) forsøger at finde sårbarheder, fejl eller utilsigtede adfærd i en AI-model.
Kort fortalt
Rød-holdsøvelse er en sikkerhedstest, hvor en gruppe bevidst prøver at narre eller bryde en AI-model for at finde svagheder.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
En kontrolleret angrebssimulering mod et AI-system med formål at identificere og afhjælpe sårbarheder.
- Virksomheden gennemførte en rød-holdsøvelse på deres store sprogmodel for at teste, om den kunne manipuleres til at afgive fortrolige oplysninger.
Hvornår bruges det
Bruges i forbindelse med sikkerhedsvurdering af sprogmodeller og andre AI-systemer. Holdet konstruerer modstridende input for at afsløre uønsket adfærd som bias, farlige svar eller sikkerhedsbrud.
Oprindelse
Begrebet stammer fra militære krigsspil, hvor 'rødt hold' simulerer fjenden. I AI anvendes termen fra omkring 2010'erne.