rød-holdsøvelse

En struktureret testmetode, hvor et hold (rød-hold) forsøger at finde sårbarheder, fejl eller utilsigtede adfærd i en AI-model.

Kort fortalt

Rød-holdsøvelse er en sikkerhedstest, hvor en gruppe bevidst prøver at narre eller bryde en AI-model for at finde svagheder.

Kategori: teknik
Niveau: øvet

Betydninger

1
En kontrolleret angrebssimulering mod et AI-system med formål at identificere og afhjælpe sårbarheder.
- Virksomheden gennemførte en rød-holdsøvelse på deres store sprogmodel for at teste, om den kunne manipuleres til at afgive fortrolige oplysninger.

Hvornår bruges det

Bruges i forbindelse med sikkerhedsvurdering af sprogmodeller og andre AI-systemer. Holdet konstruerer modstridende input for at afsløre uønsket adfærd som bias, farlige svar eller sikkerhedsbrud.

Oprindelse

Begrebet stammer fra militære krigsspil, hvor 'rødt hold' simulerer fjenden. I AI anvendes termen fra omkring 2010'erne.

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →