rødhold

Et rødhold er en gruppe af mennesker eller AI-systemer, der bevidst forsøger at finde sårbarheder eller udnytte fejl i et AI-system for at teste dets robusthed.

Kort fortalt

Rødhold er som et 'angriberhold', der prøver at hacke eller narre en AI for at afsløre svagheder.

Kategori: teknik
Niveau: øvet

Betydninger

1
En gruppe, der systematisk udfordrer et AI-system for at afdække svagheder og forbedre sikkerheden.
- Virksomheden ansatte et rødhold til at teste deres chatbots sårbarheder.

Hvornår bruges det

Rødhold anvendes typisk i forbindelse med sikkerhedstest af store sprogmodeller, hvor de systematisk afprøver modellen med adversarial prompts for at opdage bias, toksicitet eller informationslækage. Det bruges også i forbindelse med andre AI-systemer for at evaluere deres robusthed over for manipulation.

Oprindelse

Udtrykket stammer fra militær terminologi, hvor 'rødhold' betegner en modstanderstyrke i krigsspil. Det blev adopteret i cybersikkerhed og senere i AI-sikkerhed.

Afledte ord

rødholdssession rødholdstest

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →