rødhold
Et rødhold er en gruppe af mennesker eller AI-systemer, der bevidst forsøger at finde sårbarheder eller udnytte fejl i et AI-system for at teste dets robusthed.
Kort fortalt
Rødhold er som et 'angriberhold', der prøver at hacke eller narre en AI for at afsløre svagheder.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
En gruppe, der systematisk udfordrer et AI-system for at afdække svagheder og forbedre sikkerheden.
- Virksomheden ansatte et rødhold til at teste deres chatbots sårbarheder.
Hvornår bruges det
Rødhold anvendes typisk i forbindelse med sikkerhedstest af store sprogmodeller, hvor de systematisk afprøver modellen med adversarial prompts for at opdage bias, toksicitet eller informationslækage. Det bruges også i forbindelse med andre AI-systemer for at evaluere deres robusthed over for manipulation.
Oprindelse
Udtrykket stammer fra militær terminologi, hvor 'rødhold' betegner en modstanderstyrke i krigsspil. Det blev adopteret i cybersikkerhed og senere i AI-sikkerhed.