rødhold

Et rødhold er en gruppe af mennesker eller AI-systemer, der bevidst forsøger at finde sårbarheder eller udnytte fejl i et AI-system for at teste dets robusthed.

Kort fortalt

Rødhold er som et 'angriberhold', der prøver at hacke eller narre en AI for at afsløre svagheder.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    En gruppe, der systematisk udfordrer et AI-system for at afdække svagheder og forbedre sikkerheden.

    • Virksomheden ansatte et rødhold til at teste deres chatbots sårbarheder.

Hvornår bruges det

Rødhold anvendes typisk i forbindelse med sikkerhedstest af store sprogmodeller, hvor de systematisk afprøver modellen med adversarial prompts for at opdage bias, toksicitet eller informationslækage. Det bruges også i forbindelse med andre AI-systemer for at evaluere deres robusthed over for manipulation.

Oprindelse

Udtrykket stammer fra militær terminologi, hvor 'rødhold' betegner en modstanderstyrke i krigsspil. Det blev adopteret i cybersikkerhed og senere i AI-sikkerhed.

Afledte ord

2