Red teaming
En systematisk metode til at teste AI-modellers sikkerhed og robusthed ved at simulere angreb eller adversariale inputs.
Kort fortalt
Red teaming bruges til at finde svagheder i AI-systemer ved at lade et hold bevidst forsøge at narre eller manipulere modellen.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
Systematisk, ofte manuel eller semi-manuel test af et AI-system ved at simulere ondsindede eller adversariale inputs for at identificere sårbarheder, risici eller uønsket adfærd.
- Virksomheden gennemførte en omfattende red teaming-øvelse af deres nye chatbot for at afdække potentielle jailbreak-angreb.
- Red teaming er en central del af ansvarlig AI-udvikling og hjælper med at sikre, at modeller ikke kan manipuleres til at producere skadeligt indhold.
Hvornår bruges det
Red teaming anvendes typisk i forbindelse med sikkerhedstest af sprogmodeller, chatbots og andre AI-systemer, inden de frigives. Det kan omfatte test for skadelige outputs, bias, jailbreaks eller uhensigtsmæssig adfærd.
Oprindelse
Begrebet kommer fra militærterminologi, hvor 'red team' betegner en modstanderstyrke, der tester en organisations forsvar. I AI-kontekst overført fra cybersikkerhed.
Afledte ord
1Kilder
1- Perez, E. et al. (2022). Red Teaming Language Models with Language Models.