Red teaming

En systematisk metode til at teste AI-modellers sikkerhed og robusthed ved at simulere angreb eller adversariale inputs.

Kort fortalt

Red teaming bruges til at finde svagheder i AI-systemer ved at lade et hold bevidst forsøge at narre eller manipulere modellen.

Kategori: teknik
Niveau: øvet

Betydninger

1
Systematisk, ofte manuel eller semi-manuel test af et AI-system ved at simulere ondsindede eller adversariale inputs for at identificere sårbarheder, risici eller uønsket adfærd.
- Virksomheden gennemførte en omfattende red teaming-øvelse af deres nye chatbot for at afdække potentielle jailbreak-angreb.
- Red teaming er en central del af ansvarlig AI-udvikling og hjælper med at sikre, at modeller ikke kan manipuleres til at producere skadeligt indhold.

Hvornår bruges det

Red teaming anvendes typisk i forbindelse med sikkerhedstest af sprogmodeller, chatbots og andre AI-systemer, inden de frigives. Det kan omfatte test for skadelige outputs, bias, jailbreaks eller uhensigtsmæssig adfærd.

Oprindelse

Begrebet kommer fra militærterminologi, hvor 'red team' betegner en modstanderstyrke, der tester en organisations forsvar. I AI-kontekst overført fra cybersikkerhed.

Afledte ord

red team

Kilder

Perez, E. et al. (2022). Red Teaming Language Models with Language Models.

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →