red team

En 'red team' er en gruppe, der systematisk forsøger at finde sårbarheder, bias eller utilsigtet adfærd i et AI-system ved at simulere ondsindede angreb eller ekstreme input.

Kort fortalt

Kort fortalt: En red team tester et AI-system ved at prøve at 'bryde' det eller få det til at opføre sig uhensigtsmæssigt, så fejl kan rettes.

Kategori: teknik
Niveau: øvet
Udtale: /rɛd tiːm/

Betydninger

1
En metode inden for AI-sikkerhed, hvor et dedikeret team (red team) systematisk tester og udfordrer et AI-system for at identificere sårbarheder, bias, etiske problemer eller utilsigtet adfærd, ofte ved brug af adversariale teknikker.
- Red teamet fandt, at sprogmodellen let kunne manipuleres til at generere hadefuld tale ved brug af enkle omskrivninger. — Forskningsartikel, 2023
- Før lanceringen gennemførte virksomheden en omfattende red team-øvelse for at afdække potentielle risici ved deres nye chatbot.

Hvornår bruges det

Red team bruges i AI-udvikling til at afdække sikkerhedshuller, diskrimination eller uønskede reaktioner, især i sprogmodeller og chatbots. Metoden er inspireret af militære og it-sikkerhedstraditioner, hvor et rødt team angriber et blåt team (forsvaret).

Oprindelse

Udtrykket stammer fra militær strategi, hvor et 'red team' agerer fjenden i krigsspil. I AI-sammenhæng blev det populært via it-sikkerhed og senere AI-sikkerhedsforskning.

Afledte ord

red teaming red team-øvelse

Kilder

Red Teaming Language Models to Reduce Harms

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →