red team
En 'red team' er en gruppe, der systematisk forsøger at finde sårbarheder, bias eller utilsigtet adfærd i et AI-system ved at simulere ondsindede angreb eller ekstreme input.
Kort fortalt
Kort fortalt: En red team tester et AI-system ved at prøve at 'bryde' det eller få det til at opføre sig uhensigtsmæssigt, så fejl kan rettes.
- Kategori
- teknik
- Niveau
- øvet
- Udtale
- /rɛd tiːm/
Betydninger
1- 1
En metode inden for AI-sikkerhed, hvor et dedikeret team (red team) systematisk tester og udfordrer et AI-system for at identificere sårbarheder, bias, etiske problemer eller utilsigtet adfærd, ofte ved brug af adversariale teknikker.
- Red teamet fandt, at sprogmodellen let kunne manipuleres til at generere hadefuld tale ved brug af enkle omskrivninger. — Forskningsartikel, 2023
- Før lanceringen gennemførte virksomheden en omfattende red team-øvelse for at afdække potentielle risici ved deres nye chatbot.
Hvornår bruges det
Red team bruges i AI-udvikling til at afdække sikkerhedshuller, diskrimination eller uønskede reaktioner, især i sprogmodeller og chatbots. Metoden er inspireret af militære og it-sikkerhedstraditioner, hvor et rødt team angriber et blåt team (forsvaret).
Oprindelse
Udtrykket stammer fra militær strategi, hvor et 'red team' agerer fjenden i krigsspil. I AI-sammenhæng blev det populært via it-sikkerhed og senere AI-sikkerhedsforskning.