red team

En 'red team' er en gruppe, der systematisk forsøger at finde sårbarheder, bias eller utilsigtet adfærd i et AI-system ved at simulere ondsindede angreb eller ekstreme input.

Kort fortalt

Kort fortalt: En red team tester et AI-system ved at prøve at 'bryde' det eller få det til at opføre sig uhensigtsmæssigt, så fejl kan rettes.

Kategori
teknik
Niveau
øvet
Udtale
/rɛd tiːm/

Betydninger

1
  1. 1

    En metode inden for AI-sikkerhed, hvor et dedikeret team (red team) systematisk tester og udfordrer et AI-system for at identificere sårbarheder, bias, etiske problemer eller utilsigtet adfærd, ofte ved brug af adversariale teknikker.

    • Red teamet fandt, at sprogmodellen let kunne manipuleres til at generere hadefuld tale ved brug af enkle omskrivninger.Forskningsartikel, 2023
    • Før lanceringen gennemførte virksomheden en omfattende red team-øvelse for at afdække potentielle risici ved deres nye chatbot.

Hvornår bruges det

Red team bruges i AI-udvikling til at afdække sikkerhedshuller, diskrimination eller uønskede reaktioner, især i sprogmodeller og chatbots. Metoden er inspireret af militære og it-sikkerhedstraditioner, hvor et rødt team angriber et blåt team (forsvaret).

Oprindelse

Udtrykket stammer fra militær strategi, hvor et 'red team' agerer fjenden i krigsspil. I AI-sammenhæng blev det populært via it-sikkerhed og senere AI-sikkerhedsforskning.

Afledte ord

2

Kilder

1