red-team-øvelse
En red-team-øvelse er en struktureret proces, hvor et hold (red team) systematisk forsøger at afdække sårbarheder og utilsigtet adfærd i en AI-model eller et system ved at simulere angreb eller manipulere input.
Kort fortalt
En red-team-øvelse er som en etisk hacker-test, hvor et hold prøver at narre eller hacke en AI for at finde fejl, før den frigives.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
2- 1
Sikkerhedstest af AI-systemer, hvor et hold forsøger at finde sårbarheder, herunder adfærdsmæssige, etiske eller tekniske svagheder, ved at simulere ondsindede handlinger.
- Før lanceringen af sprogmodellen gennemførte virksomheden en red-team-øvelse for at teste modstand mod prompt injection. — fiktivt eksempel
- Red-team-øvelsen afslørede, at modellen nemt kunne manipuleres til at generere hadefuldt indhold. — fiktivt eksempel
- 2
Proces med at udfordre en organisations antagelser og beslutningsprocesser ved at spille djævelens advokat, særligt i forbindelse med AI-governance.
- Bestyrelsen bad om en red-team-øvelse på deres AI-etikpolitik for at identificere blinde vinkler. — fiktivt eksempel
Hvornår bruges det
Red-team-øvelser bruges typisk inden lancering af en AI-model for at identificere sikkerhedshuller, bias eller skadelig output. De udføres ofte af et internt eller eksternt hold med adgang til modellen (black-box eller white-box). Resultaterne bruges til at forbedre modellens robusthed og sikkerhed.
Oprindelse
Udtrykket stammer fra militær terminologi, hvor 'red team' betegner en fjendtlig styrke i øvelser. Overført til cybersikkerhed og AI-sikkerhed i 2010'erne.