red-team-øvelse

En red-team-øvelse er en struktureret proces, hvor et hold (red team) systematisk forsøger at afdække sårbarheder og utilsigtet adfærd i en AI-model eller et system ved at simulere angreb eller manipulere input.

Kort fortalt

En red-team-øvelse er som en etisk hacker-test, hvor et hold prøver at narre eller hacke en AI for at finde fejl, før den frigives.

Kategori
teknik
Niveau
øvet

Betydninger

2
  1. 1

    Sikkerhedstest af AI-systemer, hvor et hold forsøger at finde sårbarheder, herunder adfærdsmæssige, etiske eller tekniske svagheder, ved at simulere ondsindede handlinger.

    • Før lanceringen af sprogmodellen gennemførte virksomheden en red-team-øvelse for at teste modstand mod prompt injection.fiktivt eksempel
    • Red-team-øvelsen afslørede, at modellen nemt kunne manipuleres til at generere hadefuldt indhold.fiktivt eksempel
  2. 2

    Proces med at udfordre en organisations antagelser og beslutningsprocesser ved at spille djævelens advokat, særligt i forbindelse med AI-governance.

    • Bestyrelsen bad om en red-team-øvelse på deres AI-etikpolitik for at identificere blinde vinkler.fiktivt eksempel

Hvornår bruges det

Red-team-øvelser bruges typisk inden lancering af en AI-model for at identificere sikkerhedshuller, bias eller skadelig output. De udføres ofte af et internt eller eksternt hold med adgang til modellen (black-box eller white-box). Resultaterne bruges til at forbedre modellens robusthed og sikkerhed.

Oprindelse

Udtrykket stammer fra militær terminologi, hvor 'red team' betegner en fjendtlig styrke i øvelser. Overført til cybersikkerhed og AI-sikkerhed i 2010'erne.

Afledte ord

2

Kilder

2