red teamer

En person, der udfører systematiske angreb på AI-systemer for at afdække sårbarheder, bias eller sikkerhedsproblemer, ofte som del af en rød-holdsøvelse.

Kort fortalt

En red teamer er en sikkerhedsekspert, der bevidst forsøger at 'bryde' en AI-model for at finde fejl og svagheder, så de kan rettes.

Kategori
begreb
Niveau
øvet
Udtale
rɛdˈtiːmɐ

Betydninger

2
  1. 1

    En person, der udfører målrettede angreb på AI-systemer med det formål at identificere sikkerhedshuller, såsom prompt injection eller modelinversion.

    • Red teameren afprøvede forskellige jailbreakprompts for at omgå indholdsbegrænsningerne i sprogmodellen.
  2. 2

    En person, der tester AI-systemers robusthed over for uønsket adfærd, herunder bias, diskrimination eller generering af skadeligt indhold.

    • Red teameren opdagede, at modellen konsekvent associerede negative ord med bestemte etniciteter.

Hvornår bruges det

Red teamers anvendes især i forbindelse med store sprogmodeller (LLM'er) for at teste modellens robusthed over for såkaldte 'prompt injection', 'jailbreaking' og andre former for misbrug. Deres arbejde er en central del af ansvarlig AI-udvikling og anbefales af retningslinjer som NIST AI Risk Management Framework.

Oprindelse

Udtrykket stammer fra militær- og cybersikkerhedstraditionen, hvor et 'rødt hold' (red team) simulerer fjendtlige angreb for at teste forsvaret. I AI-kontekst blev begrebet populært med fremkomsten af store sprogmodeller og behovet for at afdække utilsigtede adfærd.

Afledte ord

1

Kilder

2
  • Red Teaming Language Models to Reduce Harms (Ganguli et al., 2022)
  • NIST AI 100-1 AI Risk Management Framework (2023)