red teamer

En person, der udfører systematiske angreb på AI-systemer for at afdække sårbarheder, bias eller sikkerhedsproblemer, ofte som del af en rød-holdsøvelse.

Kort fortalt

En red teamer er en sikkerhedsekspert, der bevidst forsøger at 'bryde' en AI-model for at finde fejl og svagheder, så de kan rettes.

Kategori: begreb
Niveau: øvet
Udtale: rɛdˈtiːmɐ

Betydninger

1
En person, der udfører målrettede angreb på AI-systemer med det formål at identificere sikkerhedshuller, såsom prompt injection eller modelinversion.
- Red teameren afprøvede forskellige jailbreakprompts for at omgå indholdsbegrænsningerne i sprogmodellen.
2
En person, der tester AI-systemers robusthed over for uønsket adfærd, herunder bias, diskrimination eller generering af skadeligt indhold.
- Red teameren opdagede, at modellen konsekvent associerede negative ord med bestemte etniciteter.

Hvornår bruges det

Red teamers anvendes især i forbindelse med store sprogmodeller (LLM'er) for at teste modellens robusthed over for såkaldte 'prompt injection', 'jailbreaking' og andre former for misbrug. Deres arbejde er en central del af ansvarlig AI-udvikling og anbefales af retningslinjer som NIST AI Risk Management Framework.

Oprindelse

Udtrykket stammer fra militær- og cybersikkerhedstraditionen, hvor et 'rødt hold' (red team) simulerer fjendtlige angreb for at teste forsvaret. I AI-kontekst blev begrebet populært med fremkomsten af store sprogmodeller og behovet for at afdække utilsigtede adfærd.

Afledte ord

rød-holdsøvelse

Kilder

Red Teaming Language Models to Reduce Harms (Ganguli et al., 2022)
NIST AI 100-1 AI Risk Management Framework (2023)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →