red teamer
En person, der udfører systematiske angreb på AI-systemer for at afdække sårbarheder, bias eller sikkerhedsproblemer, ofte som del af en rød-holdsøvelse.
Kort fortalt
En red teamer er en sikkerhedsekspert, der bevidst forsøger at 'bryde' en AI-model for at finde fejl og svagheder, så de kan rettes.
- Kategori
- begreb
- Niveau
- øvet
- Udtale
- rɛdˈtiːmɐ
Betydninger
2- 1
En person, der udfører målrettede angreb på AI-systemer med det formål at identificere sikkerhedshuller, såsom prompt injection eller modelinversion.
- Red teameren afprøvede forskellige jailbreakprompts for at omgå indholdsbegrænsningerne i sprogmodellen.
- 2
En person, der tester AI-systemers robusthed over for uønsket adfærd, herunder bias, diskrimination eller generering af skadeligt indhold.
- Red teameren opdagede, at modellen konsekvent associerede negative ord med bestemte etniciteter.
Hvornår bruges det
Red teamers anvendes især i forbindelse med store sprogmodeller (LLM'er) for at teste modellens robusthed over for såkaldte 'prompt injection', 'jailbreaking' og andre former for misbrug. Deres arbejde er en central del af ansvarlig AI-udvikling og anbefales af retningslinjer som NIST AI Risk Management Framework.
Oprindelse
Udtrykket stammer fra militær- og cybersikkerhedstraditionen, hvor et 'rødt hold' (red team) simulerer fjendtlige angreb for at teste forsvaret. I AI-kontekst blev begrebet populært med fremkomsten af store sprogmodeller og behovet for at afdække utilsigtede adfærd.
Afledte ord
1Kilder
2- Red Teaming Language Models to Reduce Harms (Ganguli et al., 2022)
- NIST AI 100-1 AI Risk Management Framework (2023)