jailbreaking

Jailbreaking betegner bevidst manipulation af prompts eller input for at omgå sikkerhedsmekanismerne i et AI-system, så det producerer skadelige, uetiske eller begrænsede output.

Kort fortalt

Det er, når man narrer en AI til at ignorere sine egne regler og gøre noget, den ikke må.

Kategori: begreb
Niveau: øvet
Udtale: /ˈdʒeɪlbreɪkɪŋ/

Betydninger

1
Handlingen at udnytte sårbarheder i en sprogmodels træning eller promptfortolkning for at omgå indbyggede sikkerhedsforanstaltninger og få modellen til at udføre uautoriserede handlinger.
- Ved at påtage sig en fiktiv identitet kunne forskeren jailbreake modellen og få den til at give instruktioner til at bygge en bombe. — Forskningsartikel, 2023
- Jailbreaking er en central udfordring for sikker implementering af sprogmodeller.

Hvornår bruges det

Jailbreaking anvendes ofte i AI-sikkerhedsforskning for at teste modellens robusthed, men kan også bruges ondsindet til at generere forbudt indhold. Teknikker omfatter rollespil, kodeforklædning og omformulering af forespørgsler.

Oprindelse

Udtrykket er lånt fra mobiltelefonverdenen, hvor 'jailbreaking' betyder at fjerne begrænsninger pålagt af producenten. I AI-sammenhæng bruges det analogt om at bryde igennem modellens sikkerhedsbegrænsninger.

Afledte ord

jailbreak-prompt jailbreak-angreb

Kilder

Universal and Transferable Adversarial Attacks on Aligned Language Models
Jailbroken: How Does LLM Safety Training Fail?

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →