jailbreaking
Jailbreaking betegner bevidst manipulation af prompts eller input for at omgå sikkerhedsmekanismerne i et AI-system, så det producerer skadelige, uetiske eller begrænsede output.
Kort fortalt
Det er, når man narrer en AI til at ignorere sine egne regler og gøre noget, den ikke må.
- Kategori
- begreb
- Niveau
- øvet
- Udtale
- /ˈdʒeɪlbreɪkɪŋ/
Betydninger
1- 1
Handlingen at udnytte sårbarheder i en sprogmodels træning eller promptfortolkning for at omgå indbyggede sikkerhedsforanstaltninger og få modellen til at udføre uautoriserede handlinger.
- Ved at påtage sig en fiktiv identitet kunne forskeren jailbreake modellen og få den til at give instruktioner til at bygge en bombe. — Forskningsartikel, 2023
- Jailbreaking er en central udfordring for sikker implementering af sprogmodeller.
Hvornår bruges det
Jailbreaking anvendes ofte i AI-sikkerhedsforskning for at teste modellens robusthed, men kan også bruges ondsindet til at generere forbudt indhold. Teknikker omfatter rollespil, kodeforklædning og omformulering af forespørgsler.
Oprindelse
Udtrykket er lånt fra mobiltelefonverdenen, hvor 'jailbreaking' betyder at fjerne begrænsninger pålagt af producenten. I AI-sammenhæng bruges det analogt om at bryde igennem modellens sikkerhedsbegrænsninger.
Afledte ord
2Kilder
2- Universal and Transferable Adversarial Attacks on Aligned Language Models
- Jailbroken: How Does LLM Safety Training Fail?