jailbreak-teknik
En metode til at omgå de sikkerhedsforanstaltninger, der er indbygget i en sprogmodel, for at få den til at producere indhold, den normalt ville blokere.
Kort fortalt
En måde at narre en AI-chatbot til at sige noget, den ikke må.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
En specifik fremgangsmåde til at manipulere en sprogmodel til at ignorere sine sikkerhedsinstruktioner og generere forbudt indhold.
- Ved at bede modellen om at lege 'DAN' (Do Anything Now) lykkedes det hackeren at jailbreake ChatGPT. — Online forum, 2023
- Forskere dokumenterede en jailbreak-teknik, der brugte base64-kodning til at skjule skadelige anmodninger. — Forskningsartikel, 2024
Hvornår bruges det
Jailbreak-teknikker bruges typisk af forskere til at teste modellens robusthed, men også af ondsindede aktører til at generere skadeligt indhold. De udnytter ofte sproglige finter, rollespil eller kontekstmanipulation.
Oprindelse
Udtrykket 'jailbreak' kommer fra hacking-miljøet, hvor det betyder at bryde ud af et fængsel (jail), her billedligt at bryde ud af de begrænsninger, modellen har.