jailbreak-angreb
Et jailbreak-angreb er et forsøg på at omgå en AI-models sikkerhedsforanstaltninger ved hjælp af specialdesignede prompter eller kontekster.
Kort fortalt
Kort fortalt: Et jailbreak-angreb er en måde at narre en AI til at gøre noget, den ellers er programmeret til at nægte.
- Kategori
- teknik
- Niveau
- øvet
- Udtale
- /ˈdʒeɪlbreɪkˌɑnɡʁɛb/
Betydninger
1- 1
En teknik, hvor en bruger ved hjælp af en særligt formuleret prompt forsøger at få en AI-model til at ignorere sine sikkerhedsrestriktioner og udføre handlinger, der normalt er blokeret.
- Angriberen anvendte et jailbreak-angreb ved at få modellen til at spille rollen som 'DAN', der ikke har nogen begrænsninger. — Sikkerhedsforum, 2023
- Jailbreak-angreb er særligt effektive mod sprogmodeller, der er finjusteret til at afvise usikre anmodninger.
Hvornår bruges det
Jailbreak-angreb bruges ofte i sikkerhedstest af sprogmodeller, hvor forskere eller hackere forsøger at få modellen til at generere skadeligt indhold, f.eks. hadtale eller instruktioner til ulovlige handlinger. Eksempler omfatter rollespil, falske etiske dilemmaer eller kodede beskeder.
Oprindelse
Fra engelsk 'jailbreak' (at bryde ud af fængsel) og 'angreb', betegner det en metode til at 'frigøre' modellen fra dens indbyggede begrænsninger.
Afledte ord
2Kilder
2- Jailbroken: How Does LLM Safety Training Fail? (Wei et al., 2023)
- Universal and Transferable Adversarial Attacks on Aligned Language Models (Zou et al., 2023)