jailbreak-angreb

Et jailbreak-angreb er et forsøg på at omgå en AI-models sikkerhedsforanstaltninger ved hjælp af specialdesignede prompter eller kontekster.

Kort fortalt

Kort fortalt: Et jailbreak-angreb er en måde at narre en AI til at gøre noget, den ellers er programmeret til at nægte.

Kategori
teknik
Niveau
øvet
Udtale
/ˈdʒeɪlbreɪkˌɑnɡʁɛb/

Betydninger

1
  1. 1

    En teknik, hvor en bruger ved hjælp af en særligt formuleret prompt forsøger at få en AI-model til at ignorere sine sikkerhedsrestriktioner og udføre handlinger, der normalt er blokeret.

    • Angriberen anvendte et jailbreak-angreb ved at få modellen til at spille rollen som 'DAN', der ikke har nogen begrænsninger.Sikkerhedsforum, 2023
    • Jailbreak-angreb er særligt effektive mod sprogmodeller, der er finjusteret til at afvise usikre anmodninger.

Hvornår bruges det

Jailbreak-angreb bruges ofte i sikkerhedstest af sprogmodeller, hvor forskere eller hackere forsøger at få modellen til at generere skadeligt indhold, f.eks. hadtale eller instruktioner til ulovlige handlinger. Eksempler omfatter rollespil, falske etiske dilemmaer eller kodede beskeder.

Oprindelse

Fra engelsk 'jailbreak' (at bryde ud af fængsel) og 'angreb', betegner det en metode til at 'frigøre' modellen fra dens indbyggede begrænsninger.

Afledte ord

2

Kilder

2
  • Jailbroken: How Does LLM Safety Training Fail? (Wei et al., 2023)
  • Universal and Transferable Adversarial Attacks on Aligned Language Models (Zou et al., 2023)