jailbreak-teknik

En metode til at omgå de sikkerhedsforanstaltninger, der er indbygget i en sprogmodel, for at få den til at producere indhold, den normalt ville blokere.

Kort fortalt

En måde at narre en AI-chatbot til at sige noget, den ikke må.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    En specifik fremgangsmåde til at manipulere en sprogmodel til at ignorere sine sikkerhedsinstruktioner og generere forbudt indhold.

    • Ved at bede modellen om at lege 'DAN' (Do Anything Now) lykkedes det hackeren at jailbreake ChatGPT.Online forum, 2023
    • Forskere dokumenterede en jailbreak-teknik, der brugte base64-kodning til at skjule skadelige anmodninger.Forskningsartikel, 2024

Hvornår bruges det

Jailbreak-teknikker bruges typisk af forskere til at teste modellens robusthed, men også af ondsindede aktører til at generere skadeligt indhold. De udnytter ofte sproglige finter, rollespil eller kontekstmanipulation.

Oprindelse

Udtrykket 'jailbreak' kommer fra hacking-miljøet, hvor det betyder at bryde ud af et fængsel (jail), her billedligt at bryde ud af de begrænsninger, modellen har.

Afledte ord

2

Kilder

2