jailbreak-prompt

En jailbreak-prompt er en specialdesignet prompt, der forsøger at omgå en AI-models sikkerhedsrestriktioner og få den til at generere ellers blokeret indhold.

Kort fortalt

Kort fortalt: en jailbreak-prompt er som at finde et smuthul i en chatbots regler, så den gør noget, den normalt ikke må.

Kategori
teknik
Niveau
øvet
Udtale
/ˈdʒeɪlbreɪkˌprɒmpt/

Betydninger

1
  1. 1

    En prompt designet til at omgå en stor sprogmodels sikkerhedsforanstaltninger og få den til at producere indhold, der normalt er blokeret af dens indholdsmoderering.

    • Forskere testede en ny jailbreak-prompt, der fik ChatGPT til at give instruktioner til at bygge en bombe.Eksempel fra sikkerhedsrapport
    • Jailbreak-prompts udnytter ofte modellens manglende evne til at skelne mellem hypotetiske og virkelige scenarier.

Hvornår bruges det

Jailbreak-prompts bruges ofte af sikkerhedsforskere til at teste modellers robusthed, eller af ondsindede brugere til at få adgang til forbudt indhold. De kan tage form af rollespil, hypotetiske scenarier eller kodningsinstruktioner, der narrer modellen til at ignorere sine træningsbaserede begrænsninger.

Oprindelse

Sammensat af 'jailbreak' (at bryde ud af et fængsel, her brugt metaforisk om at bryde ud af begrænsninger) og 'prompt' (den tekst, der gives til en AI-model).

Afledte ord

2

Kilder

2
  • Universal and Transferable Adversarial Attacks on Aligned Language Models (2023)
  • Jailbreaking ChatGPT via Prompt Engineering: An Empirical Study (2023)