prompt hijacking
Et angreb, hvor en ondsindet prompt overskriver eller manipulerer den oprindelige instruktion i en sprogmodel for at ændre dens opførsel.
Kort fortalt
Når en hacker indsætter en skjult kommando i en prompt, der får AI'en til at ignorere dens oprindelige instruktioner og i stedet udføre noget andet.
- Kategori
- begreb
- Niveau
- øvet
Betydninger
1- 1
En type prompt injection, hvor en angriber indsætter en instruktion, der overtager kontrollen over en sprogmodels adfærd ved at overskrive den oprindelige systemprompt.
- Angriberen udnyttede prompt hijacking til at få chatbotten til at udlevere kreditkortoplysninger.
- Prompt hijacking kan forhindres ved at validere input og adskille systemprompten fra brugerinput.
Hvornår bruges det
Prompt hijacking anvendes typisk i forbindelse med prompt injection-angreb, hvor en angriber forsøger at omgå sikkerhedsforanstaltninger i en LLM-baseret applikation. Det kan f.eks. ske ved at indlejre instruktioner i en brugerinput, der beder modellen om at afsløre følsomme data eller udføre uautoriserede handlinger.
Oprindelse
Sammensat af 'prompt' (instruktion til AI) og 'hijacking' (kapring), inspireret af computer-termen 'session hijacking'.
Kilder
1- Prompt Injection and Jailbreaking in LLMs