prompt hijacking

Et angreb, hvor en ondsindet prompt overskriver eller manipulerer den oprindelige instruktion i en sprogmodel for at ændre dens opførsel.

Kort fortalt

Når en hacker indsætter en skjult kommando i en prompt, der får AI'en til at ignorere dens oprindelige instruktioner og i stedet udføre noget andet.

Kategori: begreb
Niveau: øvet

Betydninger

1
En type prompt injection, hvor en angriber indsætter en instruktion, der overtager kontrollen over en sprogmodels adfærd ved at overskrive den oprindelige systemprompt.
- Angriberen udnyttede prompt hijacking til at få chatbotten til at udlevere kreditkortoplysninger.
- Prompt hijacking kan forhindres ved at validere input og adskille systemprompten fra brugerinput.

Hvornår bruges det

Prompt hijacking anvendes typisk i forbindelse med prompt injection-angreb, hvor en angriber forsøger at omgå sikkerhedsforanstaltninger i en LLM-baseret applikation. Det kan f.eks. ske ved at indlejre instruktioner i en brugerinput, der beder modellen om at afsløre følsomme data eller udføre uautoriserede handlinger.

Oprindelse

Sammensat af 'prompt' (instruktion til AI) og 'hijacking' (kapring), inspireret af computer-termen 'session hijacking'.

Kilder

Prompt Injection and Jailbreaking in LLMs

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →