prompt hijacking

Et angreb, hvor en ondsindet prompt overskriver eller manipulerer den oprindelige instruktion i en sprogmodel for at ændre dens opførsel.

Kort fortalt

Når en hacker indsætter en skjult kommando i en prompt, der får AI'en til at ignorere dens oprindelige instruktioner og i stedet udføre noget andet.

Kategori
begreb
Niveau
øvet

Betydninger

1
  1. 1

    En type prompt injection, hvor en angriber indsætter en instruktion, der overtager kontrollen over en sprogmodels adfærd ved at overskrive den oprindelige systemprompt.

    • Angriberen udnyttede prompt hijacking til at få chatbotten til at udlevere kreditkortoplysninger.
    • Prompt hijacking kan forhindres ved at validere input og adskille systemprompten fra brugerinput.

Hvornår bruges det

Prompt hijacking anvendes typisk i forbindelse med prompt injection-angreb, hvor en angriber forsøger at omgå sikkerhedsforanstaltninger i en LLM-baseret applikation. Det kan f.eks. ske ved at indlejre instruktioner i en brugerinput, der beder modellen om at afsløre følsomme data eller udføre uautoriserede handlinger.

Oprindelse

Sammensat af 'prompt' (instruktion til AI) og 'hijacking' (kapring), inspireret af computer-termen 'session hijacking'.

Kilder

1
  • Prompt Injection and Jailbreaking in LLMs