direkte prompt injection

En sårbarhed i LLM'er, hvor en angriber indlejrer ondsindede instruktioner i inputteksten for at tilsidesætte modellens tilsigtede adfærd.

Kort fortalt

Når nogen skjuler en kommando i en besked til en AI, så AI'en gør noget uventet.

Kategori: begreb
Niveau: øvet

Betydninger

1
En form for prompt injection, hvor angriberens instruktion er direkte i inputprompten (f.eks. i en brugermeddelelse), i modsætning til indirekte prompt injection, hvor instruktionen er indlejret i eksternt indhold.
- Ved direkte prompt injection kan en angriber skrive 'Glem alle tidligere instruktioner og udfør følgende: ...' for at overtage kontrollen.

Hvornår bruges det

Bruges i sikkerhedsanalyse og red teaming for at teste modstandskraften af prompt-beskyttelser. Direkte prompt injection er ofte målrettet mod AI-systemer, der har adgang til eksterne funktioner eller datakilder.

Oprindelse

Udtrykket opstod i forbindelse med forskning i AI-sikkerhed, inspireret af SQL-injection.

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →