direkte prompt injection
En sårbarhed i LLM'er, hvor en angriber indlejrer ondsindede instruktioner i inputteksten for at tilsidesætte modellens tilsigtede adfærd.
Kort fortalt
Når nogen skjuler en kommando i en besked til en AI, så AI'en gør noget uventet.
- Kategori
- begreb
- Niveau
- øvet
Betydninger
1- 1
En form for prompt injection, hvor angriberens instruktion er direkte i inputprompten (f.eks. i en brugermeddelelse), i modsætning til indirekte prompt injection, hvor instruktionen er indlejret i eksternt indhold.
- Ved direkte prompt injection kan en angriber skrive 'Glem alle tidligere instruktioner og udfør følgende: ...' for at overtage kontrollen.
Hvornår bruges det
Bruges i sikkerhedsanalyse og red teaming for at teste modstandskraften af prompt-beskyttelser. Direkte prompt injection er ofte målrettet mod AI-systemer, der har adgang til eksterne funktioner eller datakilder.
Oprindelse
Udtrykket opstod i forbindelse med forskning i AI-sikkerhed, inspireret af SQL-injection.