direkte prompt injection

En sårbarhed i LLM'er, hvor en angriber indlejrer ondsindede instruktioner i inputteksten for at tilsidesætte modellens tilsigtede adfærd.

Kort fortalt

Når nogen skjuler en kommando i en besked til en AI, så AI'en gør noget uventet.

Kategori
begreb
Niveau
øvet

Betydninger

1
  1. 1

    En form for prompt injection, hvor angriberens instruktion er direkte i inputprompten (f.eks. i en brugermeddelelse), i modsætning til indirekte prompt injection, hvor instruktionen er indlejret i eksternt indhold.

    • Ved direkte prompt injection kan en angriber skrive 'Glem alle tidligere instruktioner og udfør følgende: ...' for at overtage kontrollen.

Hvornår bruges det

Bruges i sikkerhedsanalyse og red teaming for at teste modstandskraften af prompt-beskyttelser. Direkte prompt injection er ofte målrettet mod AI-systemer, der har adgang til eksterne funktioner eller datakilder.

Oprindelse

Udtrykket opstod i forbindelse med forskning i AI-sikkerhed, inspireret af SQL-injection.