Guardrails
Et sæt af regler, filtre eller mekanismer, der forhindrer en AI-model i at producere skadelige, upassende eller uønskede output.
Kort fortalt
Guardrails er sikkerhedsforanstaltninger, der holder AI-modellen på sporet og forhindrer den i at sige noget farligt eller upassende.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
2- 1
Regler eller filtre, der forhindrer en sprogmodel i at generere skadeligt, ulovligt eller upassende indhold, typisk implementeret som en del af en sikkerhedspipeline.
- Vi implementerede guardrails, der blokerer for personfølsomme oplysninger i modeloutputtet. — eksempel
- Guardrails kan både anvendes på input-siden (prompt-filtre) og output-siden (respons-filtre). — eksempel
- 2
Overordnet koncept for alle former for begrænsninger og styringsmekanismer, der anvendes på AI-systemer for at sikre sikker og ansvarlig brug.
- Guardrails omfatter alt fra simple blacklister til avanceret overvågning i realtid. — eksempel
Hvornår bruges det
Guardrails bruges især ved implementering af store sprogmodeller (LLM'er) i produktionssystemer. De kan bestå af input-filtre, output-filtre, prompt-skabeloner og regelbaserede kontroller, der sikrer, at modellen overholder virksomhedens retningslinjer og lovgivning.
Oprindelse
Begrebet er lånt fra engelsk, hvor 'guardrail' oprindeligt betyder en beskyttende skråning på en vej eller bro. I AI-sammenhæng overført til at beskytte mod uønskede modeloutput.