Guardrails

Et sæt af regler, filtre eller mekanismer, der forhindrer en AI-model i at producere skadelige, upassende eller uønskede output.

Kort fortalt

Guardrails er sikkerhedsforanstaltninger, der holder AI-modellen på sporet og forhindrer den i at sige noget farligt eller upassende.

Kategori
teknik
Niveau
øvet

Betydninger

2
  1. 1

    Regler eller filtre, der forhindrer en sprogmodel i at generere skadeligt, ulovligt eller upassende indhold, typisk implementeret som en del af en sikkerhedspipeline.

    • Vi implementerede guardrails, der blokerer for personfølsomme oplysninger i modeloutputtet.eksempel
    • Guardrails kan både anvendes på input-siden (prompt-filtre) og output-siden (respons-filtre).eksempel
  2. 2

    Overordnet koncept for alle former for begrænsninger og styringsmekanismer, der anvendes på AI-systemer for at sikre sikker og ansvarlig brug.

    • Guardrails omfatter alt fra simple blacklister til avanceret overvågning i realtid.eksempel

Hvornår bruges det

Guardrails bruges især ved implementering af store sprogmodeller (LLM'er) i produktionssystemer. De kan bestå af input-filtre, output-filtre, prompt-skabeloner og regelbaserede kontroller, der sikrer, at modellen overholder virksomhedens retningslinjer og lovgivning.

Oprindelse

Begrebet er lånt fra engelsk, hvor 'guardrail' oprindeligt betyder en beskyttende skråning på en vej eller bro. I AI-sammenhæng overført til at beskytte mod uønskede modeloutput.

Afledte ord

2

Kilder

1