safety guardrails

Sikkerhedshegn er regler, filtre eller begrænsninger indbygget i en AI's pipeline for at sikre ansvarlig og sikker brug.

Kort fortalt

Tænk på safety guardrails som usynlige autoværn der forhindrer AI'en i at køre galt – de blokerer skadelige input og output.

Kategori: teknik
Niveau: øvet

Betydninger

1
Tekniske og organisatoriske mekanismer der forhindrer en AI-model i at producere skadelige, ulovlige eller uetiske output.
- Systemet anvender safety guardrails til at blokere forespørgsler om våbenproduktion.
- Implementering af safety guardrails kræver løbende overvågning og opdatering.

Hvornår bruges det

Safety guardrails bruges både i træningsfasen (f.eks. reinforcement learning from human feedback) og i inferens (f.eks. output-filtre). De er essentielle for at leve op til regulering som EU's AI Act.

Kodeeksempel

def safety_guardrail(output):
    banned = ["harmful", "illegal"]
    if any(word in output for word in banned):
        return "Content blocked due to safety guardrails."
    return output

Eksempel på en simpel output-baseret safety guardrail i Python.

Oprindelse

Udtrykket safety guardrails er lånt fra trafiksikkerhed, hvor autoværn forhindrer køretøjer i at forlade vejen. I AI blev det populært i slutningen af 2010'erne med fremkomsten af store sprogmodeller.

Afledte ord

guardrail-stacking guardrail-layer

Kilder

Bai et al., 'Constitutional AI: Harmlessness from AI Feedback', 2022

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →