safety guardrails
Sikkerhedshegn er regler, filtre eller begrænsninger indbygget i en AI's pipeline for at sikre ansvarlig og sikker brug.
Kort fortalt
Tænk på safety guardrails som usynlige autoværn der forhindrer AI'en i at køre galt – de blokerer skadelige input og output.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
Tekniske og organisatoriske mekanismer der forhindrer en AI-model i at producere skadelige, ulovlige eller uetiske output.
- Systemet anvender safety guardrails til at blokere forespørgsler om våbenproduktion.
- Implementering af safety guardrails kræver løbende overvågning og opdatering.
Hvornår bruges det
Safety guardrails bruges både i træningsfasen (f.eks. reinforcement learning from human feedback) og i inferens (f.eks. output-filtre). De er essentielle for at leve op til regulering som EU's AI Act.
Kodeeksempel
def safety_guardrail(output):
banned = ["harmful", "illegal"]
if any(word in output for word in banned):
return "Content blocked due to safety guardrails."
return outputEksempel på en simpel output-baseret safety guardrail i Python.
Oprindelse
Udtrykket safety guardrails er lånt fra trafiksikkerhed, hvor autoværn forhindrer køretøjer i at forlade vejen. I AI blev det populært i slutningen af 2010'erne med fremkomsten af store sprogmodeller.
Afledte ord
2Kilder
1- Bai et al., 'Constitutional AI: Harmlessness from AI Feedback', 2022