safety guardrails

Sikkerhedshegn er regler, filtre eller begrænsninger indbygget i en AI's pipeline for at sikre ansvarlig og sikker brug.

Kort fortalt

Tænk på safety guardrails som usynlige autoværn der forhindrer AI'en i at køre galt – de blokerer skadelige input og output.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    Tekniske og organisatoriske mekanismer der forhindrer en AI-model i at producere skadelige, ulovlige eller uetiske output.

    • Systemet anvender safety guardrails til at blokere forespørgsler om våbenproduktion.
    • Implementering af safety guardrails kræver løbende overvågning og opdatering.

Hvornår bruges det

Safety guardrails bruges både i træningsfasen (f.eks. reinforcement learning from human feedback) og i inferens (f.eks. output-filtre). De er essentielle for at leve op til regulering som EU's AI Act.

Kodeeksempel

def safety_guardrail(output):
    banned = ["harmful", "illegal"]
    if any(word in output for word in banned):
        return "Content blocked due to safety guardrails."
    return output

Eksempel på en simpel output-baseret safety guardrail i Python.

Oprindelse

Udtrykket safety guardrails er lånt fra trafiksikkerhed, hvor autoværn forhindrer køretøjer i at forlade vejen. I AI blev det populært i slutningen af 2010'erne med fremkomsten af store sprogmodeller.

Afledte ord

2

Kilder

1
  • Bai et al., 'Constitutional AI: Harmlessness from AI Feedback', 2022