guardrails-configuration

Guardrails-configuration er opsætningen af regler, begrænsninger og kontrolmekanismer, der sikrer, at en AI-model opfører sig sikkert og etisk forsvarligt.

Kort fortalt

Guardrails-configuration handler om at definere, hvad en AI må og ikke må, så den ikke svarer upassende eller farligt.

Kategori: teknik
Niveau: øvet
Udtale: /ˈɡɑːrdreɪlz kənˌfɪɡjəˈreɪʃən/

Betydninger

1
Den samlede konfiguration af sikkerhedsforanstaltninger for en AI-model, herunder prompt-injektionsbeskyttelse, outputfiltre, emne-blokering og adfærdspolitikker.
- Guardrails-configurationen omfattede en sortliste over forbudte emner og en whiteliste af godkendte svarformater. — Teknisk dokumentation, 2024
- Udviklerne brugte et YAML-skema til at definere guardrails-configurationen, så den let kunne versioneres.

Hvornår bruges det

Guardrails-configuration bruges typisk i implementeringsfasen af en LLM-baseret applikation. Man opsætter regler for outputfiltre, prompt-sikkerhed og emnebegrænsninger for at forhindre skadeligt indhold.

Kodeeksempel

from guardrails import Guard

# Konfigurer guardrails med et skema
guard = Guard.from_yaml(''"'
validators:
  - name: 'block-toxic-language'
    on_fail: 'filter'
  - name: 'regex-match'
    params:
      pattern: '^(?!.*[Ff]orbudt).*$'
    on_fail: 'reask'
''"')

response = guard(model.generate(prompt))

Eksempel på en guardrails-konfiguration i Python med et YAML-skema, der blokerer giftigt sprog og kræver genspørgsmål, hvis output indeholder 'forbudt'.

Oprindelse

Udtrykket 'guardrails' kommer fra trafiksikkerhed, hvor autoværn forhindrer køretøjer i at forlade vejen. Overført til AI betyder det beskyttelsesmekanismer, der holder modellen inden for sikre grænser.

Afledte ord

guardrails-politik guardrails-fil

Kilder

Anthropic Responsible Scaling Policy
OpenAI Safety Guidelines

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →