guardrails-configuration
Guardrails-configuration er opsætningen af regler, begrænsninger og kontrolmekanismer, der sikrer, at en AI-model opfører sig sikkert og etisk forsvarligt.
Kort fortalt
Guardrails-configuration handler om at definere, hvad en AI må og ikke må, så den ikke svarer upassende eller farligt.
- Kategori
- teknik
- Niveau
- øvet
- Udtale
- /ˈɡɑːrdreɪlz kənˌfɪɡjəˈreɪʃən/
Betydninger
1- 1
Den samlede konfiguration af sikkerhedsforanstaltninger for en AI-model, herunder prompt-injektionsbeskyttelse, outputfiltre, emne-blokering og adfærdspolitikker.
- Guardrails-configurationen omfattede en sortliste over forbudte emner og en whiteliste af godkendte svarformater. — Teknisk dokumentation, 2024
- Udviklerne brugte et YAML-skema til at definere guardrails-configurationen, så den let kunne versioneres.
Hvornår bruges det
Guardrails-configuration bruges typisk i implementeringsfasen af en LLM-baseret applikation. Man opsætter regler for outputfiltre, prompt-sikkerhed og emnebegrænsninger for at forhindre skadeligt indhold.
Kodeeksempel
from guardrails import Guard
# Konfigurer guardrails med et skema
guard = Guard.from_yaml(''"'
validators:
- name: 'block-toxic-language'
on_fail: 'filter'
- name: 'regex-match'
params:
pattern: '^(?!.*[Ff]orbudt).*$'
on_fail: 'reask'
''"')
response = guard(model.generate(prompt))Eksempel på en guardrails-konfiguration i Python med et YAML-skema, der blokerer giftigt sprog og kræver genspørgsmål, hvis output indeholder 'forbudt'.
Oprindelse
Udtrykket 'guardrails' kommer fra trafiksikkerhed, hvor autoværn forhindrer køretøjer i at forlade vejen. Overført til AI betyder det beskyttelsesmekanismer, der holder modellen inden for sikre grænser.
Afledte ord
2Kilder
2- Anthropic Responsible Scaling Policy
- OpenAI Safety Guidelines