guardrails-configuration

Guardrails-configuration er opsætningen af regler, begrænsninger og kontrolmekanismer, der sikrer, at en AI-model opfører sig sikkert og etisk forsvarligt.

Kort fortalt

Guardrails-configuration handler om at definere, hvad en AI må og ikke må, så den ikke svarer upassende eller farligt.

Kategori
teknik
Niveau
øvet
Udtale
/ˈɡɑːrdreɪlz kənˌfɪɡjəˈreɪʃən/

Betydninger

1
  1. 1

    Den samlede konfiguration af sikkerhedsforanstaltninger for en AI-model, herunder prompt-injektionsbeskyttelse, outputfiltre, emne-blokering og adfærdspolitikker.

    • Guardrails-configurationen omfattede en sortliste over forbudte emner og en whiteliste af godkendte svarformater.Teknisk dokumentation, 2024
    • Udviklerne brugte et YAML-skema til at definere guardrails-configurationen, så den let kunne versioneres.

Hvornår bruges det

Guardrails-configuration bruges typisk i implementeringsfasen af en LLM-baseret applikation. Man opsætter regler for outputfiltre, prompt-sikkerhed og emnebegrænsninger for at forhindre skadeligt indhold.

Kodeeksempel

from guardrails import Guard

# Konfigurer guardrails med et skema
guard = Guard.from_yaml(''"'
validators:
  - name: 'block-toxic-language'
    on_fail: 'filter'
  - name: 'regex-match'
    params:
      pattern: '^(?!.*[Ff]orbudt).*$'
    on_fail: 'reask'
''"')

response = guard(model.generate(prompt))

Eksempel på en guardrails-konfiguration i Python med et YAML-skema, der blokerer giftigt sprog og kræver genspørgsmål, hvis output indeholder 'forbudt'.

Oprindelse

Udtrykket 'guardrails' kommer fra trafiksikkerhed, hvor autoværn forhindrer køretøjer i at forlade vejen. Overført til AI betyder det beskyttelsesmekanismer, der holder modellen inden for sikre grænser.

Afledte ord

2

Kilder

2
  • Anthropic Responsible Scaling Policy
  • OpenAI Safety Guidelines