Guardrails-framework

Et guardrails-framework er et system af regler, validatorer og korrektioner, der anvendes til at styre og begrænse output fra sprogmodeller for at sikre sikkerhed, overholdelse og pålidelighed.

Kort fortalt

Et guardrails-framework fungerer som et sikkerhedsnet, der tjekker og retter sprogmodellens svar, før de når brugeren.

Kategori
teknik
Niveau
øvet
Udtale
/ˈɡɑːrdˌreɪlz ˈfreɪmˌwɜːrk/

Betydninger

1
  1. 1

    En softwarearkitektur eller bibliotek, der giver udviklere værktøjer til at definere, validere og korrigere LLM-output baseret på foruddefinerede regler.

    • NeMo Guardrails er et open-source guardrails-framework udviklet af NVIDIA.NVIDIA NeMo Guardrails documentation
    • Implementering af et guardrails-framework reducerede antallet af uhensigtsmæssige svar med 50%.forskningsartikel, 2024

Hvornår bruges det

Guardrails-frameworks bruges især i produktionsmiljøer, hvor LLM'er implementeres, for at forhindre skadelige, upassende eller ukorrekte svar. De kan konfigureres med specifikke regler som emnefiltre, faktatjek eller outputformatering.

Kodeeksempel

import guardrails as gr

# Define a guard with a rule
@gr.guard
def safe_response(prompt: str) -> str:
    # Your LLM call here
    return llm_response(prompt)

# Add a validator
guard = gr.Guard(name="safe-output")
guard.add_validator(gr.validators.NoHateSpeech())

# Run with guardrails
result = guard(safe_response, prompt="Tell me a joke")

Konceptuelt eksempel på brug af et guardrails-framework i Python, med en brugerdefineret validator.

Oprindelse

Udtrykket 'guardrails' (autoværn) er en metafor for beskyttelse mod afvigelse, og 'framework' angiver en struktureret ramme. Begrebet opstod i takt med udbredelsen af LLM'er og behovet for sikker implementering.

Afledte ord

3

Kilder

2
  • NeMo Guardrails: A Framework for Building Safe and Responsible AI Applications
  • Guardrails: A Python Framework for Reliable LLM Outputs