Guardrails-pipeline

En Guardrails-pipeline er en sekvens af sikkerhedsforanstaltninger, der validerer, filtrerer og korrigerer input og output i en AI-model for at forhindre uønsket eller skadelig adfærd.

Kort fortalt

En Guardrails-pipeline er som et sikkerhedsnet, der tjekker og retter både det, du skriver til en AI, og det, AI'en svarer, så alt er forsvarligt.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    En implementering af flere lag af sikkerhedstjek i en databehandlingskæde, der anvendes på både brugerinput og modeloutput for at sikre ansvarlig AI-adfærd.

    • Virksomheden implementerede en guardrails-pipeline, der tjekker for personfølsomme data, før prompter sendes til modellen.
    • Guardrails-pipelines kan automatisere tilbagevisning af upassende forespørgsler og omformulering af tvivlsomme svar.

Hvornår bruges det

Guardrails-pipelines bruges i produktionssystemer med sprogmodeller for at sikre overholdelse af retningslinjer, forhindre skadeligt indhold og forbedre outputkvaliteten. De kan omfatte input-validering, output-filtrering, moderation og genforsøg med reviderede prompter.

Kodeeksempel

def guardrails_pipeline(prompt: str, model) -> str:
    # Input guard: reject if contains toxic language
    if toxic_detector(prompt):
        return "Your input was rejected."
    response = model.generate(prompt)
    # Output guard: check for harmful content
    if harmful_detector(response):
        return "I cannot provide that response."
    return response

Eksempel på en simpel guardrails-pipeline med input- og output-tjek.

Oprindelse

Sammensat af 'guardrails' (sikkerhedsbarrierer) og 'pipeline' (databehandlingskæde).