guardrail-stacking

Teknikken at anvende flere lag af sikkerhedsrestriktioner (guardrails) i en AI-pipeline for at øge robusthed og forhindre uønsket output.

Kort fortalt

Guardrail-stacking betyder at stable flere sikkerhedsforanstaltninger oven på hinanden for at gøre en AI-model mere pålidelig.

Kategori
teknik
Niveau
øvet
Udtale
/ˈɡɑrdreɪlˌstækɪŋ/

Betydninger

1
  1. 1

    Praksis med at anvende flere lag af uafhængige sikkerhedsrestriktioner (guardrails) i en AI-pipeline, typisk for at kompensere for svagheder i enkeltlag og opnå mere robust beskyttelse mod uønsket adfærd.

    • Ved guardrail-stacking anvender vi både en prompt-filtrering og en output-scoring for at minimere risikoen for skadelige svar.
    • Systemarkitekturen implementerer guardrail-stacking med tre lag: indholdsfilter, kontekstvalidering og svarvurdering.

Hvornår bruges det

Bruges i produktionssystemer med sprogmodeller, hvor en enkelt guardrail ikke er tilstrækkelig. For eksempel kan en output-filter kombineres med en input-validering og en adfærdskontrol for at dække flere fejlmønstre.

Kodeeksempel

class GuardrailStack:
    def __init__(self):
        self.guardrails = []
    def add(self, guardrail):
        self.guardrails.append(guardrail)
    def check(self, input, output):
        for g in self.guardrails:
            if not g(input, output):
                return False
        return True

Eksempel på en simpel implementering af guardrail-stacking, hvor hver guardrail kaldes i rækkefølge.

Oprindelse

Sammensat af 'guardrail' (sikkerhedsrestriktion) og 'stacking' (stabling). Udtrykket er opstået i AI-sikkerhedskonteksten i slutningen af 2010'erne.