guardrail-stacking

Teknikken at anvende flere lag af sikkerhedsrestriktioner (guardrails) i en AI-pipeline for at øge robusthed og forhindre uønsket output.

Kort fortalt

Guardrail-stacking betyder at stable flere sikkerhedsforanstaltninger oven på hinanden for at gøre en AI-model mere pålidelig.

Kategori: teknik
Niveau: øvet
Udtale: /ˈɡɑrdreɪlˌstækɪŋ/

Betydninger

1
Praksis med at anvende flere lag af uafhængige sikkerhedsrestriktioner (guardrails) i en AI-pipeline, typisk for at kompensere for svagheder i enkeltlag og opnå mere robust beskyttelse mod uønsket adfærd.
- Ved guardrail-stacking anvender vi både en prompt-filtrering og en output-scoring for at minimere risikoen for skadelige svar.
- Systemarkitekturen implementerer guardrail-stacking med tre lag: indholdsfilter, kontekstvalidering og svarvurdering.

Hvornår bruges det

Bruges i produktionssystemer med sprogmodeller, hvor en enkelt guardrail ikke er tilstrækkelig. For eksempel kan en output-filter kombineres med en input-validering og en adfærdskontrol for at dække flere fejlmønstre.

Kodeeksempel

class GuardrailStack:
    def __init__(self):
        self.guardrails = []
    def add(self, guardrail):
        self.guardrails.append(guardrail)
    def check(self, input, output):
        for g in self.guardrails:
            if not g(input, output):
                return False
        return True

Eksempel på en simpel implementering af guardrail-stacking, hvor hver guardrail kaldes i rækkefølge.

Oprindelse

Sammensat af 'guardrail' (sikkerhedsrestriktion) og 'stacking' (stabling). Udtrykket er opstået i AI-sikkerhedskonteksten i slutningen af 2010'erne.

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →