guardrail-stacking
Teknikken at anvende flere lag af sikkerhedsrestriktioner (guardrails) i en AI-pipeline for at øge robusthed og forhindre uønsket output.
Kort fortalt
Guardrail-stacking betyder at stable flere sikkerhedsforanstaltninger oven på hinanden for at gøre en AI-model mere pålidelig.
- Kategori
- teknik
- Niveau
- øvet
- Udtale
- /ˈɡɑrdreɪlˌstækɪŋ/
Betydninger
1- 1
Praksis med at anvende flere lag af uafhængige sikkerhedsrestriktioner (guardrails) i en AI-pipeline, typisk for at kompensere for svagheder i enkeltlag og opnå mere robust beskyttelse mod uønsket adfærd.
- Ved guardrail-stacking anvender vi både en prompt-filtrering og en output-scoring for at minimere risikoen for skadelige svar.
- Systemarkitekturen implementerer guardrail-stacking med tre lag: indholdsfilter, kontekstvalidering og svarvurdering.
Hvornår bruges det
Bruges i produktionssystemer med sprogmodeller, hvor en enkelt guardrail ikke er tilstrækkelig. For eksempel kan en output-filter kombineres med en input-validering og en adfærdskontrol for at dække flere fejlmønstre.
Kodeeksempel
class GuardrailStack:
def __init__(self):
self.guardrails = []
def add(self, guardrail):
self.guardrails.append(guardrail)
def check(self, input, output):
for g in self.guardrails:
if not g(input, output):
return False
return TrueEksempel på en simpel implementering af guardrail-stacking, hvor hver guardrail kaldes i rækkefølge.
Oprindelse
Sammensat af 'guardrail' (sikkerhedsrestriktion) og 'stacking' (stabling). Udtrykket er opstået i AI-sikkerhedskonteksten i slutningen af 2010'erne.