guardrail-layer
Et guardrail-layer er en ekstra komponent i en AI-model, der håndhæver sikkerheds- eller adfærdsbegrænsninger ved at filtrere eller ændre modeloutputtet.
Kort fortalt
Kort fortalt: Et guardrail-layer fungerer som en sikkerhedsmekanisme, der forhindrer en AI i at sige eller gøre noget uønsket.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
En teknik, der indsætter et ekstra lag i en AI-model for at begrænse output til sikre eller acceptable værdier, typisk ved at manipulere sandsynlighedsfordelingen over tokens eller ved at afvise visse handlinger.
- Implementeringen af et guardrail-layer i chatmodellen reducerede forekomsten af upassende svar med 90%. — Industrirapport, 2024
- Guardrail-laget kan justeres dynamisk for at tillade mere kreativitet i sikre sammenhænge.
Hvornår bruges det
Guardrail-layers bruges ofte i chatbots og sprogmodeller for at sikre, at output overholder etiske retningslinjer, undgår skadeligt indhold eller overholder juridiske krav. De kan implementeres som efterbehandlingstrin, der skalerer logits, fjerner forbudte tokens eller omdirigerer samtalen.
Kodeeksempel
import torch
import torch.nn.functional as F
def guardrail_layer(logits, forbidden_tokens, penalty=-1e9):
"""
Set logits of forbidden tokens to a very low value before softmax.
"""
logits[:, forbidden_tokens] = penalty
return F.softmax(logits, dim=-1)
# Usage
logits = model(input_ids)
forbidden = [tokenizer.encode('<bad_token>')[0]]
safe_probs = guardrail_layer(logits, forbidden)Eksempel på en simpel guardrail-layer i PyTorch, der straffer forbudte tokens ved at sætte deres logits til en meget lav værdi.
Oprindelse
Sammensat af engelsk 'guardrail' (sikkerhedsrækværk) og 'layer' (lag i neurale netværk). Overført betydning: et beskyttende lag.
Afledte ord
1Kilder
1- Anthropic. (2023). Constitutional AI: Harmlessness from AI Feedback.