guardrail-layer

Et guardrail-layer er en ekstra komponent i en AI-model, der håndhæver sikkerheds- eller adfærdsbegrænsninger ved at filtrere eller ændre modeloutputtet.

Kort fortalt

Kort fortalt: Et guardrail-layer fungerer som en sikkerhedsmekanisme, der forhindrer en AI i at sige eller gøre noget uønsket.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    En teknik, der indsætter et ekstra lag i en AI-model for at begrænse output til sikre eller acceptable værdier, typisk ved at manipulere sandsynlighedsfordelingen over tokens eller ved at afvise visse handlinger.

    • Implementeringen af et guardrail-layer i chatmodellen reducerede forekomsten af upassende svar med 90%.Industrirapport, 2024
    • Guardrail-laget kan justeres dynamisk for at tillade mere kreativitet i sikre sammenhænge.

Hvornår bruges det

Guardrail-layers bruges ofte i chatbots og sprogmodeller for at sikre, at output overholder etiske retningslinjer, undgår skadeligt indhold eller overholder juridiske krav. De kan implementeres som efterbehandlingstrin, der skalerer logits, fjerner forbudte tokens eller omdirigerer samtalen.

Kodeeksempel

import torch
import torch.nn.functional as F

def guardrail_layer(logits, forbidden_tokens, penalty=-1e9):
    """
    Set logits of forbidden tokens to a very low value before softmax.
    """
    logits[:, forbidden_tokens] = penalty
    return F.softmax(logits, dim=-1)

# Usage
logits = model(input_ids)
forbidden = [tokenizer.encode('<bad_token>')[0]]
safe_probs = guardrail_layer(logits, forbidden)

Eksempel på en simpel guardrail-layer i PyTorch, der straffer forbudte tokens ved at sætte deres logits til en meget lav værdi.

Oprindelse

Sammensat af engelsk 'guardrail' (sikkerhedsrækværk) og 'layer' (lag i neurale netværk). Overført betydning: et beskyttende lag.

Afledte ord

1

Kilder

1
  • Anthropic. (2023). Constitutional AI: Harmlessness from AI Feedback.