harmlessness training

Harmlessness training er en træningsmetode, der reducerer sandsynligheden for, at en sprogmodel genererer skadeligt, giftigt eller farligt indhold.

Kort fortalt

Det er en metode til at lære AI-modeller at undgå at svare skadeligt eller uetisk.

Kategori
træning
Niveau
øvet
Udtale
/ˈhɑːrmləsnəs ˈtreɪnɪŋ/

Betydninger

1
  1. 1

    En træningsfase, hvor modellen belønnes for at undgå at generere skadeligt indhold og straffes for at gøre det.

    • Modellen gennemgik harmlessness training for at reducere toksiske svar.Ouyang et al., 2022

Hvornår bruges det

Bruges typisk efter supervised fine-tuning, som en del af alignment via RLHF eller lignende. Det er et supplement til helpfulness training.

Oprindelse

Termen opstod i OpenAI's arbejde med at gøre sprogmodeller mere sikre, især i forbindelse med GPT-3 og GPT-4.

Afledte ord

2

Kilder

2
  • Training language models to follow instructions with human feedback (InstructGPT)
  • Constitutional AI: Harmlessness from AI Feedback (Anthropic)