harmlessness training
Harmlessness training er en træningsmetode, der reducerer sandsynligheden for, at en sprogmodel genererer skadeligt, giftigt eller farligt indhold.
Kort fortalt
Det er en metode til at lære AI-modeller at undgå at svare skadeligt eller uetisk.
- Kategori
- træning
- Niveau
- øvet
- Udtale
- /ˈhɑːrmləsnəs ˈtreɪnɪŋ/
Betydninger
1- 1
En træningsfase, hvor modellen belønnes for at undgå at generere skadeligt indhold og straffes for at gøre det.
- Modellen gennemgik harmlessness training for at reducere toksiske svar. — Ouyang et al., 2022
Hvornår bruges det
Bruges typisk efter supervised fine-tuning, som en del af alignment via RLHF eller lignende. Det er et supplement til helpfulness training.
Oprindelse
Termen opstod i OpenAI's arbejde med at gøre sprogmodeller mere sikre, især i forbindelse med GPT-3 og GPT-4.
Afledte ord
2Kilder
2- Training language models to follow instructions with human feedback (InstructGPT)
- Constitutional AI: Harmlessness from AI Feedback (Anthropic)