harmlessness training

Harmlessness training er en træningsmetode, der reducerer sandsynligheden for, at en sprogmodel genererer skadeligt, giftigt eller farligt indhold.

Kort fortalt

Det er en metode til at lære AI-modeller at undgå at svare skadeligt eller uetisk.

Betydninger

1
En træningsfase, hvor modellen belønnes for at undgå at generere skadeligt indhold og straffes for at gøre det.
- Modellen gennemgik harmlessness training for at reducere toksiske svar. — Ouyang et al., 2022

Bruges typisk efter supervised fine-tuning, som en del af alignment via RLHF eller lignende. Det er et supplement til helpfulness training.

Termen opstod i OpenAI's arbejde med at gøre sprogmodeller mere sikre, især i forbindelse med GPT-3 og GPT-4.

Training language models to follow instructions with human feedback (InstructGPT)
Constitutional AI: Harmlessness from AI Feedback (Anthropic)

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere