harmlessness training data

Harmlessness training data er træningsdata, der er omhyggeligt udvalgt eller genereret for at lære en AI-model at undgå at producere skadelige, stødende eller farlige outputs.

Kort fortalt

Kort fortalt: data, der bruges til at træne en AI til at være harmløs og ikke udsende skadelige svar.

Kategori: begreb
Niveau: øvet

Betydninger

1
Træningsdata, der er sammensat med det formål at lære en AI-model at undgå at generere skadeligt, stødende eller farligt indhold. Disse data kan bestå af eksempler på upassende forespørgsler og passende afvisninger, samt menneskelige præferencevurderinger over for modellens svar.
- Harmlessness training data inkluderer ofte eksempler på, hvordan modellen bør afvise at svare på farlige forespørgsler, såsom instruktioner om at lave våben. — Anthropic, 2022
- Under RLHF-træning bliver harmlessness training data brugt til at optimere modellen mod højere belønning for harmløse svar. — OpenAI, 2022

Hvornår bruges det

Harmlessness training data anvendes i forbindelse med AI-sikkerhed og alignment, ofte som en del af reinforcement learning from human feedback (RLHF), hvor menneskelige bedømmelser bruges til at rangere svar efter harmløshed. Det kan også omfatte eksplicitte eksempler på uønskede outputs og korrekte afvisninger.

Oprindelse

Udtrykket opstod i forbindelse med udviklingen af store sprogmodeller, hvor behovet for at kontrollere output førte til metoder som RLHF, der kræver specialiseret træningsdata for harmløshed.

Kilder

Training a Helpful and Harmless Assistant from Human Feedback
Our approach to alignment research (OpenAI)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →