harmlessness training data
Harmlessness training data er træningsdata, der er omhyggeligt udvalgt eller genereret for at lære en AI-model at undgå at producere skadelige, stødende eller farlige outputs.
Kort fortalt
Kort fortalt: data, der bruges til at træne en AI til at være harmløs og ikke udsende skadelige svar.
- Kategori
- begreb
- Niveau
- øvet
Betydninger
1- 1
Træningsdata, der er sammensat med det formål at lære en AI-model at undgå at generere skadeligt, stødende eller farligt indhold. Disse data kan bestå af eksempler på upassende forespørgsler og passende afvisninger, samt menneskelige præferencevurderinger over for modellens svar.
- Harmlessness training data inkluderer ofte eksempler på, hvordan modellen bør afvise at svare på farlige forespørgsler, såsom instruktioner om at lave våben. — Anthropic, 2022
- Under RLHF-træning bliver harmlessness training data brugt til at optimere modellen mod højere belønning for harmløse svar. — OpenAI, 2022
Hvornår bruges det
Harmlessness training data anvendes i forbindelse med AI-sikkerhed og alignment, ofte som en del af reinforcement learning from human feedback (RLHF), hvor menneskelige bedømmelser bruges til at rangere svar efter harmløshed. Det kan også omfatte eksplicitte eksempler på uønskede outputs og korrekte afvisninger.
Oprindelse
Udtrykket opstod i forbindelse med udviklingen af store sprogmodeller, hvor behovet for at kontrollere output førte til metoder som RLHF, der kræver specialiseret træningsdata for harmløshed.
Kilder
2- Training a Helpful and Harmless Assistant from Human Feedback
- Our approach to alignment research (OpenAI)