RLHF-træning
forkortelse for Reinforcement Learning from Human Feedback-træning
Træningsmetode hvor en model optimeres via forstærkningslæring baseret på menneskelig feedback.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
2- 1
Generel træningsmetode inden for kunstig intelligens, hvor en model (typisk en sprogmodel) finjusteres ved hjælp af forstærkningslæring, hvor belønningen kommer fra en belønningsmodel, der er trænet på menneskelige præferencer.
- RLHF-træning har været afgørende for at gøre sprogmodeller som ChatGPT mere nyttige og mindre skadelige. — forskningsartikel, 2023
- Processen i RLHF-træning involverer typisk tre faser: superviseret finjustering, belønningsmodeltræning og forstærkningslæringsoptimering.
- 2
Specifik anvendelse af RLHF på sprogmodeller, hvor menneskelige evaluatorer rangerer modeloutput for at træne en belønningsmodel, hvorefter modellen optimeres med en policy-gradientalgoritme som PPO.
- OpenAI brugte RLHF-træning til at justere GPT-3, så den fulgte instruktioner bedre. — OpenAI blog, 2022
Oprindelse
Fra engelsk 'Reinforcement Learning from Human Feedback' (forstærkningslæring fra menneskelig feedback), forkortet RLHF.