RLHF-træning

forkortelse for Reinforcement Learning from Human Feedback-træning

Træningsmetode hvor en model optimeres via forstærkningslæring baseret på menneskelig feedback.

Betydninger

1
Generel træningsmetode inden for kunstig intelligens, hvor en model (typisk en sprogmodel) finjusteres ved hjælp af forstærkningslæring, hvor belønningen kommer fra en belønningsmodel, der er trænet på menneskelige præferencer.
- RLHF-træning har været afgørende for at gøre sprogmodeller som ChatGPT mere nyttige og mindre skadelige. — forskningsartikel, 2023
- Processen i RLHF-træning involverer typisk tre faser: superviseret finjustering, belønningsmodeltræning og forstærkningslæringsoptimering.
2
Specifik anvendelse af RLHF på sprogmodeller, hvor menneskelige evaluatorer rangerer modeloutput for at træne en belønningsmodel, hvorefter modellen optimeres med en policy-gradientalgoritme som PPO.
- OpenAI brugte RLHF-træning til at justere GPT-3, så den fulgte instruktioner bedre. — OpenAI blog, 2022

Fra engelsk 'Reinforcement Learning from Human Feedback' (forstærkningslæring fra menneskelig feedback), forkortet RLHF.

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere