reinforcement learning from human feedback
forkortelse for RLHF
En teknik til at finjustere sprogmodeller ved at bruge menneskelige præferencer som belønningssignal i forstærkningslæring.
Kort fortalt
Reinforcement learning from human feedback (RLHF) er en metode, hvor mennesker vurderer modeloutputs, og disse vurderinger bruges til at træne modellen til at producere mere ønskværdige svar.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
En metode inden for maskinlæring, hvor en model trænes ved hjælp af forstærkningslæring baseret på en belønningsfunktion, der er afledt af menneskelig feedback på modeloutput.
- OpenAI brugte reinforcement learning from human feedback til at finjustere InstructGPT og gøre den bedre til at følge instruktioner. — OpenAI blog, 2022
- RLHF er en central teknik i udviklingen af ChatGPT for at reducere skadelige og uhensigtsmæssige svar. — Introducing ChatGPT, OpenAI, 2022
Hvornår bruges det
Bruges typisk i eftertræningsfasen af store sprogmodeller (LLM'er) for at tilpasse modellens adfærd til menneskelige værdier og præferencer. Processen indebærer tre trin: (1) indsamling af menneskelige sammenligninger, (2) træning af en belønningsmodel, og (3) optimering af politikken med forstærkningslæring (f.eks. PPO).
Oprindelse
Termen opstod i forbindelse med forskning i at tilpasse AI-systemer til menneskelige præferencer. Teknikken blev populær med OpenAI's brug i InstructGPT og senere ChatGPT.
Afledte ord
3Kilder
2- Training language models to follow instructions with human feedback (2022)
- Deep reinforcement learning from human preferences (2017)