RLHF
forkortelse for Reinforcement Learning from Human Feedback
RLHF er en træningsteknik, hvor en model finjusteres ved at optimere en belønningsmodel, der er lært fra menneskelige præferencer, typisk ved hjælp af forstærkningslæring.
Kort fortalt
RLHF er en metode, der lærer en AI, hvad mennesker foretrækker, og derefter bruger forstærkningslæring til at justere AI'en, så den opfører sig i overensstemmelse med disse præferencer.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
Den overordnede teknik, der kombinerer indsamling af menneskelige præferencer, træning af en belønningsmodel og forstærkningslæring for at justere en AI-model.
- RLHF har muliggjort, at sprogmodeller som ChatGPT kan levere svar, der er mere i overensstemmelse med menneskelige forventninger. — forskningsartikel, 2022
Hvornår bruges det
RLHF anvendes primært til at justere sprogmodeller, så de følger instruktioner bedre og producerer mere hjælpsomme, uskadelige og ærlige svar. Processen involverer tre trin: 1) indsamling af menneskelige sammenligninger, 2) træning af en belønningsmodel, og 3) optimering af den oprindelige model med PPO (Proximal Policy Optimization) mod belønningsmodellen.
Oprindelse
Akronymet RLHF står for Reinforcement Learning from Human Feedback, på dansk forstærkningslæring fra menneskelig feedback. Begrebet blev populariseret af OpenAI i forbindelse med InstructGPT (2022).