RLHF

forkortelse for Reinforcement Learning from Human Feedback

RLHF er en træningsteknik, hvor en model finjusteres ved at optimere en belønningsmodel, der er lært fra menneskelige præferencer, typisk ved hjælp af forstærkningslæring.

Kort fortalt

RLHF er en metode, der lærer en AI, hvad mennesker foretrækker, og derefter bruger forstærkningslæring til at justere AI'en, så den opfører sig i overensstemmelse med disse præferencer.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    Den overordnede teknik, der kombinerer indsamling af menneskelige præferencer, træning af en belønningsmodel og forstærkningslæring for at justere en AI-model.

    • RLHF har muliggjort, at sprogmodeller som ChatGPT kan levere svar, der er mere i overensstemmelse med menneskelige forventninger.forskningsartikel, 2022

Hvornår bruges det

RLHF anvendes primært til at justere sprogmodeller, så de følger instruktioner bedre og producerer mere hjælpsomme, uskadelige og ærlige svar. Processen involverer tre trin: 1) indsamling af menneskelige sammenligninger, 2) træning af en belønningsmodel, og 3) optimering af den oprindelige model med PPO (Proximal Policy Optimization) mod belønningsmodellen.

Oprindelse

Akronymet RLHF står for Reinforcement Learning from Human Feedback, på dansk forstærkningslæring fra menneskelig feedback. Begrebet blev populariseret af OpenAI i forbindelse med InstructGPT (2022).

Afledte ord

3

Kilder

2