reinforcement learning from human feedback

forkortelse for RLHF

En teknik til at finjustere sprogmodeller ved at bruge menneskelige præferencer som belønningssignal i forstærkningslæring.

Kort fortalt

Reinforcement learning from human feedback (RLHF) er en metode, hvor mennesker vurderer modeloutputs, og disse vurderinger bruges til at træne modellen til at producere mere ønskværdige svar.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    En metode inden for maskinlæring, hvor en model trænes ved hjælp af forstærkningslæring baseret på en belønningsfunktion, der er afledt af menneskelig feedback på modeloutput.

    • OpenAI brugte reinforcement learning from human feedback til at finjustere InstructGPT og gøre den bedre til at følge instruktioner.OpenAI blog, 2022
    • RLHF er en central teknik i udviklingen af ChatGPT for at reducere skadelige og uhensigtsmæssige svar.Introducing ChatGPT, OpenAI, 2022

Hvornår bruges det

Bruges typisk i eftertræningsfasen af store sprogmodeller (LLM'er) for at tilpasse modellens adfærd til menneskelige værdier og præferencer. Processen indebærer tre trin: (1) indsamling af menneskelige sammenligninger, (2) træning af en belønningsmodel, og (3) optimering af politikken med forstærkningslæring (f.eks. PPO).

Oprindelse

Termen opstod i forbindelse med forskning i at tilpasse AI-systemer til menneskelige præferencer. Teknikken blev populær med OpenAI's brug i InstructGPT og senere ChatGPT.

Afledte ord

3

Kilder

2
  • Training language models to follow instructions with human feedback (2022)
  • Deep reinforcement learning from human preferences (2017)