RLHF-træning

forkortelse for Reinforcement Learning from Human Feedback-træning

Træningsmetode hvor en model optimeres via forstærkningslæring baseret på menneskelig feedback.

Kategori
teknik
Niveau
øvet

Betydninger

2
  1. 1

    Generel træningsmetode inden for kunstig intelligens, hvor en model (typisk en sprogmodel) finjusteres ved hjælp af forstærkningslæring, hvor belønningen kommer fra en belønningsmodel, der er trænet på menneskelige præferencer.

    • RLHF-træning har været afgørende for at gøre sprogmodeller som ChatGPT mere nyttige og mindre skadelige.forskningsartikel, 2023
    • Processen i RLHF-træning involverer typisk tre faser: superviseret finjustering, belønningsmodeltræning og forstærkningslæringsoptimering.
  2. 2

    Specifik anvendelse af RLHF på sprogmodeller, hvor menneskelige evaluatorer rangerer modeloutput for at træne en belønningsmodel, hvorefter modellen optimeres med en policy-gradientalgoritme som PPO.

    • OpenAI brugte RLHF-træning til at justere GPT-3, så den fulgte instruktioner bedre.OpenAI blog, 2022

Oprindelse

Fra engelsk 'Reinforcement Learning from Human Feedback' (forstærkningslæring fra menneskelig feedback), forkortet RLHF.

Afledte ord

2