RLHF-pipeline
forkortelse for Reinforcement Learning from Human Feedback
RLHF-pipeline er en træningsproces i tre trin, der bruger menneskelig feedback til at finjustere en sprogmodel via reinforcement learning.
Kort fortalt
En metode til at træne sprogmodeller, så de bedre følger menneskelige præferencer, ved først at lære af eksempler og derefter optimere gennem belønning.
- Kategori
- træning
- Niveau
- øvet
Betydninger
1- 1
Den specifikke træningsproces bestående af (1) overvåget finjustering på demonstrationsdata, (2) træning af en belønningsmodel på præferencedata, og (3) optimering af den finjusterede model mod belønningsmodellen med reinforcement learning (typisk PPO).
- RLHF-pipelineen har været afgørende for udviklingen af sprogmodeller som ChatGPT, der er trænet til at følge instruktioner. — Inspireret af OpenAI, 2022
- Vi implementerede en RLHF-pipeline for at reducere giftige udsagn i vores model.
Hvornår bruges det
RLHF-pipelinen anvendes typisk til at justere store sprogmodeller som GPT-3 til at producere mere nyttige og mindre skadelige svar. Den anvendes også i chatbots og assistenter for at forbedre brugertilfredshed.
Kodeeksempel
# RLHF-pipeline i pseudokode
from transformers import AutoModelForCausalLM, AutoTokenizer
# Trin 1: Overvåget finjustering
model = AutoModelForCausalLM.from_pretrained("gpt2")
tokenizer = AutoTokenizer.from_pretrained("gpt2")
# ... træning på demonstrationsdata
# Trin 2: Belønningsmodeltræning
reward_model = create_reward_model()
# ... træning på præferencedata
# Trin 3: Reinforcement learning med PPO
from trl import PPOTrainer
ppo_trainer = PPOTrainer(model, reward_model, tokenizer)
ppo_trainer.train()Forenklet pseudokode for de tre trin i RLHF-pipelinen.
Oprindelse
RLHF er en forkortelse for 'Reinforcement Learning from Human Feedback', populærtgjort af OpenAI i 2022. 'Pipeline' refererer til en sekvens af behandlingstrin.