RLHF-pipeline

forkortelse for Reinforcement Learning from Human Feedback

RLHF-pipeline er en træningsproces i tre trin, der bruger menneskelig feedback til at finjustere en sprogmodel via reinforcement learning.

Kort fortalt

En metode til at træne sprogmodeller, så de bedre følger menneskelige præferencer, ved først at lære af eksempler og derefter optimere gennem belønning.

Kategori
træning
Niveau
øvet

Betydninger

1
  1. 1

    Den specifikke træningsproces bestående af (1) overvåget finjustering på demonstrationsdata, (2) træning af en belønningsmodel på præferencedata, og (3) optimering af den finjusterede model mod belønningsmodellen med reinforcement learning (typisk PPO).

    • RLHF-pipelineen har været afgørende for udviklingen af sprogmodeller som ChatGPT, der er trænet til at følge instruktioner.Inspireret af OpenAI, 2022
    • Vi implementerede en RLHF-pipeline for at reducere giftige udsagn i vores model.

Hvornår bruges det

RLHF-pipelinen anvendes typisk til at justere store sprogmodeller som GPT-3 til at producere mere nyttige og mindre skadelige svar. Den anvendes også i chatbots og assistenter for at forbedre brugertilfredshed.

Kodeeksempel

# RLHF-pipeline i pseudokode
from transformers import AutoModelForCausalLM, AutoTokenizer

# Trin 1: Overvåget finjustering
model = AutoModelForCausalLM.from_pretrained("gpt2")
tokenizer = AutoTokenizer.from_pretrained("gpt2")
# ... træning på demonstrationsdata

# Trin 2: Belønningsmodeltræning
reward_model = create_reward_model()
# ... træning på præferencedata

# Trin 3: Reinforcement learning med PPO
from trl import PPOTrainer
ppo_trainer = PPOTrainer(model, reward_model, tokenizer)
ppo_trainer.train()

Forenklet pseudokode for de tre trin i RLHF-pipelinen.

Oprindelse

RLHF er en forkortelse for 'Reinforcement Learning from Human Feedback', populærtgjort af OpenAI i 2022. 'Pipeline' refererer til en sekvens af behandlingstrin.

Afledte ord

1

Kilder

2