RLHF-model
forkortelse for Reinforcement Learning from Human Feedback model
En model, der er finjusteret ved hjælp af forstærkningslæring baseret på menneskelig feedback (RLHF) for at tilpasse sig menneskelige præferencer.
Kort fortalt
En AI-model, der lærer at følge menneskelige præferencer ved at blive belønnet for gode svar og straffet for dårlige, baseret på feedback fra mennesker.
- Kategori
- model
- Niveau
- øvet
- Udtale
- /ɑːr ɛl eɪtʃ ɛf ˌmɒdəl/
Betydninger
1- 1
En sprogmodel, der er finjusteret ved hjælp af forstærkningslæring baseret på menneskelig feedback for at tilpasse sig menneskelige præferencer.
- ChatGPT er en RLHF-model, der er trænet til at følge instruktioner og være nyttig. — OpenAI, 2022
- En RLHF-model kræver en belønningsmodel trænet på menneskelige sammenligninger. — InstructGPT paper, 2022
Hvornår bruges det
RLHF-modeller bruges typisk til at finjustere store sprogmodeller (LLM'er) så de genererer svar, der er nyttige, harmløse og i overensstemmelse med brugerens intentioner. Processen kræver en separat belønningsmodel trænet på menneskelige sammenligninger, og selve sprogmodellen optimeres derefter med forstærkningslæring.
Kodeeksempel
# Simplified RLHF training loop
for step in range(epochs):
responses = model.generate(prompts)
rewards = reward_model(responses, human_preferences)
policy_loss = -log_prob(responses) * rewards
policy_loss.backward()
optimizer.step()En forenklet træningsløkke for RLHF, hvor modellens politik optimeres baseret på belønninger fra en belønningsmodel.
Oprindelse
RLHF er en forkortelse for Reinforcement Learning from Human Feedback (forstærkningslæring baseret på menneskelig feedback).