Reward model
En model, der forudsiger en belønningsscore for inputsekvenser for at guide forstærkningslæring.
Kort fortalt
En reward model er en AI, der vurderer kvaliteten af output og bruges til at træne andre modeller via feedback.
- Kategori
- model
- Niveau
- øvet
- Udtale
- rɪˈwɔːrd ˌmɒdl
Betydninger
1- 1
En model, der tilordner en skalar belønning til inputsekvenser, typisk trænet på menneskelige præferencer for at guide forstærkningslæring.
- Reward-modellen giver en score på 8.5 til det genererede svar.
- I RLHF trænes reward-modellen på sammenligninger af output.
Hvornår bruges det
Reward models bruges i RLHF til at finjustere sprogmodeller. De trænes på menneskelige præferencer og giver signal til policy-modellen.
Oprindelse
Udtrykket stammer fra forstærkningslæring, hvor reward-signalet bruges til at optimere policy.
Afledte ord
2Kilder
2- InstructGPT: Training language models to follow instructions
- Training a Helpful and Harmless Assistant from Human Feedback