Reward model

En model, der forudsiger en belønningsscore for inputsekvenser for at guide forstærkningslæring.

Kort fortalt

En reward model er en AI, der vurderer kvaliteten af output og bruges til at træne andre modeller via feedback.

Betydninger

1
En model, der tilordner en skalar belønning til inputsekvenser, typisk trænet på menneskelige præferencer for at guide forstærkningslæring.
- Reward-modellen giver en score på 8.5 til det genererede svar.
- I RLHF trænes reward-modellen på sammenligninger af output.

Reward models bruges i RLHF til at finjustere sprogmodeller. De trænes på menneskelige præferencer og giver signal til policy-modellen.

Udtrykket stammer fra forstærkningslæring, hvor reward-signalet bruges til at optimere policy.

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere