Reward model

En model, der forudsiger en belønningsscore for inputsekvenser for at guide forstærkningslæring.

Kort fortalt

En reward model er en AI, der vurderer kvaliteten af output og bruges til at træne andre modeller via feedback.

Kategori
model
Niveau
øvet
Udtale
rɪˈwɔːrd ˌmɒdl

Betydninger

1
  1. 1

    En model, der tilordner en skalar belønning til inputsekvenser, typisk trænet på menneskelige præferencer for at guide forstærkningslæring.

    • Reward-modellen giver en score på 8.5 til det genererede svar.
    • I RLHF trænes reward-modellen på sammenligninger af output.

Hvornår bruges det

Reward models bruges i RLHF til at finjustere sprogmodeller. De trænes på menneskelige præferencer og giver signal til policy-modellen.

Oprindelse

Udtrykket stammer fra forstærkningslæring, hvor reward-signalet bruges til at optimere policy.

Afledte ord

2

Kilder

2
  • InstructGPT: Training language models to follow instructions
  • Training a Helpful and Harmless Assistant from Human Feedback