dense reward

En tæt belønningsfunktion i forstærkningslæring, der giver feedback ved hvert tidskridt.

Kort fortalt

Et signal der fortæller agenten, hvor godt den klarer sig, efter hver eneste handling.

Kategori
begreb
Niveau
øvet

Betydninger

1
  1. 1

    En belønningsfunktion der tildeler et belønningssignal ved hvert eller næsten hvert tidskridt i en forstærkningslæringsopgave.

    • I en robotarm-opgave kan dense reward være baseret på afstanden til målet ved hvert tidskridt.
    • Dense rewards fremskynder ofte indlæringen, men kan føre til suboptimal adfærd hvis de ikke er korrekt designet.

Hvornår bruges det

Dense rewards bruges for at guide agenten hurtigere mod en god politik, især i komplekse miljøer hvor sparse rewards gør læring for langsom. De kræver omhyggelig design for at undgå utilsigtet adfærd.

Oprindelse

Begrebet stammer fra forstærkningslæring, hvor 'dense' betyder tæt, i modsætning til 'sparse' (spredt) belønning.

Kilder

1
  • Reinforcement Learning: An Introduction (2nd edition)