dense reward
En tæt belønningsfunktion i forstærkningslæring, der giver feedback ved hvert tidskridt.
Kort fortalt
Et signal der fortæller agenten, hvor godt den klarer sig, efter hver eneste handling.
- Kategori
- begreb
- Niveau
- øvet
Betydninger
1- 1
En belønningsfunktion der tildeler et belønningssignal ved hvert eller næsten hvert tidskridt i en forstærkningslæringsopgave.
- I en robotarm-opgave kan dense reward være baseret på afstanden til målet ved hvert tidskridt.
- Dense rewards fremskynder ofte indlæringen, men kan føre til suboptimal adfærd hvis de ikke er korrekt designet.
Hvornår bruges det
Dense rewards bruges for at guide agenten hurtigere mod en god politik, især i komplekse miljøer hvor sparse rewards gør læring for langsom. De kræver omhyggelig design for at undgå utilsigtet adfærd.
Oprindelse
Begrebet stammer fra forstærkningslæring, hvor 'dense' betyder tæt, i modsætning til 'sparse' (spredt) belønning.
Kilder
1- Reinforcement Learning: An Introduction (2nd edition)