dense reward

En tæt belønningsfunktion i forstærkningslæring, der giver feedback ved hvert tidskridt.

Kort fortalt

Et signal der fortæller agenten, hvor godt den klarer sig, efter hver eneste handling.

Kategori: begreb
Niveau: øvet

Betydninger

1
En belønningsfunktion der tildeler et belønningssignal ved hvert eller næsten hvert tidskridt i en forstærkningslæringsopgave.
- I en robotarm-opgave kan dense reward være baseret på afstanden til målet ved hvert tidskridt.
- Dense rewards fremskynder ofte indlæringen, men kan føre til suboptimal adfærd hvis de ikke er korrekt designet.

Hvornår bruges det

Dense rewards bruges for at guide agenten hurtigere mod en god politik, især i komplekse miljøer hvor sparse rewards gør læring for langsom. De kræver omhyggelig design for at undgå utilsigtet adfærd.

Oprindelse

Begrebet stammer fra forstærkningslæring, hvor 'dense' betyder tæt, i modsætning til 'sparse' (spredt) belønning.

Kilder

Reinforcement Learning: An Introduction (2nd edition)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →