value function

En funktion, der estimerer den forventede fremtidige belønning (afkast) for en given tilstand (eller tilstand-handling-par) under en bestemt politik.

Kort fortalt

En værdfunktion forudsiger, hvor meget belønning en agent i gennemsnit kan forvente at få fra et bestemt punkt i et miljø, hvis den følger en bestemt strategi.

Kategori: begreb
Niveau: øvet

Betydninger

1
En funktion, der angiver den forventede fremtidige belønning fra en given tilstand under en given politik, kaldet tilstandsværdfunktionen (V-funktion).
- Tilstandsværdfunktionen V(s) estimerer den forventede samlede belønning fra tilstand s, hvis agenten følger politikken π. — Sutton & Barto, Reinforcement Learning: An Introduction, 2nd ed.
2
En funktion, der angiver den forventede fremtidige belønning fra en given tilstand og handling under en given politik, kaldet handlingsværdfunktionen (Q-funktion).
- Q-læring bruger handlingsværdfunktionen Q(s,a) til at lære den optimale politik direkte uden en model af miljøet. — Watkins & Dayan, 'Q-learning', Machine Learning, 1992

Hvornår bruges det

Værdfunktioner er centrale i reinforcement learning for at evaluere og forbedre politikker. De bruges i algoritmer som Q-learning, Deep Q-networks (DQN) og policy gradient-metoder, ofte tilnærmet med neurale netværk.

Formel

V^π(s) = E_π[G_t | S_t = s] = E_π[∑_{k=0}^∞ γ^k R_{t+k+1} | S_t = s]

Oprindelse

Begrebet stammer fra værditeori i økonomi og dynamisk programmering, introduceret i forstærkningslæring af Richard Bellman.

Afledte ord

tilstandsværdfunktion handlingsværdfunktion

Kilder

Sutton, R.S. & Barto, A.G., Reinforcement Learning: An Introduction, 2nd ed., MIT Press, 2018
Bellman, R., Dynamic Programming, Princeton University Press, 1957

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →