value function
En funktion, der estimerer den forventede fremtidige belønning (afkast) for en given tilstand (eller tilstand-handling-par) under en bestemt politik.
Kort fortalt
En værdfunktion forudsiger, hvor meget belønning en agent i gennemsnit kan forvente at få fra et bestemt punkt i et miljø, hvis den følger en bestemt strategi.
- Kategori
- begreb
- Niveau
- øvet
Betydninger
2- 1
En funktion, der angiver den forventede fremtidige belønning fra en given tilstand under en given politik, kaldet tilstandsværdfunktionen (V-funktion).
- Tilstandsværdfunktionen V(s) estimerer den forventede samlede belønning fra tilstand s, hvis agenten følger politikken π. — Sutton & Barto, Reinforcement Learning: An Introduction, 2nd ed.
- 2
En funktion, der angiver den forventede fremtidige belønning fra en given tilstand og handling under en given politik, kaldet handlingsværdfunktionen (Q-funktion).
- Q-læring bruger handlingsværdfunktionen Q(s,a) til at lære den optimale politik direkte uden en model af miljøet. — Watkins & Dayan, 'Q-learning', Machine Learning, 1992
Hvornår bruges det
Værdfunktioner er centrale i reinforcement learning for at evaluere og forbedre politikker. De bruges i algoritmer som Q-learning, Deep Q-networks (DQN) og policy gradient-metoder, ofte tilnærmet med neurale netværk.
Formel
V^π(s) = E_π[G_t | S_t = s] = E_π[∑_{k=0}^∞ γ^k R_{t+k+1} | S_t = s]Oprindelse
Begrebet stammer fra værditeori i økonomi og dynamisk programmering, introduceret i forstærkningslæring af Richard Bellman.
Afledte ord
2Kilder
2- Sutton, R.S. & Barto, A.G., Reinforcement Learning: An Introduction, 2nd ed., MIT Press, 2018
- Bellman, R., Dynamic Programming, Princeton University Press, 1957