value function

En funktion, der estimerer den forventede fremtidige belønning (afkast) for en given tilstand (eller tilstand-handling-par) under en bestemt politik.

Kort fortalt

En værdfunktion forudsiger, hvor meget belønning en agent i gennemsnit kan forvente at få fra et bestemt punkt i et miljø, hvis den følger en bestemt strategi.

Kategori
begreb
Niveau
øvet

Betydninger

2
  1. 1

    En funktion, der angiver den forventede fremtidige belønning fra en given tilstand under en given politik, kaldet tilstandsværdfunktionen (V-funktion).

    • Tilstandsværdfunktionen V(s) estimerer den forventede samlede belønning fra tilstand s, hvis agenten følger politikken π.Sutton & Barto, Reinforcement Learning: An Introduction, 2nd ed.
  2. 2

    En funktion, der angiver den forventede fremtidige belønning fra en given tilstand og handling under en given politik, kaldet handlingsværdfunktionen (Q-funktion).

    • Q-læring bruger handlingsværdfunktionen Q(s,a) til at lære den optimale politik direkte uden en model af miljøet.Watkins & Dayan, 'Q-learning', Machine Learning, 1992

Hvornår bruges det

Værdfunktioner er centrale i reinforcement learning for at evaluere og forbedre politikker. De bruges i algoritmer som Q-learning, Deep Q-networks (DQN) og policy gradient-metoder, ofte tilnærmet med neurale netværk.

Formel

V^π(s) = E_π[G_t | S_t = s] = E_π[∑_{k=0}^∞ γ^k R_{t+k+1} | S_t = s]

Oprindelse

Begrebet stammer fra værditeori i økonomi og dynamisk programmering, introduceret i forstærkningslæring af Richard Bellman.

Afledte ord

2

Kilder

2
  • Sutton, R.S. & Barto, A.G., Reinforcement Learning: An Introduction, 2nd ed., MIT Press, 2018
  • Bellman, R., Dynamic Programming, Princeton University Press, 1957