handlingsværdfunktion

En funktion der estimerer den forventede samlede fremtidige belønning ved at tage en given handling i en given tilstand og derefter følge en bestemt politik.

Kort fortalt

I forstærkningslæring fortæller handlingsværdfunktionen (Q-funktionen) hvor godt det er at vælge en bestemt handling i en bestemt situation, målt på lang sigt.

Kategori
begreb
Niveau
øvet
Udtale
/ˈhændliŋsˌvæɐ̯dˌfuŋkˈʃoːn/

Betydninger

1
  1. 1

    Funktionen Q(s, a) der angiver den forventede samlede diskonterede belønning fra at tage handling a i tilstand s og derefter handle optimalt.

    • I Q-learning opdateres handlingsværdfunktionen gentagne gange ved hjælp af Bellman-ligningen.Watkins, 1989
    • For at finde den optimale politik vælger agenten den handling med højest Q-værdi i hver tilstand.

Hvornår bruges det

Handlingsværdfunktionen er central i mange forstærkningslæringsalgoritmer som Q-learning og Deep Q-Networks (DQN). Den bruges til at guide agentens beslutningstagning ved at vælge den handling med højest værdi i hver tilstand.

Formel

Q*(s,a) = E[R_{t+1} + γ max_{a'} Q*(s_{t+1}, a')]

Kodeeksempel

# Q-learning update
Q[s][a] = Q[s][a] + lr * (reward + gamma * max(Q[s_next]) - Q[s][a])

Opdatering af Q-værdi i Q-learning

Oprindelse

Udtrykket 'handlingsværdfunktion' er en oversættelse af det engelske 'action-value function', hvor 'handling' refererer til valget af en handling og 'værdi' til den forventede belønning. Begrebet blev formaliseret inden for forstærkningslæring af Watkins i 1989.

Afledte ord

3

Kilder

2
  • Watkins, C.J.C.H. (1989). Learning from Delayed Rewards. PhD thesis.
  • Sutton, R.S. & Barto, A.G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press.