handlingsværdfunktion
En funktion der estimerer den forventede samlede fremtidige belønning ved at tage en given handling i en given tilstand og derefter følge en bestemt politik.
Kort fortalt
I forstærkningslæring fortæller handlingsværdfunktionen (Q-funktionen) hvor godt det er at vælge en bestemt handling i en bestemt situation, målt på lang sigt.
- Kategori
- begreb
- Niveau
- øvet
- Udtale
- /ˈhændliŋsˌvæɐ̯dˌfuŋkˈʃoːn/
Betydninger
1- 1
Funktionen Q(s, a) der angiver den forventede samlede diskonterede belønning fra at tage handling a i tilstand s og derefter handle optimalt.
- I Q-learning opdateres handlingsværdfunktionen gentagne gange ved hjælp af Bellman-ligningen. — Watkins, 1989
- For at finde den optimale politik vælger agenten den handling med højest Q-værdi i hver tilstand.
Hvornår bruges det
Handlingsværdfunktionen er central i mange forstærkningslæringsalgoritmer som Q-learning og Deep Q-Networks (DQN). Den bruges til at guide agentens beslutningstagning ved at vælge den handling med højest værdi i hver tilstand.
Formel
Q*(s,a) = E[R_{t+1} + γ max_{a'} Q*(s_{t+1}, a')]Kodeeksempel
# Q-learning update
Q[s][a] = Q[s][a] + lr * (reward + gamma * max(Q[s_next]) - Q[s][a])Opdatering af Q-værdi i Q-learning
Oprindelse
Udtrykket 'handlingsværdfunktion' er en oversættelse af det engelske 'action-value function', hvor 'handling' refererer til valget af en handling og 'værdi' til den forventede belønning. Begrebet blev formaliseret inden for forstærkningslæring af Watkins i 1989.
Afledte ord
3Kilder
2- Watkins, C.J.C.H. (1989). Learning from Delayed Rewards. PhD thesis.
- Sutton, R.S. & Barto, A.G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press.