handlingsværdfunktion

En funktion der estimerer den forventede samlede fremtidige belønning ved at tage en given handling i en given tilstand og derefter følge en bestemt politik.

Kort fortalt

I forstærkningslæring fortæller handlingsværdfunktionen (Q-funktionen) hvor godt det er at vælge en bestemt handling i en bestemt situation, målt på lang sigt.

Kategori: begreb
Niveau: øvet
Udtale: /ˈhændliŋsˌvæɐ̯dˌfuŋkˈʃoːn/

Betydninger

1
Funktionen Q(s, a) der angiver den forventede samlede diskonterede belønning fra at tage handling a i tilstand s og derefter handle optimalt.
- I Q-learning opdateres handlingsværdfunktionen gentagne gange ved hjælp af Bellman-ligningen. — Watkins, 1989
- For at finde den optimale politik vælger agenten den handling med højest Q-værdi i hver tilstand.

Hvornår bruges det

Handlingsværdfunktionen er central i mange forstærkningslæringsalgoritmer som Q-learning og Deep Q-Networks (DQN). Den bruges til at guide agentens beslutningstagning ved at vælge den handling med højest værdi i hver tilstand.

Formel

Q*(s,a) = E[R_{t+1} + γ max_{a'} Q*(s_{t+1}, a')]

Kodeeksempel

# Q-learning update
Q[s][a] = Q[s][a] + lr * (reward + gamma * max(Q[s_next]) - Q[s][a])

Opdatering af Q-værdi i Q-learning

Oprindelse

Udtrykket 'handlingsværdfunktion' er en oversættelse af det engelske 'action-value function', hvor 'handling' refererer til valget af en handling og 'værdi' til den forventede belønning. Begrebet blev formaliseret inden for forstærkningslæring af Watkins i 1989.

Afledte ord

Q-funktion Q-værdi handlingsværdi

Kilder

Watkins, C.J.C.H. (1989). Learning from Delayed Rewards. PhD thesis.
Sutton, R.S. & Barto, A.G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press.

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →