reward function
En reward function er en matematisk funktion i reinforcement learning, der tildeler en numerisk belønning til hver tilstand eller handling for at guide en agents læring.
Kort fortalt
Belønningsfunktionen fortæller en AI, hvad der er godt og dårligt at gøre i en given situation.
- Kategori
- begreb
- Niveau
- begynder
Betydninger
1- 1
I reinforcement learning er reward function den funktion, der kortlægger hver tilstand (s) eller tilstand-handling-par (s, a) til en skalar belønning, der signalerer, hvor ønskværdig den tilstand eller handling er. Denne belønning bruges af agenten til at opdatere sin politik gennem forstærkningssignaler.
- I et spil skak kan reward function give +1 for at vinde, -1 for at tabe, og 0 for alle andre træk.
- I en robotnavigation kan reward function give positiv belønning for at nå målet og negativ for at ramme forhindringer.
Hvornår bruges det
Belønningsfunktionen defineres som en del af et reinforcement learning-miljø og bruges i både modelbaseret og modelfri træning. Den er central for at specificere målet for agenten og påvirker direkte den politik, agenten lærer.
Oprindelse
Begrebet stammer fra reinforcement learning, hvor det blev formaliseret i Richard Suttons og Andrew Bartos bog 'Reinforcement Learning: An Introduction' (1998).