reward function

En reward function er en matematisk funktion i reinforcement learning, der tildeler en numerisk belønning til hver tilstand eller handling for at guide en agents læring.

Kort fortalt

Belønningsfunktionen fortæller en AI, hvad der er godt og dårligt at gøre i en given situation.

Kategori: begreb
Niveau: begynder

Betydninger

1
I reinforcement learning er reward function den funktion, der kortlægger hver tilstand (s) eller tilstand-handling-par (s, a) til en skalar belønning, der signalerer, hvor ønskværdig den tilstand eller handling er. Denne belønning bruges af agenten til at opdatere sin politik gennem forstærkningssignaler.
- I et spil skak kan reward function give +1 for at vinde, -1 for at tabe, og 0 for alle andre træk.
- I en robotnavigation kan reward function give positiv belønning for at nå målet og negativ for at ramme forhindringer.

Hvornår bruges det

Belønningsfunktionen defineres som en del af et reinforcement learning-miljø og bruges i både modelbaseret og modelfri træning. Den er central for at specificere målet for agenten og påvirker direkte den politik, agenten lærer.

Oprindelse

Begrebet stammer fra reinforcement learning, hvor det blev formaliseret i Richard Suttons og Andrew Bartos bog 'Reinforcement Learning: An Introduction' (1998).

Afledte ord

reward shaping sparse reward dense reward reward hacking

Kilder

Reinforcement Learning: An Introduction (2nd edition)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →