reward function

En reward function er en matematisk funktion i reinforcement learning, der tildeler en numerisk belønning til hver tilstand eller handling for at guide en agents læring.

Kort fortalt

Belønningsfunktionen fortæller en AI, hvad der er godt og dårligt at gøre i en given situation.

Kategori
begreb
Niveau
begynder

Betydninger

1
  1. 1

    I reinforcement learning er reward function den funktion, der kortlægger hver tilstand (s) eller tilstand-handling-par (s, a) til en skalar belønning, der signalerer, hvor ønskværdig den tilstand eller handling er. Denne belønning bruges af agenten til at opdatere sin politik gennem forstærkningssignaler.

    • I et spil skak kan reward function give +1 for at vinde, -1 for at tabe, og 0 for alle andre træk.
    • I en robotnavigation kan reward function give positiv belønning for at nå målet og negativ for at ramme forhindringer.

Hvornår bruges det

Belønningsfunktionen defineres som en del af et reinforcement learning-miljø og bruges i både modelbaseret og modelfri træning. Den er central for at specificere målet for agenten og påvirker direkte den politik, agenten lærer.

Oprindelse

Begrebet stammer fra reinforcement learning, hvor det blev formaliseret i Richard Suttons og Andrew Bartos bog 'Reinforcement Learning: An Introduction' (1998).

Afledte ord

4

Kilder

1