reward shaping

Teknik inden for forstærkningslæring, hvor den egentlige belønning modificeres med en ekstra hjælpebelønning for at guide læringsprocessen.

Kort fortalt

Belønningjustering der gør det lettere for en AI at lære ved at give ekstra små belønninger undervejs.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    Modifikation af belønningssignalet i en forstærkningslæringsopgave ved at tilføje en ekstra belønning, ofte designet til at accelerere læring uden at ændre den optimale politik.

    • Ved at anvende potentiel-baseret reward shaping på robotten lærte den at gribe genstanden efter færre episoder.Eksempel fra robotlæring, 2021
    • Uden reward shaping ville agenten i det sparsomme miljø næppe nogensinde finde frem til målet.

Hvornår bruges det

Reward shaping bruges især i komplekse miljøer med sparsomme belønninger, hvor det er svært for agenten at finde frem til den ønskede adfærd. Det kan implementeres som en potentiel-baseret form, der bevarer den optimale politik.

Formel

F(s, a, s') = γ·Φ(s') - Φ(s)  (potential-based reward shaping)

Kodeeksempel

def shaped_reward(state, next_state, reward, gamma=0.99, phi=lambda s: 0):
    F = gamma * phi(next_state) - phi(state)
    return reward + F

Eksempel på en potentiel-baseret reward shaping-funktion, der tilføjer en formningsbonus til den faktiske belønning.

Oprindelse

Udtrykket kommer fra psykologiens 'shaping' (formning af adfærd) og overført til forstærkningslæring af Andrew Ng og kolleger i 1999.

Afledte ord

2

Kilder

1