reward shaping
Teknik inden for forstærkningslæring, hvor den egentlige belønning modificeres med en ekstra hjælpebelønning for at guide læringsprocessen.
Kort fortalt
Belønningjustering der gør det lettere for en AI at lære ved at give ekstra små belønninger undervejs.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
Modifikation af belønningssignalet i en forstærkningslæringsopgave ved at tilføje en ekstra belønning, ofte designet til at accelerere læring uden at ændre den optimale politik.
- Ved at anvende potentiel-baseret reward shaping på robotten lærte den at gribe genstanden efter færre episoder. — Eksempel fra robotlæring, 2021
- Uden reward shaping ville agenten i det sparsomme miljø næppe nogensinde finde frem til målet.
Hvornår bruges det
Reward shaping bruges især i komplekse miljøer med sparsomme belønninger, hvor det er svært for agenten at finde frem til den ønskede adfærd. Det kan implementeres som en potentiel-baseret form, der bevarer den optimale politik.
Formel
F(s, a, s') = γ·Φ(s') - Φ(s) (potential-based reward shaping)Kodeeksempel
def shaped_reward(state, next_state, reward, gamma=0.99, phi=lambda s: 0):
F = gamma * phi(next_state) - phi(state)
return reward + FEksempel på en potentiel-baseret reward shaping-funktion, der tilføjer en formningsbonus til den faktiske belønning.
Oprindelse
Udtrykket kommer fra psykologiens 'shaping' (formning af adfærd) og overført til forstærkningslæring af Andrew Ng og kolleger i 1999.