sparse reward

Sparse reward (sparsom belønning) betegner i forstærkningslæring en situation, hvor agenten kun modtager et belønningssignal sjældent, typisk først efter at have fuldført en hel opgave.

Kort fortalt

Når en AI kun får at vide, om den har løst opgaven helt til sidst, men ikke undervejs, kaldes det sparsom belønning.

Kategori: begreb
Niveau: øvet

Betydninger

1
En belønningsstruktur i forstærkningslæring, hvor feedback (belønning) kun gives ved sjældne, ofte terminale tidspunkter, hvilket gør læring vanskelig fordi agenten skal associere handlinger med et meget forsinket signal.
- I Atari-spillet Montezuma's Revenge er belønningen sparsom: agenten får først point, når den når bestemte rum eller samler skatte. — Eksempel fra forskningslitteratur
- For at håndtere sparse reward anvendes teknikker som curiosity-driven exploration eller reward shaping.

Hvornår bruges det

Sparse reward-miljøer er almindelige i spil (fx at vinde et skakspil), robotstyring (fx at nå et mål) og simuleringer. De udgør en udfordring for agenter, da de skal udforske effektivt for at opdage de sjældne belønninger.

Oprindelse

Forklaring: 'sparse' (sparsom) og 'reward' (belønning) – fra engelsk faglitteratur om forstærkningslæring.

Afledte ord

sparse reward problem sparse reward setting

Kilder

Deep Reinforcement Learning with Double Q-learning (2016)
Curiosity-driven Exploration by Self-Supervised Prediction (2017)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →