sparse reward

Sparse reward (sparsom belønning) betegner i forstærkningslæring en situation, hvor agenten kun modtager et belønningssignal sjældent, typisk først efter at have fuldført en hel opgave.

Kort fortalt

Når en AI kun får at vide, om den har løst opgaven helt til sidst, men ikke undervejs, kaldes det sparsom belønning.

Kategori
begreb
Niveau
øvet

Betydninger

1
  1. 1

    En belønningsstruktur i forstærkningslæring, hvor feedback (belønning) kun gives ved sjældne, ofte terminale tidspunkter, hvilket gør læring vanskelig fordi agenten skal associere handlinger med et meget forsinket signal.

    • I Atari-spillet Montezuma's Revenge er belønningen sparsom: agenten får først point, når den når bestemte rum eller samler skatte.Eksempel fra forskningslitteratur
    • For at håndtere sparse reward anvendes teknikker som curiosity-driven exploration eller reward shaping.

Hvornår bruges det

Sparse reward-miljøer er almindelige i spil (fx at vinde et skakspil), robotstyring (fx at nå et mål) og simuleringer. De udgør en udfordring for agenter, da de skal udforske effektivt for at opdage de sjældne belønninger.

Oprindelse

Forklaring: 'sparse' (sparsom) og 'reward' (belønning) – fra engelsk faglitteratur om forstærkningslæring.

Afledte ord

2

Kilder

2
  • Deep Reinforcement Learning with Double Q-learning (2016)
  • Curiosity-driven Exploration by Self-Supervised Prediction (2017)