Inverse reinforcement learning

Inverse reinforcement learning (IRL) er en teknik, hvor en agent lærer en belønningsfunktion ud fra observeret adfærd.

Kort fortalt

Kort fortalt: IRL handler om at finde ud af, hvad en anden agent forsøger at opnå, ved at se på dens handlinger.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    Læring af en belønningsfunktion ud fra observerbare handlinger i en Markov-beslutningsproces (MDP), typisk med antagelse om, at observatøren handler optimalt.

    • Inverse reinforcement learning bruges til at lære en belønningsfunktion fra en eksperts demonstrationer i et miljø.
    • I selvkørende biler kan IRL hjælpe med at afkode menneskelige kørevaner til belønningsfunktioner.

Hvornår bruges det

IRL bruges typisk i applikationer som imitation learning, hvor man ønsker at efterligne en eksperts adfærd. Det er også anvendeligt i robotteknologi og selvkørende biler for at forstå menneskelige præferencer.

Oprindelse

Termen blev introduceret af Stuart Russell og Andrew Ng i 2000.

Afledte ord

1

Kilder

1
  • Algorithms for Inverse Reinforcement Learning (Ng & Russell, 2000)