Inverse reinforcement learning
Inverse reinforcement learning (IRL) er en teknik, hvor en agent lærer en belønningsfunktion ud fra observeret adfærd.
Kort fortalt
Kort fortalt: IRL handler om at finde ud af, hvad en anden agent forsøger at opnå, ved at se på dens handlinger.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
Læring af en belønningsfunktion ud fra observerbare handlinger i en Markov-beslutningsproces (MDP), typisk med antagelse om, at observatøren handler optimalt.
- Inverse reinforcement learning bruges til at lære en belønningsfunktion fra en eksperts demonstrationer i et miljø.
- I selvkørende biler kan IRL hjælpe med at afkode menneskelige kørevaner til belønningsfunktioner.
Hvornår bruges det
IRL bruges typisk i applikationer som imitation learning, hvor man ønsker at efterligne en eksperts adfærd. Det er også anvendeligt i robotteknologi og selvkørende biler for at forstå menneskelige præferencer.
Oprindelse
Termen blev introduceret af Stuart Russell og Andrew Ng i 2000.
Afledte ord
1Kilder
1- Algorithms for Inverse Reinforcement Learning (Ng & Russell, 2000)