partially observable Markov decision process
En delvist observerbar Markov-beslutningsproces (POMDP) er en generel ramme for beslutningstagning, hvor agenten kun har delvis viden om miljøets tilstand.
Kort fortalt
Kort fortalt: en POMDP-modellerer situationer, hvor du ikke kan se alt, hvad der foregår, men alligevel skal træffe beslutninger baseret på usikre observationer.
- Kategori
- begreb
- Niveau
- øvet
- Udtale
- /ˈpɑːrʃəli əbˈzɜːrvəbl ˈmɑːrkɒv dɪˈsɪʒən ˈprɒses/
Betydninger
1- 1
En matematisk model for beslutningstagning under usikkerhed, hvor agenten ikke direkte observerer den underliggende tilstand, men modtager observationer, der er støjende eller ufuldstændige.
- En robot, der navigerer i et ukendt rum, kan modelleres som en POMDP, da den kun har delvis information via sensorer. — Lærebog i robotteknologi, 2020
- POMDP-løsning kræver at vedligeholde en trostilstand over mulige tilstande. — Forskningsartikel, 2023
Hvornår bruges det
POMDP'er bruges i robotteknologi, spilteori og autonom navigation, når sensordata er støjende eller ufuldstændige. De er sværere at løse end MDP'er, men giver mere realistiske modeller.
Formel
POMDP = (S, A, T, R, Ω, O, γ) med tilstande S, handlinger A, overgangssandsynlighed T, belønning R, observationer Ω, observationssandsynlighed O, og diskonteringsfaktor γ.Oprindelse
Termen stammer fra forlængelsen af Markov-beslutningsprocesser (MDP) introduceret af Åström (1965) og senere udviklet af Smallwood og Sondik (1973).
Afledte ord
2Kilder
2- Smallwood, R.D. & Sondik, E.J. (1973). The optimal control of partially observable Markov processes over a finite horizon
- Åström, K.J. (1965). Optimal control of Markov processes with incomplete state information