partially observable Markov decision process

En delvist observerbar Markov-beslutningsproces (POMDP) er en generel ramme for beslutningstagning, hvor agenten kun har delvis viden om miljøets tilstand.

Kort fortalt

Kort fortalt: en POMDP-modellerer situationer, hvor du ikke kan se alt, hvad der foregår, men alligevel skal træffe beslutninger baseret på usikre observationer.

Kategori: begreb
Niveau: øvet
Udtale: /ˈpɑːrʃəli əbˈzɜːrvəbl ˈmɑːrkɒv dɪˈsɪʒən ˈprɒses/

Betydninger

1
En matematisk model for beslutningstagning under usikkerhed, hvor agenten ikke direkte observerer den underliggende tilstand, men modtager observationer, der er støjende eller ufuldstændige.
- En robot, der navigerer i et ukendt rum, kan modelleres som en POMDP, da den kun har delvis information via sensorer. — Lærebog i robotteknologi, 2020
- POMDP-løsning kræver at vedligeholde en trostilstand over mulige tilstande. — Forskningsartikel, 2023

Hvornår bruges det

POMDP'er bruges i robotteknologi, spilteori og autonom navigation, når sensordata er støjende eller ufuldstændige. De er sværere at løse end MDP'er, men giver mere realistiske modeller.

Formel

POMDP = (S, A, T, R, Ω, O, γ) med tilstande S, handlinger A, overgangssandsynlighed T, belønning R, observationer Ω, observationssandsynlighed O, og diskonteringsfaktor γ.

Oprindelse

Termen stammer fra forlængelsen af Markov-beslutningsprocesser (MDP) introduceret af Åström (1965) og senere udviklet af Smallwood og Sondik (1973).

Afledte ord

POMDP-planlægning POMDP-løser

Kilder

Smallwood, R.D. & Sondik, E.J. (1973). The optimal control of partially observable Markov processes over a finite horizon
Åström, K.J. (1965). Optimal control of Markov processes with incomplete state information

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →