partially observable Markov decision process

En delvist observerbar Markov-beslutningsproces (POMDP) er en generel ramme for beslutningstagning, hvor agenten kun har delvis viden om miljøets tilstand.

Kort fortalt

Kort fortalt: en POMDP-modellerer situationer, hvor du ikke kan se alt, hvad der foregår, men alligevel skal træffe beslutninger baseret på usikre observationer.

Kategori
begreb
Niveau
øvet
Udtale
/ˈpɑːrʃəli əbˈzɜːrvəbl ˈmɑːrkɒv dɪˈsɪʒən ˈprɒses/

Betydninger

1
  1. 1

    En matematisk model for beslutningstagning under usikkerhed, hvor agenten ikke direkte observerer den underliggende tilstand, men modtager observationer, der er støjende eller ufuldstændige.

    • En robot, der navigerer i et ukendt rum, kan modelleres som en POMDP, da den kun har delvis information via sensorer.Lærebog i robotteknologi, 2020
    • POMDP-løsning kræver at vedligeholde en trostilstand over mulige tilstande.Forskningsartikel, 2023

Hvornår bruges det

POMDP'er bruges i robotteknologi, spilteori og autonom navigation, når sensordata er støjende eller ufuldstændige. De er sværere at løse end MDP'er, men giver mere realistiske modeller.

Formel

POMDP = (S, A, T, R, Ω, O, γ) med tilstande S, handlinger A, overgangssandsynlighed T, belønning R, observationer Ω, observationssandsynlighed O, og diskonteringsfaktor γ.

Oprindelse

Termen stammer fra forlængelsen af Markov-beslutningsprocesser (MDP) introduceret af Åström (1965) og senere udviklet af Smallwood og Sondik (1973).

Afledte ord

2

Kilder

2
  • Smallwood, R.D. & Sondik, E.J. (1973). The optimal control of partially observable Markov processes over a finite horizon
  • Åström, K.J. (1965). Optimal control of Markov processes with incomplete state information