latent world model
En latent world model er en indlejret repræsentation af miljøets dynamik, der læres i et latent rum og bruges til planlægning og kontrol i modelbaseret forstærkningslæring.
Kort fortalt
En latent world model er en AI's indre model af verden, som den lærer ved at komprimere observationer til en latent tilstand og forudsige fremtidige tilstande og belønninger.
- Kategori
- begreb
- Niveau
- øvet
Betydninger
1- 1
En generel modelklasse inden for modelbaseret forstærkningslæring, hvor miljøets dynamik læres i et latent rum. Modellen består typisk af en encoder, en transitionsmodel og en belønningsmodel.
- Dreamer anvender en latent world model til at forudsige fremtidige tilstande i latent rum og træne en policy uden interaktion med det rigtige miljø. — Hafner et al., 2020
- Latent world models muliggør effektiv planlægning ved at simulere mange handlingssekvenser parallelt i latent rum. — Hafner et al., 2020
Hvornår bruges det
Latent world models anvendes i modelbaseret forstærkningslæring, hvor agenten lærer en komprimeret repræsentation af miljøet. Agenten bruger modellen til at rulle fremtidige scenarier ud i latent rum og planlægge handlinger, f.eks. i Dreamer-arkitekturen. De er særligt effektive i miljøer med høj-dimensional observationer som billeder.
Kodeeksempel
# Pseudocode for latent world model step in Dreamer
latent_state = encoder(observation)
next_latent_state = transition_model(latent_state, action)
reward_prediction = reward_model(next_latent_state)Enkel illustration af, hvordan en latent world model bruges: observationer kodes til latent tilstand, transitionsmodellen forudsiger næste latente tilstand, og belønningsmodellen forudsiger belønning.
Oprindelse
Udtrykket stammer fra forskning i 'World Models' (Ha & Schmidhuber, 2018) og 'Dream to Control' (Hafner et al., 2020). 'Latent' henviser til, at modellen opererer på en komprimeret, ikke-observerbar tilstandsrepræsentation lært af data.
Afledte ord
3Kilder
2- World Models (Ha & Schmidhuber, 2018)
- Dream to Control: Learning Behaviors by Latent Imagination (Hafner et al., 2020)