Dreamer
Dreamer er en modelbaseret forstærkningslæringsalgoritme, der lærer en verdensmodel fra erfaring og bruger den til at planlægge og lære adfærd via forestillede trajektorier.
Kort fortalt
En metode, hvor en AI lærer at simulere verden og derefter træner i sin fantasi for at træffe bedre beslutninger.
- Kategori
- teknik
- Niveau
- øvet
- Udtale
- /ˈdriːmər/
Betydninger
1- 1
En modelbaseret forstærkningslæringsalgoritme udviklet af DeepMind, der kombinerer en latenter dynamikmodel med en aktør-kritiker struktur for at lære langtidsholdbare strategier gennem forestillet oplevelse.
- Dreamer-algoritmen opnåede state-of-the-art resultater på adskillige Atari-spil ved udelukkende at træne på forestillede trajektorier. — Dreamer-papir, 2019
- I robotmanipulation eksperimenter lærte en Dreamer-agent at samle genstande efter kun få timers virkelig interaktion, suppleret med millioner af drømmetrin. — DeepMind blog, 2020
Hvornår bruges det
Dreamer bruges typisk i robotteknologi og spil, hvor interaktion med det virkelige miljø er dyrt eller langsomt. Algoritmen lader agenten 'drømme' tusindvis af scenarier i latent rum, hvilket muliggør effektiv læring uden reelle interaktioner.
Kodeeksempel
class Dreamer:
def __init__(self):
self.world_model = LatentDynamics()
self.actor = Policy()
self.critic = Value()
def dream(self, horizon=50):
state = self.world_model.reset()
for t in range(horizon):
action = self.actor(state)
state, reward = self.world_model.step(state, action)
self.critic.update(state, reward)
self.actor.update(state, reward)Forenklet kode, der viser Dreamers 'drømme'-loop: en indlejret fremskrivning i latent rum, hvor aktøren foreslår handlinger, og kritikeren evaluerer dem.
Oprindelse
Navnet 'Dreamer' kommer af, at algoritmen lærer ved at forestille sig fremtidige udfald – altså 'drømme' – for at planlægge og forbedre sin adfærd.