Dreamer

Dreamer er en modelbaseret forstærkningslæringsalgoritme, der lærer en verdensmodel fra erfaring og bruger den til at planlægge og lære adfærd via forestillede trajektorier.

Kort fortalt

En metode, hvor en AI lærer at simulere verden og derefter træner i sin fantasi for at træffe bedre beslutninger.

Kategori
teknik
Niveau
øvet
Udtale
/ˈdriːmər/

Betydninger

1
  1. 1

    En modelbaseret forstærkningslæringsalgoritme udviklet af DeepMind, der kombinerer en latenter dynamikmodel med en aktør-kritiker struktur for at lære langtidsholdbare strategier gennem forestillet oplevelse.

    • Dreamer-algoritmen opnåede state-of-the-art resultater på adskillige Atari-spil ved udelukkende at træne på forestillede trajektorier.Dreamer-papir, 2019
    • I robotmanipulation eksperimenter lærte en Dreamer-agent at samle genstande efter kun få timers virkelig interaktion, suppleret med millioner af drømmetrin.DeepMind blog, 2020

Hvornår bruges det

Dreamer bruges typisk i robotteknologi og spil, hvor interaktion med det virkelige miljø er dyrt eller langsomt. Algoritmen lader agenten 'drømme' tusindvis af scenarier i latent rum, hvilket muliggør effektiv læring uden reelle interaktioner.

Kodeeksempel

class Dreamer:
    def __init__(self):
        self.world_model = LatentDynamics()
        self.actor = Policy()
        self.critic = Value()
    
    def dream(self, horizon=50):
        state = self.world_model.reset()
        for t in range(horizon):
            action = self.actor(state)
            state, reward = self.world_model.step(state, action)
            self.critic.update(state, reward)
            self.actor.update(state, reward)

Forenklet kode, der viser Dreamers 'drømme'-loop: en indlejret fremskrivning i latent rum, hvor aktøren foreslår handlinger, og kritikeren evaluerer dem.

Oprindelse

Navnet 'Dreamer' kommer af, at algoritmen lærer ved at forestille sig fremtidige udfald – altså 'drømme' – for at planlægge og forbedre sin adfærd.

Afledte ord

2

Kilder

2