DreamerV3

DreamerV3 er en modelbaseret forstærkningslæringsalgoritme, der lærer en verdensmodel fra erfaring og bruger den til at planlægge gennem imaginære baner for at opnå høj præstation på tværs af mange opgaver.

Kort fortalt

DreamerV3 er en metode, hvor en AI lærer at forudsige, hvad der vil ske i verden, og derefter 'drømmer' om fremtidige scenarier for at træffe bedre beslutninger.

Kategori
model
Niveau
øvet

Betydninger

1
  1. 1

    En modelbaseret forstærkningslæringsalgoritme udviklet af DeepMind, der kombinerer en lært verdensmodel med aktør-kritiker-læring og planlægning i latent rum.

    • DreamerV3 opnåede state-of-the-art resultater på Atlantis- og Minecraft-opgaver uden opgavespecifik tuning.DeepMind research, 2023
    • I modsætning til tidligere versioner anvender DreamerV3 en stabiliseringsteknik kaldet 'free bits' for at forbedre verdensmodellens læring.Hafner et al., 2023

Hvornår bruges det

DreamerV3 anvendes i forstærkningslæring til at træne agenter, der skal løse komplekse opgaver med minimal interaktion med miljøet. Det er især nyttigt i simulerede miljøer og robotstyring, hvor effektiv udforskning er afgørende.

Kodeeksempel

# Simplified DreamerV3 training loop
for episode in range(num_episodes):
    state = env.reset()
    while not done:
        action = policy(state)
        next_state, reward, done = env.step(action)
        replay.add(state, action, reward, next_state, done)
        state = next_state
    world_model.train(replay.sample())
    for _ in range(num_imagination_steps):
        latent = world_model.sample_latent()
        actor.train(latent)
        critic.train(latent)

Forenklet træningsløkke for DreamerV3: interager med miljøet, gem overgange, træn verdensmodel, og træn aktør-kritiker via forestillede baner.

Oprindelse

Navnet 'Dreamer' refererer til algoritmens evne til at 'drømme' om fremtidige tilstande i en lært verdensmodel. V3 angiver tredje version.

Afledte ord

2

Kilder

2