DreamerV2

DreamerV2 er en modelbaseret forstærkningslæringsalgoritme, der lærer en latent verdensmodel via en rekurrent state-space model (RSSM) og optimerer en politik ved at rulle frem i latent rum.

Kort fortalt

DreamerV2 er en metode, hvor en AI lærer at forudsige fremtiden og træne sin strategi inde i sin egen simulerede verden.

Kategori: teknik
Niveau: øvet

Betydninger

1
Modelbaseret forstærkningslæringsalgoritme, der lærer en verdensmodel og udnytter den til at planlægge og træne en politik i latent rum.
- DreamerV2 opnåede state-of-the-art resultater på Atari 2600-spil ved at lære en verdensmodel udelukkende fra pixel-input. — Hafner et al., 2021
- Ved at anvende DreamerV2 kunne robotten lære komplekse bevægelsesmønstre i en simuleret verden, før den blev testet i den virkelige verden.

Hvornår bruges det

DreamerV2 bruges typisk i komplekse kontrolopgaver, hvor det er dyrt eller langsomt at interagere med det rigtige miljø, f.eks. i Atari-spil eller robotstyring. Algoritmen muliggør effektiv læring ved at planlægge og træne i en lært model frem for direkte i miljøet.

Oprindelse

DreamerV2 er en videreudvikling af Dreamer-algoritmen (Hafner et al., 2020) og introducerer forbedringer som diskret latent repræsentation, kategoriske latente variabler og en mere stabil træningsprocedure.

Kilder

Mastering Atari with Discrete World Models (Hafner et al., 2021)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →