DreamerV2
DreamerV2 er en modelbaseret forstærkningslæringsalgoritme, der lærer en latent verdensmodel via en rekurrent state-space model (RSSM) og optimerer en politik ved at rulle frem i latent rum.
Kort fortalt
DreamerV2 er en metode, hvor en AI lærer at forudsige fremtiden og træne sin strategi inde i sin egen simulerede verden.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
Modelbaseret forstærkningslæringsalgoritme, der lærer en verdensmodel og udnytter den til at planlægge og træne en politik i latent rum.
- DreamerV2 opnåede state-of-the-art resultater på Atari 2600-spil ved at lære en verdensmodel udelukkende fra pixel-input. — Hafner et al., 2021
- Ved at anvende DreamerV2 kunne robotten lære komplekse bevægelsesmønstre i en simuleret verden, før den blev testet i den virkelige verden.
Hvornår bruges det
DreamerV2 bruges typisk i komplekse kontrolopgaver, hvor det er dyrt eller langsomt at interagere med det rigtige miljø, f.eks. i Atari-spil eller robotstyring. Algoritmen muliggør effektiv læring ved at planlægge og træne i en lært model frem for direkte i miljøet.
Oprindelse
DreamerV2 er en videreudvikling af Dreamer-algoritmen (Hafner et al., 2020) og introducerer forbedringer som diskret latent repræsentation, kategoriske latente variabler og en mere stabil træningsprocedure.