MuZero-netværk

MuZero er en forstærkende læringsalgoritme, der kombinerer Monte Carlo-træsøgning med et lært dynamikmodel i latent rum uden adgang til miljøets regler.

Kort fortalt

MuZero er en AI-algoritme, der lærer at spille spil ved at simulere fremtidige træk i et indre forestillingsrum, uden at kende spillets regler på forhånd.

Kategori
arkitektur
Niveau
ekspert
Udtale
mjuːˈzɪərəʊ

Betydninger

1
  1. 1

    Algoritmen MuZero, der anvender Monte Carlo-træsøgning i et lært latent rum til at planlægge handlinger uden en eksplicit model af miljøet.

    • MuZero lærte at spille Go på supermenneskeligt niveau uden at kende reglerne.DeepMind blog, 2019
    • MuZero opnåede state-of-the-art resultater på 57 Atari-spil ved at planlægge i latent rum.Research paper, 2019

Hvornår bruges det

MuZero anvendes i spil som skak, Go og Atari-spil, hvor den opnår supermenneskelig præstation uden at få kendskab til spillets regler. Metoden er også relevant for planlægningsproblemer i den virkelige verden, hvor modellen ikke er kendt.

Oprindelse

Navnet MuZero er en sammentrækning af 'AlphaZero' og 'M' for Monte Carlo træsøgning, da det bygger videre på AlphaZero men uden at kræve en kendt model.

Kilder

1