MuZero-netværk
MuZero er en forstærkende læringsalgoritme, der kombinerer Monte Carlo-træsøgning med et lært dynamikmodel i latent rum uden adgang til miljøets regler.
Kort fortalt
MuZero er en AI-algoritme, der lærer at spille spil ved at simulere fremtidige træk i et indre forestillingsrum, uden at kende spillets regler på forhånd.
- Kategori
- arkitektur
- Niveau
- ekspert
- Udtale
- mjuːˈzɪərəʊ
Betydninger
1- 1
Algoritmen MuZero, der anvender Monte Carlo-træsøgning i et lært latent rum til at planlægge handlinger uden en eksplicit model af miljøet.
- MuZero lærte at spille Go på supermenneskeligt niveau uden at kende reglerne. — DeepMind blog, 2019
- MuZero opnåede state-of-the-art resultater på 57 Atari-spil ved at planlægge i latent rum. — Research paper, 2019
Hvornår bruges det
MuZero anvendes i spil som skak, Go og Atari-spil, hvor den opnår supermenneskelig præstation uden at få kendskab til spillets regler. Metoden er også relevant for planlægningsproblemer i den virkelige verden, hvor modellen ikke er kendt.
Oprindelse
Navnet MuZero er en sammentrækning af 'AlphaZero' og 'M' for Monte Carlo træsøgning, da det bygger videre på AlphaZero men uden at kræve en kendt model.