MuZero-søgning
En Monte Carlo-træsøgning, der anvender en lært model af dynamik og belønning i et latent repræsentationsrum.
Kort fortalt
MuZero-søgning er en metode, hvor en AI lærer at planlægge ved at simulere handlinger i sit eget mentale rum i stedet for i den virkelige verden.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
Den Monte Carlo-træsøgning, der udføres af MuZero-algoritmen, karakteriseret ved at simulere handlinger i et lært latent repræsentationsrum ved hjælp af en lært dynamikmodel og en lært belønningsmodel.
- MuZero-søgningen udvælger handlinger ved at anvende et øvre konfidensgrænsekriterium (UCT) på træets noder. — Schrittwieser et al., 2020
- I MuZero-søgningen opdateres den lærte model iterativt baseret på erfaringer fra ægte interaktion med miljøet.
Hvornår bruges det
MuZero-søgning anvendes primært i spil som skak, Go og Atari samt i robotstyring, hvor agenten skal træffe beslutninger under usikkerhed uden en kendt model. Søgningen kombinerer læring og planlægning ved at udvide et træ i et latent repræsentationsrum.
Oprindelse
MuZero-søgning er opkaldt efter MuZero-algoritmen, udviklet af DeepMind i 2019, som er en videreudvikling af AlphaZero med indbygget modelindlæring.