MuZero-søgning

En Monte Carlo-træsøgning, der anvender en lært model af dynamik og belønning i et latent repræsentationsrum.

Kort fortalt

MuZero-søgning er en metode, hvor en AI lærer at planlægge ved at simulere handlinger i sit eget mentale rum i stedet for i den virkelige verden.

Kategori: teknik
Niveau: øvet

Betydninger

1
Den Monte Carlo-træsøgning, der udføres af MuZero-algoritmen, karakteriseret ved at simulere handlinger i et lært latent repræsentationsrum ved hjælp af en lært dynamikmodel og en lært belønningsmodel.
- MuZero-søgningen udvælger handlinger ved at anvende et øvre konfidensgrænsekriterium (UCT) på træets noder. — Schrittwieser et al., 2020
- I MuZero-søgningen opdateres den lærte model iterativt baseret på erfaringer fra ægte interaktion med miljøet.

Hvornår bruges det

MuZero-søgning anvendes primært i spil som skak, Go og Atari samt i robotstyring, hvor agenten skal træffe beslutninger under usikkerhed uden en kendt model. Søgningen kombinerer læring og planlægning ved at udvide et træ i et latent repræsentationsrum.

Oprindelse

MuZero-søgning er opkaldt efter MuZero-algoritmen, udviklet af DeepMind i 2019, som er en videreudvikling af AlphaZero med indbygget modelindlæring.

Afledte ord

MuZero-søgetræ MuZero-søgningstrin

Kilder

Schrittwieser et al. (2020). Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model.

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →