MuZero-søgning

En Monte Carlo-træsøgning, der anvender en lært model af dynamik og belønning i et latent repræsentationsrum.

Kort fortalt

MuZero-søgning er en metode, hvor en AI lærer at planlægge ved at simulere handlinger i sit eget mentale rum i stedet for i den virkelige verden.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    Den Monte Carlo-træsøgning, der udføres af MuZero-algoritmen, karakteriseret ved at simulere handlinger i et lært latent repræsentationsrum ved hjælp af en lært dynamikmodel og en lært belønningsmodel.

    • MuZero-søgningen udvælger handlinger ved at anvende et øvre konfidensgrænsekriterium (UCT) på træets noder.Schrittwieser et al., 2020
    • I MuZero-søgningen opdateres den lærte model iterativt baseret på erfaringer fra ægte interaktion med miljøet.

Hvornår bruges det

MuZero-søgning anvendes primært i spil som skak, Go og Atari samt i robotstyring, hvor agenten skal træffe beslutninger under usikkerhed uden en kendt model. Søgningen kombinerer læring og planlægning ved at udvide et træ i et latent repræsentationsrum.

Oprindelse

MuZero-søgning er opkaldt efter MuZero-algoritmen, udviklet af DeepMind i 2019, som er en videreudvikling af AlphaZero med indbygget modelindlæring.

Afledte ord

2

Kilder

1