argmax-politik

En deterministisk politik, der for hver tilstand vælger den handling med højest estimeret værdi.

Kort fortalt

En simpel regel der siger: vælg altid den handling der ser bedst ud lige nu.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    En deterministisk politik i reinforcement learning, der for en given tilstand vælger den handling med den højeste estimerede værdi, oftest baseret på en værdifunktion eller handlingsværdifunktion. Argmax-politikken er optimal i den forstand, at den maksimerer den forventede kumulative belønning, forudsat at værdifunktionen er korrekt.

    • I Q-learning anvendes argmax-politikken til at vælge den bedste handling ud fra den aktuelle Q-tabel.
    • En argmax-politik er optimal, hvis værdifunktionen er korrekt estimeret, men den kan føre til suboptimal adfærd under træning på grund af manglende udforskning.

Hvornår bruges det

Argmax-politikken bruges typisk i reinforcement learning som den endelige politik efter træning, eller som en del af Q-learning- og policy gradient-metoder. Den udnytter de lærte værdifunktioner ved at vælge den handling med højeste Q-værdi, men kan være for deterministisk til at udforske nye handlinger.

Formel

π(s) = argmax_a Q(s, a)

Oprindelse

Argmax er en forkortelse for 'argument of the maximum', engelsk for 'argumentet for maksimum'. Politik refererer til en handlingsstrategi i reinforcement learning.

Kilder

1
  • Reinforcement Learning: An Introduction (Sutton & Barto, 2018)