argmax-politik
En deterministisk politik, der for hver tilstand vælger den handling med højest estimeret værdi.
Kort fortalt
En simpel regel der siger: vælg altid den handling der ser bedst ud lige nu.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
En deterministisk politik i reinforcement learning, der for en given tilstand vælger den handling med den højeste estimerede værdi, oftest baseret på en værdifunktion eller handlingsværdifunktion. Argmax-politikken er optimal i den forstand, at den maksimerer den forventede kumulative belønning, forudsat at værdifunktionen er korrekt.
- I Q-learning anvendes argmax-politikken til at vælge den bedste handling ud fra den aktuelle Q-tabel.
- En argmax-politik er optimal, hvis værdifunktionen er korrekt estimeret, men den kan føre til suboptimal adfærd under træning på grund af manglende udforskning.
Hvornår bruges det
Argmax-politikken bruges typisk i reinforcement learning som den endelige politik efter træning, eller som en del af Q-learning- og policy gradient-metoder. Den udnytter de lærte værdifunktioner ved at vælge den handling med højeste Q-værdi, men kan være for deterministisk til at udforske nye handlinger.
Formel
π(s) = argmax_a Q(s, a)Oprindelse
Argmax er en forkortelse for 'argument of the maximum', engelsk for 'argumentet for maksimum'. Politik refererer til en handlingsstrategi i reinforcement learning.
Kilder
1- Reinforcement Learning: An Introduction (Sutton & Barto, 2018)