policy gradient-teorem
Poliy gradient-teoremet angiver en analytisk formel for gradienten af den forventede afkastsum med hensyn til politikparametre i forstærkningslæring.
Kort fortalt
Teoremet giver en metode til at opdatere en politik i forstærkningslæring ved at beregne, hvordan sandsynligheden for handlinger skal ændres for at maksimere belønning.
- Kategori
- begreb
- Niveau
- øvet
Betydninger
1- 1
I forstærkningslæring: et teorem, der viser, at gradienten af den forventede totale afkastsum J(θ) for en differentierbar politik π_θ kan udtrykkes som en forventning over produktet af log-sandsynlighedsgradienten og handlingsværdien.
- Policy gradient-teoremet forenkler beregningen af politikgradienten ved at undgå at differentiere gennem tilstandsovergangsdynamikken. — Sutton & Barto, 2018
- REINFORCE-algoritmen anvender policy gradient-teoremet direkte med Monte Carlo-estimater af handlingsværdien. — Williams, 1992
Hvornår bruges det
Policy gradient-teoremet danner grundlag for policy gradient-metoder som REINFORCE, PPO og A2C. Det bruges, når man ønsker at optimere en parametriseret politik direkte frem for en værdifunktion.
Formel
∇_θ J(θ) = E_π[ ∇_θ log π_θ(a|s) Q^π(s,a) ]Kodeeksempel
def reinforce(policy, env, episodes=1000):
for _ in range(episodes):
states, actions, rewards = run_episode(policy, env)
G = 0
for t in reversed(range(len(rewards))):
G = rewards[t] + gamma * G
# Policy gradient theorem based update
log_prob = policy.log_prob(states[t], actions[t])
loss = -log_prob * G
optimizer.zero_grad()
loss.backward()
optimizer.step()En simpel implementering af REINFORCE-algoritmen, der bruger policy gradient-teoremet til at opdatere politikken.
Oprindelse
Termen stammer fra forstærkningslæring, hvor 'policy' refererer til agentens handlingsstrategi og 'gradient' til differentialkvotienten af en funktion. Teoremet blev formelt introduceret af Sutton et al. (1999).
Kilder
2- Sutton, R. S., McAllester, D., Singh, S., & Mansour, Y. (1999). Policy gradient methods for reinforcement learning with function approximation. NIPS.
- Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press.