policy gradient-teorem

Poliy gradient-teoremet angiver en analytisk formel for gradienten af den forventede afkastsum med hensyn til politikparametre i forstærkningslæring.

Kort fortalt

Teoremet giver en metode til at opdatere en politik i forstærkningslæring ved at beregne, hvordan sandsynligheden for handlinger skal ændres for at maksimere belønning.

Kategori: begreb
Niveau: øvet

Betydninger

1
I forstærkningslæring: et teorem, der viser, at gradienten af den forventede totale afkastsum J(θ) for en differentierbar politik π_θ kan udtrykkes som en forventning over produktet af log-sandsynlighedsgradienten og handlingsværdien.
- Policy gradient-teoremet forenkler beregningen af politikgradienten ved at undgå at differentiere gennem tilstandsovergangsdynamikken. — Sutton & Barto, 2018
- REINFORCE-algoritmen anvender policy gradient-teoremet direkte med Monte Carlo-estimater af handlingsværdien. — Williams, 1992

Hvornår bruges det

Policy gradient-teoremet danner grundlag for policy gradient-metoder som REINFORCE, PPO og A2C. Det bruges, når man ønsker at optimere en parametriseret politik direkte frem for en værdifunktion.

Formel

∇_θ J(θ) = E_π[ ∇_θ log π_θ(a|s) Q^π(s,a) ]

Kodeeksempel

def reinforce(policy, env, episodes=1000):
    for _ in range(episodes):
        states, actions, rewards = run_episode(policy, env)
        G = 0
        for t in reversed(range(len(rewards))):
            G = rewards[t] + gamma * G
            # Policy gradient theorem based update
            log_prob = policy.log_prob(states[t], actions[t])
            loss = -log_prob * G
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()

En simpel implementering af REINFORCE-algoritmen, der bruger policy gradient-teoremet til at opdatere politikken.

Oprindelse

Termen stammer fra forstærkningslæring, hvor 'policy' refererer til agentens handlingsstrategi og 'gradient' til differentialkvotienten af en funktion. Teoremet blev formelt introduceret af Sutton et al. (1999).

Kilder

Sutton, R. S., McAllester, D., Singh, S., & Mansour, Y. (1999). Policy gradient methods for reinforcement learning with function approximation. NIPS.
Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press.

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →