PPO-clip

PPO-clip er en reinforcement learning-algoritme, der opdaterer en politik ved at maksimere en clipped surrogate objective, hvilket forhindrer for store ændringer i politikken.

Kort fortalt

PPO-clip er en metode til at træne en AI-agent, der lærer at handle ved gradvist at forbedre sine beslutninger, men med en begrænsning så ændringerne ikke bliver for store.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    PPO-clip er en variant af PPO, hvor policy-opdateringen begrænses ved hjælp af en clipping-funktion på sandsynlighedsratioen.

    • PPO-clip anvendes ofte i træning af AI-agenter til spil som Atari.Schulman et al., 2017

Hvornår bruges det

PPO-clip bruges typisk i reinforcement learning-opgaver, især i kontinuerlige kontrolproblemer som robotstyring og spil. Det er populært på grund af dets stabilitet og relativt enkle implementering.

Formel

L^{CLIP}(θ) = E_t[ min( r_t(θ) A_t, clip(r_t(θ), 1-ε, 1+ε) A_t ) ]

Kodeeksempel

def ppo_clip_loss(probs_old, probs_new, advantages, eps=0.2):
    ratio = probs_new / probs_old
    clipped_ratio = np.clip(ratio, 1-eps, 1+eps)
    loss = -np.mean(np.minimum(ratio * advantages, clipped_ratio * advantages))
    return loss

Eksempel på implementering af PPO-clip-tabsfunktionen i Python.

Oprindelse

Termen PPO-clip stammer fra 'Proximal Policy Optimization' og den anvendte clipping-mekanisme til at begrænse politikopdateringer. Clipping blev introduceret af Schulman et al. i 2017.

Kilder

1