PPO-clip
PPO-clip er en reinforcement learning-algoritme, der opdaterer en politik ved at maksimere en clipped surrogate objective, hvilket forhindrer for store ændringer i politikken.
Kort fortalt
PPO-clip er en metode til at træne en AI-agent, der lærer at handle ved gradvist at forbedre sine beslutninger, men med en begrænsning så ændringerne ikke bliver for store.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
PPO-clip er en variant af PPO, hvor policy-opdateringen begrænses ved hjælp af en clipping-funktion på sandsynlighedsratioen.
- PPO-clip anvendes ofte i træning af AI-agenter til spil som Atari. — Schulman et al., 2017
Hvornår bruges det
PPO-clip bruges typisk i reinforcement learning-opgaver, især i kontinuerlige kontrolproblemer som robotstyring og spil. Det er populært på grund af dets stabilitet og relativt enkle implementering.
Formel
L^{CLIP}(θ) = E_t[ min( r_t(θ) A_t, clip(r_t(θ), 1-ε, 1+ε) A_t ) ]Kodeeksempel
def ppo_clip_loss(probs_old, probs_new, advantages, eps=0.2):
ratio = probs_new / probs_old
clipped_ratio = np.clip(ratio, 1-eps, 1+eps)
loss = -np.mean(np.minimum(ratio * advantages, clipped_ratio * advantages))
return lossEksempel på implementering af PPO-clip-tabsfunktionen i Python.
Oprindelse
Termen PPO-clip stammer fra 'Proximal Policy Optimization' og den anvendte clipping-mekanisme til at begrænse politikopdateringer. Clipping blev introduceret af Schulman et al. i 2017.