SAC

forkortelse for Soft Actor-Critic

SAC (Soft Actor-Critic) er en forstærkningslæringsalgoritme, der kombinerer maksimal entropi med actor-critic-metoder for at opnå stabil og sample-effektiv træning.

Kort fortalt

SAC er en avanceret forstærkningslæringsalgoritme, der lærer ved at balancere belønning og udforskning gennem maksimering af entropi.

Kategori: teknik
Niveau: øvet

Betydninger

1
En off-policy forstærkningslæringsalgoritme baseret på maksimal entropi, der lærer en stokastisk politik ved at optimere en soft Q-funktion og en policy via alternerende opdateringer.
- SAC-algoritmen opnåede state-of-the-art resultater på de fleste MuJoCo-opgaver. — Haarnoja et al., 2018
- Vi anvendte SAC til at træne en robotarm til at gribe objekter.

Hvornår bruges det

SAC anvendes typisk i kontinuerlige kontrolopgaver og robotik, hvor sample-effektivitet og stabilitet er vigtige. Algoritmen er særligt populær på grund af dens evne til at håndtere højdimensionelle observationsrum og kontinuerlige aktionsrum.

Formel

Soft policy iteration: Q(s,a) = r(s,a) + γ E_{s'}[V(s')]; V(s) = E_{a~π}[Q(s,a) - α log π(a|s)]; π_new = argmin D_KL(π(·|s) || exp(Q_soft(s,·)/α)/Z)

Kodeeksempel

from stable_baselines3 import SAC

model = SAC('MlpPolicy', 'HalfCheetah-v2', verbose=1)
model.learn(total_timesteps=10000)

Eksempel på brug af SAC fra stable-baselines3-biblioteket til at træne på HalfCheetah-miljøet.

Oprindelse

Termen SAC er en forkortelse for Soft Actor-Critic, introduceret af Haarnoja et al. i 2018.

Kilder

Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor
Soft Actor-Critic Algorithms and Applications

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →