forstærkende læring
forkortelse for RL
Forstærkende læring er en maskinlæringsteknik, hvor en agent lærer at træffe beslutninger ved at interagere med et miljø og modtage belønninger eller straf.
Kort fortalt
En AI lærer ved at prøve sig frem – den får point for gode handlinger og minus for dårlige, ligesom når man træner en hund.
- Kategori
- teknik
- Niveau
- øvet
- Udtale
- /fɔˈstɛʁkəndə ˈlɛːʁeŋ/
Betydninger
1- 1
En læringsmetode hvor en agent lærer optimal adfærd gennem interaktion med et miljø, med det mål at maksimere kumulativ belønning.
- AlphaGo brugte forstærkende læring til at besejre verdensmesteren i Go.
- I forstærkende læring vægter agenten langsigtede gevinster over øjeblikkelige belønninger.
Hvornår bruges det
Forstærkende læring bruges ofte inden for robotteknologi, spil (fx AlphaGo), selvkørende biler og optimering af ressourceallokering. Agenten udforsker miljøet og opdaterer sin politik baseret på kumulativ belønning.
Formel
Bellman optimality equation: V*(s) = max_a [ R(s,a) + γ Σ_{s'} P(s'|s,a) V*(s') ]Kodeeksempel
import numpy as np
# Simpel Q-learning for et grid-world
Q = np.zeros((states, actions))
for episode in range(episodes):
state = env.reset()
done = False
while not done:
action = np.argmax(Q[state]) if np.random.rand() > epsilon else np.random.randint(actions)
next_state, reward, done, _ = env.step(action)
Q[state, action] += alpha * (reward + gamma * np.max(Q[next_state]) - Q[state, action])
state = next_stateEn grundlæggende Q-læringsalgoritme, der opdaterer Q-tabel baseret på Bellman-ligningen.
Oprindelse
Termen stammer fra psykologisk betingning og kontrolteori; 'forstærkning' refererer til belønning som forstærker adfærd.
Afledte ord
3Kilder
2- Reinforcement Learning: An Introduction (Sutton & Barto, 2018)
- Human-level control through deep reinforcement learning (Mnih et al., 2015, Nature)