forstærkende læring

forkortelse for RL

Forstærkende læring er en maskinlæringsteknik, hvor en agent lærer at træffe beslutninger ved at interagere med et miljø og modtage belønninger eller straf.

Kort fortalt

En AI lærer ved at prøve sig frem – den får point for gode handlinger og minus for dårlige, ligesom når man træner en hund.

Kategori: teknik
Niveau: øvet
Udtale: /fɔˈstɛʁkəndə ˈlɛːʁeŋ/

Betydninger

1
En læringsmetode hvor en agent lærer optimal adfærd gennem interaktion med et miljø, med det mål at maksimere kumulativ belønning.
- AlphaGo brugte forstærkende læring til at besejre verdensmesteren i Go.
- I forstærkende læring vægter agenten langsigtede gevinster over øjeblikkelige belønninger.

Hvornår bruges det

Forstærkende læring bruges ofte inden for robotteknologi, spil (fx AlphaGo), selvkørende biler og optimering af ressourceallokering. Agenten udforsker miljøet og opdaterer sin politik baseret på kumulativ belønning.

Formel

Bellman optimality equation: V*(s) = max_a [ R(s,a) + γ Σ_{s'} P(s'|s,a) V*(s') ]

Kodeeksempel

import numpy as np

# Simpel Q-learning for et grid-world
Q = np.zeros((states, actions))
for episode in range(episodes):
    state = env.reset()
    done = False
    while not done:
        action = np.argmax(Q[state]) if np.random.rand() > epsilon else np.random.randint(actions)
        next_state, reward, done, _ = env.step(action)
        Q[state, action] += alpha * (reward + gamma * np.max(Q[next_state]) - Q[state, action])
        state = next_state

En grundlæggende Q-læringsalgoritme, der opdaterer Q-tabel baseret på Bellman-ligningen.

Oprindelse

Termen stammer fra psykologisk betingning og kontrolteori; 'forstærkning' refererer til belønning som forstærker adfærd.

Afledte ord

Q-læring politikgradient dyb forstærkende læring

Kilder

Reinforcement Learning: An Introduction (Sutton & Barto, 2018)
Human-level control through deep reinforcement learning (Mnih et al., 2015, Nature)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →