forstærkningslæring

En type maskinlæring, hvor en agent lærer at træffe beslutninger ved at interagere med et miljø og modtage belønninger.

Kategori: teknik
Niveau: øvet

Betydninger

1
En maskinlæringsparadigme, hvor en agent lærer en politik gennem trial-and-error interaktion med et dynamisk miljø, med målet at maksimere en kumulativ belønning. Agenten observerer tilstande, udfører handlinger og modtager belønninger eller straf, hvilket styrker eller svækker adfærd.
- Forstærkningslæring bruges i spil som Go og skak, hvor AlphaGo lærte at spille på super-menneskeligt niveau gennem selvspil. — DeepMind, 2016
- I robotstyring anvendes forstærkningslæring til at træne en robotarm til at gribe objekter ved gentagne forsøg. — OpenAI, 2020

Kodeeksempel

import gym
env = gym.make('CartPole-v1')
state = env.reset()
for _ in range(1000):
    action = env.action_space.sample()
    state, reward, done, info = env.step(action)
    if done:
        state = env.reset()

Simpelt eksempel på en tilfældig agent i CartPole-miljøet (OpenAI Gym).

Oprindelse

Sammensat af 'forstærkning' (eng. reinforcement, der refererer til belønningsmekanismen) og 'læring' (eng. learning).

Afledte ord

forstærkningslæringsalgoritme RL-agent Q-learning deep reinforcement learning

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →