forstærkningslæring

En type maskinlæring, hvor en agent lærer at træffe beslutninger ved at interagere med et miljø og modtage belønninger.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    En maskinlæringsparadigme, hvor en agent lærer en politik gennem trial-and-error interaktion med et dynamisk miljø, med målet at maksimere en kumulativ belønning. Agenten observerer tilstande, udfører handlinger og modtager belønninger eller straf, hvilket styrker eller svækker adfærd.

    • Forstærkningslæring bruges i spil som Go og skak, hvor AlphaGo lærte at spille på super-menneskeligt niveau gennem selvspil.DeepMind, 2016
    • I robotstyring anvendes forstærkningslæring til at træne en robotarm til at gribe objekter ved gentagne forsøg.OpenAI, 2020

Kodeeksempel

import gym
env = gym.make('CartPole-v1')
state = env.reset()
for _ in range(1000):
    action = env.action_space.sample()
    state, reward, done, info = env.step(action)
    if done:
        state = env.reset()

Simpelt eksempel på en tilfældig agent i CartPole-miljøet (OpenAI Gym).

Oprindelse

Sammensat af 'forstærkning' (eng. reinforcement, der refererer til belønningsmekanismen) og 'læring' (eng. learning).

Afledte ord

4