forstærkningslæring
En type maskinlæring, hvor en agent lærer at træffe beslutninger ved at interagere med et miljø og modtage belønninger.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
En maskinlæringsparadigme, hvor en agent lærer en politik gennem trial-and-error interaktion med et dynamisk miljø, med målet at maksimere en kumulativ belønning. Agenten observerer tilstande, udfører handlinger og modtager belønninger eller straf, hvilket styrker eller svækker adfærd.
- Forstærkningslæring bruges i spil som Go og skak, hvor AlphaGo lærte at spille på super-menneskeligt niveau gennem selvspil. — DeepMind, 2016
- I robotstyring anvendes forstærkningslæring til at træne en robotarm til at gribe objekter ved gentagne forsøg. — OpenAI, 2020
Kodeeksempel
import gym
env = gym.make('CartPole-v1')
state = env.reset()
for _ in range(1000):
action = env.action_space.sample()
state, reward, done, info = env.step(action)
if done:
state = env.reset()Simpelt eksempel på en tilfældig agent i CartPole-miljøet (OpenAI Gym).
Oprindelse
Sammensat af 'forstærkning' (eng. reinforcement, der refererer til belønningsmekanismen) og 'læring' (eng. learning).