forstærkningslæringsalgoritme
En algoritme der træner en agent til at tage handlinger i et miljø for at maksimere en kumulativ belønning.
Kort fortalt
En forstærkningslæringsalgoritme lærer en computer at træffe beslutninger ved at prøve sig frem og få feedback i form af belønning eller straf.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
En algoritme der lærer en politik ved at interagere med et miljø og modtage belønninger.
- Q-læring er en klassisk forstærkningslæringsalgoritme.
Hvornår bruges det
Forstærkningslæringsalgoritmer bruges især i spil, robotstyring og optimering, hvor agenten skal lære en politik gennem interaktion med et dynamisk miljø. Algoritmen opdaterer sin politik baseret på oplevede belønninger.
Oprindelse
Begrebet stammer fra behavioristisk psykologi og maskinlæring, hvor 'forstærkning' (reinforcement) refererer til belønning eller straf der styrker eller svækker adfærd.
Afledte ord
2Kilder
1- Reinforcement Learning: An Introduction (Sutton & Barto)