Learning rate
En hyperparameter der styrer størrelsen af trinene mod en minimumsværdi af tabsfunktionen under træning af en model.
Kort fortalt
Bestemmer hvor hurtigt modellen lærer – for stor og den overskrider målet, for lille og den lærer for langsomt.
- Kategori
- træning
- Niveau
- øvet
- Udtale
- ˈlɜːnɪŋ reɪt
Betydninger
2- 1
Den faste positive skalar η, der bestemmer trinstørrelsen i gradientnedstigning.
- En høj learning rate kan forhindre konvergens ved at få modellen til at overskride minimum. — Goodfellow et al., Deep Learning, 2016
- 2
En plan for ændring af learning rate over tid, f.eks. ved henfald eller opvarmning.
- Learning rate scheduling reducerer learning rate under træning for at forbedre konvergens. — Kingma & Ba, Adam: A Method for Stochastic Optimization, 2014
Hvornår bruges det
Bruges i optimeringsalgoritmer som SGD og Adam. Vælges ofte via grid search eller adaptive metoder.
Formel
θ_{t+1} = θ_t - η ∇L(θ_t)Kodeeksempel
def gradient_descent_step(parameters, gradients, learning_rate):
for param, grad in zip(parameters, gradients):
param -= learning_rate * grad
return parametersEn typisk gradientnedstigningstrin, hvor learning rate ganges med gradienten og trækkes fra parametrene.
Oprindelse
Fra engelsk: 'learning' (læring) + 'rate' (rate, hastighed).
Afledte ord
2Kilder
2- Deep Learning (Goodfellow et al., 2016)
- Adam: A Method for Stochastic Optimization (Kingma & Ba, 2014)