Learning rate

En hyperparameter der styrer størrelsen af trinene mod en minimumsværdi af tabsfunktionen under træning af en model.

Kort fortalt

Bestemmer hvor hurtigt modellen lærer – for stor og den overskrider målet, for lille og den lærer for langsomt.

Kategori: træning
Niveau: øvet
Udtale: ˈlɜːnɪŋ reɪt

Betydninger

1
Den faste positive skalar η, der bestemmer trinstørrelsen i gradientnedstigning.
- En høj learning rate kan forhindre konvergens ved at få modellen til at overskride minimum. — Goodfellow et al., Deep Learning, 2016
2
En plan for ændring af learning rate over tid, f.eks. ved henfald eller opvarmning.
- Learning rate scheduling reducerer learning rate under træning for at forbedre konvergens. — Kingma & Ba, Adam: A Method for Stochastic Optimization, 2014

Hvornår bruges det

Bruges i optimeringsalgoritmer som SGD og Adam. Vælges ofte via grid search eller adaptive metoder.

Formel

θ_{t+1} = θ_t - η ∇L(θ_t)

Kodeeksempel

def gradient_descent_step(parameters, gradients, learning_rate):
    for param, grad in zip(parameters, gradients):
        param -= learning_rate * grad
    return parameters

En typisk gradientnedstigningstrin, hvor learning rate ganges med gradienten og trækkes fra parametrene.

Oprindelse

Fra engelsk: 'learning' (læring) + 'rate' (rate, hastighed).

Afledte ord

learning rate schedule learning rate warmup

Kilder

Deep Learning (Goodfellow et al., 2016)
Adam: A Method for Stochastic Optimization (Kingma & Ba, 2014)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i træning →Tilfældigt opslag →