Learning rate

En hyperparameter der styrer størrelsen af trinene mod en minimumsværdi af tabsfunktionen under træning af en model.

Kort fortalt

Bestemmer hvor hurtigt modellen lærer – for stor og den overskrider målet, for lille og den lærer for langsomt.

Kategori
træning
Niveau
øvet
Udtale
ˈlɜːnɪŋ reɪt

Betydninger

2
  1. 1

    Den faste positive skalar η, der bestemmer trinstørrelsen i gradientnedstigning.

    • En høj learning rate kan forhindre konvergens ved at få modellen til at overskride minimum.Goodfellow et al., Deep Learning, 2016
  2. 2

    En plan for ændring af learning rate over tid, f.eks. ved henfald eller opvarmning.

    • Learning rate scheduling reducerer learning rate under træning for at forbedre konvergens.Kingma & Ba, Adam: A Method for Stochastic Optimization, 2014

Hvornår bruges det

Bruges i optimeringsalgoritmer som SGD og Adam. Vælges ofte via grid search eller adaptive metoder.

Formel

θ_{t+1} = θ_t - η ∇L(θ_t)

Kodeeksempel

def gradient_descent_step(parameters, gradients, learning_rate):
    for param, grad in zip(parameters, gradients):
        param -= learning_rate * grad
    return parameters

En typisk gradientnedstigningstrin, hvor learning rate ganges med gradienten og trækkes fra parametrene.

Oprindelse

Fra engelsk: 'learning' (læring) + 'rate' (rate, hastighed).

Afledte ord

2

Kilder

2
  • Deep Learning (Goodfellow et al., 2016)
  • Adam: A Method for Stochastic Optimization (Kingma & Ba, 2014)