learning rate schedule

En strategi til dynamisk at justere indlæringshastigheden under træning af en neural model for at forbedre konvergens.

Kort fortalt

En metode til at ændre indlæringshastigheden under træning, så modellen først lærer hurtigt og senere finjusterer langsommere.

Kategori
træning
Niveau
øvet

Betydninger

1
  1. 1

    En plan for, hvordan indlæringshastigheden ændres over tid under træning af en neural model, typisk for at opnå bedre konvergens.

    • En cosine annealing learning rate schedule sænker indlæringshastigheden efter en cosinus-funktion.Loshchilov & Hutter, 2017
    • Step decay reducerer indlæringshastigheden med en faktor hvert N antal epoker.

Hvornår bruges det

Learning rate schedules bruges i praksis til at stabilisere træning og undgå at overskride optimum. De er især nyttige ved stokastisk gradient descent og kan være foruddefinerede (f.eks. step decay) eller adaptive (f.eks. Adam optimizerens indbyggede justering).

Formel

Typisk formel for step decay: η_t = η_0 · γ^{⌊t/τ⌋}, hvor η_0 er startindlæringshastighed, γ er decay-faktor, τ er trinstørrelse.

Oprindelse

Begrebet stammer fra maskinlæring og optimeringsteori; 'schedule' refererer til en plan for ændringer over tid.

Kilder

2
  • SGDR: Stochastic Gradient Descent with Warm Restarts
  • Deep Learning (Goodfellow et al., 2016)