weight decay rate

En hyperparameter der angiver styrken af weight decay, en regulariseringsteknik der tilføjer en straf for store vægte under træning.

Kort fortalt

Weight decay rate er et tal (fx 0.01) der bestemmer, hvor meget en models vægte skal skrumpe for hvert træningstrin for at undgå overfitting.

Kategori
træning
Niveau
øvet

Betydninger

1
  1. 1

    Den hastighed hvormed vægte i en model reduceres under træning som en form for regularisering; typisk implementeret som en multiplikativ faktor på vægtene i optimeringsalgoritmen.

    • Vi brugte en weight decay rate på 0.0001 for at forhindre overfitting i det dybe netværk.
    • AdamW-adapteren adskiller weight decay rate fra læringsraten for bedre regularisering.Loshchilov & Hutter, 2019

Hvornår bruges det

Weight decay rate bruges i optimeringsalgoritmer som SGD eller Adam for at regularisere modellen. Den sættes typisk til en lille værdi som 1e-4 eller 1e-5 og justeres via hyperparameter-tuning.

Formel

θ_{t+1} = θ_t - η·∇L(θ_t) - η·λ·θ_t

Kodeeksempel

optimizer = torch.optim.AdamW(model.parameters(), lr=0.001, weight_decay=0.01)

Opsætning af weight decay rate i AdamW-optimizer i PyTorch.

Oprindelse

Udtrykket 'weight decay' stammer fra den måde, vægtene reduceres (forfalder) over tid, som en ekstra dæmpning i opdateringsreglen.

Kilder

1
  • Decoupled Weight Decay Regularization (AdamW)