weight decay rate
En hyperparameter der angiver styrken af weight decay, en regulariseringsteknik der tilføjer en straf for store vægte under træning.
Kort fortalt
Weight decay rate er et tal (fx 0.01) der bestemmer, hvor meget en models vægte skal skrumpe for hvert træningstrin for at undgå overfitting.
- Kategori
- træning
- Niveau
- øvet
Betydninger
1- 1
Den hastighed hvormed vægte i en model reduceres under træning som en form for regularisering; typisk implementeret som en multiplikativ faktor på vægtene i optimeringsalgoritmen.
- Vi brugte en weight decay rate på 0.0001 for at forhindre overfitting i det dybe netværk.
- AdamW-adapteren adskiller weight decay rate fra læringsraten for bedre regularisering. — Loshchilov & Hutter, 2019
Hvornår bruges det
Weight decay rate bruges i optimeringsalgoritmer som SGD eller Adam for at regularisere modellen. Den sættes typisk til en lille værdi som 1e-4 eller 1e-5 og justeres via hyperparameter-tuning.
Formel
θ_{t+1} = θ_t - η·∇L(θ_t) - η·λ·θ_tKodeeksempel
optimizer = torch.optim.AdamW(model.parameters(), lr=0.001, weight_decay=0.01)Opsætning af weight decay rate i AdamW-optimizer i PyTorch.
Oprindelse
Udtrykket 'weight decay' stammer fra den måde, vægtene reduceres (forfalder) over tid, som en ekstra dæmpning i opdateringsreglen.
Kilder
1- Decoupled Weight Decay Regularization (AdamW)