weight decay coefficient
Hyperparameter der bestemmer styrken af weight decay-regularisering under træning af neurale netværk.
Kort fortalt
En værdi du vælger, der bestemmer hvor meget modellen straffes for store vægte, for at undgå overfitting.
- Kategori
- træning
- Niveau
- øvet
Betydninger
1- 1
Den hyperparameter, der skalerer straffen for store vægte i en model under træning.
- En weight decay coefficient på 0.001 bruges ofte i ImageNet-træning. — praksis, 2023
- Adams implementering af weight decay skiller sig fra L2-regularisering ved at anvende koefficienten direkte på vægtopdateringen. — Loshchilov & Hutter, 2017
Hvornår bruges det
Sættes typisk som en lille konstant (f.eks. 0.0001) i optimeringsalgoritmer som SGD eller Adam. Anvendes i næsten alle træningsopsætninger for store neurale netværk for at forbedre generalisering.
Formel
L = L_data + (λ/2) * Σ w², hvor λ er weight decay coefficientKodeeksempel
optimizer = torch.optim.SGD(model.parameters(), lr=0.01, weight_decay=0.0001)Sådan angives weight decay coefficient i PyTorchs SGD-optimizer.
Oprindelse
Udtrykket 'weight decay' stammer fra ideen om at vægtene henfalder mod nul over tid, ligesom radioaktivt henfald; koefficienten angiver hastigheden.
Afledte ord
1Kilder
2- Fixing Weight Decay Regularization in Adam
- Decoupled Weight Decay Regularization