weight decay coefficient

Hyperparameter der bestemmer styrken af weight decay-regularisering under træning af neurale netværk.

Kort fortalt

En værdi du vælger, der bestemmer hvor meget modellen straffes for store vægte, for at undgå overfitting.

Kategori: træning
Niveau: øvet

Betydninger

1
Den hyperparameter, der skalerer straffen for store vægte i en model under træning.
- En weight decay coefficient på 0.001 bruges ofte i ImageNet-træning. — praksis, 2023
- Adams implementering af weight decay skiller sig fra L2-regularisering ved at anvende koefficienten direkte på vægtopdateringen. — Loshchilov & Hutter, 2017

Hvornår bruges det

Sættes typisk som en lille konstant (f.eks. 0.0001) i optimeringsalgoritmer som SGD eller Adam. Anvendes i næsten alle træningsopsætninger for store neurale netværk for at forbedre generalisering.

Formel

L = L_data + (λ/2) * Σ w², hvor λ er weight decay coefficient

Kodeeksempel

optimizer = torch.optim.SGD(model.parameters(), lr=0.01, weight_decay=0.0001)

Sådan angives weight decay coefficient i PyTorchs SGD-optimizer.

Oprindelse

Udtrykket 'weight decay' stammer fra ideen om at vægtene henfalder mod nul over tid, ligesom radioaktivt henfald; koefficienten angiver hastigheden.

Afledte ord

weight decay

Kilder

Fixing Weight Decay Regularization in Adam
Decoupled Weight Decay Regularization

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i træning →Tilfældigt opslag →