weight decay coefficient

Hyperparameter der bestemmer styrken af weight decay-regularisering under træning af neurale netværk.

Kort fortalt

En værdi du vælger, der bestemmer hvor meget modellen straffes for store vægte, for at undgå overfitting.

Kategori
træning
Niveau
øvet

Betydninger

1
  1. 1

    Den hyperparameter, der skalerer straffen for store vægte i en model under træning.

    • En weight decay coefficient på 0.001 bruges ofte i ImageNet-træning.praksis, 2023
    • Adams implementering af weight decay skiller sig fra L2-regularisering ved at anvende koefficienten direkte på vægtopdateringen.Loshchilov & Hutter, 2017

Hvornår bruges det

Sættes typisk som en lille konstant (f.eks. 0.0001) i optimeringsalgoritmer som SGD eller Adam. Anvendes i næsten alle træningsopsætninger for store neurale netværk for at forbedre generalisering.

Formel

L = L_data + (λ/2) * Σ w², hvor λ er weight decay coefficient

Kodeeksempel

optimizer = torch.optim.SGD(model.parameters(), lr=0.01, weight_decay=0.0001)

Sådan angives weight decay coefficient i PyTorchs SGD-optimizer.

Oprindelse

Udtrykket 'weight decay' stammer fra ideen om at vægtene henfalder mod nul over tid, ligesom radioaktivt henfald; koefficienten angiver hastigheden.

Afledte ord

1

Kilder

2
  • Fixing Weight Decay Regularization in Adam
  • Decoupled Weight Decay Regularization