Adam-optimizer

forkortelse for Adaptive Moment Estimation

En adaptiv optimeringsalgoritme, der kombinerer momentum og RMSProp, og som justerer læringsraten for hver parameter baseret på første og andet moment af gradienterne.

Kort fortalt

En algoritme, der dynamisk tilpasser læringshastigheden for hver parameter under træning af neurale netværk, hvilket ofte fører til hurtigere og mere stabil konvergens.

Kategori: træning
Niveau: øvet
Udtale: /ˈædəm ˌɑptɪˈmaɪzər/

Betydninger

1
En optimeringsalgoritme til gradient-baseret læring, der anvender adaptiv estimering af første og andet moment.
- Træningen af BERT-modellen anvendte Adam-optimizer med en læringsrate på 2e-5. — BERT: Pre-training of Deep Bidirectional Transformers, 2018
- Adam-optimizeren er ofte mere robust end SGD.

Hvornår bruges det

Adam er standardvalget til træning af deep learning-modeller, især når data er støjende eller modellen har mange parametre. Det er særligt nyttigt i naturlig sprogbehandling (NLP) og computer vision.

Formel

m_t = β1·m_{t-1} + (1-β1)·g_t; v_t = β2·v_{t-1} + (1-β2)·g_t^2; m̂_t = m_t/(1-β1^t); v̂_t = v_t/(1-β2^t); θ_t = θ_{t-1} - α·m̂_t/(√(v̂_t)+ε)

Kodeeksempel

optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

Initialisering af Adam-optimizer i PyTorch med læringsrate 0,001.

Oprindelse

Opkaldt efter 'Adaptive Moment Estimation' (Adam). Præsenteret af Kingma og Ba i 2014.

Afledte ord

AdamW

Kilder

Adam: A Method for Stochastic Optimization (Kingma & Ba, 2014)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i træning →Tilfældigt opslag →