forsvindende gradient

Problem i træning af dybe neurale netværk, hvor gradienterne (hældningerne) bliver eksponentielt mindre, når de bakker gennem netværket, hvilket forhindrer vægtopdateringer i de tidligere lag.

Kort fortalt

Når du træner et dybt neuralt netværk, kan læringssignalet 'forsvinde' gennem lagene, så de tidligste lag ikke lærer noget.

Kategori: begreb
Niveau: øvet

Betydninger

1
Fænomen, hvor gradientværdierne aftager eksponentielt gennem lagene i et neuralt netværk under tilbagepropagering, hvilket gør det svært at træne tidligere lag. Dette skyldes typisk brug af aktiveringsfunktioner med afledede < 1 i områder med mætning.
- Træning af et dybt netværk med sigmoide aktivering led ofte til problemet med forsvindende gradienter.
- Indførelsen af ReLU-aktivering reducerede markant risikoen for forsvindende gradienter.

Hvornår bruges det

Termen bruges især ved træning af dybe netværk med sigmoide eller hyperbolske tangent-aktiveringsfunktioner. Det er en af hovedårsagerne til, at ReLU og andre ikke-mættende funktioner blev populære, og til at residualforbindelser (ResNet) og batch-normalisering anvendes.

Oprindelse

Dansk: 'forsvindende' (der forsvinder) + 'gradient' (hældning). Begrebet blev først beskrevet af Sepp Hochreiter i 1991.

Afledte ord

forsvindende gradient-problem

Kilder

Hochreiter, S. (1991). Untersuchungen zu dynamischen neuronalen Netzen
Bengio, Y., Simard, P., & Frasconi, P. (1994). Learning long-term dependencies with gradient descent is difficult

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →