forsvindende gradient
Problem i træning af dybe neurale netværk, hvor gradienterne (hældningerne) bliver eksponentielt mindre, når de bakker gennem netværket, hvilket forhindrer vægtopdateringer i de tidligere lag.
Kort fortalt
Når du træner et dybt neuralt netværk, kan læringssignalet 'forsvinde' gennem lagene, så de tidligste lag ikke lærer noget.
- Kategori
- begreb
- Niveau
- øvet
Betydninger
1- 1
Fænomen, hvor gradientværdierne aftager eksponentielt gennem lagene i et neuralt netværk under tilbagepropagering, hvilket gør det svært at træne tidligere lag. Dette skyldes typisk brug af aktiveringsfunktioner med afledede < 1 i områder med mætning.
- Træning af et dybt netværk med sigmoide aktivering led ofte til problemet med forsvindende gradienter.
- Indførelsen af ReLU-aktivering reducerede markant risikoen for forsvindende gradienter.
Hvornår bruges det
Termen bruges især ved træning af dybe netværk med sigmoide eller hyperbolske tangent-aktiveringsfunktioner. Det er en af hovedårsagerne til, at ReLU og andre ikke-mættende funktioner blev populære, og til at residualforbindelser (ResNet) og batch-normalisering anvendes.
Oprindelse
Dansk: 'forsvindende' (der forsvinder) + 'gradient' (hældning). Begrebet blev først beskrevet af Sepp Hochreiter i 1991.
Afledte ord
1Kilder
2- Hochreiter, S. (1991). Untersuchungen zu dynamischen neuronalen Netzen
- Bengio, Y., Simard, P., & Frasconi, P. (1994). Learning long-term dependencies with gradient descent is difficult