vanishing gradient
Fænomenet hvor gradienter (afledte) bliver eksponentielt mindre, når de backpropageres gennem mange lag i et dybt neuralt netværk, hvilket gør træning af tidlige lag ineffektiv.
Kort fortalt
Når man træner et dybt neuralt netværk, kan signalet, der fortæller netværket, hvordan det skal justere sig, blive så svagt, at de første lag næsten ikke lærer noget.
- Kategori
- begreb
- Niveau
- øvet
- Udtale
- /ˈvænɪʃɪŋ ˈɡreɪdiənt/
Betydninger
1- 1
Det gradvise fald i gradienternes størrelse under backpropagering gennem et dybt neuralt netværk, især ved brug af aktiveringsfunktioner med afledte mindre end 1, hvilket medfører, at vægtopdateringer i de tidlige lag er meget små.
- Vanishing gradient kan gøre det umuligt at træne et dybt feedforward-netværk med sigmoide aktiveringsfunktioner, da gradienterne forsvinder i de nedre lag. — Hochreiter, 1991
- Brug af ReLU-aktiveringsfunktioner afhjælper vanishing gradient-problemet, da dens afledte er 1 for positive input. — Glorot et al., 2011
Hvornår bruges det
Begrebet vanishing gradient bruges til at forklare vanskeligheder ved at træne dybe netværk med sigmoide eller tanh-aktiveringsfunktioner. Det har ført til udvikling af aktiveringsfunktioner som ReLU samt teknikker som batch-normalisering og residualforbindelser.
Oprindelse
Udtrykket stammer fra en kombination af 'vanishing' (forsvindende) og 'gradient' (hældning), og blev introduceret i forbindelse med analyse af tilbagepropagering i dybe netværk af Sepp Hochreiter i 1991.
Afledte ord
1Kilder
3- Hochreiter, S. (1991). Untersuchungen zu dynamischen neuronalen Netzen.
- Bengio, Y., Simard, P., & Frasconi, P. (1994). Learning long-term dependencies with gradient descent is difficult.
- Glorot, X., Bordes, A., & Bengio, Y. (2011). Deep Sparse Rectifier Neural Networks.