vanishing gradient

Fænomenet hvor gradienter (afledte) bliver eksponentielt mindre, når de backpropageres gennem mange lag i et dybt neuralt netværk, hvilket gør træning af tidlige lag ineffektiv.

Kort fortalt

Når man træner et dybt neuralt netværk, kan signalet, der fortæller netværket, hvordan det skal justere sig, blive så svagt, at de første lag næsten ikke lærer noget.

Kategori
begreb
Niveau
øvet
Udtale
/ˈvænɪʃɪŋ ˈɡreɪdiənt/

Betydninger

1
  1. 1

    Det gradvise fald i gradienternes størrelse under backpropagering gennem et dybt neuralt netværk, især ved brug af aktiveringsfunktioner med afledte mindre end 1, hvilket medfører, at vægtopdateringer i de tidlige lag er meget små.

    • Vanishing gradient kan gøre det umuligt at træne et dybt feedforward-netværk med sigmoide aktiveringsfunktioner, da gradienterne forsvinder i de nedre lag.Hochreiter, 1991
    • Brug af ReLU-aktiveringsfunktioner afhjælper vanishing gradient-problemet, da dens afledte er 1 for positive input.Glorot et al., 2011

Hvornår bruges det

Begrebet vanishing gradient bruges til at forklare vanskeligheder ved at træne dybe netværk med sigmoide eller tanh-aktiveringsfunktioner. Det har ført til udvikling af aktiveringsfunktioner som ReLU samt teknikker som batch-normalisering og residualforbindelser.

Oprindelse

Udtrykket stammer fra en kombination af 'vanishing' (forsvindende) og 'gradient' (hældning), og blev introduceret i forbindelse med analyse af tilbagepropagering i dybe netværk af Sepp Hochreiter i 1991.

Afledte ord

1

Kilder

3
  • Hochreiter, S. (1991). Untersuchungen zu dynamischen neuronalen Netzen.
  • Bengio, Y., Simard, P., & Frasconi, P. (1994). Learning long-term dependencies with gradient descent is difficult.
  • Glorot, X., Bordes, A., & Bengio, Y. (2011). Deep Sparse Rectifier Neural Networks.