forsvindende gradient

Problem i træning af dybe neurale netværk, hvor gradienterne (hældningerne) bliver eksponentielt mindre, når de bakker gennem netværket, hvilket forhindrer vægtopdateringer i de tidligere lag.

Kort fortalt

Når du træner et dybt neuralt netværk, kan læringssignalet 'forsvinde' gennem lagene, så de tidligste lag ikke lærer noget.

Kategori
begreb
Niveau
øvet

Betydninger

1
  1. 1

    Fænomen, hvor gradientværdierne aftager eksponentielt gennem lagene i et neuralt netværk under tilbagepropagering, hvilket gør det svært at træne tidligere lag. Dette skyldes typisk brug af aktiveringsfunktioner med afledede < 1 i områder med mætning.

    • Træning af et dybt netværk med sigmoide aktivering led ofte til problemet med forsvindende gradienter.
    • Indførelsen af ReLU-aktivering reducerede markant risikoen for forsvindende gradienter.

Hvornår bruges det

Termen bruges især ved træning af dybe netværk med sigmoide eller hyperbolske tangent-aktiveringsfunktioner. Det er en af hovedårsagerne til, at ReLU og andre ikke-mættende funktioner blev populære, og til at residualforbindelser (ResNet) og batch-normalisering anvendes.

Oprindelse

Dansk: 'forsvindende' (der forsvinder) + 'gradient' (hældning). Begrebet blev først beskrevet af Sepp Hochreiter i 1991.

Afledte ord

1

Kilder

2
  • Hochreiter, S. (1991). Untersuchungen zu dynamischen neuronalen Netzen
  • Bengio, Y., Simard, P., & Frasconi, P. (1994). Learning long-term dependencies with gradient descent is difficult