forsvindende gradient-problem

Fænomenet hvor gradienterne aftager eksponentielt gennem lagene i et dybt neurale netværk under backpropagation, hvilket gør tidlige lag næsten umulige at træne.

Kort fortalt

Når man træner meget dybe neurale netværk, bliver signalet fra fejlen svagere og svagere, jo længere tilbage man går, så de første lag ikke lærer noget.

Kategori
begreb
Niveau
øvet

Betydninger

1
  1. 1

    Problemet i dybe neurale netværk, hvor gradienterne (de partielle afledte af tabsfunktionen) bliver ekstremt små for de tidlige lag, hvilket næsten stopper læringen i disse lag.

    • Det forsvindende gradient-problem gør det svært at træne et dybt netværk med mange lag, fordi de første lag modtager næsten ingen opdatering.
    • LSTM-celler blev designet specifikt til at håndtere det forsvindende gradient-problem i tilbagevendende neurale netværk.

Hvornår bruges det

Problemet opstår typisk i netværk med mange lag og aktiveringsfunktioner som sigmoid eller tanh, der har små afledede. Løsninger inkluderer brug af ReLU, batch-normalisering, residualforbindelser eller LSTM-celler i RNN'er.

Oprindelse

Termen blev først identificeret af Sepp Hochreiter i 1991 i forbindelse med træning af dybe neurale netværk og senere formaliseret i litteraturen om tilbagevendende neurale netværk.

Afledte ord

1

Kilder

2
  • Hochreiter, S. (1991). Untersuchungen zu dynamischen neuronalen Netzen. Diploma thesis, TU München.
  • Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation, 9(8), 1735-1780.