forsvindende gradient-problem
Fænomenet hvor gradienterne aftager eksponentielt gennem lagene i et dybt neurale netværk under backpropagation, hvilket gør tidlige lag næsten umulige at træne.
Kort fortalt
Når man træner meget dybe neurale netværk, bliver signalet fra fejlen svagere og svagere, jo længere tilbage man går, så de første lag ikke lærer noget.
- Kategori
- begreb
- Niveau
- øvet
Betydninger
1- 1
Problemet i dybe neurale netværk, hvor gradienterne (de partielle afledte af tabsfunktionen) bliver ekstremt små for de tidlige lag, hvilket næsten stopper læringen i disse lag.
- Det forsvindende gradient-problem gør det svært at træne et dybt netværk med mange lag, fordi de første lag modtager næsten ingen opdatering.
- LSTM-celler blev designet specifikt til at håndtere det forsvindende gradient-problem i tilbagevendende neurale netværk.
Hvornår bruges det
Problemet opstår typisk i netværk med mange lag og aktiveringsfunktioner som sigmoid eller tanh, der har små afledede. Løsninger inkluderer brug af ReLU, batch-normalisering, residualforbindelser eller LSTM-celler i RNN'er.
Oprindelse
Termen blev først identificeret af Sepp Hochreiter i 1991 i forbindelse med træning af dybe neurale netværk og senere formaliseret i litteraturen om tilbagevendende neurale netværk.
Afledte ord
1Kilder
2- Hochreiter, S. (1991). Untersuchungen zu dynamischen neuronalen Netzen. Diploma thesis, TU München.
- Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation, 9(8), 1735-1780.