forsvindende gradient-problem

Fænomenet hvor gradienterne aftager eksponentielt gennem lagene i et dybt neurale netværk under backpropagation, hvilket gør tidlige lag næsten umulige at træne.

Kort fortalt

Når man træner meget dybe neurale netværk, bliver signalet fra fejlen svagere og svagere, jo længere tilbage man går, så de første lag ikke lærer noget.

Kategori: begreb
Niveau: øvet

Betydninger

1
Problemet i dybe neurale netværk, hvor gradienterne (de partielle afledte af tabsfunktionen) bliver ekstremt små for de tidlige lag, hvilket næsten stopper læringen i disse lag.
- Det forsvindende gradient-problem gør det svært at træne et dybt netværk med mange lag, fordi de første lag modtager næsten ingen opdatering.
- LSTM-celler blev designet specifikt til at håndtere det forsvindende gradient-problem i tilbagevendende neurale netværk.

Hvornår bruges det

Problemet opstår typisk i netværk med mange lag og aktiveringsfunktioner som sigmoid eller tanh, der har små afledede. Løsninger inkluderer brug af ReLU, batch-normalisering, residualforbindelser eller LSTM-celler i RNN'er.

Oprindelse

Termen blev først identificeret af Sepp Hochreiter i 1991 i forbindelse med træning af dybe neurale netværk og senere formaliseret i litteraturen om tilbagevendende neurale netværk.

Afledte ord

gradienteksplosion

Kilder

Hochreiter, S. (1991). Untersuchungen zu dynamischen neuronalen Netzen. Diploma thesis, TU München.
Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation, 9(8), 1735-1780.

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →