LSTM-netværk
forkortelse for Long Short-Term Memory
En type recurrent neuralt netværk, der er designet til at lære langtidsafhængigheder i sekventielle data ved hjælp af hukommelsesceller og gating-mekanismer.
Kort fortalt
LSTM-netværk er en særlig type neuralt netværk, der kan huske information i lange perioder, hvilket gør det velegnet til opgaver som tale- og tekstgenkendelse.
- Kategori
- arkitektur
- Niveau
- øvet
- Udtale
- ˈɛl ɛs teː ˈɛm
Betydninger
1- 1
En arkitektur for recurrent neural networks, der består af hukommelsesceller med tre gates (input, forget, output) til at regulere informationsflowet.
- LSTM-netværk har været anvendt med stor succes til sprogmodellering.
Hvornår bruges det
LSTM-netværk anvendes især inden for sekvensmodellering, såsom maskinoversættelse, talegenkendelse, tidsserieanalyse og generering af sekventielle data. De har været grundlaget for mange moderne sprogmodeller, før transformerarkitekturen blev dominerende.
Formel
f_t = σ(W_f·[h_{t-1}, x_t] + b_f)
i_t = σ(W_i·[h_{t-1}, x_t] + b_i)
C̃_t = tanh(W_C·[h_{t-1}, x_t] + b_C)
C_t = f_t ⊙ C_{t-1} + i_t ⊙ C̃_t
o_t = σ(W_o·[h_{t-1}, x_t] + b_o)
h_t = o_t ⊙ tanh(C_t)Kodeeksempel
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense
model = Sequential()
model.add(LSTM(128, input_shape=(timesteps, features)))
model.add(Dense(1, activation='sigmoid'))Opretter et simpelt LSTM-netværk med et LSTM-lag og et output-lag.
Oprindelse
LSTM-netværk blev introduceret af Sepp Hochreiter og Jürgen Schmidhuber i 1997 som en løsning på problemet med forsvindende gradienter i traditionelle recurrent neural networks.
Afledte ord
2Kilder
1- Long Short-Term Memory (Hochreiter & Schmidhuber, 1997)