LSTM-netværk

forkortelse for Long Short-Term Memory

En type recurrent neuralt netværk, der er designet til at lære langtidsafhængigheder i sekventielle data ved hjælp af hukommelsesceller og gating-mekanismer.

Kort fortalt

LSTM-netværk er en særlig type neuralt netværk, der kan huske information i lange perioder, hvilket gør det velegnet til opgaver som tale- og tekstgenkendelse.

Kategori
arkitektur
Niveau
øvet
Udtale
ˈɛl ɛs teː ˈɛm

Betydninger

1
  1. 1

    En arkitektur for recurrent neural networks, der består af hukommelsesceller med tre gates (input, forget, output) til at regulere informationsflowet.

    • LSTM-netværk har været anvendt med stor succes til sprogmodellering.

Hvornår bruges det

LSTM-netværk anvendes især inden for sekvensmodellering, såsom maskinoversættelse, talegenkendelse, tidsserieanalyse og generering af sekventielle data. De har været grundlaget for mange moderne sprogmodeller, før transformerarkitekturen blev dominerende.

Formel

f_t = σ(W_f·[h_{t-1}, x_t] + b_f)
i_t = σ(W_i·[h_{t-1}, x_t] + b_i)
C̃_t = tanh(W_C·[h_{t-1}, x_t] + b_C)
C_t = f_t ⊙ C_{t-1} + i_t ⊙ C̃_t
o_t = σ(W_o·[h_{t-1}, x_t] + b_o)
h_t = o_t ⊙ tanh(C_t)

Kodeeksempel

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense

model = Sequential()
model.add(LSTM(128, input_shape=(timesteps, features)))
model.add(Dense(1, activation='sigmoid'))

Opretter et simpelt LSTM-netværk med et LSTM-lag og et output-lag.

Oprindelse

LSTM-netværk blev introduceret af Sepp Hochreiter og Jürgen Schmidhuber i 1997 som en løsning på problemet med forsvindende gradienter i traditionelle recurrent neural networks.

Afledte ord

2

Kilder

1
  • Long Short-Term Memory (Hochreiter & Schmidhuber, 1997)