stacked bidirectional LSTM

En neural netværksarkitektur, der stabler flere lag af bidirektionelle LSTM-enheder, så hvert lag behandler input i både fremad- og bagudrettet retning for at indfange hierarkiske tidsmæssige afhængigheder.

Kort fortalt

En avanceret type neuralt netværk, der bruger flere lag af LSTM-celler, som læser data frem og tilbage, for at forstå komplekse mønstre i tidsserier eller tekst.

Kategori
arkitektur
Niveau
øvet
Udtale
/stækt baɪdaɪˈrɛkʃənəl ɛl ɛs tiː ɛm/

Betydninger

1
  1. 1

    En neural netværksarkitektur bestående af flere lag af bilaterale LSTM-enheder, hvor hvert lag tager output fra det foregående lag som input og behandler sekvensen i både fremad- og bagudrettet retning.

    • Modellen anvendte et stacked bidirectional LSTM med tre lag til at klassificere følelser i tekst.
    • Stacked bidirectional LSTM har vist sig effektiv til at indfange komplekse syntaktiske strukturer i naturligt sprog.

Hvornår bruges det

Stacked bidirectional LSTM bruges især til sekvensmærkning, maskinoversættelse og talegenkendelse, hvor både langtrækkende afhængigheder og kontekst fra begge retninger er vigtige. Arkitekturen er typisk implementeret med et variabelt antal lag, ofte 2-4, og kan kombineres med dropout for at undgå overfitting.

Kodeeksempel

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Bidirectional, LSTM, Dense

model = Sequential()
model.add(Bidirectional(LSTM(64, return_sequences=True), input_shape=(timesteps, features)))
model.add(Bidirectional(LSTM(64, return_sequences=True)))
model.add(Bidirectional(LSTM(64)))
model.add(Dense(units, activation='softmax'))

Et simpelt eksempel på en stacked bidirectional LSTM-model i Keras med tre lag og en udgangsdense-lag.

Oprindelse

LSTM (Long Short-Term Memory) blev introduceret af Hochreiter og Schmidhuber i 1997. Bidirektionel LSTM blev foreslået af Schuster og Paliwal i 1997. Stabling (stacking) tilføjer dybde ved at stable flere LSTM-lag oven på hinanden, hvilket blev populært i deep learning-forskning omkring 2010'erne.

Afledte ord

2

Kilder

3
  • Long Short-Term Memory (Hochreiter & Schmidhuber, 1997)
  • Bidirectional Recurrent Neural Networks (Schuster & Paliwal, 1997)
  • Speech Recognition with Deep Recurrent Neural Networks (Graves et al., 2013)