Structured State Space Model
En sekvensmodel der bruger lineære dynamiske systemer til effektiv langtidsafhængighedsmodellering.
Kort fortalt
En modeltype der kan behandle lange sekvenser hurtigt og præcist ved at bruge matematiske tilstande.
- Kategori
- arkitektur
- Niveau
- ekspert
Betydninger
1- 1
En klasse af sekvensmodeller hvor en lineær state space-repræsentation er struktureret (f.eks. via HiPPO eller diagonalisering) for effektiv langtidsafhængighedsmodellering.
- Structured State Space Models har revolutioneret behandlingen af lange sekvenser ved at opnå lineær kompleksitet.
- Mamba, en nyere variant af structured state space model, udfordrer transformeres dominans i sprogmodellering.
Hvornår bruges det
Bruges især i sprogmodellering og tidsserieanalyse, hvor den kombinerer fordelene ved RNN'er og CNNs med bedre skalerbarhed. Er grundlaget for modeller som S4 og Mamba.
Formel
x'(t) = A x(t) + B u(t), y(t) = C x(t) + D u(t) (continuous); discretized: x_k = A_bar x_{k-1} + B_bar u_k, y_k = C_bar x_kKodeeksempel
import numpy as np
class StructuredSSM:
def __init__(self, A, B, C, D):
self.A, self.B, self.C, self.D = A, B, C, D
self.h = np.zeros(A.shape[0])
def forward(self, u_seq):
ys = []
for u in u_seq:
self.h = self.A @ self.h + self.B @ u
y = self.C @ self.h + self.D @ u
ys.append(y)
return np.array(ys)
# A er struktureret (f.eks. HiPPO-matrice)En simpel implementering af et state space-modellag. I et struktureret SSM er A-matricen specialiseret for effektivitet.
Oprindelse
State space-modeller stammer fra kontrolteori og blev tilpasset til deep learning i 2019 af Albert Gu og kolleger via HiPPO-framework. 'Structured' refererer til den specifikke strukturering af tilstandsmatricen for effektiv beregning.
Afledte ord
3Kilder
2- Efficiently Modeling Long Sequences with Structured State Spaces
- Mamba: Linear-Time Sequence Modeling with Selective State Spaces