Structured State Space Model

En sekvensmodel der bruger lineære dynamiske systemer til effektiv langtidsafhængighedsmodellering.

Kort fortalt

En modeltype der kan behandle lange sekvenser hurtigt og præcist ved at bruge matematiske tilstande.

Kategori
arkitektur
Niveau
ekspert

Betydninger

1
  1. 1

    En klasse af sekvensmodeller hvor en lineær state space-repræsentation er struktureret (f.eks. via HiPPO eller diagonalisering) for effektiv langtidsafhængighedsmodellering.

    • Structured State Space Models har revolutioneret behandlingen af lange sekvenser ved at opnå lineær kompleksitet.
    • Mamba, en nyere variant af structured state space model, udfordrer transformeres dominans i sprogmodellering.

Hvornår bruges det

Bruges især i sprogmodellering og tidsserieanalyse, hvor den kombinerer fordelene ved RNN'er og CNNs med bedre skalerbarhed. Er grundlaget for modeller som S4 og Mamba.

Formel

x'(t) = A x(t) + B u(t), y(t) = C x(t) + D u(t) (continuous); discretized: x_k = A_bar x_{k-1} + B_bar u_k, y_k = C_bar x_k

Kodeeksempel

import numpy as np
class StructuredSSM:
    def __init__(self, A, B, C, D):
        self.A, self.B, self.C, self.D = A, B, C, D
        self.h = np.zeros(A.shape[0])
    def forward(self, u_seq):
        ys = []
        for u in u_seq:
            self.h = self.A @ self.h + self.B @ u
            y = self.C @ self.h + self.D @ u
            ys.append(y)
        return np.array(ys)
# A er struktureret (f.eks. HiPPO-matrice)

En simpel implementering af et state space-modellag. I et struktureret SSM er A-matricen specialiseret for effektivitet.

Oprindelse

State space-modeller stammer fra kontrolteori og blev tilpasset til deep learning i 2019 af Albert Gu og kolleger via HiPPO-framework. 'Structured' refererer til den specifikke strukturering af tilstandsmatricen for effektiv beregning.

Afledte ord

3

Kilder

2
  • Efficiently Modeling Long Sequences with Structured State Spaces
  • Mamba: Linear-Time Sequence Modeling with Selective State Spaces