S4
forkortelse for Structured State Space for Sequence Modeling
S4 er en modelarkitektur baseret på strukturerede tilstandsrum, designet til effektiv behandling af lange sekvenser med lineær eller nær-lineær kompleksitet.
Kort fortalt
S4 er en avanceret model, der kan behandle lange tekst-, lyd- eller tidsserier hurtigere end traditionelle transformere.
- Kategori
- arkitektur
- Niveau
- ekspert
Betydninger
1- 1
En dyb læringsarkitektur, der anvender strukturerede tilstandsrum (state space models) til at modellere lange sekvenser med O(N) eller O(N log N) tidskompleksitet, hvor N er sekvenslængden.
- S4 opnår state-of-the-art resultater på Long Range Arena benchmarken med markant lavere beregningsomkostninger end transformere. — Gu et al., 2021
- Ved at parametrisere tilstandsrummet som en diagonal plus lavrang matrix muliggør S4 effektiv træning og inferens.
Hvornår bruges det
S4 anvendes primært inden for sekvensmodellering, hvor lange afhængigheder er vigtige, fx i talebehandling, tidsserieanalyse og langtidskontekst i sprogmodeller. Det er særligt nyttigt, når beregningsressourcer er begrænsede.
Formel
h_t = \bar{A} h_{t-1} + \bar{B} x_t, \quad y_t = \bar{C} h_t + \bar{D} x_tKodeeksempel
from s4 import S4Block
import torch
model = S4Block(d_model=512, d_state=64, lr=1e-3)
x = torch.randn(1, 1024, 512)
y = model(x)
print(y.shape) # (1, 1024, 512)Eksempel på instantiering af en S4-blok i PyTorch (baseret på referenceimplementation).
Oprindelse
S4 står for 'Structured State Space for Sequence Modeling'. Det blev introduceret af Albert Gu, Karan Goel og Christopher Ré i 2021.