struktureret tilstandsmodel

forkortelse for Structured State Space Model (S4, Mamba)

En arkitektur for sekvensmodellering der repræsenterer skjulte tilstande via et struktureret lineært system og opnår lineær kompleksitet i sekvenslængden.

Kort fortalt

En type neuralt netværk der er særligt god til at håndtere lange sekvenser, fordi det bruger matematiske tilstande i stedet for dybe attention-mekanismer og dermed er hurtigere end transformere.

Kategori
arkitektur
Niveau
ekspert

Betydninger

1
  1. 1

    En modelklasse der anvender en parameteriseret lineær differential- eller differensligning til at overføre en inputsekvens til en outputsekvens via en skjult tilstand, og hvor systemmatricen (A) er struktureret (f.eks. diagonal + lavrang, HiPPO) for at tillade effektiv beregning med konvolution eller scanning.

    • Strukturerede tilstandsmodeller som S4 og Mamba har opnået state-of-the-art resultater på Long Range Arena-benchmarken.Gu et al., 2021
    • Vi implementerede en struktureret tilstandsmodel til realtidslydgenerering og observerede lineær tid i forhold til lydlængden.

Hvornår bruges det

Strukturerede tilstandsmodeller anvendes især til sprogmodellering, tidsrækker og lydsignalbehandling, hvor lange afhængigheder er vigtige. De er et alternativ til transformer-modeller, når ressourcer eller latens er begrænsede.

Oprindelse

Begrebet stammer fra kontrolteori og signalbehandling, hvor tilstandsrummodeller (state-space models) beskriver dynamiske systemer. Strukturen (f.eks. HiPPO-matrix) gør modellen beregningseffektiv.

Afledte ord

2

Kilder

2
  • Efficiently Modeling Long Sequences with Structured State Spaces
  • Mamba: Linear-Time Sequence Modeling with Selective State Spaces