Mamba-2

Mamba-2 er en state space model (SSM) med en selektiv mekanisme, der forbedrer effektiviteten for lange sekvenser ved at eliminere softmax-opmærksomhed.

Kort fortalt

En forbedret version af Mamba-arkitekturen, der opnår hurtigere behandling af lange sekvenser.

Kategori: arkitektur
Niveau: ekspert
Udtale: ˈmɑːmbə tuː

Betydninger

1
En state space model-arkitektur, der udvider Mamba med en selektiv mekanisme og forbedret træningseffektivitet, uden brug af attention.
- Mamba-2 opnår lineær tidskompleksitet i forhold til sekvenslængden, hvilket gør den velegnet til lange dokumenter. — Forskningsartikel, 2024
- I modsætning til Transformere kræver Mamba-2 ikke softmax-opmærksomhed og kan derfor håndtere længere sekvenser mere effektivt. — Forskningsartikel, 2024

Hvornår bruges det

Mamba-2 bruges i stedet for Transformers til lange sekvenser i NLP, lyd og tidsserier, især når beregningsressourcerne er begrænsede. Det er særligt nyttigt til opgaver som sprogmodellering og sekvensklassifikation, hvor lange kontekster er kritiske.

Kodeeksempel

from mamba_ssm import Mamba2

model = Mamba2(
    d_model=256,
    d_state=64,
    d_conv=4,
    expand=2,
    headdim=64,
)

Oprettelse af en Mamba-2-model med standardparametre.

Oprindelse

Opkaldt efter den giftige slange Mamba; '2' angiver den anden version.

Afledte ord

Mamba-2-arkitektur

Kilder

Mamba-2: Selective State Space Models
Mamba: Linear-Time Sequence Modeling with Selective State Spaces

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i arkitektur →Tilfældigt opslag →