Mamba-2

Mamba-2 er en state space model (SSM) med en selektiv mekanisme, der forbedrer effektiviteten for lange sekvenser ved at eliminere softmax-opmærksomhed.

Kort fortalt

En forbedret version af Mamba-arkitekturen, der opnår hurtigere behandling af lange sekvenser.

Kategori
arkitektur
Niveau
ekspert
Udtale
ˈmɑːmbə tuː

Betydninger

1
  1. 1

    En state space model-arkitektur, der udvider Mamba med en selektiv mekanisme og forbedret træningseffektivitet, uden brug af attention.

    • Mamba-2 opnår lineær tidskompleksitet i forhold til sekvenslængden, hvilket gør den velegnet til lange dokumenter.Forskningsartikel, 2024
    • I modsætning til Transformere kræver Mamba-2 ikke softmax-opmærksomhed og kan derfor håndtere længere sekvenser mere effektivt.Forskningsartikel, 2024

Hvornår bruges det

Mamba-2 bruges i stedet for Transformers til lange sekvenser i NLP, lyd og tidsserier, især når beregningsressourcerne er begrænsede. Det er særligt nyttigt til opgaver som sprogmodellering og sekvensklassifikation, hvor lange kontekster er kritiske.

Kodeeksempel

from mamba_ssm import Mamba2

model = Mamba2(
    d_model=256,
    d_state=64,
    d_conv=4,
    expand=2,
    headdim=64,
)

Oprettelse af en Mamba-2-model med standardparametre.

Oprindelse

Opkaldt efter den giftige slange Mamba; '2' angiver den anden version.

Afledte ord

1

Kilder

2
  • Mamba-2: Selective State Space Models
  • Mamba: Linear-Time Sequence Modeling with Selective State Spaces