Mamba-2
Mamba-2 er en state space model (SSM) med en selektiv mekanisme, der forbedrer effektiviteten for lange sekvenser ved at eliminere softmax-opmærksomhed.
Kort fortalt
En forbedret version af Mamba-arkitekturen, der opnår hurtigere behandling af lange sekvenser.
- Kategori
- arkitektur
- Niveau
- ekspert
- Udtale
- ˈmɑːmbə tuː
Betydninger
1- 1
En state space model-arkitektur, der udvider Mamba med en selektiv mekanisme og forbedret træningseffektivitet, uden brug af attention.
- Mamba-2 opnår lineær tidskompleksitet i forhold til sekvenslængden, hvilket gør den velegnet til lange dokumenter. — Forskningsartikel, 2024
- I modsætning til Transformere kræver Mamba-2 ikke softmax-opmærksomhed og kan derfor håndtere længere sekvenser mere effektivt. — Forskningsartikel, 2024
Hvornår bruges det
Mamba-2 bruges i stedet for Transformers til lange sekvenser i NLP, lyd og tidsserier, især når beregningsressourcerne er begrænsede. Det er særligt nyttigt til opgaver som sprogmodellering og sekvensklassifikation, hvor lange kontekster er kritiske.
Kodeeksempel
from mamba_ssm import Mamba2
model = Mamba2(
d_model=256,
d_state=64,
d_conv=4,
expand=2,
headdim=64,
)Oprettelse af en Mamba-2-model med standardparametre.
Oprindelse
Opkaldt efter den giftige slange Mamba; '2' angiver den anden version.
Afledte ord
1Kilder
2- Mamba-2: Selective State Space Models
- Mamba: Linear-Time Sequence Modeling with Selective State Spaces