Mamba
Mamba er en state space model-arkitektur designet til effektiv sekvensmodellering med lineær kompleksitet i sekvenslængden, der anvender en selektiv mekanisme til at fokusere på relevant information.
Kort fortalt
Mamba er en ny type AI-model, der kan håndtere lange sekvenser (som tekst eller lyde) hurtigere end traditionelle Transformers ved kun at fokusere på de vigtigste dele.
- Kategori
- arkitektur
- Niveau
- ekspert
- Udtale
- /ˈmambə/
Betydninger
1- 1
Den specifikke arkitektur introduceret af Gu og Dao i 2023, der kombinerer state space modeller med en selektiv scan-mekanisme for at opnå lineær tid og konstant hukommelse.
- Mamba-modellen opnår sammenlignelig ydeevne med Transformers på sprogmodellering, men med væsentligt lavere beregningsomkostninger. — Gu & Dao, 2023
Hvornår bruges det
Mamba anvendes i praksis til at erstatte Transformers i opgaver som sprogmodellering, sekvensklassifikation og lydbehandling, især når sekvenslængden er meget stor. Den er implementeret i biblioteker som Mamba og Hugging Face og bruges i forskning til at reducere beregningsomkostninger.
Formel
h_t = A * h_{t-1} + B * x_t, y_t = C * h_t + D * x_t, med selektive parametre A, B, C, D afhængige af input.Kodeeksempel
from mamba_ssm import Mamba
batch, length, dim = 2, 64, 16
x = torch.randn(batch, length, dim)
model = Mamba(d_model=dim, d_state=16, d_conv=4, expand=2)
y = model(x)Eksempel på brug af Mamba-modellen i Python med biblioteket mamba_ssm.
Oprindelse
Termen Mamba er opkaldt efter den giftige slange Mamba, der symboliserer hurtighed og effektivitet, samtidig med at det er et ordspil på 'model' (Mamba = Model + Amba?).