Mamba

Mamba er en state space model-arkitektur designet til effektiv sekvensmodellering med lineær kompleksitet i sekvenslængden, der anvender en selektiv mekanisme til at fokusere på relevant information.

Kort fortalt

Mamba er en ny type AI-model, der kan håndtere lange sekvenser (som tekst eller lyde) hurtigere end traditionelle Transformers ved kun at fokusere på de vigtigste dele.

Kategori: arkitektur
Niveau: ekspert
Udtale: /ˈmambə/

Betydninger

1
Den specifikke arkitektur introduceret af Gu og Dao i 2023, der kombinerer state space modeller med en selektiv scan-mekanisme for at opnå lineær tid og konstant hukommelse.
- Mamba-modellen opnår sammenlignelig ydeevne med Transformers på sprogmodellering, men med væsentligt lavere beregningsomkostninger. — Gu & Dao, 2023

Hvornår bruges det

Mamba anvendes i praksis til at erstatte Transformers i opgaver som sprogmodellering, sekvensklassifikation og lydbehandling, især når sekvenslængden er meget stor. Den er implementeret i biblioteker som Mamba og Hugging Face og bruges i forskning til at reducere beregningsomkostninger.

Formel

h_t = A * h_{t-1} + B * x_t, y_t = C * h_t + D * x_t, med selektive parametre A, B, C, D afhængige af input.

Kodeeksempel

from mamba_ssm import Mamba

batch, length, dim = 2, 64, 16
x = torch.randn(batch, length, dim)
model = Mamba(d_model=dim, d_state=16, d_conv=4, expand=2)
y = model(x)

Eksempel på brug af Mamba-modellen i Python med biblioteket mamba_ssm.

Oprindelse

Termen Mamba er opkaldt efter den giftige slange Mamba, der symboliserer hurtighed og effektivitet, samtidig med at det er et ordspil på 'model' (Mamba = Model + Amba?).

Afledte ord

Mamba-pipeline Mamba-2

Kilder

Mamba: Linear-Time Sequence Modeling with Selective State Spaces

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i arkitektur →Tilfældigt opslag →