Mamba

Mamba er en state space model-arkitektur designet til effektiv sekvensmodellering med lineær kompleksitet i sekvenslængden, der anvender en selektiv mekanisme til at fokusere på relevant information.

Kort fortalt

Mamba er en ny type AI-model, der kan håndtere lange sekvenser (som tekst eller lyde) hurtigere end traditionelle Transformers ved kun at fokusere på de vigtigste dele.

Kategori
arkitektur
Niveau
ekspert
Udtale
/ˈmambə/

Betydninger

1
  1. 1

    Den specifikke arkitektur introduceret af Gu og Dao i 2023, der kombinerer state space modeller med en selektiv scan-mekanisme for at opnå lineær tid og konstant hukommelse.

    • Mamba-modellen opnår sammenlignelig ydeevne med Transformers på sprogmodellering, men med væsentligt lavere beregningsomkostninger.Gu & Dao, 2023

Hvornår bruges det

Mamba anvendes i praksis til at erstatte Transformers i opgaver som sprogmodellering, sekvensklassifikation og lydbehandling, især når sekvenslængden er meget stor. Den er implementeret i biblioteker som Mamba og Hugging Face og bruges i forskning til at reducere beregningsomkostninger.

Formel

h_t = A * h_{t-1} + B * x_t, y_t = C * h_t + D * x_t, med selektive parametre A, B, C, D afhængige af input.

Kodeeksempel

from mamba_ssm import Mamba

batch, length, dim = 2, 64, 16
x = torch.randn(batch, length, dim)
model = Mamba(d_model=dim, d_state=16, d_conv=4, expand=2)
y = model(x)

Eksempel på brug af Mamba-modellen i Python med biblioteket mamba_ssm.

Oprindelse

Termen Mamba er opkaldt efter den giftige slange Mamba, der symboliserer hurtighed og effektivitet, samtidig med at det er et ordspil på 'model' (Mamba = Model + Amba?).

Afledte ord

2

Kilder

1