Mamba-2-arkitektur
Mamba-2 er en state space model (SSM) arkitektur, der forbedrer Mamba ved at introducere state space duality (SSD) for effektiv sekventiel behandling uden opmærksomhedsmekanismer.
Kort fortalt
Mamba-2 er en ny type neural netværksarkitektur, der behandler sekvenser hurtigere end transformere ved at bruge en matematisk dualitet mellem state spaces og lineær opmærksomhed.
- Kategori
- arkitektur
- Niveau
- ekspert
Betydninger
1- 1
En state space model (SSM) arkitektur, der udnytter state space duality (SSD) til at opnå lineær kompleksitet i sekvenslængden, samtidig med at den opretholder transformer-lignende ydeevne.
- Mamba-2-arkitekturen overgår transformere på flere benchmarktests for sprogmodellering, samtidig med at den bruger færre parametre. — Mamba-2: State Space Duality, 2024
- Forskere har med succes implementeret Mamba-2-arkitekturen i en stor sprogmodel til at behandle kontekster på over 1 million tokens.
Hvornår bruges det
Mamba-2 anvendes primært til effektiv sekvensmodellering i naturlig sprogbehandling og tidsserieanalyse, især når lange kontekster er påkrævet. Arkitekturen er designet til at erstatte transformere i store sprogmodeller og gives som et drop-in alternativ i framework som Hugging Face Transformers.
Formel
h_t = A h_{t-1} + B x_t, y_t = C h_t, hvor A, B, C er lærebare parametre og struktureret via SSD.Kodeeksempel
from transformers import Mamba2ForCausalLM, AutoTokenizer
model = Mamba2ForCausalLM.from_pretrained('state-spaces/mamba2-2.7b')
tokenizer = AutoTokenizer.from_pretrained('state-spaces/mamba2-2.7b')
inputs = tokenizer('Hello, how are you?', return_tensors='pt')
outputs = model.generate(**inputs, max_length=50)
print(tokenizer.decode(outputs[0]))Eksempel på indlæsning og brug af en Mamba-2-model via Hugging Face Transformers.
Oprindelse
Navnet 'Mamba' refererer til den giftige slange, der symboliserer hurtighed, og '2' angiver den anden version af arkitekturen. Begrebet 'arkitektur' beskriver den overordnede modelstruktur.
Kilder
2- Mamba-2: State Space Duality
- Hugging Face Mamba-2 dokumentation