Mamba-2-arkitektur

Mamba-2 er en state space model (SSM) arkitektur, der forbedrer Mamba ved at introducere state space duality (SSD) for effektiv sekventiel behandling uden opmærksomhedsmekanismer.

Kort fortalt

Mamba-2 er en ny type neural netværksarkitektur, der behandler sekvenser hurtigere end transformere ved at bruge en matematisk dualitet mellem state spaces og lineær opmærksomhed.

Kategori
arkitektur
Niveau
ekspert

Betydninger

1
  1. 1

    En state space model (SSM) arkitektur, der udnytter state space duality (SSD) til at opnå lineær kompleksitet i sekvenslængden, samtidig med at den opretholder transformer-lignende ydeevne.

    • Mamba-2-arkitekturen overgår transformere på flere benchmarktests for sprogmodellering, samtidig med at den bruger færre parametre.Mamba-2: State Space Duality, 2024
    • Forskere har med succes implementeret Mamba-2-arkitekturen i en stor sprogmodel til at behandle kontekster på over 1 million tokens.

Hvornår bruges det

Mamba-2 anvendes primært til effektiv sekvensmodellering i naturlig sprogbehandling og tidsserieanalyse, især når lange kontekster er påkrævet. Arkitekturen er designet til at erstatte transformere i store sprogmodeller og gives som et drop-in alternativ i framework som Hugging Face Transformers.

Formel

h_t = A h_{t-1} + B x_t, y_t = C h_t, hvor A, B, C er lærebare parametre og struktureret via SSD.

Kodeeksempel

from transformers import Mamba2ForCausalLM, AutoTokenizer

model = Mamba2ForCausalLM.from_pretrained('state-spaces/mamba2-2.7b')
tokenizer = AutoTokenizer.from_pretrained('state-spaces/mamba2-2.7b')

inputs = tokenizer('Hello, how are you?', return_tensors='pt')
outputs = model.generate(**inputs, max_length=50)
print(tokenizer.decode(outputs[0]))

Eksempel på indlæsning og brug af en Mamba-2-model via Hugging Face Transformers.

Oprindelse

Navnet 'Mamba' refererer til den giftige slange, der symboliserer hurtighed, og '2' angiver den anden version af arkitekturen. Begrebet 'arkitektur' beskriver den overordnede modelstruktur.

Kilder

2
  • Mamba-2: State Space Duality
  • Hugging Face Mamba-2 dokumentation