Mamba-blok

Mamba-blok er den grundlæggende byggesten i Mamba-modellen, en state space model (SSM) der bruger en selektiv scanning-mekanisme til at opnå lineær tid og hukommelse i forhold til sekvenslængden.

Kort fortalt

Mamba-blokken er en smartere måde at behandle sekvenser på, der kan kigge på hele sekvensen uden at skulle sammenligne alle par, hvilket gør den hurtigere end Transformers for lange sekvenser.

Kategori
arkitektur
Niveau
øvet

Betydninger

1
  1. 1

    En arkitekturkomponent i Mamba-modellen, der består af en selektiv state space model (SSM) med diskretisering og input-afhængige parametre, hvilket giver lineær kompleksitet i sekvenslængden.

    • Mamba-blokken erstatter self-attention i Transformers og opnår lineær kompleksitet, hvilket gør den velegnet til lange sekvenser.Gu & Dao, 2023
    • I Mamba-modellen anvendes Mamba-blokke stablet i flere lag for at opbygge hierarkiske repræsentationer.Gu & Dao, 2023

Hvornår bruges det

Mamba-blokken bruges som erstatning for Transformer-blokke i sekvensmodelleringsopgaver, især når sekvenslængden er stor (f.eks. lange dokumenter, DNA-sekvenser, lyd). Den indgår i Mamba-arkitekturen, der stabler flere blokke i dybden.

Oprindelse

Termen er afledt af Mamba-modellen, som igen er opkaldt efter den giftige slange mamba, sandsynligvis som en reference til dens hurtighed og effektivitet. Modellen blev introduceret af Albert Gu og Tri Dao i 2023.

Afledte ord

2

Kilder

1