Mamba-blok
Mamba-blok er den grundlæggende byggesten i Mamba-modellen, en state space model (SSM) der bruger en selektiv scanning-mekanisme til at opnå lineær tid og hukommelse i forhold til sekvenslængden.
Kort fortalt
Mamba-blokken er en smartere måde at behandle sekvenser på, der kan kigge på hele sekvensen uden at skulle sammenligne alle par, hvilket gør den hurtigere end Transformers for lange sekvenser.
- Kategori
- arkitektur
- Niveau
- øvet
Betydninger
1- 1
En arkitekturkomponent i Mamba-modellen, der består af en selektiv state space model (SSM) med diskretisering og input-afhængige parametre, hvilket giver lineær kompleksitet i sekvenslængden.
- Mamba-blokken erstatter self-attention i Transformers og opnår lineær kompleksitet, hvilket gør den velegnet til lange sekvenser. — Gu & Dao, 2023
- I Mamba-modellen anvendes Mamba-blokke stablet i flere lag for at opbygge hierarkiske repræsentationer. — Gu & Dao, 2023
Hvornår bruges det
Mamba-blokken bruges som erstatning for Transformer-blokke i sekvensmodelleringsopgaver, især når sekvenslængden er stor (f.eks. lange dokumenter, DNA-sekvenser, lyd). Den indgår i Mamba-arkitekturen, der stabler flere blokke i dybden.
Oprindelse
Termen er afledt af Mamba-modellen, som igen er opkaldt efter den giftige slange mamba, sandsynligvis som en reference til dens hurtighed og effektivitet. Modellen blev introduceret af Albert Gu og Tri Dao i 2023.