Mamba

Mamba er en modelarkitektur til sekvensmodellering baseret på selective state space models, der opnår lineær kompleksitet og overgår Transformers på langtrækkende opgaver.

Kort fortalt

Mamba er en ny type neuralt netværk, der kan håndtere meget lange sekvenser langt hurtigere end Transformers ved at erstatte attention med en selektiv tilstandsmodel.

Kategori
arkitektur
Niveau
ekspert
Udtale
/ˈmɑːmbɑː/

Betydninger

1
  1. 1

    En sekvensmodelleringsarkitektur baseret på selective state space models (SSM'er) der opnår lineær kompleksitet ved at indføre en datatilpasset mekanisme, der selektivt aktiverer tilstandsovergange.

    • Mamba opnår lineær tidsinferens og overgår Transformers på langtrækkende opgaver.Albert Gu og Tri Dao, 'Mamba: Linear-Time Sequence Modeling with Selective State Spaces', 2023
    • Mamba-arkitekturen eliminerer behovet for attention ved at bruge en gated SSM.

Hvornår bruges det

Mamba anvendes i forskning og applikationer inden for langsekvensmodellering, såsom DNA-analyse, lydbehandling og tidsserieforudsigelse, hvor det kan erstatte Transformers med væsentligt lavere beregningsomkostninger.

Oprindelse

Navnet 'Mamba' er taget fra slangarten, men den præcise sproglige oprindelse i AI-sammenhæng er ikke officielt dokumenteret; det menes at være valgt for at antyde hurtighed og effektivitet.

Kilder

1
  • Mamba: Linear-Time Sequence Modeling with Selective State Spaces (2023)