selektiv tilstandsmodel-arkitektur
En neurale netværksarkitektur, der anvender en selektionsmekanisme i tilstandsrummet til at filtrere irrelevante input og opnå effektiv sekvensbehandling.
Kort fortalt
En avanceret type af tilstandsrummodel, der lærer at ignorere uvesentlig information og fokusere på det vigtige, så den kan behandle lange sekvenser hurtigt og præcist.
- Kategori
- arkitektur
- Niveau
- ekspert
- Udtale
- [selekˈtiːvˀ ˈtεlstandsmoˌdelˀ ɑːkiˈtεkˈtuːˀɐ]
Betydninger
1- 1
En arkitektur for sekvensmodeller, der kombinerer en tilstandsrummodel med en input-afhængig selektionsmekanisme, som dynamisk bestemmer, hvilke dele af inputtet der skal påvirke tilstanden.
- Den selektive tilstandsmodel-arkitektur i Mamba opnår lineær kompleksitet i forhold til sekvenslængden, hvilket gør den skalerbar til meget lange kontekster. — Gu og Dao, 'Mamba: Linear-Time Sequence Modeling with Selective State Spaces', 2023
Hvornår bruges det
Bruges primært i sprogmodellering, især til lange kontekster, og har vist sig at være et effektivt alternativ til transformermodeller. Arkitekturen realiseres typisk som en såkaldt Mamba-blok med inputafhængig selektiv opdatering af tilstandsvariabler.
Oprindelse
Termen er dannet af 'selektiv' (udvælgende), 'tilstandsmodel' (state space model, SSM) og 'arkitektur'. Den blev fremtrædende med Mamba-modellen (Gu og Dao, 2023), der introducerede en selektionsmekanisme i SSM'er.
Afledte ord
1Kilder
1- Mamba: Linear-Time Sequence Modeling with Selective State Spaces (2023)