selektiv tilstandsmodel-arkitektur

En neurale netværksarkitektur, der anvender en selektionsmekanisme i tilstandsrummet til at filtrere irrelevante input og opnå effektiv sekvensbehandling.

Kort fortalt

En avanceret type af tilstandsrummodel, der lærer at ignorere uvesentlig information og fokusere på det vigtige, så den kan behandle lange sekvenser hurtigt og præcist.

Kategori
arkitektur
Niveau
ekspert
Udtale
[selekˈtiːvˀ ˈtεlstandsmoˌdelˀ ɑːkiˈtεkˈtuːˀɐ]

Betydninger

1
  1. 1

    En arkitektur for sekvensmodeller, der kombinerer en tilstandsrummodel med en input-afhængig selektionsmekanisme, som dynamisk bestemmer, hvilke dele af inputtet der skal påvirke tilstanden.

    • Den selektive tilstandsmodel-arkitektur i Mamba opnår lineær kompleksitet i forhold til sekvenslængden, hvilket gør den skalerbar til meget lange kontekster.Gu og Dao, 'Mamba: Linear-Time Sequence Modeling with Selective State Spaces', 2023

Hvornår bruges det

Bruges primært i sprogmodellering, især til lange kontekster, og har vist sig at være et effektivt alternativ til transformermodeller. Arkitekturen realiseres typisk som en såkaldt Mamba-blok med inputafhængig selektiv opdatering af tilstandsvariabler.

Oprindelse

Termen er dannet af 'selektiv' (udvælgende), 'tilstandsmodel' (state space model, SSM) og 'arkitektur'. Den blev fremtrædende med Mamba-modellen (Gu og Dao, 2023), der introducerede en selektionsmekanisme i SSM'er.

Afledte ord

1

Kilder

1
  • Mamba: Linear-Time Sequence Modeling with Selective State Spaces (2023)