cross-attention lag

Fenomen i transformer-modeller hvor kryds-opmærksomhedsmekanismen introducerer en forsinkelse i at tilpasse information mellem kilde- og målsekvens.

Kort fortalt

Når en model har svært ved hurtigt at finde de rigtige steder i inputtet, fordi kryds-opmærksomheden er langsom eller ineffektiv.

Kategori
begreb
Niveau
øvet

Betydninger

2
  1. 1

    Den tidsmæssige forsinkelse eller ineffektivitet i at beregne opmærksomhedsvægte mellem forskellige sekvenser i en transformer, typisk i encoder-decoder-arkitekturer.

    • Cross-attention lag kan føre til langsommere inferens i maskinoversættelsesmodeller ved lange sætninger.Forskningsartikel, 2023
  2. 2

    I generative modeller betegner cross-attention lag den forsinkelse, hvormed modellen justerer sin opmærksomhed på outputtet baseret på nyt input.

    • Ved billedtekstgenerering observeres cross-attention lag, når modellen først fokuserer på forkerte områder, før den retter sig ind.

Hvornår bruges det

Cross-attention lag ses ofte i seq2seq-modeller med lange sekvenser, hvor modellen bruger uforholdsmæssig lang tid på at fokusere på relevante dele af inputtet. Det kan afbødes med teknikker som sparsom opmærksomhed eller positionskodning.

Oprindelse

Sammensat af 'cross-attention' (kryds-opmærksomhed) og 'lag' (forsinkelse). Begrebet opstod i diskussioner om effektiviteten af transformer-modeller.

Afledte ord

2

Kilder

1
  • Attention Is All You Need (2017)