relativ positional encoding

En metode til at indkode positioner i en transformer ved at repræsentere den relative afstand mellem elementer i stedet for absolutte positioner.

Kort fortalt

Det er en teknik, der fortæller en transformer-model, hvor langt væk ord er fra hinanden, i stedet for at give dem faste pladsnumre.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    En teknik inden for transformer-arkitekturer, hvor positionsinformation indkodes som relative afstande mellem elementer i inputsekvensen, typisk anvendt i selv-opmærksomhedsmekanismen for at opnå translationel invarians.

    • I T5-modellen anvendes relativ positional encoding til at håndtere positioneringsinformation på en måde, der generaliserer bedre til varierende sekvenslængder.Raffel et al., 2020
    • Transformer-XL anvender relativ positional encoding for at muliggøre modellering af ekstra lange sekvenser uden at øge antallet af parametre markant.Dai et al., 2019

Hvornår bruges det

Bruges typisk i transformer-modeller til at forbedre generalisering til længere sekvenser, især i modeller som T5 og Transformer-XL. Det tillader modellen at lære mønstre baseret på afstande frem for absolutte positioner.

Oprindelse

Begrebet blev introduceret af Shaw et al. (2018) i artiklen 'Self-Attention with Relative Position Representations'.

Afledte ord

2

Kilder

2