relativ positional encoding

En metode til at indkode positioner i en transformer ved at repræsentere den relative afstand mellem elementer i stedet for absolutte positioner.

Kort fortalt

Det er en teknik, der fortæller en transformer-model, hvor langt væk ord er fra hinanden, i stedet for at give dem faste pladsnumre.

Kategori: teknik
Niveau: øvet

Betydninger

1
En teknik inden for transformer-arkitekturer, hvor positionsinformation indkodes som relative afstande mellem elementer i inputsekvensen, typisk anvendt i selv-opmærksomhedsmekanismen for at opnå translationel invarians.
- I T5-modellen anvendes relativ positional encoding til at håndtere positioneringsinformation på en måde, der generaliserer bedre til varierende sekvenslængder. — Raffel et al., 2020
- Transformer-XL anvender relativ positional encoding for at muliggøre modellering af ekstra lange sekvenser uden at øge antallet af parametre markant. — Dai et al., 2019

Hvornår bruges det

Bruges typisk i transformer-modeller til at forbedre generalisering til længere sekvenser, især i modeller som T5 og Transformer-XL. Det tillader modellen at lære mønstre baseret på afstande frem for absolutte positioner.

Oprindelse

Begrebet blev introduceret af Shaw et al. (2018) i artiklen 'Self-Attention with Relative Position Representations'.

Afledte ord

relativ positional bias relativ attention

Kilder

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →