relativ positional encoding
En metode til at indkode positioner i en transformer ved at repræsentere den relative afstand mellem elementer i stedet for absolutte positioner.
Kort fortalt
Det er en teknik, der fortæller en transformer-model, hvor langt væk ord er fra hinanden, i stedet for at give dem faste pladsnumre.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
En teknik inden for transformer-arkitekturer, hvor positionsinformation indkodes som relative afstande mellem elementer i inputsekvensen, typisk anvendt i selv-opmærksomhedsmekanismen for at opnå translationel invarians.
- I T5-modellen anvendes relativ positional encoding til at håndtere positioneringsinformation på en måde, der generaliserer bedre til varierende sekvenslængder. — Raffel et al., 2020
- Transformer-XL anvender relativ positional encoding for at muliggøre modellering af ekstra lange sekvenser uden at øge antallet af parametre markant. — Dai et al., 2019
Hvornår bruges det
Bruges typisk i transformer-modeller til at forbedre generalisering til længere sekvenser, især i modeller som T5 og Transformer-XL. Det tillader modellen at lære mønstre baseret på afstande frem for absolutte positioner.
Oprindelse
Begrebet blev introduceret af Shaw et al. (2018) i artiklen 'Self-Attention with Relative Position Representations'.