positionsinterpolering

Teknik til at udvide kontekstlængden i transformermodeller ved at skalere positionsindekser, så de passer ind i det oprindelige positionsinterval.

Kort fortalt

En metode, der gør det muligt for en sprogmodel at håndtere længere tekster, end den oprindeligt er trænet til, ved at 'strække' positionsnumrene.

Kategori: teknik
Niveau: øvet

Betydninger

1
Skalering af positionsindekser i rotary position embedding (RoPE) således at en model trænet på sekvenser af længde L kan generalisere til længere sekvenser uden at ændre vægtene væsentligt.
- Ved positionsinterpolering ganges positionsindekserne med faktoren L/L', hvor L' er den nye kontekstlængde. — forskningsartikel, 2023
- Positionsinterpolering gjorde det muligt at udvide GPT-NeoX-20B's kontekst fra 2048 til 8192 tokens uden kvalitetsforringelse. — forskningsartikel, 2023

Hvornår bruges det

Bruges når man vil finjustere en model med RoPE-positionering til at understøtte længere kontekst uden fuld genoptræning. Anvendes typisk i forbindelse med kontinuerlig prætræning eller finjustering på længere sekvenser.

Oprindelse

Termen er dannet af 'position' og 'interpolering' direkte oversat fra engelsk 'position interpolation'. Metoden blev introduceret i 2023 i forbindelse med RoPE-baserede sprogmodeller.

Kilder

Extending Context Window of Large Language Models via Position Interpolation

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →