positionsinterpolering
Teknik til at udvide kontekstlængden i transformermodeller ved at skalere positionsindekser, så de passer ind i det oprindelige positionsinterval.
Kort fortalt
En metode, der gør det muligt for en sprogmodel at håndtere længere tekster, end den oprindeligt er trænet til, ved at 'strække' positionsnumrene.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
Skalering af positionsindekser i rotary position embedding (RoPE) således at en model trænet på sekvenser af længde L kan generalisere til længere sekvenser uden at ændre vægtene væsentligt.
- Ved positionsinterpolering ganges positionsindekserne med faktoren L/L', hvor L' er den nye kontekstlængde. — forskningsartikel, 2023
- Positionsinterpolering gjorde det muligt at udvide GPT-NeoX-20B's kontekst fra 2048 til 8192 tokens uden kvalitetsforringelse. — forskningsartikel, 2023
Hvornår bruges det
Bruges når man vil finjustere en model med RoPE-positionering til at understøtte længere kontekst uden fuld genoptræning. Anvendes typisk i forbindelse med kontinuerlig prætræning eller finjustering på længere sekvenser.
Oprindelse
Termen er dannet af 'position' og 'interpolering' direkte oversat fra engelsk 'position interpolation'. Metoden blev introduceret i 2023 i forbindelse med RoPE-baserede sprogmodeller.
Kilder
1- Extending Context Window of Large Language Models via Position Interpolation