positionsinterpolering

Teknik til at udvide kontekstlængden i transformermodeller ved at skalere positionsindekser, så de passer ind i det oprindelige positionsinterval.

Kort fortalt

En metode, der gør det muligt for en sprogmodel at håndtere længere tekster, end den oprindeligt er trænet til, ved at 'strække' positionsnumrene.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    Skalering af positionsindekser i rotary position embedding (RoPE) således at en model trænet på sekvenser af længde L kan generalisere til længere sekvenser uden at ændre vægtene væsentligt.

    • Ved positionsinterpolering ganges positionsindekserne med faktoren L/L', hvor L' er den nye kontekstlængde.forskningsartikel, 2023
    • Positionsinterpolering gjorde det muligt at udvide GPT-NeoX-20B's kontekst fra 2048 til 8192 tokens uden kvalitetsforringelse.forskningsartikel, 2023

Hvornår bruges det

Bruges når man vil finjustere en model med RoPE-positionering til at understøtte længere kontekst uden fuld genoptræning. Anvendes typisk i forbindelse med kontinuerlig prætræning eller finjustering på længere sekvenser.

Oprindelse

Termen er dannet af 'position' og 'interpolering' direkte oversat fra engelsk 'position interpolation'. Metoden blev introduceret i 2023 i forbindelse med RoPE-baserede sprogmodeller.

Kilder

1
  • Extending Context Window of Large Language Models via Position Interpolation