context window extension

Teknikker til at udvide den maksimale kontekstlængde en sprogmodel kan bearbejde i én fremadrettet passage.

Kort fortalt

Metoder der gør det muligt for en AI-model at 'huske' og forstå længere tekster, fx hele bøger eller lange samtaler.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    Samling af metoder til at forøge antallet af tokens en transformer-baseret model kan behandle som kontekst, ofte ud over den oprindelige træningslængde.

    • Med context window extension kan modellen nu håndtere dokumenter på over 100.000 tokens uden at miste sammenhæng.
    • Teknikken interpolerer positionsindkodningerne så de dækker et større spænd, hvilket muliggør længere kontekster.

Hvornår bruges det

Bruges når en model skal håndtere lange dokumenter, omfattende dialoger eller stor mængde kontekstinformation. Teknikker omfatter interpolering af positionsindkodninger, glidende vinduer og tilføjelse af hukommelsesmekanismer.

Oprindelse

Sammensat af 'context window' (kontekstvindue) og 'extension' (udvidelse).

Afledte ord

2

Kilder

2
  • Extending Context Window of Large Language Models via Position Interpolation
  • Ring Attention with Blockwise Transformers for Long Sequences