context cache

En teknik, der gemmer mellemliggende repræsentationer (KV-cache) af tidligere behandlede tokens for at undgå genberegning under inferens af sprogmodeller.

Kort fortalt

En metode, der gemmer de beregnede informationer fra tidligere dele af en samtale, så modellen ikke skal genberegne dem, hvilket gør svar hurtigere.

Kategori: teknik
Niveau: øvet

Betydninger

1
En optimeringsteknik i transformer-baserede sprogmodeller, hvor Key-Value-cachen (KV-cachen) fra tidligere beregnede tokens gemmes i hukommelsen og genbruges ved efterfølgende generationstrin, så kun nye tokens kræver fuld beregning.
- Ved brug af context cache kan en LLM genbruge KV-cachen fra tidligere svar, hvilket reducerer tiden per nyt token markant. — Teknisk dokumentation, 2024
- Context cache er afgørende for effektiv inferens i lange samtaler, da det undgår at genberegne hele prompten hver gang.

Hvornår bruges det

Context cache anvendes primært ved inferens af store sprogmodeller (LLM'er) i flertrinsdialoger eller ved behandling af lange dokumenter. Det reducerer latens og beregningsomkostninger betydeligt, især når prompten delvist gentages.

Oprindelse

Sammensat af 'context' (sammenhæng) og 'cache' (skjult lager), med oprindelse i transformerarkitekturens attention-mekanisme, hvor Key-Value-cachen gemmes pr. lag.

Afledte ord

KV cache prefix cache

Kilder

FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness
LLM Inference Performance Engineering: Best Practices

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →