context cache
En teknik, der gemmer mellemliggende repræsentationer (KV-cache) af tidligere behandlede tokens for at undgå genberegning under inferens af sprogmodeller.
Kort fortalt
En metode, der gemmer de beregnede informationer fra tidligere dele af en samtale, så modellen ikke skal genberegne dem, hvilket gør svar hurtigere.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
En optimeringsteknik i transformer-baserede sprogmodeller, hvor Key-Value-cachen (KV-cachen) fra tidligere beregnede tokens gemmes i hukommelsen og genbruges ved efterfølgende generationstrin, så kun nye tokens kræver fuld beregning.
- Ved brug af context cache kan en LLM genbruge KV-cachen fra tidligere svar, hvilket reducerer tiden per nyt token markant. — Teknisk dokumentation, 2024
- Context cache er afgørende for effektiv inferens i lange samtaler, da det undgår at genberegne hele prompten hver gang.
Hvornår bruges det
Context cache anvendes primært ved inferens af store sprogmodeller (LLM'er) i flertrinsdialoger eller ved behandling af lange dokumenter. Det reducerer latens og beregningsomkostninger betydeligt, især når prompten delvist gentages.
Oprindelse
Sammensat af 'context' (sammenhæng) og 'cache' (skjult lager), med oprindelse i transformerarkitekturens attention-mekanisme, hvor Key-Value-cachen gemmes pr. lag.
Afledte ord
2Kilder
2- FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness
- LLM Inference Performance Engineering: Best Practices