context cache

En teknik, der gemmer mellemliggende repræsentationer (KV-cache) af tidligere behandlede tokens for at undgå genberegning under inferens af sprogmodeller.

Kort fortalt

En metode, der gemmer de beregnede informationer fra tidligere dele af en samtale, så modellen ikke skal genberegne dem, hvilket gør svar hurtigere.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    En optimeringsteknik i transformer-baserede sprogmodeller, hvor Key-Value-cachen (KV-cachen) fra tidligere beregnede tokens gemmes i hukommelsen og genbruges ved efterfølgende generationstrin, så kun nye tokens kræver fuld beregning.

    • Ved brug af context cache kan en LLM genbruge KV-cachen fra tidligere svar, hvilket reducerer tiden per nyt token markant.Teknisk dokumentation, 2024
    • Context cache er afgørende for effektiv inferens i lange samtaler, da det undgår at genberegne hele prompten hver gang.

Hvornår bruges det

Context cache anvendes primært ved inferens af store sprogmodeller (LLM'er) i flertrinsdialoger eller ved behandling af lange dokumenter. Det reducerer latens og beregningsomkostninger betydeligt, især når prompten delvist gentages.

Oprindelse

Sammensat af 'context' (sammenhæng) og 'cache' (skjult lager), med oprindelse i transformerarkitekturens attention-mekanisme, hvor Key-Value-cachen gemmes pr. lag.

Afledte ord

2

Kilder

2
  • FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness
  • LLM Inference Performance Engineering: Best Practices