prefix cache

En teknik, der gemmer mellemregninger (key-value-cache) for et indledende prompt-segment, så gentagen inferens med samme prefix kan genbruge dem og undgå genberegning.

Kort fortalt

Prefix caching gemmer resultaterne fra de første trin af en AI-model, så du slipper for at regne det samme om igen, hvis du gentager starten af din prompt.

Kategori
teknik
Niveau
øvet
Udtale
/ˈpriːfɪks kæʃ/

Betydninger

1
  1. 1

    En teknik, hvor key-value-cachen fra tidligere lagrede tokenrepræsentationer for et indledende prompt-segment (prefix) gemmes, så efterfølgende tokens i samme sekvens kan genereres uden at genberegne prefix-delen.

    • Prefix caching kan reducere time-to-first-token markant for lange systemprompts.
    • Ved brug af prefix caching genberegnes de første 200 tokens ikke for hver ny forespørgsel.

Hvornår bruges det

Bruges typisk i LLM-servingsplatforme for at reducere latency og øge gennemløb, når mange brugere deler et fælles prompt-start, f.eks. en systeminstruktion eller en lang kontekst. Implementeres i inferens-engines som vLLM, TensorRT-LLM og Hugging Face TGI.

Kodeeksempel

from vllm import LLM

llm = LLM(model="meta-llama/Llama-2-7b-hf", enable_prefix_caching=True)
output = llm.generate("Hello, world!")

Aktivering af prefix caching i vLLM ved at sætte flaget enable_prefix_caching=True.

Oprindelse

"Prefix" refererer til starten af en prompt, og "cache" til genbrug af beregnede værdier, populært i optimering til LLM-inferens omkring 2023-2024 med fremkomsten af dedikerede serving frameworks.

Kilder

2