prefix cache
En teknik, der gemmer mellemregninger (key-value-cache) for et indledende prompt-segment, så gentagen inferens med samme prefix kan genbruge dem og undgå genberegning.
Kort fortalt
Prefix caching gemmer resultaterne fra de første trin af en AI-model, så du slipper for at regne det samme om igen, hvis du gentager starten af din prompt.
- Kategori
- teknik
- Niveau
- øvet
- Udtale
- /ˈpriːfɪks kæʃ/
Betydninger
1- 1
En teknik, hvor key-value-cachen fra tidligere lagrede tokenrepræsentationer for et indledende prompt-segment (prefix) gemmes, så efterfølgende tokens i samme sekvens kan genereres uden at genberegne prefix-delen.
- Prefix caching kan reducere time-to-first-token markant for lange systemprompts.
- Ved brug af prefix caching genberegnes de første 200 tokens ikke for hver ny forespørgsel.
Hvornår bruges det
Bruges typisk i LLM-servingsplatforme for at reducere latency og øge gennemløb, når mange brugere deler et fælles prompt-start, f.eks. en systeminstruktion eller en lang kontekst. Implementeres i inferens-engines som vLLM, TensorRT-LLM og Hugging Face TGI.
Kodeeksempel
from vllm import LLM
llm = LLM(model="meta-llama/Llama-2-7b-hf", enable_prefix_caching=True)
output = llm.generate("Hello, world!")Aktivering af prefix caching i vLLM ved at sætte flaget enable_prefix_caching=True.
Oprindelse
"Prefix" refererer til starten af en prompt, og "cache" til genbrug af beregnede værdier, populært i optimering til LLM-inferens omkring 2023-2024 med fremkomsten af dedikerede serving frameworks.