prompt caching

Optimeringsteknik hvor dele af et prompt (typisk starten) gemmes i cache, så gentagen behandling undgås, hvilket reducerer latency og omkostninger.

Kort fortalt

En måde at få LLM'er til at svare hurtigere ved at gemme genbrugte dele af prompten i en buffer.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    Teknik hvor en del af en prompt, typisk startsekvensen eller en fast del (som systemprompt), caches af inferensmotoren, så efterfølgende anmodninger med samme præfiks undgår at genberegne hidden states for disse tokens, hvilket sparer compute og reducerer latens.

    • Ved at aktivere prompt caching kan man reducere svar-tiden for gentagne forespørgsler med op til 50%.OpenAI dokumentation, 2024
    • Prompt caching kræver at prompt-præfikset er identisk fra kald til kald; selv en lille forskel bryder cachen.

Hvornår bruges det

Prompt caching bruges især i API-kald til store sprogmodeller, hvor samme systemprompt eller lange kontekster gentages. Det kan skære betydeligt ned på behandlingstid og token-forbrug, men kræver at modellen understøtter cache-mekanismen.

Oprindelse

Sammensat af 'prompt' og 'caching' (caching er en generel datalogisk teknik til at gemme resultater for genbrug).

Kilder

1
  • OpenAI Prompt Caching Documentation