inferenshastighed

Den hastighed, hvormed en trænet model behandler inputdata og genererer forudsigelser, typisk målt i tokens per sekund eller samples per sekund.

Kort fortalt

Hvor hurtigt en trænet AI-model kan lave forudsigelser efter træningen.

Kategori
begreb
Niveau
begynder
Udtale
/infəˈʁɛnsˌhastihɛð/

Betydninger

1
  1. 1

    Måling af, hvor mange inferenser (forudsigelser) en model kan udføre pr. tidsenhed.

    • Modellens inferenshastighed var 30 tokens per sekund på en CPU.
    • Ved at kvantisere modellen blev inferenshastigheden fordoblet.

Hvornår bruges det

Inferenshastighed er en central metrik ved implementering af modeller i produktion, især i realtidssystemer som chatbots eller selvkørende biler. Den påvirkes af faktorer som modelarkitektur, hardware og optimeringsteknikker som kvantisering.

Oprindelse

'Inferens' kommer fra latin 'inferre' (at bringe ind), og 'hastighed' fra oldnordisk 'hast' (hurtig).