inferenshastighed
Den hastighed, hvormed en trænet model behandler inputdata og genererer forudsigelser, typisk målt i tokens per sekund eller samples per sekund.
Kort fortalt
Hvor hurtigt en trænet AI-model kan lave forudsigelser efter træningen.
- Kategori
- begreb
- Niveau
- begynder
- Udtale
- /infəˈʁɛnsˌhastihɛð/
Betydninger
1- 1
Måling af, hvor mange inferenser (forudsigelser) en model kan udføre pr. tidsenhed.
- Modellens inferenshastighed var 30 tokens per sekund på en CPU.
- Ved at kvantisere modellen blev inferenshastigheden fordoblet.
Hvornår bruges det
Inferenshastighed er en central metrik ved implementering af modeller i produktion, især i realtidssystemer som chatbots eller selvkørende biler. Den påvirkes af faktorer som modelarkitektur, hardware og optimeringsteknikker som kvantisering.
Oprindelse
'Inferens' kommer fra latin 'inferre' (at bringe ind), og 'hastighed' fra oldnordisk 'hast' (hurtig).