Inference server
En server eller tjeneste, der kører en trænet AI-model og leverer inferensresultater via en API.
Kort fortalt
En inference server er som en restaurantkøkken, der tager imod bestillinger (inputdata), tilbereder dem med en opskrift (AI-modellen) og serverer retterne (svar) – alt sammen i realtid.
- Kategori
- værktøj
- Niveau
- øvet
Betydninger
1- 1
En softwarekomponent eller infrastruktur, der eksponerer en trænet AI-model via en API, så klienter kan sende data og modtage forudsigelser i realtid.
- Vi deployerede vores sprogmodel på en NVIDIA Triton Inference Server for at opnå lav latenstid.
- Inference serveren håndterer tusindvis af forespørgsler i sekundet ved at batchbehandle dem.
Hvornår bruges det
Inference servere bruges i produktion til at betjene AI-modeller for applikationer, fx til chatbots, billedgenkendelse eller anbefalingssystemer. De optimeres typisk for lav latenstid og høj throughput, ofte med batchbehandling og hardwareacceleration (GPU/TPU). Populære inference servers inkluderer TensorFlow Serving, NVIDIA Triton Inference Server og TorchServe.
Kodeeksempel
import requests
response = requests.post(
'http://localhost:8080/v1/models/my_model:predict',
json={'inputs': [[1.0, 2.0, 3.0]]}
)
print(response.json())Eksempel på at sende en HTTP-forespørgsel til en inference server, der hoster en model.
Oprindelse
Sammensat af 'inference' (slutning/deduktion i AI) og 'server' (en computer eller tjeneste, der leverer ressourcer).