Inference server

En server eller tjeneste, der kører en trænet AI-model og leverer inferensresultater via en API.

Kort fortalt

En inference server er som en restaurantkøkken, der tager imod bestillinger (inputdata), tilbereder dem med en opskrift (AI-modellen) og serverer retterne (svar) – alt sammen i realtid.

Kategori
værktøj
Niveau
øvet

Betydninger

1
  1. 1

    En softwarekomponent eller infrastruktur, der eksponerer en trænet AI-model via en API, så klienter kan sende data og modtage forudsigelser i realtid.

    • Vi deployerede vores sprogmodel på en NVIDIA Triton Inference Server for at opnå lav latenstid.
    • Inference serveren håndterer tusindvis af forespørgsler i sekundet ved at batchbehandle dem.

Hvornår bruges det

Inference servere bruges i produktion til at betjene AI-modeller for applikationer, fx til chatbots, billedgenkendelse eller anbefalingssystemer. De optimeres typisk for lav latenstid og høj throughput, ofte med batchbehandling og hardwareacceleration (GPU/TPU). Populære inference servers inkluderer TensorFlow Serving, NVIDIA Triton Inference Server og TorchServe.

Kodeeksempel

import requests

response = requests.post(
    'http://localhost:8080/v1/models/my_model:predict',
    json={'inputs': [[1.0, 2.0, 3.0]]}
)
print(response.json())

Eksempel på at sende en HTTP-forespørgsel til en inference server, der hoster en model.

Oprindelse

Sammensat af 'inference' (slutning/deduktion i AI) og 'server' (en computer eller tjeneste, der leverer ressourcer).