Model serving

Model serving er processen med at hoste en trænet maskinlæringsmodel og eksponere den via en API, så andre systemer eller brugere kan sende data til modellen og få forudsigelser tilbage.

Kort fortalt

Model serving gør en trænet AI-model tilgængelig for andre programmer ved at pakke den ind i en webtjeneste, der kan modtage input og returnere output.

Kategori
teknik
Niveau
øvet
Udtale
ˈmɒdəl ˈsɜːvɪŋ

Betydninger

2
  1. 1

    Handlingen eller processen at gøre en maskinlæringsmodel tilgængelig for inferens via en API eller service.

    • Efter træning skal modellen sættes i produktion via model serving.
    • Model serving kræver omhyggelig håndtering af ressourceallokering og latenstid.
  2. 2

    Den softwarekomponent eller infrastruktur, der udfører model serving, eksempelvis en server eller et framework.

    • Virksomheden implementerede et model serving lag baseret på Kubernetes.
    • TensorFlow Serving er et populært valg til model serving.

Hvornår bruges det

Model serving anvendes typisk i produktionsmiljøer, hvor en model skal behandlle forespørgsler i realtid. Det indebærer ofte brug af rammeværker som TensorFlow Serving, TorchServe eller Triton Inference Server, og kan kræve håndtering af skalering, versionering og overvågning.

Kodeeksempel

from flask import Flask, request, jsonify
import joblib

app = Flask(__name__)
model = joblib.load('model.pkl')

@app.route('/predict', methods=['POST'])
def predict():
    data = request.json
    prediction = model.predict([data['features']])
    return jsonify({'prediction': prediction.tolist()})

if __name__ == '__main__':
    app.run(host='0.0.0.0', port=5000)

Simpelt Flask-eksempel, der loader en model og betjener inferens via en POST-endpoint.

Oprindelse

Sammensat af 'model' (fra latin modulus, 'mål') og 'serving' (fra engelsk serve, 'betjene').

Afledte ord

2

Kilder

2
  • TensorFlow Serving: Flexible, High-Performance ML Serving
  • MLflow Model Serving Documentation