pipeline

En sekvens af databehandlingstrin, hvor output af ét trin er input til det næste, typisk brugt i maskinlæring og datavidenskab.

Kort fortalt

Kort fortalt: En pipeline er en samling af trin, der udfører en større opgave, f.eks. forbehandling, træning og evaluering af en model.

Kategori
begreb
Niveau
begynder
Udtale
/ˈpaɪpˌlaɪn/

Betydninger

2
  1. 1

    En generel sekvens af databehandlingstrin, der automatisk overfører data fra én fase til den næste, f.eks. i data engineering.

    • Data-pipelinen henter data fra API'en, renser dem og gemmer dem i databasen.
    • Vi implementerede en ETL-pipeline til at transformere rå logfiler til struktureret format.
  2. 2

    En specifik pipeline til maskinlæring, der omfatter trin som forbehandling, feature engineering, modeltræning, evaluering og inferens.

    • Scikit-learns Pipeline-klasse gør det let at samle en ML-pipeline med standardisering og en klassifikator.
    • Inferens-pipelinen for RAG består af retrieval, kontekstindsamling og generationsmodul.

Hvornår bruges det

Pipelines bruges til at automatisere og standardisere arbejdsgange inden for maskinlæring, f.eks. fra rådata til forudsigelser. De sikrer reproducerbarhed og modularitet.

Kodeeksempel

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC

pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('svm', SVC())
])
pipeline.fit(X_train, y_train)
predictions = pipeline.predict(X_test)

Et eksempel på en simpel ML-pipeline med Scikit-learn, der først skalerer data og derefter træner en SVM.

Oprindelse

Fra engelsk 'pipeline', oprindeligt en rørledning i industrien, overført til computer science for at beskrive en proceskæde.

Afledte ord

3