Data pipeline

En datapipeline er en sekvens af databehandlingstrin, der transporterer og transformerer rådata fra kilde til destinationssystem, ofte til brug i maskinlæringsmodeller.

Kort fortalt

En datapipeline er en automatiseret række af trin, der henter, renser og gør data klar til analyse eller træning af AI-modeller.

Kategori
teknik
Niveau
begynder

Betydninger

2
  1. 1

    En generel sekvens af databehandlingstrin, der kan omfatte ekstraktion, transformation og loading (ETL) for at flytte data mellem systemer.

    • Virksomheden implementerede en datapipeline for at overføre salgsdata fra butikkerne til deres centrale lager.
  2. 2

    En maskinlæringspipeline, der inkluderer trin som datarensning, feature engineering, modeltræning og evaluering.

    • ML-pipelinen automatiserede træning og validering af klassifikationsmodellen.

Hvornår bruges det

Data pipelines bruges i maskinlæringsprojekter til at automatisere workflowet fra dataindsamling til modellering. De sikrer reproducerbarhed og effektivitet, fx ved at behandle store mængder streamingdata i realtid.

Kodeeksempel

def data_pipeline(source):
    for record in source:
        cleaned = clean(record)
        feature = extract_features(cleaned)
        yield feature

# Brug med en kilde
source = get_data()
for feature in data_pipeline(source):
    model.train(feature)

Simpel generator-baseret datapipeline i Python, der rengør og udtrækker features fra en datakilde.

Oprindelse

Udtrykket stammer fra datateknik og softwareudvikling, hvor 'pipeline' beskriver et sæt af forbundne processer.

Afledte ord

3

Kilder

2
  • What is a Data Pipeline? - AWS
  • Data Pipeline Architecture - Databricks