Data pipeline

En datapipeline er en sekvens af databehandlingstrin, der transporterer og transformerer rådata fra kilde til destinationssystem, ofte til brug i maskinlæringsmodeller.

Kort fortalt

En datapipeline er en automatiseret række af trin, der henter, renser og gør data klar til analyse eller træning af AI-modeller.

Kategori: teknik
Niveau: begynder

Betydninger

1
En generel sekvens af databehandlingstrin, der kan omfatte ekstraktion, transformation og loading (ETL) for at flytte data mellem systemer.
- Virksomheden implementerede en datapipeline for at overføre salgsdata fra butikkerne til deres centrale lager.
2
En maskinlæringspipeline, der inkluderer trin som datarensning, feature engineering, modeltræning og evaluering.
- ML-pipelinen automatiserede træning og validering af klassifikationsmodellen.

Hvornår bruges det

Data pipelines bruges i maskinlæringsprojekter til at automatisere workflowet fra dataindsamling til modellering. De sikrer reproducerbarhed og effektivitet, fx ved at behandle store mængder streamingdata i realtid.

Kodeeksempel

def data_pipeline(source):
    for record in source:
        cleaned = clean(record)
        feature = extract_features(cleaned)
        yield feature

# Brug med en kilde
source = get_data()
for feature in data_pipeline(source):
    model.train(feature)

Simpel generator-baseret datapipeline i Python, der rengør og udtrækker features fra en datakilde.

Oprindelse

Udtrykket stammer fra datateknik og softwareudvikling, hvor 'pipeline' beskriver et sæt af forbundne processer.

Afledte ord

ETL-pipeline ML-pipeline datapipeline-orchestrator

Kilder

What is a Data Pipeline? - AWS
Data Pipeline Architecture - Databricks

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →