Data pipeline
En datapipeline er en sekvens af databehandlingstrin, der transporterer og transformerer rådata fra kilde til destinationssystem, ofte til brug i maskinlæringsmodeller.
Kort fortalt
En datapipeline er en automatiseret række af trin, der henter, renser og gør data klar til analyse eller træning af AI-modeller.
- Kategori
- teknik
- Niveau
- begynder
Betydninger
2- 1
En generel sekvens af databehandlingstrin, der kan omfatte ekstraktion, transformation og loading (ETL) for at flytte data mellem systemer.
- Virksomheden implementerede en datapipeline for at overføre salgsdata fra butikkerne til deres centrale lager.
- 2
En maskinlæringspipeline, der inkluderer trin som datarensning, feature engineering, modeltræning og evaluering.
- ML-pipelinen automatiserede træning og validering af klassifikationsmodellen.
Hvornår bruges det
Data pipelines bruges i maskinlæringsprojekter til at automatisere workflowet fra dataindsamling til modellering. De sikrer reproducerbarhed og effektivitet, fx ved at behandle store mængder streamingdata i realtid.
Kodeeksempel
def data_pipeline(source):
for record in source:
cleaned = clean(record)
feature = extract_features(cleaned)
yield feature
# Brug med en kilde
source = get_data()
for feature in data_pipeline(source):
model.train(feature)Simpel generator-baseret datapipeline i Python, der rengør og udtrækker features fra en datakilde.
Oprindelse
Udtrykket stammer fra datateknik og softwareudvikling, hvor 'pipeline' beskriver et sæt af forbundne processer.
Afledte ord
3Kilder
2- What is a Data Pipeline? - AWS
- Data Pipeline Architecture - Databricks