ETL-pipeline
forkortelse for Extract, Transform, Load pipeline
ETL-pipeline er en dataarbejdsproces, der udtrækker data fra kilder, transformerer dem til analyseformål og indlæser dem i et målsystem.
Kort fortalt
Kort fortalt: en ETL-pipeline er en automatiseret måde at hente data fra forskellige steder, rense og omforme det, og gemme det et sted, hvor det kan bruges til analyse eller maskinlæring.
- Kategori
- teknik
- Niveau
- øvet
- Udtale
- /iː tiː ɛl paɪpˌlaɪn/
Betydninger
1- 1
En sekvens af processer, der ekstraherer data fra én eller flere kilder, anvender transformationer (såsom rensning, aggregering, validering) og indlæser resultatet i et mållager som en database, et data warehouse eller en datalake.
- Virksomheden implementerede en ETL-pipeline for at integrere salgsdata fra flere systemer i et fælles data warehouse.
- For at træne en kreditrisikomodel skal ETL-pipelinen først indlæse transaktionsdata, rense for manglende værdier og beregne nye features.
Hvornår bruges det
ETL-pipelines bruges i dataforberedelse til maskinlæring, hvor rådata fra databaser, API'er eller filer skal renses, aggregeres og struktureres, før de kan træne en model. De er centrale i data warehouse-løsninger og bruges ofte i kombination med værktøjer som Apache Airflow eller dbt.
Kodeeksempel
import pandas as pd
# Extract: læs CSV-fil
df = pd.read_csv('raw_data.csv')
# Transform: ren data, tilføj nye kolonner
df = df.dropna()
df['full_name'] = df['first'] + ' ' + df['last']
# Load: gem i ny CSV
df.to_csv('clean_data.csv', index=False)Simpelt Python-eksempel, der udtrækker data fra en CSV, transformerer det (fjerner manglende værdier, opretter en ny kolonne) og indlæser det i en ny CSV-fil.
Oprindelse
Udtrykket stammer fra databaseteknologi og data warehousing i 1990'erne, hvor det blev standardiseret af Ralph Kimball og andre. 'Extract' henviser til at hente data fra forskellige kilder, 'Transform' til at rense og omforme data, og 'Load' til at indsætte det i en mål-database.