ETL-pipeline

forkortelse for Extract, Transform, Load pipeline

ETL-pipeline er en dataarbejdsproces, der udtrækker data fra kilder, transformerer dem til analyseformål og indlæser dem i et målsystem.

Kort fortalt

Kort fortalt: en ETL-pipeline er en automatiseret måde at hente data fra forskellige steder, rense og omforme det, og gemme det et sted, hvor det kan bruges til analyse eller maskinlæring.

Kategori: teknik
Niveau: øvet
Udtale: /iː tiː ɛl paɪpˌlaɪn/

Betydninger

1
En sekvens af processer, der ekstraherer data fra én eller flere kilder, anvender transformationer (såsom rensning, aggregering, validering) og indlæser resultatet i et mållager som en database, et data warehouse eller en datalake.
- Virksomheden implementerede en ETL-pipeline for at integrere salgsdata fra flere systemer i et fælles data warehouse.
- For at træne en kreditrisikomodel skal ETL-pipelinen først indlæse transaktionsdata, rense for manglende værdier og beregne nye features.

Hvornår bruges det

ETL-pipelines bruges i dataforberedelse til maskinlæring, hvor rådata fra databaser, API'er eller filer skal renses, aggregeres og struktureres, før de kan træne en model. De er centrale i data warehouse-løsninger og bruges ofte i kombination med værktøjer som Apache Airflow eller dbt.

Kodeeksempel

import pandas as pd

# Extract: læs CSV-fil
df = pd.read_csv('raw_data.csv')

# Transform: ren data, tilføj nye kolonner
df = df.dropna()
df['full_name'] = df['first'] + ' ' + df['last']

# Load: gem i ny CSV
df.to_csv('clean_data.csv', index=False)

Simpelt Python-eksempel, der udtrækker data fra en CSV, transformerer det (fjerner manglende værdier, opretter en ny kolonne) og indlæser det i en ny CSV-fil.

Oprindelse

Udtrykket stammer fra databaseteknologi og data warehousing i 1990'erne, hvor det blev standardiseret af Ralph Kimball og andre. 'Extract' henviser til at hente data fra forskellige kilder, 'Transform' til at rense og omforme data, og 'Load' til at indsætte det i en mål-database.

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →