datapipeline-orchestrator

Et system der planlægger, overvåger og koordinerer udførelsen af trin i en datapipeline.

Kort fortalt

En datapipeline-orchestrator er en automatiseret dirigent, der sørger for at dataflowet kører korrekt.

Kategori
værktøj
Niveau
øvet
Udtale
/ˈdeɪtəˌpaɪplaɪn ˈɔːrkɪstreɪtər/

Betydninger

1
  1. 1

    Et softwareværktøj der automatiserer og styrer rækkefølgen af trin i en datapipeline, herunder overvågning, fejlhåndtering og genstart.

    • Vi brugte en datapipeline-orchestrator til at sikre, at træningsdataene blev forarbejdet før modellen blev trænet.
    • Apache Airflow er en populær open-source datapipeline-orchestrator.

Hvornår bruges det

Bruges i data engineering og machine learning til at automatisere komplekse arbejdsgange med afhængigheder, ofte i kombination med cloud-tjenester og containere.

Kodeeksempel

from airflow import DAG
from airflow.operators.python_operator import PythonOperator
from datetime import datetime

default_args = {'start_date': datetime(2023,1,1)}
dag = DAG('example_dag', default_args=default_args, schedule_interval='@daily')
task1 = PythonOperator(task_id='extract', python_callable=lambda: print('extract'), dag=dag)
task2 = PythonOperator(task_id='transform', python_callable=lambda: print('transform'), dag=dag)
task1 >> task2

Et simpelt Airflow DAG-eksempel der definerer en pipeline med to trin.

Oprindelse

Sammensat af 'data', 'pipeline' (dataledning) og 'orchestrator' (dirigent på engelsk).