datapipeline-orchestrator
Et system der planlægger, overvåger og koordinerer udførelsen af trin i en datapipeline.
Kort fortalt
En datapipeline-orchestrator er en automatiseret dirigent, der sørger for at dataflowet kører korrekt.
- Kategori
- værktøj
- Niveau
- øvet
- Udtale
- /ˈdeɪtəˌpaɪplaɪn ˈɔːrkɪstreɪtər/
Betydninger
1- 1
Et softwareværktøj der automatiserer og styrer rækkefølgen af trin i en datapipeline, herunder overvågning, fejlhåndtering og genstart.
- Vi brugte en datapipeline-orchestrator til at sikre, at træningsdataene blev forarbejdet før modellen blev trænet.
- Apache Airflow er en populær open-source datapipeline-orchestrator.
Hvornår bruges det
Bruges i data engineering og machine learning til at automatisere komplekse arbejdsgange med afhængigheder, ofte i kombination med cloud-tjenester og containere.
Kodeeksempel
from airflow import DAG
from airflow.operators.python_operator import PythonOperator
from datetime import datetime
default_args = {'start_date': datetime(2023,1,1)}
dag = DAG('example_dag', default_args=default_args, schedule_interval='@daily')
task1 = PythonOperator(task_id='extract', python_callable=lambda: print('extract'), dag=dag)
task2 = PythonOperator(task_id='transform', python_callable=lambda: print('transform'), dag=dag)
task1 >> task2Et simpelt Airflow DAG-eksempel der definerer en pipeline med to trin.
Oprindelse
Sammensat af 'data', 'pipeline' (dataledning) og 'orchestrator' (dirigent på engelsk).