0 calificaciones0% encontró este documento útil (0 votos)
211 vistas4 páginas
Apache Airflow
Apache Airflow permite orquestar y automatizar flujos de trabajo de Big Data mediante la creación y monitoreo de pipelines configurados con Python. Es flexible y permite personalizar operadores, ejecutores y otras entidades. La mejor opción para implementarlo es Cloud Composer de GCP, que ofrece Apache Airflow administrado de forma nativa.
Descarga como PDF, TXT o lee en línea desde Scribd
Descargar como pdf o txt
0 calificaciones0% encontró este documento útil (0 votos)
211 vistas4 páginas
Apache Airflow
Apache Airflow permite orquestar y automatizar flujos de trabajo de Big Data mediante la creación y monitoreo de pipelines configurados con Python. Es flexible y permite personalizar operadores, ejecutores y otras entidades. La mejor opción para implementarlo es Cloud Composer de GCP, que ofrece Apache Airflow administrado de forma nativa.
Descarga como PDF, TXT o lee en línea desde Scribd
Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1/ 4
Quick Start - Apache Airflow
http://airflow.apache.org/docs/apache-airflow/stable/index. html
Con este servicio podremos orquestar y automatizar todo un
proyecto de BigData.
Características
● Apache Airflow permite crear, monitorear y orquestar los
flujos de trabajo.
● Los Pipelines son configurados usando Python.
● Es muy flexible, permite modificación de executors,
operators y demás entidades dentro de Airflow. Aquí podemos utilizar scripts de bash, scripts de Python, podemos implementar emails para notificaciones, podemos integrarlo con bases de datos relacionales, a brokers como Redis, a colas, etc.
● Este servicio es Open Source, por lo cual, se puede
implementar en AWS de diferentes formas: trabajarlo con contenedores en AWS o trabajarlo con instancias EC2, pero la mejor opción es trabajarlo dentro de GCP, a través de un servicio llamado Cloud Composer que es una integración de Apache Airflow totalmente administrado. Esta es la mejor opción que existe en el mercado para orquestar y automatizar flujos de proyectos de BigData.
Conceptos fundamentales
● DAG: Directed Acyclic Grap, es una colección de todas
las tareas de las que se requiere que corran con sus dependencias y relaciones. Es así como a través del DAG podemos especificar todo un sistema de dependencias y esas dependencias se pueden ejecutar basados en diferentes sensores.
● Operator: Describe una tarea que corre independiente de
las otras tareas.
# airflow needs a home, ~/airflow is the default,
# but you can lay foundation somewhere else if you prefer
# (optional) export AIRFLOW_HOME=~/airflow
# install from pypi using pip
pip install apache-airflow
# initialize the database
airflow initdb
# start the web server, default port is 8080
airflow webserver -p 8080
# start the scheduler
airflow scheduler # visit localhost:8080 in the browser and enable the example dag in the home page