0% encontró este documento útil (0 votos)
211 vistas4 páginas

Apache Airflow

Apache Airflow permite orquestar y automatizar flujos de trabajo de Big Data mediante la creación y monitoreo de pipelines configurados con Python. Es flexible y permite personalizar operadores, ejecutores y otras entidades. La mejor opción para implementarlo es Cloud Composer de GCP, que ofrece Apache Airflow administrado de forma nativa.

Cargado por

Gonzalo Bossetti
Derechos de autor
© © All Rights Reserved
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Descargar como pdf o txt
0% encontró este documento útil (0 votos)
211 vistas4 páginas

Apache Airflow

Apache Airflow permite orquestar y automatizar flujos de trabajo de Big Data mediante la creación y monitoreo de pipelines configurados con Python. Es flexible y permite personalizar operadores, ejecutores y otras entidades. La mejor opción para implementarlo es Cloud Composer de GCP, que ofrece Apache Airflow administrado de forma nativa.

Cargado por

Gonzalo Bossetti
Derechos de autor
© © All Rights Reserved
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1/ 4

Quick Start - Apache Airflow

http://airflow.apache.org/docs/apache-airflow/stable/index.
html

Con este servicio podremos orquestar y automatizar todo un


proyecto de BigData.

Características

● Apache Airflow permite crear, monitorear y orquestar los


flujos de trabajo.

● Los Pipelines son configurados usando Python.

● Es muy flexible, permite modificación de executors,


operators y demás entidades dentro de Airflow. Aquí
podemos utilizar scripts de bash, scripts de Python,
podemos implementar emails para notificaciones,
podemos integrarlo con bases de datos relacionales, a
brokers como Redis, a colas, etc.

● Este servicio es Open Source, por lo cual, se puede


implementar en AWS de diferentes formas: trabajarlo con
contenedores en AWS o trabajarlo con instancias EC2,
pero la mejor opción es trabajarlo dentro de GCP, a través
de un servicio llamado Cloud Composer que es una
integración de Apache Airflow totalmente administrado.
Esta es la mejor opción que existe en el mercado para
orquestar y automatizar flujos de proyectos de BigData.

Conceptos fundamentales

● DAG: Directed Acyclic Grap, es una colección de todas


las tareas de las que se requiere que corran con sus
dependencias y relaciones. Es así como a través del DAG
podemos especificar todo un sistema de dependencias y
esas dependencias se pueden ejecutar basados en
diferentes sensores.

● Operator: Describe una tarea que corre independiente de


las otras tareas.

# airflow needs a home, ~/airflow is the default,


# but you can lay foundation somewhere else if you prefer

# (optional)
export AIRFLOW_HOME=~/airflow

# install from pypi using pip


pip install apache-airflow

# initialize the database


airflow initdb

# start the web server, default port is 8080


airflow webserver -p 8080

# start the scheduler


airflow scheduler
# visit localhost:8080 in the browser and enable the example dag in the
home page

Paso a Paso

vlady@vlady:~$ virtualenv airflow-venv

vlady@vlady:~$ source airflow-venv/bin/activate

(airflow-venv) vlady@vlady:~$ pip freeze

(airflow-venv) vlady@vlady:~$ export AIRFLOW_HOME=~/airflow

(airflow-venv) vlady@vlady:~$ pip install apache-airflow

(airflow-venv) vlady@vlady:~$ airflow db init

(airflow-venv) vlady@vlady:~$ airflow users create \


> --username admin \
> --firstname vladimir \
> --lastname morote \
> --role Admin \
> --email [email protected] \

(airflow-venv) vlady@vlady:~$ airflow webserver --port 8080

ACTIVAR USUARIO si no me DEJAAAAAAAA


(airflow-venv) vlady@vlady:~$ airflow users create --role Admin
--username admin --email admin --firstname admin --lastname
admin --password admin

Ver en cuaderno tambien apuntes de creacion de proyecto y


entorno virtual

También podría gustarte