Ingeniería de Datos y Big Data

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 72

Ingeniería de

datos y Big data


Sobre la sesión…
• Sesión conceptual

• No código involucrado

• Objetivos:

• Ser capaz de conversar con ingenieros de datos.

• Proveer una base para aprender más.


Capítulo 1 Capítulo 2
¿Qué es la Ingeniería de Datos? Cómo funciona el almacenamiento de los datos

1. Ingeniería de datos y Big Data 1. Structured vs unstructured data


2. Data engineers vs. data scientists 2. SQL
3. Tuberías de datos 3. Data warehouse and data lakes

Capítulo 3
Cómo mover y procesar datos

1. Procesando datos
2. Scheduling data
3. Parallel computing
4. Cloud computing
Data workflow
Data workflow
Data workflow
Data workflow
Ingenieros de datos (Data engineers)
Ingenieros de Responsabilidades de un
datos Ingeniero de datos
Los ingenieros de datos ofrecen: • Ingerir datos de diferentes fuentes
• Optimizar bases de datos para análisis
• los datos correctos en la forma correcta
• Eliminar datos corruptos
• a las personas correctas
• Desarrollar, construir, probar y mantener
• lo más eficientemente posible arquitecturas de datos.
Data engineers and big data
• Big data se convierte en la norma => los ingenieros de datos son
cada vez más necesarios
• Big data:
• Tiene que pensar en cómo lidiar con su tamaño.
• Los grandes métodos tradicionales ya no funcionan
Big data growth
Sensors and devices
Social media

Enterprise data

VoIP (voice communication, multimedia sessions)

1 Data Age 2025, Seagate , November 2018


The five Vs
• Volume (¿Cuánto?)

• Variety (¿Qué clase?)

• Velocity (¿Qué tan frecuente?)

• Veracity (¿Qué tan preciso?)

• Value (¿Qué útil?)


Resumen
• ¿Qué te espera?
• ¿Cómo fluyen los datos a través de una
organización?
• ¿Cuándo interviene un ingeniero de datos?
• ¿Cuáles son sus responsabilidades?
• ¿Cómo se relaciona la ingeniería de datos con los
grandes datos?
VS
Data workflow
Data engineers
Data scientists
Los ingenieros de datos habilitan a los
científicos de datos
Data engineer Data scientist
• Ingerir y almacenar datos • Explotar datos
• Configurar bases de datos • Acceder a bases de datos
• Usar salidas de las
• Construir tuberías de
tuberías de datos
datos
• Fuertes habilidades
• Fuertes habilidades de
analiticas
software
Resumen
¿En qué etapas intervienen los ingenieros de datos y los científicos de datos?

¿Cómo los ingenieros de datos capacitan a los científicos de datos?


Tuberías de datos
Si la Data es
el nuevo
petróleo

1The Economist, 2017-05-


06, by David Parkins
Volvamos a la Ingeniería de Datos
• Ingerir
• Procesar
• Almacenar
• Necesita tuberías de datos
• Automatizar el flujo de una estación a la siguiente
• Proporcionar datos actualizados, precisos y relevantes.
Las tuberías de datos garantizan el flujo eficiente de
los datos
Automatizar Reducir
• Extrayendo • Intervención Humana
• Transformando • Errores
• Combinando • Tiempo que toman los datos en fluir.
• Validando
• Cargando
ETL y Tuberías de datos
ETL Tuberías de datos (Data
Marco popular para diseñar tuberías de pipelines)
datos • Mover datos de un sistema a otro
1. Extraer datos • Puede seguir ETL
• Los datos no pueden ser transformados
2. Transformar datos extraídos
• Los datos pueden cargarse directamente
3. Cargar datos transformados a otra en las aplicaciones
base de datos
Resumen
• ¿Qué es una tubería de datos?
• ¿Que hace?
• ¿Por qué es importante?
• ¿Cómo se implementan las canalizaciones de
datos en Spotflix?
• ¿Qué es ETL y sus matices?

También podría gustarte