Presentación - ETL Y ELT

CONVOCATORIA 2022B
MAESTRÍA EN CIENCIAS DE LOS DATOS

CENTRO UNIVERSITARIO DE CIENCIAS ECONÓMICO-ADMINISTRATIVAS
CESAR KEVIN ROMERO HEREDIA

LARISA IRENE LÓPEZ PAYAN
“ETL Y ELT”
FECHA 12 DE SEPTIEMBRE DE 2023

¿QUE ES ETL?
Extracción, transformación y carga (ETL) es el proceso consistente en combinar datos de
diferentes orígenes en un gran repositorio central llamado almacenamiento de datos. ETL
utiliza un conjunto de reglas comerciales para limpiar y organizar datos en bruto y
prepararlos para el almacenamiento, el análisis de datos y el machine learning (ML).
¿CÓMO FUNCIONA EL ETL?
1. Extracción de datos:
Es cuando extraen o copian datos en bruto de múltiples fuentes y los almacenan en un

área de ensayo. Un área de ensayo es un área de almacenamiento intermedio para
almacenar temporalmente los datos extraídos.
La extracción de datos puede darse en una de las tres siguientes maneras:
● Notificación de Actualización: el sistema de origen le notifica cuando cambia un

registro de datos.
● Extracción Progresiva: el sistema de origen de datos pueden identificar y extraer datos
que se han modificado durante un período de tiempo determinado.
● Extracción Completa: el sistema de origen de datos no pueden identificar los cambios
de datos ni enviar notificaciones.
● Transformación de datos:
Es en donde se transforman y consolidan los datos en bruto en el área de preparación

para prepararlos para el almacenamiento de datos de destino. tipos de cambios que
pueden implicar esta acción:
Transformación básica de datos:

Las transformaciones básicas mejoran la calidad de los datos eliminando errores,
vaciando campos de datos o simplificando datos, por ejemplo: Limpieza de datos,
deduplicación de datos y Revisión de formatos de datos.
Transformación avanzada de datos:

Las transformaciones avanzadas utilizan reglas comerciales para optimizar los datos y
facilitar el análisis, algunos ejemplos: Derivación, Vinculación y Cifrado.
● Carga de datos:
En la carga de datos, es cuando mueven los datos transformados desde el área de
ensayo al almacenamiento de datos de destino. Hay dos métodos de carga de datos:
Carga completa: es en la que todos los datos de la fuente se transforman y se mueven

al almacenamiento de datos.
Carga progresiva: la herramienta ETL carga el delta (o la diferencia) entre los sistemas
de origen y destino a intervalos regulares. Se tiene dos maneras de realizar la carga
progresiva:
A. Transmisión de carga progresiva:

B. Carga progresiva por lotes
LA RELEVANCIA DE ETL.
Los conjuntos de datos en bruto individuales se pueden preparar en un formato y una estructura
que son más consumibles para fines analíticos, lo que da como resultado información más
significativa.
Análisis de datos preciso

ETL brinda un análisis de datos más preciso para cumplir con los estándares regulatorios y de
conformidad. Puede integrar herramientas ETL con herramientas de calidad de datos para perfilar,
auditar y limpiar datos, asegurando que los datos sean confiables.
Automatización de tareas
ETL automatiza las tareas de procesamiento de datos repetibles para un análisis eficiente. Las
herramientas ETL automatizan el proceso de migración de datos y pueden configurarlas para
integrar cambios de datos periódicamente o incluso en tiempo de ejecución.
LA EVOLUCIÓN DE ETL…
La extracción, transformación y carga (ETL) se originó con la aparición de bases de
datos relacionales que almacenaban datos en forma de tablas para su análisis
ETL tradicional:
Los datos en bruto generalmente se almacenaban en bases de datos transaccionales
que admitían muchas solicitudes de lectura y escritura, pero no se prestaban bien para
el análisis
ETL moderno:
Con el avance la tecnología también aumentaron los datos por lo que surgieron los
sumideros de datos.
Almacenamiento de datos
Lago de datos:
¿QUE ES ELT?
La extracción, carga y transformación (ELT) es una extensión de la extracción,
transformación y carga (ETL) que invierte el orden de las operaciones. Puede cargar datos
directamente en el sistema de destino antes de procesarlos. El área de preparación
intermedia no es necesaria porque el almacenamiento de datos de destino tiene
capacidades de asignación de datos dentro de él.
COMPARACIÓN ETL Y ELT.
ETL ELT
Technology Al estar más de 20 años en el mercado es fácil Es nueva tecnología enfocada a almacenes
Adoption encontrar desarrolladores con experiencia en en la nube, es fácil encontrar desarrolladores
este tipo de diseño. para este tipos de sistemas.
Disponibilidad de Solo se cargan los datos necesarios en el Se carga cualquier dato en el almacén o data
datos almacén. lake donde se procede a realizar un analizar.
Soporte para datos Puede leer datos semi y no estructurados lo cual Maneja todo tipo de datos semiestructurado
semiestructurados transforma en al capa de preparación. como no en data lake que pueden seguir
y no estructurados analizando.
Infraestructura Generalmente se deben instalar localmente las No requiere instalación local ya que se basa
herramientas, lo que implica un gran costo para en la nube.
el trabajo de análisis.
CASO PRACTICO: CONTEXTO
Se parte de la premisa de que se administra una aplicación alojada en un servidor Apache, El archivo
utiliza un formato llamado "combined log format". los campos que incluye en cada línea del archivo son:
•IP: desde la que se accede a un recurso de la aplicación.

•RFC 1413: identificador de la máquina en la red.
•Usuario remoto: identificador del usuario.
•Fecha: en formato [dd/MMM/yyyy:HH:mm:ss-XXXX].
•Recurso: aquello a lo que se accede.
•Resultado: respuesta por parte del servidor que cubre los diferentes esce narios posibles.
•Tiempo: segundos que se tarda en acceder al recurso.
•Referente: desde donde se accede al recurso.
•User-agent: información del sistema operativo y del navegador que han sido usados para acceder al
recurso.
la situación de partida está formada por cinco ficheros con los que se
procederá a una carga inicial del data warehouse.
•access.log: que contiene la información de acceso a nuestra aplicación web.
•navegador.csv: que contiene un listado de navegadores base.
•protocolo.csv: que contiene los protocolos de acceso estándar.
•resultado.csv: que contiene el resultado que puede proporcionar el servi
dor a un acceso.
•so.cv: que contiene un listado de sistemas operativos base.
•Allagents.xml: contiene un listado de robots que frecuentemente visitan
páginas web para indexarlas; este fichero permitiría categorizar las visitas de
los robots.
La estrategia que se seguirá en el proceso ETL se describe de la siguiente

manera:
1) Carga de las dimensiones desde los archivos: navegador.csv,
protocolo.csv y resultado.csv
2) Complementar las dimensiones restantes a partir de la información
presente en el fichero access.log y alimentar la tabla de hecho de visitas.
3) Crear un trabajo para lanzar todas las transformaciones de una
manera única. Se usará la siguiente notación:
Diseño con Pentaho Data Integración
El diseño del proyecto utiliza Pentaho Data Integration (PDI) para llevar a cabo los procesos ETL
El primer paso es cargar los archivos CSV:
•Esto implica que los datos contenidos en estos archivos se extraerán, transformarán y cargarán
en las tablas de dimensiones y hechos del data warehouse.
•El proceso ETL a utilizar se llama "TRA_ETL_INI_PROTOCOLO" que se utiliza para cargar la
información del archivo CSV de protocolos en la base de datos.
Configurar la base de datos de destino:
•Esto implica mapear los campos del archivo CSV a las columnas de la tabla de la base de datos.
Definir una clave única (normalmente una clave primaria) para determinar si se debe realizar
una inserción o actualización.
Lectura del archivo CSV
Lectura del fichero CSV
Insertar/Actualizar en la base de datos
Transformaciones de datos
Lectura del archivo de registro
Selección de campos relevantes
Filtrado de robots
Manipulación de la fecha
Tratamiento de valores nulos
Determinación de navegador y sistema operativo
Filtrar valores relevantes
Inserción en la tabla de hecho visitas
Diseño de un trabajo secuencial
REFERENCIAS BIBLIOGRÁFICAS
● Curto, J. (Septiembre, 2016) “Fundamentos de Inteligencia de Negocio”, Módulo 3, 1ra

edición. Barcelona, España.
● Amazon: ¿Que es ETL? <https://aws.amazon.com/es/what-is/etl/>
● Microsoft: Extracción, transformación y carga de datos (ETL) <
https://learn.microsoft.com/es-es/azure/architecture/data-guide/relational-data/etl>
● SQLShack: An overview of ETL and ELT architecture <https://www.sqlshack.com/an-
overview-of-etl-and-elt-architecture/>
GRACIAS
Cesar Kevin Romero Heredia

Larisa Irene López Payan
________________
[email protected]
[email protected]

Presentación - ETL Y ELT

Cargado por

Copyright:

Formatos disponibles

Presentación - ETL Y ELT

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Presentación - ETL Y ELT

Cargado por

Copyright:

Formatos disponibles

CONVOCATORIA 2022B

MAESTRÍA EN CIENCIAS DE LOS DATOS

CESAR KEVIN ROMERO HEREDIA

FECHA 12 DE SEPTIEMBRE DE 2023

Es cuando extraen o copian datos en bruto de múltiples fuentes y los almacenan en un

La extracción de datos puede darse en una de las tres siguientes maneras:

● Notificación de Actualización: el sistema de origen le notifica cuando cambia un

Es en donde se transforman y consolidan los datos en bruto en el área de preparación

Transformación básica de datos:

Transformación avanzada de datos:

Carga completa: es en la que todos los datos de la fuente se transforman y se mueven

A. Transmisión de carga progresiva:

Análisis de datos preciso

•IP: desde la que se accede a un recurso de la aplicación.

La estrategia que se seguirá en el proceso ETL se describe de la siguiente

● Curto, J. (Septiembre, 2016) “Fundamentos de Inteligencia de Negocio”, Módulo 3, 1ra

Cesar Kevin Romero Heredia

También podría gustarte