Presentación - ETL Y ELT

Descargar como pptx, pdf o txt
Descargar como pptx, pdf o txt
Está en la página 1de 28

CONVOCATORIA 2022B

MAESTRÍA EN CIENCIAS DE LOS DATOS


CENTRO UNIVERSITARIO DE CIENCIAS ECONÓMICO-ADMINISTRATIVAS

CESAR KEVIN ROMERO HEREDIA


LARISA IRENE LÓPEZ PAYAN

“ETL Y ELT”

FECHA 12 DE SEPTIEMBRE DE 2023


¿QUE ES ETL?
Extracción, transformación y carga (ETL) es el proceso consistente en combinar datos de
diferentes orígenes en un gran repositorio central llamado almacenamiento de datos. ETL
utiliza un conjunto de reglas comerciales para limpiar y organizar datos en bruto y
prepararlos para el almacenamiento, el análisis de datos y el machine learning (ML).
¿CÓMO FUNCIONA EL ETL?
1. Extracción de datos:

Es cuando extraen o copian datos en bruto de múltiples fuentes y los almacenan en un


área de ensayo. Un área de ensayo es un área de almacenamiento intermedio para
almacenar temporalmente los datos extraídos.

La extracción de datos puede darse en una de las tres siguientes maneras:

● Notificación de Actualización: el sistema de origen le notifica cuando cambia un


registro de datos.
● Extracción Progresiva: el sistema de origen de datos pueden identificar y extraer datos
que se han modificado durante un período de tiempo determinado.
● Extracción Completa: el sistema de origen de datos no pueden identificar los cambios
de datos ni enviar notificaciones.
¿CÓMO FUNCIONA EL ETL?
● Transformación de datos:

Es en donde se transforman y consolidan los datos en bruto en el área de preparación


para prepararlos para el almacenamiento de datos de destino. tipos de cambios que
pueden implicar esta acción:

Transformación básica de datos:


Las transformaciones básicas mejoran la calidad de los datos eliminando errores,
vaciando campos de datos o simplificando datos, por ejemplo: Limpieza de datos,
deduplicación de datos y Revisión de formatos de datos.

Transformación avanzada de datos:


Las transformaciones avanzadas utilizan reglas comerciales para optimizar los datos y
facilitar el análisis, algunos ejemplos: Derivación, Vinculación y Cifrado.
¿CÓMO FUNCIONA EL ETL?
● Carga de datos:
En la carga de datos, es cuando mueven los datos transformados desde el área de
ensayo al almacenamiento de datos de destino. Hay dos métodos de carga de datos:

Carga completa: es en la que todos los datos de la fuente se transforman y se mueven


al almacenamiento de datos.

Carga progresiva: la herramienta ETL carga el delta (o la diferencia) entre los sistemas
de origen y destino a intervalos regulares. Se tiene dos maneras de realizar la carga
progresiva:

A. Transmisión de carga progresiva:


B. Carga progresiva por lotes
LA RELEVANCIA DE ETL.
Los conjuntos de datos en bruto individuales se pueden preparar en un formato y una estructura
que son más consumibles para fines analíticos, lo que da como resultado información más
significativa.

Análisis de datos preciso


ETL brinda un análisis de datos más preciso para cumplir con los estándares regulatorios y de
conformidad. Puede integrar herramientas ETL con herramientas de calidad de datos para perfilar,
auditar y limpiar datos, asegurando que los datos sean confiables.
Automatización de tareas
ETL automatiza las tareas de procesamiento de datos repetibles para un análisis eficiente. Las
herramientas ETL automatizan el proceso de migración de datos y pueden configurarlas para
integrar cambios de datos periódicamente o incluso en tiempo de ejecución.
LA EVOLUCIÓN DE ETL…
La extracción, transformación y carga (ETL) se originó con la aparición de bases de
datos relacionales que almacenaban datos en forma de tablas para su análisis

ETL tradicional:
Los datos en bruto generalmente se almacenaban en bases de datos transaccionales
que admitían muchas solicitudes de lectura y escritura, pero no se prestaban bien para
el análisis

ETL moderno:
Con el avance la tecnología también aumentaron los datos por lo que surgieron los
sumideros de datos.
Almacenamiento de datos
Lago de datos:
¿QUE ES ELT?
La extracción, carga y transformación (ELT) es una extensión de la extracción,
transformación y carga (ETL) que invierte el orden de las operaciones. Puede cargar datos
directamente en el sistema de destino antes de procesarlos. El área de preparación
intermedia no es necesaria porque el almacenamiento de datos de destino tiene
capacidades de asignación de datos dentro de él.
COMPARACIÓN ETL Y ELT.
ETL ELT

Technology Al estar más de 20 años en el mercado es fácil Es nueva tecnología enfocada a almacenes
Adoption encontrar desarrolladores con experiencia en en la nube, es fácil encontrar desarrolladores
este tipo de diseño. para este tipos de sistemas.

Disponibilidad de Solo se cargan los datos necesarios en el Se carga cualquier dato en el almacén o data
datos almacén. lake donde se procede a realizar un analizar.

Soporte para datos Puede leer datos semi y no estructurados lo cual Maneja todo tipo de datos semiestructurado
semiestructurados transforma en al capa de preparación. como no en data lake que pueden seguir
y no estructurados analizando.

Infraestructura Generalmente se deben instalar localmente las No requiere instalación local ya que se basa
herramientas, lo que implica un gran costo para en la nube.
el trabajo de análisis.
CASO PRACTICO: CONTEXTO
Se parte de la premisa de que se administra una aplicación alojada en un servidor Apache, El archivo
utiliza un formato llamado "combined log format". los campos que incluye en cada línea del archivo son:

•IP: desde la que se accede a un recurso de la aplicación.


•RFC 1413: identificador de la máquina en la red.
•Usuario remoto: identificador del usuario.
•Fecha: en formato [dd/MMM/yyyy:HH:mm:ss-XXXX].
•Recurso: aquello a lo que se accede.
•Resultado: respuesta por parte del servidor que cubre los diferentes esce narios posibles.
•Tiempo: segundos que se tarda en acceder al recurso.
•Referente: desde donde se accede al recurso.
•User-agent: información del sistema operativo y del navegador que han sido usados para acceder al
recurso.
CASO PRACTICO: CONTEXTO
la situación de partida está formada por cinco ficheros con los que se
procederá a una carga inicial del data warehouse.
•access.log: que contiene la información de acceso a nuestra aplicación web.
•navegador.csv: que contiene un listado de navegadores base.
•protocolo.csv: que contiene los protocolos de acceso estándar.
•resultado.csv: que contiene el resultado que puede proporcionar el servi
dor a un acceso.
•so.cv: que contiene un listado de sistemas operativos base.
•Allagents.xml: contiene un listado de robots que frecuentemente visitan
páginas web para indexarlas; este fichero permitiría categorizar las visitas de
los robots.
CASO PRACTICO: CONTEXTO

La estrategia que se seguirá en el proceso ETL se describe de la siguiente


manera:
1) Carga de las dimensiones desde los archivos: navegador.csv,
protocolo.csv y resultado.csv
2) Complementar las dimensiones restantes a partir de la información
presente en el fichero access.log y alimentar la tabla de hecho de visitas.
3) Crear un trabajo para lanzar todas las transformaciones de una
manera única. Se usará la siguiente notación:
Diseño con Pentaho Data Integración

El diseño del proyecto utiliza Pentaho Data Integration (PDI) para llevar a cabo los procesos ETL
El primer paso es cargar los archivos CSV:
•Esto implica que los datos contenidos en estos archivos se extraerán, transformarán y cargarán
en las tablas de dimensiones y hechos del data warehouse.
•El proceso ETL a utilizar se llama "TRA_ETL_INI_PROTOCOLO" que se utiliza para cargar la
información del archivo CSV de protocolos en la base de datos.
Configurar la base de datos de destino:
•Esto implica mapear los campos del archivo CSV a las columnas de la tabla de la base de datos.
Definir una clave única (normalmente una clave primaria) para determinar si se debe realizar
una inserción o actualización.
Lectura del archivo CSV
Lectura del fichero CSV
Insertar/Actualizar en la base de datos
Transformaciones de datos
Lectura del archivo de registro
Selección de campos relevantes
Filtrado de robots
Manipulación de la fecha
Tratamiento de valores nulos
Determinación de navegador y sistema operativo
Filtrar valores relevantes
Inserción en la tabla de hecho visitas
Diseño de un trabajo secuencial
REFERENCIAS BIBLIOGRÁFICAS

● Curto, J. (Septiembre, 2016) “Fundamentos de Inteligencia de Negocio”, Módulo 3, 1ra


edición. Barcelona, España.
● Amazon: ¿Que es ETL? <https://aws.amazon.com/es/what-is/etl/>
● Microsoft: Extracción, transformación y carga de datos (ETL) <
https://learn.microsoft.com/es-es/azure/architecture/data-guide/relational-data/etl>
● SQLShack: An overview of ETL and ELT architecture <https://www.sqlshack.com/an-
overview-of-etl-and-elt-architecture/>
GRACIAS

Cesar Kevin Romero Heredia


Larisa Irene López Payan
________________
[email protected]
[email protected]

También podría gustarte