Proceso de ETL
Proceso de ETL
Proceso de ETL
Facultad de Ingeniería
Escuela de Computación
Docente:
Lic. Miguel Ángel López.
Grupo:
02
Integrantes:
Cristóbal Balmore García Majano
Alma Evangelina Quesada Arenivar
1. Instalación y Configuración de SQL Server; el cual fungirá como nuestro motor de base de
datos.
2. Instalación y Configuración de herramienta Rapid Miner; el cual fungirá la función de
Soporte a las Acciones de Extracción, Transformación y Carga de Datos.
3. Montaje e Interpretación de la Data a utilizar.
4. Explicación del Flujo de Trabajo dentro de la Herramienta Rapid Miner para el tratamiento
de la Data mencionada anteriormente.
5. Procedimiento de Tratamiento de la Información.
5. Luego se selecciona el siguiente link “Installation” y en el área derecha seleccione “New SQL
Estándar-alone installation or add features to an existing installation”
1
6. Al seleccionar la opción anterior la ventana de asistencia mostrara la sección de “Setup”,
una barra en color verde nos indicara cuando este proceso finalice, en ese momento
seleccionaremos “ok”
8. La siguiente ventana nos solicitara seleccionar si queremos instalar una versión de prueba
o activar el software con una clave de producto. Se ingresan los datos requeridos para
activar la licencia. Luego dar click en “Next”
2
9. Aparecerá la ventana donde encontraremos los detalles de producto de SQL Server 2012 y
podremos leer los términos y condiciones, dar click en la casilla “I Accept the License Terms”
y luego dar click en “Next”
10. Para el siguiente paso debemos asegurarnos de tener acceso a internet ya que el programa
de instalación descargara algunas actualizaciones necesarias. Luego en la ventana de
actualizaciones al finalizar el proceso se habilitara el botón “Next”, dar click a dicho botón.
3
11. En la ventana siguiente aparece la configuración de Rol de instalación, es aquí donde
debemos decidir que funcionalidades de SQL Server queremos incluir en la instalación. En
este caso seleccionaremos “SQL Server Feature Installation” y luego damos click en “Next”
12. La siguiente ventana nos permitirá elegir los componentes que queramos adicionar a SQL
Server. Debe seleccionar las opciones:
a. Database Engine Services
b. Full-Text and semantic extraction for search
c. Analysis Services
d. Reporting Services
e. Client Tools Connectivity
f. Management Tools – Basic
g. Management Tools – Complete
4
Luego vamos a dar click en el botón “Next”
13. Esperamos a que se complete la barra de progreso en la ventana siguiente y luego damos
click en “Next”
14. La siguiente ventana nos permitirá configurar una instancia, se dejaran los valores default
y si se desea se puede cambiar el directorio donde se instalaran las funcionalidades. Damos
click en “Next” .Esperamos a que la ventana complete el proceso.
5
15. La siguiente ventana calculara si el equipo tiene el espacio en disco duro necesario para
continua con la instalación. Si se cuenta con el espacio suficiente nos habilitara el botón
“Next”. Dar click a este botón.
6
16. En la venta de configuración del Server, nos pedirá configurar las cuentas de servicio, en
este caso vamos a dejar la que viene default que es con la cual se inició el sistema como
administrador.
7
18. En la misma ventana, pero en la siguiente tab “Data Direction” especificaremos el directorio
donde se almacenara los archivos MDF y LDF de las bases que se crearan en el servidor.
Damos click en “Next”
19. En esta ventana configuraremos los reporting services, seleccionamos la primera opción
“Install and configure”. Damos click en “Next”
8
20. En esta ventana configuraremos las notificaciones de errores fatales en el server. Marcamos
el checkbox y luego damos click en “Next”
21. Nos aparecerá una ventana de Reglas de configuración donde veremos nuevamente una
barra de progreso, esperamos a que se complete. El botón “Next” Se habilitara y podremos
seleccionarlo.
9
22. Veremos una ventana de “Ready to Install” donde veremos en detalle lo que se seleccionó
anteriormente como componentes o funciones de SQL Server. Damos click en “Install”.
23. Nuevamente nos aparecerá una ventana de progreso de instalación con la barra de
progreso. Esto toma entre 40 y 50 minutos, debemos esperar a que finalice.
10
24. La siguiente ventana nos muestra un resumen de la instalación. Solo debemos dar click en
el botón “Close”. Al hacer esto podemos empezar a utilizar SQL Server.
11
Instalación y Configuración de Rapid Miner.
1. Descargar el software desde el siguiente link:
3. Aparece una ventana donde se puede ingresar los datos de la cuenta, si no se tiene cuenta, hay
una opción para crear una de cero.
6. Aparecerá una ventana con el asistente para Instalación del programa. La primera sección
mostrara los términos de licencia. Lealos y de click en "I Agree"
12
10. Abrirá la ventana del programa para empezar a utilizarlo.
13
Montaje de la Data
Para el ejercicio propuesto contamos con un archivo de Excel, compuesto de tres tablas:
1. ROSTER: Consiste en el detalle de los agentes registrados, y los cuales están activos.
2. TM ASSIGNATION: Detalle donde se describe la actividad de los agentes semana a semana,
y describe la información del Supervisor del Agente.
3. SURVEYS: Detalle de las llamadas recibidas por los agentes, y de la cual se pueden obtener
los resultados de una encuesta de satisfacción pasada a los clientes luego de ser atendidos.
Dicha data será montada en Rapid Miner para ser procesada. Dicho proceso se realiza de la siguiente
manera:
2. Una vez ingreso ubíquese sobre el Explorador de Repositorio, y ubique el botón “Add Data”.
14
4. Seleccionaremos MyComputer, y ubicaremos nuestro archivo.
Como se puede observar, se nos muestran las diferentes tablas, asi que para poder realizar
el montaje de la data, deberemos elegir una tabla, y luego especificar el rango de celdas a
cubrir, y además, definir en qué línea se encuentra el nombre de las columnas.
6. Luego de este paso, se nos presentara una ventana similar a la anterior, con la diferencia
que esta nos permitirá definir el formato de los datos.
15
esto se realiza haciendo “Click Derecho” sobre el Repositorio que utilizaremos para guardar
9. Una vez finalizado el Montaje de la Data es posible empezar a explicar el Flujo de Trabajo
de Rapid Miner.
16
Flujo de Trabajo dentro de Rapid Miner
NOTA: Para los fines didácticos extendidos, en el apartado de Bibliografia se contara con los
enlaces para obtener los tutoriales y documentación completos de Rapid Miner. Más sin embargo
en este documento solo se detallara la creación de los procesos para la realización del ejercicio, y
no se ahondara en cada uno de los controles de Rapid Miner, puesto que cada uno presenta
muchas variantes y se deben acoplar de acuerdo a la necesidad de su uso.
Criterios de Transformacion de
Origen de Datos Carga de La Data
Evaluacion la Data
•Definicion de la •Filtrado de los •Cotejamiento •Insercion de los
data campos entre los datos validos
•Inclusion en el •Generacion de diferentes dentro del motor
proceso Informacion Valida origenes de datos de base de datos
•Generacion de •Calculo de Campos •Generacion de
Informacion a partir de los archivos Excel con
Invalida Criterios de la informacion
Evaluacion invalida
Cada una de estas etapas se resume en una serie de operadores visuales dentro de Rapid Miner.
17
Filter Example Este operador sirve para definir una muestra de
Range los datos. Siendo esto necesario en este caso,
por motivos de Licenciamiento de Rapid Miner.
Al solo permitir 10000 registros para procesar.
Algo importante a recalcar en este punto es que en Rapid Miner, se manejan “Process” los cuales
son una herramienta grafica que permite utilizar los operadores anteriormente descritos, para
llevar a cabo la extracción, transformación y carga de los datos.
Los operadores especificados anteriormente representan las acciones que fueron necesarias
para llevar a cabo el tratamiento de cada tabla.
18
Surveys. Extraccion, Tratamiento y Depuracion de la Informacion.
19
TM_Assignation. Extracción, Tratamiento y Depuración de la Información.
En este proceso es necesario identificar las líneas de acción en cada uno de estos diagramas de flujo. Existe dos tipos de data que se obtendrá de
este proceso; Data Valida y Data Invalida. Una vez esta data es generada a través de una serie de Filtros se obtendrá dos DataSets o Fuentes de
Datos Intermedias, las cuales se llamaran asi pues son resultado de un proceso previo de evaluación. Y en la línea “Surveys” tenemos una línea
superior la cual corresponde a la Data Valida, dicha Data se conecta hacia el objeto el cual representa un Output o Salida de datos del
proceso.
Y en la línea inferior detectamos una particularidad, y es que la Data Invalida la cual es resultado de la evaluación, tiene su salida en el elemento
el cual representa a los “Unmatched Values” lo que significa que dentro de una línea de evaluación, podemos tener mas de
uno de estos elementos, y de él se derivaran diferentes datos, pues cada vez que se generan “Unmatched Values”; significa que no se ha
cumplido uno o mas criterios. Y al final de la línea inferior encontramos una salida hacia un Archivo Excel. Ahora bien, ¿Por qué hacia un archivo,
y no con el elemento “res”? Por dos razones, la primera: no es recomendado cargar las salidas de un proceso, con datos inválidos; segunda: El
tratamiento de la Data Invalida, requiere de la intervención de un usuario con experiencia en el manejo de dicha data, para que pueda llevar a
cabo un proceso de discriminación por cada caso.
20
Process 1. Filtering Tables.
21
NOTA: Anteriormente, se mención que el operador “res” representa una salida del proceso. Su utilidad radica en que es posible conectar un proceso
con otro. Y de esta manera ser capaz de seccionar cada una de las acciones que vas a realizar para llevar a cabo la Transformación de la Data. Lo
cual realizaremos a continuación.
22
Retomando los comentarios realizados anteriormente, en ese caso podemos apreciar 3 líneas de
acción, cada una representa los datos que serán utilizados en ejercicios posteriores para la creación
de un OLAP.
Cabe mencionar que esta línea corresponde a Datos Validos que han sido consolidados en una sola
tabla.
En la línea del medio encontramos un proceso de validación para la tabla Roster y TM; con la
finalidad de depurar los datos sobrantes en la unión de Datos Validos. Al igual que el anterior esta
línea cuenta con un elemento de Write Excel, permitiéndole enviar la data para su posterior
depuración en Excel.
Criterios de Evaluación.
TABLA CAMPO CRITERIOS
Language Matches:
English
French
Portuguese
Spanish
Not Blank
Service (Matches) Matches:
Account Manager
Back Office Service
Back Office Trust
Back Office Voucher
Chat
Chat Ops
Floor Support
Front Desk
23
Integrity
L&D
Operations
PKIS
QA
Service Desk
SME Chat
SME Voice
Social Media
Social Media Ops
Sony Rewards
Specialty Ops
Support
Team Leader / Chat
Team Leader / Nesting
Team Leader / Voice
Time Coordinator
Voice
Voice Ops
Not Blank
Employee ID Not blank; Numbers only; 8 digits
Q1 Matches:
1 - Very Dissatisfied
2 - Dissatisfied
3 - Neutral
3 - Satisfied
4 - Satisfied
Surveys 4 - Very Satisfied
5 - Very Satisfied
Not blank
Q2 Matches:
1 - Very Dissatisfied
2 - Dissatisfied
3 - Neutral
3 - Satisfied
4 - Satisfied
4 - Very Satisfied
5 - Very Satisfied
24
Not blank
Q3 Matches:
No
Yes
Q4 Number only (0-10)
Por lo anterior mencionado, se ha decidido llevar a cabo la asignación de esta tarea a personal
especializado, en esta tarea, de esa manera se podrá llevar a cabo el seguimiento individual de
cada caso.
Y una vez que los datos hayan sido modificados y procesados de nuevo por el proceso ETL de
RapidMiner, se procederá a generar de nuevo la tabla que engloba los datos necesarios. En un
ambiente laboral promedio se espera obtener la verificación de estos datos, en un corto espacio
de tiempo.
25
Bibliografia.
Sitio Web Rapid Miner
https://rapidminer.com/
26