Proceso de ETL

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 28

Universidad Don Bosco

Facultad de Ingeniería
Escuela de Computación

Seminario de Graduación: Proceso de ETL

Docente:
Lic. Miguel Ángel López.

Grupo:
02

Integrantes:
Cristóbal Balmore García Majano
Alma Evangelina Quesada Arenivar

Viernes 07 de enero de 2017


Universidad Don Bosco, Soyapango
El Salvador, Centroamérica.
Contenido
ETL ....................................................................................................................................................... 1
Planteamiento del Ejercicio............................................................................................................. 1
Instalación y Configuración de SQL Server. ..................................................................................... 1
Instalación y Configuración de Rapid Miner. ................................................................................ 12
Montaje de la Data ........................................................................................................................ 14
Flujo de Trabajo dentro de Rapid Miner ....................................................................................... 17
Entendiendo más a fondo tu data. ............................................................................................ 17
Surveys. Extraccion, Tratamiento y Depuracion de la Informacion. ......................................... 19
Rosters. Extracción, Tratamiento y Depuración de la Información. ......................................... 19
TM_Assignation. Extracción, Tratamiento y Depuración de la Información. ........................... 20
Process 1. Filtering Tables. ........................................................................................................ 21
Process Data. Transformación y Carga ...................................................................................... 22
Criterios de Evaluación. ............................................................................................................. 23
Procedimiento de Depuración de la Data Inválida. ...................................................................... 25
Bibliografia. ................................................................................................................................... 26
ETL
Planteamiento del Ejercicio.
A continuación se detallaran los pasos necesarios para realizar las siguientes acciones:

1. Instalación y Configuración de SQL Server; el cual fungirá como nuestro motor de base de
datos.
2. Instalación y Configuración de herramienta Rapid Miner; el cual fungirá la función de
Soporte a las Acciones de Extracción, Transformación y Carga de Datos.
3. Montaje e Interpretación de la Data a utilizar.
4. Explicación del Flujo de Trabajo dentro de la Herramienta Rapid Miner para el tratamiento
de la Data mencionada anteriormente.
5. Procedimiento de Tratamiento de la Información.

Instalación y Configuración de SQL Server.


1. Revisar que el equipo cuente con todos los requisitos mencionados en el siguiente link:
https://msdn.microsoft.com/es-es/library/ms143506.aspx

2. Descargar SQL Sever 2012 en el siguiente link: https://www.microsoft.com/en-


us/download/details.aspx?id=29062
3. Correr el archivo “autorun.exe”
4. Se abrirá una ventana de asistencia de instalación de SQL Server. La primer opción en el
menú izquierdo es “Planning” el cual nos permitirá correr un diagnóstico para la correcta
instalación del sistema.

5. Luego se selecciona el siguiente link “Installation” y en el área derecha seleccione “New SQL
Estándar-alone installation or add features to an existing installation”

1
6. Al seleccionar la opción anterior la ventana de asistencia mostrara la sección de “Setup”,
una barra en color verde nos indicara cuando este proceso finalice, en ese momento
seleccionaremos “ok”

7. Aparecerá en pantalla un mensaje que nos indicara que se está comprobando la


configuración del equipo

8. La siguiente ventana nos solicitara seleccionar si queremos instalar una versión de prueba
o activar el software con una clave de producto. Se ingresan los datos requeridos para
activar la licencia. Luego dar click en “Next”

2
9. Aparecerá la ventana donde encontraremos los detalles de producto de SQL Server 2012 y
podremos leer los términos y condiciones, dar click en la casilla “I Accept the License Terms”
y luego dar click en “Next”

10. Para el siguiente paso debemos asegurarnos de tener acceso a internet ya que el programa
de instalación descargara algunas actualizaciones necesarias. Luego en la ventana de
actualizaciones al finalizar el proceso se habilitara el botón “Next”, dar click a dicho botón.

3
11. En la ventana siguiente aparece la configuración de Rol de instalación, es aquí donde
debemos decidir que funcionalidades de SQL Server queremos incluir en la instalación. En
este caso seleccionaremos “SQL Server Feature Installation” y luego damos click en “Next”

12. La siguiente ventana nos permitirá elegir los componentes que queramos adicionar a SQL
Server. Debe seleccionar las opciones:
a. Database Engine Services
b. Full-Text and semantic extraction for search
c. Analysis Services
d. Reporting Services
e. Client Tools Connectivity
f. Management Tools – Basic
g. Management Tools – Complete

4
Luego vamos a dar click en el botón “Next”

13. Esperamos a que se complete la barra de progreso en la ventana siguiente y luego damos
click en “Next”

14. La siguiente ventana nos permitirá configurar una instancia, se dejaran los valores default
y si se desea se puede cambiar el directorio donde se instalaran las funcionalidades. Damos
click en “Next” .Esperamos a que la ventana complete el proceso.

5
15. La siguiente ventana calculara si el equipo tiene el espacio en disco duro necesario para
continua con la instalación. Si se cuenta con el espacio suficiente nos habilitara el botón
“Next”. Dar click a este botón.

6
16. En la venta de configuración del Server, nos pedirá configurar las cuentas de servicio, en
este caso vamos a dejar la que viene default que es con la cual se inició el sistema como
administrador.

17. La siguiente ventana permitirá seleccionar el modo de autenticación, seleccionaremos


“Manual Mode” y agregáramos dos veces una contraseña.

7
18. En la misma ventana, pero en la siguiente tab “Data Direction” especificaremos el directorio
donde se almacenara los archivos MDF y LDF de las bases que se crearan en el servidor.
Damos click en “Next”

19. En esta ventana configuraremos los reporting services, seleccionamos la primera opción
“Install and configure”. Damos click en “Next”

8
20. En esta ventana configuraremos las notificaciones de errores fatales en el server. Marcamos
el checkbox y luego damos click en “Next”

21. Nos aparecerá una ventana de Reglas de configuración donde veremos nuevamente una
barra de progreso, esperamos a que se complete. El botón “Next” Se habilitara y podremos
seleccionarlo.

9
22. Veremos una ventana de “Ready to Install” donde veremos en detalle lo que se seleccionó
anteriormente como componentes o funciones de SQL Server. Damos click en “Install”.

23. Nuevamente nos aparecerá una ventana de progreso de instalación con la barra de
progreso. Esto toma entre 40 y 50 minutos, debemos esperar a que finalice.

10
24. La siguiente ventana nos muestra un resumen de la instalación. Solo debemos dar click en
el botón “Close”. Al hacer esto podemos empezar a utilizar SQL Server.

11
Instalación y Configuración de Rapid Miner.
1. Descargar el software desde el siguiente link:

2. Click en el botón "Download" en la esquina superior derecha.

3. Aparece una ventana donde se puede ingresar los datos de la cuenta, si no se tiene cuenta, hay
una opción para crear una de cero.

4. Seleccione el sistema operativo del equipo o servidor donde se instalará

5. De doble click en el archivo que se descargó con el paso anterior.

6. Aparecerá una ventana con el asistente para Instalación del programa. La primera sección
mostrara los términos de licencia. Lealos y de click en "I Agree"

7. Verifique el directorio donde se va a instalar. De click en "install"

8. Cuanto el proceso de instalación finalice de click en "finish"


9. Aparecerá una ventana para ingresar los datos de la cuenta.

12
10. Abrirá la ventana del programa para empezar a utilizarlo.

13
Montaje de la Data
Para el ejercicio propuesto contamos con un archivo de Excel, compuesto de tres tablas:

1. ROSTER: Consiste en el detalle de los agentes registrados, y los cuales están activos.
2. TM ASSIGNATION: Detalle donde se describe la actividad de los agentes semana a semana,
y describe la información del Supervisor del Agente.
3. SURVEYS: Detalle de las llamadas recibidas por los agentes, y de la cual se pueden obtener
los resultados de una encuesta de satisfacción pasada a los clientes luego de ser atendidos.

Dicha data será montada en Rapid Miner para ser procesada. Dicho proceso se realiza de la siguiente
manera:

1. Abra Rapid Miner .

2. Una vez ingreso ubíquese sobre el Explorador de Repositorio, y ubique el botón “Add Data”.

3. Al seleccionarlo, se le presentara un Explorador de Archivos, que le permitirá cargar datos


locales o ubicados en la nube.

14
4. Seleccionaremos MyComputer, y ubicaremos nuestro archivo.

5. Al presionar “Next”, se nos mostrara las tres tablas mencionadas anteriormente.

Como se puede observar, se nos muestran las diferentes tablas, asi que para poder realizar
el montaje de la data, deberemos elegir una tabla, y luego especificar el rango de celdas a
cubrir, y además, definir en qué línea se encuentra el nombre de las columnas.
6. Luego de este paso, se nos presentara una ventana similar a la anterior, con la diferencia
que esta nos permitirá definir el formato de los datos.

7. Luego de verificar el formato de nuestras columnas, presionamos “Next” y se nos pedirá


seleccionar la dirección donde alojaremos nuestro nuevo Origen de Datos. Como
recomendación se sugiere la creación de un nuevo Folder para poder ubicar el proyecto;

15
esto se realiza haciendo “Click Derecho” sobre el Repositorio que utilizaremos para guardar

los datos, y seleccionando la opción . Luego seleccionamos la carpeta y


presionamos “Finish”.

8. Ahora observaremos en el “Explorador de Repositorio” nuestro nuevo Origen de Datos

NOTA: Este proceso debe de repetirse por cada una de las


tablas que se utilizaran.

9. Una vez finalizado el Montaje de la Data es posible empezar a explicar el Flujo de Trabajo
de Rapid Miner.

16
Flujo de Trabajo dentro de Rapid Miner
NOTA: Para los fines didácticos extendidos, en el apartado de Bibliografia se contara con los
enlaces para obtener los tutoriales y documentación completos de Rapid Miner. Más sin embargo
en este documento solo se detallara la creación de los procesos para la realización del ejercicio, y
no se ahondara en cada uno de los controles de Rapid Miner, puesto que cada uno presenta
muchas variantes y se deben acoplar de acuerdo a la necesidad de su uso.

Entendiendo más a fondo tu data.


En Rapid Miner, la data a examinar se considera un mar de posibilidades, de esta capitán de esta
nave es el usuario. Siendo indispensable el saber diferenciar este proceso en etapas:

Criterios de Transformacion de
Origen de Datos Carga de La Data
Evaluacion la Data
•Definicion de la •Filtrado de los •Cotejamiento •Insercion de los
data campos entre los datos validos
•Inclusion en el •Generacion de diferentes dentro del motor
proceso Informacion Valida origenes de datos de base de datos
•Generacion de •Calculo de Campos •Generacion de
Informacion a partir de los archivos Excel con
Invalida Criterios de la informacion
Evaluacion invalida

Cada una de estas etapas se resume en una serie de operadores visuales dentro de Rapid Miner.

Operador Imagen Descripcion

Origen de Datos El Operador Retrieve Data, u Origen de Datos,


representa a cada una de las tablas que
utilizaremos para llevar a cabo el análisis.

Filter Examples El operador de Filtros puede llevar a cabo un


numero N de validaciones, cada una aplicada
solo a un campo a la vez. Es decir, dentro de este
operador, puedo crear una lista de criterios de
validación que deseo aplicarle al operador
Retrieve Data

Date To Nominal Este operador sirve para realizar una conversión


de los datos, en este caso de aquellos campos
que tengan una propiedad DATE, unificando sus
formatos en el estándar yyyy-MM-dd HH:mm:ss

17
Filter Example Este operador sirve para definir una muestra de
Range los datos. Siendo esto necesario en este caso,
por motivos de Licenciamiento de Rapid Miner.
Al solo permitir 10000 registros para procesar.

Generate El operador de calculo de campos a partir de los


Attributes filtros generados, permite llevar a cabo una serie
de validaciones lógicas, para determinar el valor
que se reflejara en el campo especificado.

Join Al igual que en SQL representa un operador


utilizado para llevar a cabo la unión de los
registros conectados en su operador left y right

Write Excel Operador que permite la generación de un


archivo Excel, donde se insertara la Data que se
conecte en su “Input”

Executing Process Operador que utiliza un proceso ya creado como


fuente de datos, permitiendo de esta manera
concatenar uno o mas procesos para generar
data

Algo importante a recalcar en este punto es que en Rapid Miner, se manejan “Process” los cuales
son una herramienta grafica que permite utilizar los operadores anteriormente descritos, para
llevar a cabo la extracción, transformación y carga de los datos.

Los operadores especificados anteriormente representan las acciones que fueron necesarias
para llevar a cabo el tratamiento de cada tabla.

A continuación se mostrara de manera gráfica el diseño de este proceso.

18
Surveys. Extraccion, Tratamiento y Depuracion de la Informacion.

Rosters. Extracción, Tratamiento y Depuración de la Información.

19
TM_Assignation. Extracción, Tratamiento y Depuración de la Información.

En este proceso es necesario identificar las líneas de acción en cada uno de estos diagramas de flujo. Existe dos tipos de data que se obtendrá de
este proceso; Data Valida y Data Invalida. Una vez esta data es generada a través de una serie de Filtros se obtendrá dos DataSets o Fuentes de
Datos Intermedias, las cuales se llamaran asi pues son resultado de un proceso previo de evaluación. Y en la línea “Surveys” tenemos una línea

superior la cual corresponde a la Data Valida, dicha Data se conecta hacia el objeto el cual representa un Output o Salida de datos del
proceso.

Y en la línea inferior detectamos una particularidad, y es que la Data Invalida la cual es resultado de la evaluación, tiene su salida en el elemento

el cual representa a los “Unmatched Values” lo que significa que dentro de una línea de evaluación, podemos tener mas de
uno de estos elementos, y de él se derivaran diferentes datos, pues cada vez que se generan “Unmatched Values”; significa que no se ha
cumplido uno o mas criterios. Y al final de la línea inferior encontramos una salida hacia un Archivo Excel. Ahora bien, ¿Por qué hacia un archivo,
y no con el elemento “res”? Por dos razones, la primera: no es recomendado cargar las salidas de un proceso, con datos inválidos; segunda: El
tratamiento de la Data Invalida, requiere de la intervención de un usuario con experiencia en el manejo de dicha data, para que pueda llevar a
cabo un proceso de discriminación por cada caso.

20
Process 1. Filtering Tables.

21
NOTA: Anteriormente, se mención que el operador “res” representa una salida del proceso. Su utilidad radica en que es posible conectar un proceso
con otro. Y de esta manera ser capaz de seccionar cada una de las acciones que vas a realizar para llevar a cabo la Transformación de la Data. Lo
cual realizaremos a continuación.

Process Data. Transformación y Carga

22
Retomando los comentarios realizados anteriormente, en ese caso podemos apreciar 3 líneas de
acción, cada una representa los datos que serán utilizados en ejercicios posteriores para la creación
de un OLAP.

Al final de cada línea encontramos un elemento de escritura, en la línea superior se ubica el


elemento “Write DataBase” el cual se encargara de enviar esta data hacia el motor de base de datos.

Cabe mencionar que esta línea corresponde a Datos Validos que han sido consolidados en una sola
tabla.

En la línea del medio encontramos un proceso de validación para la tabla Roster y TM; con la
finalidad de depurar los datos sobrantes en la unión de Datos Validos. Al igual que el anterior esta
línea cuenta con un elemento de Write Excel, permitiéndole enviar la data para su posterior
depuración en Excel.

Criterios de Evaluación.
TABLA CAMPO CRITERIOS

ROSTER Employee ID Not blank; Numbers only; 8 digits

Name Not blank; Not numbers; Not symbols

Service (Format) Not blank; Not numbers; Not symbols

Go Live Date; Not Blank; Format: MM/dd/yyyy

Site Match “Sykes – ELS”

Language Matches:
 English
 French
 Portuguese
 Spanish
Not Blank
Service (Matches) Matches:
 Account Manager
 Back Office Service
 Back Office Trust
 Back Office Voucher
 Chat
 Chat Ops
 Floor Support
 Front Desk

23
 Integrity
 L&D
 Operations
 PKIS
 QA
 Service Desk
 SME Chat
 SME Voice
 Social Media
 Social Media Ops
 Sony Rewards
 Specialty Ops
 Support
 Team Leader / Chat
 Team Leader / Nesting
 Team Leader / Voice
 Time Coordinator
 Voice
 Voice Ops
Not Blank
Employee ID Not blank; Numbers only; 8 digits

TM Assignations Week Not blank; Number only (1-53)

TM Not Blank; Not symbols; Not numbers

Cae Owner Not blank; Numbers only; 8 digits

Survey Date Date; Not Blank; Format: MM/dd/yyyy

Q1 Matches:
 1 - Very Dissatisfied
 2 - Dissatisfied
 3 - Neutral
 3 - Satisfied
 4 - Satisfied
Surveys  4 - Very Satisfied
 5 - Very Satisfied
Not blank
Q2 Matches:
 1 - Very Dissatisfied
 2 - Dissatisfied
 3 - Neutral
 3 - Satisfied
 4 - Satisfied
 4 - Very Satisfied
 5 - Very Satisfied

24
Not blank
Q3 Matches:
 No
 Yes
Q4 Number only (0-10)

First Contact Matches:


 No
 Yes
Not blank
Resolution Matches:
 No
 Yes
Not blank
Case Creator Site Sykes-El Sal 1

Case Survey Matches:


 Chat
 Voice
Not blank

Procedimiento de Depuración de la Data Inválida.

En el apartado anterior observamos cómo el proceso de Extraccion y Transformacion tiende a


excluir un cierto número de datos debido a que estos no cumplen con los criterios necesarios.
Puesto que muchas veces esta información puede presentar un cambio en la balanza sobre la
toma de decisiones, se debe de llevar sobre ella un proceso de control, para permitir así de esta
manera que las decisiones que se hagan apoyadas en esta data, sean más precisas.

Por lo anterior mencionado, se ha decidido llevar a cabo la asignación de esta tarea a personal
especializado, en esta tarea, de esa manera se podrá llevar a cabo el seguimiento individual de
cada caso.

Y una vez que los datos hayan sido modificados y procesados de nuevo por el proceso ETL de
RapidMiner, se procederá a generar de nuevo la tabla que engloba los datos necesarios. En un
ambiente laboral promedio se espera obtener la verificación de estos datos, en un corto espacio
de tiempo.

25
Bibliografia.
 Sitio Web Rapid Miner
https://rapidminer.com/

26

También podría gustarte