AP429 SESION SINCRONA 5 Análisis Descriptivo en Business Analytics
AP429 SESION SINCRONA 5 Análisis Descriptivo en Business Analytics
AP429 SESION SINCRONA 5 Análisis Descriptivo en Business Analytics
Sesión Síncrona 5
Objetivos de la Unidad - Sesión
Al finalizar la Unidad, el
estudiante desarrolla el
análisis descriptivo utilizando
técnicas estadísticas y
herramientas de exploración
utilizando los datos de la
empresa.
Recopilación
y
preparación de datos
¿Qué es la recopilación de datos?
¿Qué?
¿Dónde? ¿Cómo?
Comprensión Requisitos
Empresarial De Datos
Datos
¿Cuándo? ¿Quién?
¿Por qué?
Formas de recopilar datos
Formas de recopilar datos
A mejores datos
recolectados mejores
resultados.
Formas de recopilar datos – El arte de hacer preguntas
• Explorando aspectos relacionados
• Ampliando
• Clarificando
• Profundizando
Digitación Aplicaciones
Sensores
Transacciones cotidianas
Artefactos (IoT)
Preparación de datos
• La preparación de datos es el
proceso de limpieza y
transformación de datos en
bruto antes de su procesamiento
y análisis.
• Objetivo: mejorar la calidad,
usabilidad y accesibilidad de los
datos antes de ponerlos a
disposición de las personas y los
sistemas de análisis de datos.
Preparación de datos - ETL
Preparación de datos - Pasos
Definir
objetivos Recopilar Procesar Analizar Presentar
del datos datos datos datos
análisis
P: Percentiles
D: Deciles
Qu: Quintiles
Q: Cuartiles
Medidas de posición
o Cuartiles: Es uno de los más utilizados y divide la distribución en cuatro partes iguales. Así,
existen tres cuartiles. Los valores inferiores de la distribución se sitúan por debajo del
primero (Q1). La mitad o mediana son los valores menores iguales al cuartil dos (Q2) y los
superiores son representados por el cuartil tres (Q3).
o Quintiles: En este caso, divide la distribución en cinco partes. Por tanto, hay cuatro
quintiles. Además, no existe ningún valor que divida la distribución en dos partes iguales.
o Deciles: Divide los datos en diez partes iguales. Existen nueve deciles, de D1 a D9. El D5 se
corresponde con la mediana.
o Percentiles: Por último, este cuantil divide la distribución en cien partes. Hay 99
percentiles.
P: Percentiles
D: Deciles
Qu: Quintiles
Q: Cuartiles
Medidas de posición - Ejemplo
Aunque los tiempos de atención promedio son aproximadamente iguales (35 minutos), las
desviaciones estándar son significativamente diferentes. La desviación estándar del hospital 1 es
de aproximadamente 6. En promedio, el tiempo para dar de alta a un paciente se desvía de la
media (línea discontinua) aproximadamente 6 minutos. La desviación estándar del hospital 2 es
de aproximadamente 20. En promedio, el tiempo para dar de alta a un paciente se desvía de la
media (línea discontinua) aproximadamente 20 minutos.
Medidas estadísticas - Ejercicios
• Se tomaron dos grupos de muestras sobre los salarios de trabajadores de una fábrica de
golosinas. Reunirse en grupos por 20 minutos y calcular las siguientes medidas
estadísticas para los siguientes grupos de datos. Explicar sus hallazgos.
Calcular la media, mediana, moda, cuartiles y desviación estándar. Determinar ¿cuál grupo
tiene los valores más dispersos?.
Grupo A
N° 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Salario (S/.) 2500 4600 1600 3600 1800 1600 4800 1200 3900 5000 4600 2500 1300 1800 4200
Grupo B
N° 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Salario (S/.) 3200 2800 3600 3300 2500 2800 3400 2200 3100 2400 3200 2300 3300 3000 2600 2500 2800 2900
Cubos multidimensionales
Cubos multidimensionales
• Data Warehouse
o Repositorio unificado
o Se alimenta de datos de
diferentes fuentes OLTP
o Orientada a cubrir
necesidad de todo el
negocio
Cubos multidimensionales
• Data Marts
o Repositorio (base de
datos) que sólo almacena
información de un área
de la empresa o de un
proceso específico.
o Un Data Warehouse y un
Data Mart, son lo mismo,
la diferencia es el alcance
de la solución. Siendo el
Data Mart más limitado
y/o enfocado a una parte
del negocio (ventas,
marketing, financiero,
producción, entre otros).
Tipos de Data Marts
El resultado la unión
de las tablas de
hechos y dimensiones
es un esquema de
información,
destacando los dos
esquemas más
importantes: estrella
y copo de nieve.
Esquema estrella
Modelo de datos
que tiene una
tabla de hechos
que contiene los
datos para el
análisis, rodeada
de las tablas de
dimensiones.
Esquema copo de nieve
• El análisis multidimensional es un
recurso que permite evaluar los datos de
una empresa desde diferentes puntos de
vista.
• Por esta razón, la información está
organizada por jerarquía, para facilitar el
estudio de estos datos.
• Una jerarquía es parte de los diferentes
niveles que conforman una dimensión,
que no es más que una unidad de
análisis.
Análisis multidimensional