AP429 SESION SINCRONA 5 Análisis Descriptivo en Business Analytics

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 50

Business Analytics

Análisis descriptivo en Business Analytics

Sesión Síncrona 5
Objetivos de la Unidad - Sesión
Al finalizar la Unidad, el
estudiante desarrolla el
análisis descriptivo utilizando
técnicas estadísticas y
herramientas de exploración
utilizando los datos de la
empresa.
Recopilación
y
preparación de datos
¿Qué es la recopilación de datos?

• Se refiere al enfoque sistemático de reunir y medir


información de diversas fuentes a fin de obtener un
panorama completo y preciso de una zona de interés.

• La recopilación de datos es un componente de la


investigación en todos los campos de estudio, incluidas
las ciencias físicas, sociales, humanidades y los
negocios.
Recopilación de datos – Comprensión empresarial
Recopilación de datos – Requisitos de datos

¿Qué?

¿Dónde? ¿Cómo?

Comprensión Requisitos
Empresarial De Datos
Datos

¿Cuándo? ¿Quién?

¿Por qué?
Formas de recopilar datos
Formas de recopilar datos

• El objetivo de toda la recopilación de


datos es capturar evidencia de
calidad que permita que el análisis
conduzca a la formulación de
respuestas convincentes y creíbles
a las preguntas que se han
planteado.

A mejores datos
recolectados mejores
resultados.
Formas de recopilar datos – El arte de hacer preguntas
• Explorando aspectos relacionados

o ¿Qué aspectos están relacionados con…?


o ¿Cómo se aplicaría este concepto en un contexto diferente?
o ¿Cuáles son los usos relacionados de esta tecnología?
o ¿Cómo se aplicarían estas ideas en otro país?

• Ampliando

o Dando un paso atrás, ¿cuáles son los problemas más grandes?


o En lugar de hablar de estos temas por separado, ¿cuáles son las tendencias
más grandes que deberían preocuparnos? ¿Cómo se unen todos?

• Clarificando

o ¿Por qué está sucediendo esto?


o ¿Por qué se dice que esta metodología no funcionaría en este otro contexto?
o ¿Puedes brindarme más información sobre este tema?, ¿Por qué lo dices?

• Profundizando

o ¿Cómo hiciste el análisis?


o ¿Por qué (no) incluiste este paso/factor?
o ¿Podemos tomar este análisis de productos para exteriores y reducirlo a una
determinada ctos marca de muebles de césped?
Fuente: https://hbr.org/2015/03/relearning-the-art-of-asking-questions
Formas de recopilar datos

Digitación Aplicaciones

Sensores

Transacciones cotidianas

Artefactos (IoT)
Preparación de datos

• La preparación de datos es el
proceso de limpieza y
transformación de datos en
bruto antes de su procesamiento
y análisis.
• Objetivo: mejorar la calidad,
usabilidad y accesibilidad de los
datos antes de ponerlos a
disposición de las personas y los
sistemas de análisis de datos.
Preparación de datos - ETL
Preparación de datos - Pasos

Acceder Extraer Limpiar Formatear Combinar Analizar


Principios y buenas prácticas de la preparación de datos

• Entender al consumidor de los datos


• Entender los datos
• Guardar los datos sin procesar
• Almacenar todos los datos (de ser posible, procesados y sin procesar)
• Asegurar que las transformaciones sean reproducibles, deterministas e idempotentes
• Asegurar (a futuro) la escalabilidad de la canalización de datos (documentar, versionar los
datos, códigos, transformaciones)
• Separar adecuadamente el sistema en línea y el análisis fuera de línea (evitar afectar a los
usuarios de los sistemas en línea)
• Supervisar la canalización de datos (comprobar la coherencia entre los conjuntos de datos)
• Emplear la Gobernabilidad de datos desde el principio (seguridad, procedimientos, políticas,
etc.)
Estadística para el análisis de datos
Estadística para el análisis de datos

• Estadística: Rama de las matemáticas que se


ocupa de la recopilación, organización, análisis,
interpretación y presentación de datos.
• Población: Conjunto de individuos sobre el que se
va a estudiar una característica.
• Individuo: O unidad estadística, es cada uno de
los elementos que componen la población.
• Muestra: Un conjunto representativo de la
población.
• Dato: Cada uno de los valores obtenidos (altura
de una persona, decisión de voto, confirmación si
se encontró defecto en un producto, etcétera).
Estadística para el análisis de datos

• Análisis estadístico: El análisis de


datos estadísticos es el proceso
que nos permite interpretar los
datos numéricos de la población
o muestra que son parte del
estudio.
• En el mundo digital y de los
negocios, el análisis de datos
estadísticos está asociado a las
técnicas de Big Data (Data
Science), Business Intelligence y
Business Analytics.
Fases para el análisis de datos

Definir
objetivos Recopilar Procesar Analizar Presentar
del datos datos datos datos
análisis

Validar resultado vs objetivo del análisis


Medidas estadísticas

• Las medidas estadísticas son datos que pretenden resumir


con un solo valor la información obtenida tras el estudio
de una población o muestra.
Clasificación de las medidas estadísticas
Medidas de tendencia central

• Las medidas de tendencia central son medidas estadísticas que


pretenden resumir en un solo valor a un conjunto de valores.
Representan un centro en torno al cual se encuentra ubicado el
conjunto de los datos.
Medidas de tendencia central

• Promedio o media: Viene a ser el promedio aritmético de la


muestra. Es la medida de tendencia central más conocida y
utilizada. Se calcula realizando la sumatoria de todos los
valores y dividiendo entre la cantidad de valores de la
muestra.
Medidas de tendencia central

• Mediana: La mediana es el valor de la variable que ocupa la posición central, cuando


los datos se disponen en orden de magnitud.

Si el número de observaciones es par, la mediana corresponde al promedio de los dos


valores centrales. Por ejemplo, en la muestra 3, 9, 11, 15, la mediana es (9+11)/2=10.
Medidas de tendencia central

• Moda: se define como el valor de la variable que más se repite. Una


muestra puede tener más de una moda.
Medidas de posición

• Dividen los datos en


partes iguales y por
tanto son útiles para la
clasificación de los
individuos de la
población o muestra.
Medidas de posición
o Cuartiles: Es uno de los más utilizados y divide la distribución en cuatro partes iguales. Así,
existen tres cuartiles. Los valores inferiores de la distribución se sitúan por debajo del
primero (Q1). La mitad o mediana son los valores menores iguales al cuartil dos (Q2) y los
superiores son representados por el cuartil tres (Q3).
o Quintiles: En este caso, divide la distribución en cinco partes. Por tanto, hay cuatro
quintiles. Además, no existe ningún valor que divida la distribución en dos partes iguales.
o Deciles: Divide los datos en diez partes iguales. Existen nueve deciles, de D1 a D9. El D5 se
corresponde con la mediana.
o Percentiles: Por último, este cuantil divide la distribución en cien partes. Hay 99
percentiles.

P: Percentiles
D: Deciles
Qu: Quintiles
Q: Cuartiles
Medidas de posición
o Cuartiles: Es uno de los más utilizados y divide la distribución en cuatro partes iguales. Así,
existen tres cuartiles. Los valores inferiores de la distribución se sitúan por debajo del
primero (Q1). La mitad o mediana son los valores menores iguales al cuartil dos (Q2) y los
superiores son representados por el cuartil tres (Q3).
o Quintiles: En este caso, divide la distribución en cinco partes. Por tanto, hay cuatro
quintiles. Además, no existe ningún valor que divida la distribución en dos partes iguales.
o Deciles: Divide los datos en diez partes iguales. Existen nueve deciles, de D1 a D9. El D5 se
corresponde con la mediana.
o Percentiles: Por último, este cuantil divide la distribución en cien partes. Hay 99
percentiles.

P: Percentiles
D: Deciles
Qu: Quintiles
Q: Cuartiles
Medidas de posición - Ejemplo

N° Ingreso Cálculo de la posición del cuartil (fórmula)


1 2000
2 2500
3 2800 Cantidad Cantidad
4 2800 de datos de datos
5 2900 par impar
6 2900 Donde:
7 2900
Q = Cuartil
8 3000
k = N° de cuartil a calcular
9 3200
10 3200
n = Cantidad de datos
11 3200
12 3200
Ejemplo: Los valores mostrados son una muestra de percepciones salariales de 20
trabajadores, aplicando la fórmula encontraremos la posición de los Cuartiles:
13 3500
14 3600 Q1 = 2900
15 3800 Q2 = 3200
16 4100 Q3 = 3800
17 4600
18 4600 * Si se aplican fórmulas en Excel (Cuartil, Cuartil.INC, Cuartil.EXC) el Q3 nos da valores de
19 4800 3875 y 4025, lo cual también está bien, ya que lo importantes es que (para este cuartil) el
20 5000 75% de los valores deben estar debajo o igual al Q3.
Medidas de dispersión

• Las medidas de dispersión entregan información sobre la


variación de la variable, pretenden resumir en un solo valor la
dispersión que tiene un conjunto de datos, en otras palabras,
evaluar en qué medida los datos difieren entre sí.

o Rangos de variación: Se define como la diferencia entre el mayor valor


de la variable y el menor valor de la variable.
Medidas de dispersión

o Varianza: representa la variabilidad de una serie de datos respecto a su


media. Formalmente se calcula como la suma de los residuos al cuadrado
divididos entre el total de observaciones. La razón por la que los residuos se
elevan al cuadrado es sencilla. Si no se elevasen al cuadrado, la suma de
residuos sería cero.
Medidas de dispersión

o Desviación estándar: O desviación típica, es la raíz cuadrada de la varianza. En


realidad, ambas vienen a medir lo mismo. La desviación típica se calcula para
poder trabajar en las unidades de medida iniciales. Aunque parezca
innecesaria la varianza su cálculo se hace necesario para obtener el valor de
otros parámetros.
Desviación estándar – ejemplo
Tiempos de atención de un hospital (en minutos)

Aunque los tiempos de atención promedio son aproximadamente iguales (35 minutos), las
desviaciones estándar son significativamente diferentes. La desviación estándar del hospital 1 es
de aproximadamente 6. En promedio, el tiempo para dar de alta a un paciente se desvía de la
media (línea discontinua) aproximadamente 6 minutos. La desviación estándar del hospital 2 es
de aproximadamente 20. En promedio, el tiempo para dar de alta a un paciente se desvía de la
media (línea discontinua) aproximadamente 20 minutos.
Medidas estadísticas - Ejercicios

• Se tomaron dos grupos de muestras sobre los salarios de trabajadores de una fábrica de
golosinas. Reunirse en grupos por 20 minutos y calcular las siguientes medidas
estadísticas para los siguientes grupos de datos. Explicar sus hallazgos.
Calcular la media, mediana, moda, cuartiles y desviación estándar. Determinar ¿cuál grupo
tiene los valores más dispersos?.

Grupo A
N° 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Salario (S/.) 2500 4600 1600 3600 1800 1600 4800 1200 3900 5000 4600 2500 1300 1800 4200

Grupo B
N° 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Salario (S/.) 3200 2800 3600 3300 2500 2800 3400 2200 3100 2400 3200 2300 3300 3000 2600 2500 2800 2900
Cubos multidimensionales
Cubos multidimensionales

• Data Warehouse

o Repositorio unificado

o Se alimenta de datos de
diferentes fuentes OLTP

o Orientada a cubrir
necesidad de todo el
negocio
Cubos multidimensionales

• Data Marts
o Repositorio (base de
datos) que sólo almacena
información de un área
de la empresa o de un
proceso específico.
o Un Data Warehouse y un
Data Mart, son lo mismo,
la diferencia es el alcance
de la solución. Siendo el
Data Mart más limitado
y/o enfocado a una parte
del negocio (ventas,
marketing, financiero,
producción, entre otros).
Tipos de Data Marts

• Data Mart dependiente: Se


construye a partir de un Data
Warehouse central,
identificando un subconjunto
adecuado de datos y moviendo
una copia del mismo; a menudo
en forma resumida.
Tipos de Data Marts

• Data Mart independiente: Se


crea a partir de fuentes
externas, sin recurrir al Data
Warehouse central.
Tipos de Data Marts

• Data Mart híbrido: Permite


combinar las ventajas de los
dos modelos anteriores,
integrando datos
provenientes de un Data
Warehouse central con
otras fuentes externas.
Tablas de hecho (fact tables)

• La tabla principal del modelo dimensional


• Contienen campos claves (llaves) que se unen a
las tablas de dimensión
• Contiene métricas de lo que queremos medir o
analizar. Generalmente son valores numéricos
que se suelen agregar
• Evitan la redundancia de atributos ya que estos se
encuentran en las tablas de dimensiones
• Normalmente tienen muchos registros (millones)
• Como ejemplo podemos mencionar: datos de las
ventas, compras, movimientos de contables, etc.
Tablas dimensionales

• Tablas simples desnormalizadas


• Se unen a las tablas de hechos a través de un
campo clave
• Los atributos de la tabla de dimensión ofrecen
información característica de las tablas de hechos
• No hay límite de tablas de dimensión
• Las dimensiones pueden contener una o varias
relaciones jerárquicas
• Normalmente tiene pocos (miles) registros
• Como ejemplos podemos mencionar: clientes,
productos, almacenes, proveedores, calendario
Esquemas de cubos multidimensionales

El resultado la unión
de las tablas de
hechos y dimensiones
es un esquema de
información,
destacando los dos
esquemas más
importantes: estrella
y copo de nieve.
Esquema estrella

Modelo de datos
que tiene una
tabla de hechos
que contiene los
datos para el
análisis, rodeada
de las tablas de
dimensiones.
Esquema copo de nieve

• Estructura más compleja que el


esquema en estrella.
• Se da cuando alguna de las
dimensiones se implementa con
más de una tabla de datos.
• La finalidad es normalizar las tablas
y así reducir el espacio de
almacenamiento al eliminar la
redundancia de datos, pero tiene la
contrapartida de generar peores
rendimientos al tener que crear más
tablas de dimensiones y más
relaciones entre las tablas.
Cubos multidimensionales

• Un cubo multidimensional es una forma de poder transmitir


de una manera "gráfica" las bases de datos
multidimensionales (data marts).
Análisis multidimensionales
Análisis multidimensional

• El análisis multidimensional es un
recurso que permite evaluar los datos de
una empresa desde diferentes puntos de
vista.
• Por esta razón, la información está
organizada por jerarquía, para facilitar el
estudio de estos datos.
• Una jerarquía es parte de los diferentes
niveles que conforman una dimensión,
que no es más que una unidad de
análisis.
Análisis multidimensional

• Los datos de una empresa están divididos en varias


dimensiones (como productos, tiempo, clientes,
producción, etc.) que deben analizarse juntas - mediante
análisis multidimensional- para obtener mejores
resultados.
• Por ejemplo: la región se considera una dimensión cuyos
niveles jerárquicos están divididos (y organizados) por
países, estados, ciudades y áreas de operación.
• Se podría analizar el desarrollo de un producto que
satisfaga las necesidades del público en una región
determinada y, después de su lanzamiento, la posibilidad
de analizar el tiempo que lleva venderlo.
• También puede ayudar a identificar qué productos se
vendieron más en un período determinado, en qué
región tuvo la mejor salida y qué canal de ventas se
utilizó para generar este retorno.
Terminemos con un ejemplo de análisis descriptivo

Revisarlo en: https://www.bbva.com/es/navidata-gastado-dinero-esta-navidad/


GRACIAS POR LA ATENCIÓN

Facultad de Negocios UPC


54

También podría gustarte