07 - Data Mining y Explotacion de Informacion - 1
07 - Data Mining y Explotacion de Informacion - 1
07 - Data Mining y Explotacion de Informacion - 1
INTELIGENCIA DE NEGOCIOS
IN v.2021
¿Qué tipo de lentes necesita bajo estas condiciones?
2
OTRO PROBLEMA
Un banco trata de evitar que sus clientes se vayan a
otros bancos. Por eso quieren detectar los signos
tempranos de deserción, es decir las actitudes que toma
un cliente antes de irse del banco.
IN v.2021
Esto le permitirá identificar qué clientes están
haciendo eso mismo, e intentar retenerlos mientras son
clientes .
El banco tiene información histórica sobre movimientos
de los clientes (entre ellos la baja), y quiere usar esa
información para detectar cuáles son estos signos, para
luego identificar qué clientes presentan los mismos
“comportamientos”.
3
LA SOLUCIÓN CON OLAP
Se formulan hipótesis:
✓ Los clientes que no renovaron plazos fijos tienen tendencia
a irse.
IN v.2021
✓ Los clientes que disminuyeron sus operaciones de cajero
automático tienen tendencia a irse.
✓ Los clientes que cerraron cuentas tienen tendencia a irse.
IN v.2021
5
MOTIVACIÓN DE LA MINERÍA DE DATOS
Necesidad de analizar grandes volúmenes de datos
para obtener información desconocida que sea útil
para tomar decisiones.
IN v.2021
Volumen y variedad de información informatizada que
desborda la capacidad humana.
Uso de técnicas que imiten la cualidad humana del
aprendizaje, es decir, con capacidad de extraer nuevo
conocimiento a partir de experiencias (ejemplos).
Las decisiones se basan en la información de
experiencias pasadas extraídas de fuentes muy diversas.
Se cuenta con información histórica que es útil para
predecir.
6
MINERÍA DE DATOS
Proceso automático que permite extraer y descubrir
patrones de conocimiento interesantes, no
triviales, previamente desconocidos y
potencialmente útiles de los datos y descubrir
IN v.2021
relaciones entre variables.
Sirve de ayuda en el proceso de toma de decisiones,
formando parte del conjunto de tecnologías aplicables
a la Inteligencia de Negocio.
Fase del proceso de “Descubrimiento de Conocimiento
a partir de Bases de Datos” (KDD, del inglés
Knowledge Discovery from Databases), aunque los
términos suelen ser usados como sinónimos. 7
ARQUITECTURA BI
IN v.2021
8
PATRÓN DE CONOCIMIENTO
Es una unidad o pieza de conocimiento que nos
resume una información.
IN v.2021
Recta de
regresión Curva de
regresión
Información Información
PATRÓN 1 PATRÓN 2
Agrupamiento
de información
(sin patrón a priori)
9
PATRÓN 3
OLAP VS MINERÍA DE DATOS
Herramientas OLAP Minería de Datos
Facilidad para manejar y Extrae patrones a partir de los
transformar datos. datos, se construyen modelos,
IN v.2021
descubre relaciones entre
atributos, tendencias, etc.
Producen información (datos Produce patrones de
agregados y combinados, conocimiento a partir de
medidas derivadas) reglas.
Permite al usuario analizar Analiza los datos y ayuda al
los datos desde diferentes usuario a tomar decisiones a
vistas. partir del conocimiento
descubierto.
10
OLAP VS MINERÍA DE DATOS
El análisis OLAP puede responder a preguntas como:
¿Han subido las ventas en el mes de Abril?
Las ventas del producto X bajan cuando se promociona el
IN v.2021
producto Y?
¿Venden más las sucursales del Gran Buenos Aires o del
Interior?
La minería de datos puede responder a preguntas
como:
¿Qué factores influyen en la venta del producto X?
¿Cuál será el producto más vendido si se abre una sucursal
en Córdoba?
¿Cuándo un cliente compra el producto Y, qué otro/s
producto/s suele comprar mayormente?
11
REQUERIMIENTOS
¿Qué se necesita para hacer minería de datos?
Herramientas de SW
Datos, digitalizados y de buena calidad
IN v.2021
12
ÁREAS DE APLICACIÓN
Comercio / Marketing
Identificar patrones de compra de los clientes.
Buscar asociaciones entre clientes y características
demográficas.
IN v.2021
Predecir respuesta a campañas de mailing.
13
ÁREAS DE APLICACIÓN
Bancos
Detectar patrones de uso fraudulento de tarjetas de
crédito.
IN v.2021
Identificar clientes leales.
Predecir clientes con probabilidad de darse de baja.
Determinar gasto en tarjetas de crédito por grupos.
Encontrar correlaciones entre indicadores financieros.
14
ÁREAS DE APLICACIÓN
Salud Privada
Identificar patrones de comportamiento de clientes con
alto riesgo.
IN v.2021
Análisis de procedimientos médicos.
Medicina
Segmentación de pacientes para una atención más
inteligente según su grupo.
Estudio de factores (genéticos, neurológicos, alimenticios,
etc.) de riesgo/salud en distintas patologías.
Identificación de terapias médicas satisfactorias para
diferentes enfermedades.
15
CASO DE ESTUDIO: MARKETING-VENTAS
IN v.2021
Si se realiza sólo la toma de decisión en función de los
informes (datos) de ventas de cervezas y pañales.
16
¿Qué información aporta?
CASO DE ESTUDIO: MARKETING-VENTAS
Objetivo: determinar grupos de ítems que tienden a
ocurrir juntos en una misma transacción de compra.
Utilizando minería de datos se puede descubrir
IN v.2021
información como:
Los clientes que compran cervezas también compran
papas fritas y leche.
Los viernes por la tarde, con frecuencia, quienes compran
pañales también compran cerveza.
¿Qué significa esto? ¿A qué se debe?
¿Qué acciones debemos realizar?
17
CASO DE ESTUDIO: MARKETING-VENTAS
Algunas explicaciones probables:
Se acerca el fin de semana
Hay un bebé en casa
IN v.2021
Los padres no pueden salir!
No quedan pañales
Se compra cerveza para ver un partido/película
18
CASO DE ESTUDIO: MARKETING-VENTAS
Acciones a realizar:
Planificar la disposición de los productos en las góndolas:
❑ Las leches al lado de los alimentos lácteos para bebés y niños
IN v.2021
❑ Las cervezas frente a la góndola de snacks.
19
TAREAS DE MINERÍA DE DATOS
IN v.2021
20
TÉCNICAS DE MINERÍA DE DATOS
Clasificación
Predictivos
(Supervisados) Regresión
IN v.2021
Series Temporales
Problemas
Agrupamiento
Descriptivos
(No supervisados) Reglas de Asociación
Análisis Correlacional
IN v.2021
Ejemplos
¿Esta transacción es fraudulenta?
¿Qué tipo de seguro es más probable que contrate el
cliente Carlos Gómez?
22
TÉCNICAS DE MINERÍA DE DATOS
Tareas de Clasificación
Predicen un valor discreto
❑ SI / NO
IN v.2021
Tareas de Regresión
Predicen un valor continuo
❑ Importes
❑ Cantidades
23
TÉCNICAS DE MINERÍA DE DATOS
Métodos Descriptivos – No Supervisados
Encuentran patrones interpretables para las
personas que describen los datos.
IN v.2021
Proporcionan información sobre las relaciones entre
los datos y sus características.
Ejemplos
Los clientes que compran pañales suelen comprar cerveza.
El tabaco y el alcohol son los factores que más inciden en
la enfermedad Y.
Los clientes sin televisión y con bicicleta tienen
características muy diferenciadas del resto.
24
TÉCNICAS DE MINERÍA DE DATOS
Tareas de Asociación
Descubren por medio de reglas de asociación hechos que
ocurren en común dentro de un determinado conjunto de
datos.
IN v.2021
Utilizado en análisis de canasta (market basket analysis).
❑ {cebollas, vegetales} {carne}
IN v.2021
Utiliza la Minería de Datos.
Aborda la solución a problemas de predicción,
clasificación y segmentación.
La minería de datos y la explotación de información
no son conceptos equivalentes.
27
EXPLOTACIÓN DE INFORMACIÓN
La minería de datos está relacionada a la
programación, a los algoritmos para resolver un
problema de inteligencia de negocios.
IN v.2021
La explotación de información está relacionada a
tareas de la Ingeniería de Software, a la aplicación de
técnicas y procesos ingenieriles para construir la
solución de un problema de inteligencia de negocios.
La minería de datos describe la tecnología que da
soporte a la explotación de la información.
28
PROCESO DESCUBRIMIENTO DE CONOCIMIENTO
También conocido como KDD, del inglés Knowledge
Discovery in Databases.
IN v.2021
29
PROCESO DESCUBRIMIENTO DE CONOCIMIENTO
Selección de datos: Datos sobre los que se trabajará.
Preprocesamiento: Preparación y limpieza de los
datos. Estrategias para manejar datos faltantes o
IN v.2021
nulos, datos inconsistentes o que están fuera de rango.
Transformación: Tratamiento preliminar de los
datos, transformación, agregación, normalización y
generación de nuevas variables a partir de los datos
existentes.
30
PROCESO DESCUBRIMIENTO DE CONOCIMIENTO
Minería de Datos: Construcción de modelos con
técnicas de minería de datos y procesos de explotación
de información para extracción de patrones de
IN v.2021
conocimiento.
Técnicas Predictivas
Técnicas Descriptivas
Evaluación e interpretación: Evaluación del
modelo construido, del conocimiento obtenido y
validación si los resultados son satisfactorios en el
dominio del problema.
31
METODOLOGÍAS DE EXPLOTACIÓN DE INFORMACIÓN
Conjunto de actividades organizadas que tienen como
objetivo la realización de un proyecto de explotación de
información.
IN v.2021
Para cada actividad se define, las entradas, las salidas
y la forma en la que debe llevarse a cabo.
Metodologías probadas por la comunidad científica:
CRISP-DM
SEMMA
P3TQ
32
METODOLOGÍA CRISP-DM
CRoss Industry Standard Process for Data Mining.
IN v.2021
33
METODOLOGÍA CRISP-DM
IN v.2021
Esquema de los cuatro Niveles de Abstracción de CRISP-DM
34
METODOLOGÍA CRISP-DM
Comprensión del Negocio
Se determinan los objetivos y requerimientos del
proyecto desde una perspectiva del negocio, definiendo
IN v.2021
el problema de minería y el plan de trabajo.
Objetivos de negocio y criterios de éxito
❑ Detectar fraude con tarjetas de crédito
❑ Captar nuevos clientes bancarios
❑ Etc.
35
METODOLOGÍA CRISP-DM
Comprensión de los Datos
Se recolectan los datos que se utilizarán y se analizan
las características de los mismos. Surgen las primeras
hipótesis acerca de la información que podría estar
IN v.2021
oculta.
Atributos Nominales
Llamados Categóricos o Discretos
Número finito de valores, no tienen orden.
❑ Ejemplo: género, color de ojos, sucursales, booleanos, etc.
Atributos Ordinales
Llamados Numéricos o Continuos
Número finito de valores (enteros o reales), tienen orden
36
❑ Ejemplo: puntuación, rangos, altura, importes, temperaturas,
fechas, etc.
METODOLOGÍA CRISP-DM
Preparación de los Datos
Comprenden actividades de tratamiento de los datos o
conjunto de datos final sobre el cual se aplicarán
procesos de explotación de información y minería de
IN v.2021
datos.
Selección, Limpieza y Transformación
Análisis de la calidad de los datos
¿Qué tipos de problemas de calidad podemos encontrar?
❑ Valores anómalos (ruido, outlier)
❑ Valores faltantes o nulos
❑ Datos Duplicados
IN v.2021
negocio.
❑ Agregación
❑ Seleccionar conjunto de atributos
❑ Creación de atributos
❑ Discretización
❑ Transformación de atributos
38
METODOLOGÍA CRISP-DM
Modelado: se aplican procesos de explotación de
información y algoritmos de minería sobre el conjunto
de datos para obtener información oculta y patrones de
IN v.2021
conocimiento.
Evaluación: se analizan los patrones obtenidos en
función de los objetivos organizacionales. Se determina
si se ha omitido algún objetivo importante del negocio
y si el nuevo conocimiento será implementado.
Implementación: se comunica e implementa el nuevo
conocimiento, el cual debe ser representado de forma
entendible para el usuario.
39
CASO DE ESTUDIO – CRÉDITOS PERSONALES
Un banco dispone de una muestra de 144 clientes
históricos a los que se les otorgó un crédito personal.
Las muestras contienen los siguientes atributos:
IN v.2021
▪ Nivel de ingresos ▪ Servicios que posee
▪ Composición familiar ▪ Antecedente de otros créditos
▪ Tipo de vivienda ▪ Resultado del otorgamiento de crédito
El banco quiere lanzar una línea de créditos y necesita
analizar la información, en base a las siguientes
necesidades:
Identificar criterios de otorgamiento de créditos
Identificar y caracterizar grupos de clientes en orden a
estudiar líneas de crédito diferenciales por grupo.
Identificar los factores de incidencia en cada grupo de 40
clientes con ingresos superiores a $ 15.000.
CASO DE ESTUDIO – CRÉDITOS PERSONALES
Comprensión de los datos
Atributo Valor Descripción
1 Entre $ 8.000 y $ 15.000
Ingreso
2 Más de $ 15.000
IN v.2021
1 Soltero
Composición 2 Casado sin hijos
familiar 3 Casado con un hijo
4 Casado con dos hijos
1 Alquila
Vivienda
2 Propia
1 Básicos
Servicios 2 Básicos y TV por cable
3 Básicos, TV por cable y celular
1 Un crédito
Otros créditos 2 Dos créditos
3 Tres créditos
Sí Préstamo otorgado 41
Otorga Crédito
No Préstamo rechazado
CASO DE ESTUDIO – CRÉDITOS PERSONALES
Comprensión de los datos
IN v.2021
Weka
Tanagra
42
HERRAMIENTAS PARA MINERÍA DE DATOS
Licenciadas
SAS (Analytics, Enterprise Miner)
SPSS (IBM SPSS Statistics, IBM SPSS Modeler – ex Clementine)
IN v.2021
Libres
WEKA (http://www.cs.waikato.ac.nz/ml/weka/)
Tanagra (https://eric.univ-lyon2.fr/~ricco/tanagra/en/tanagra.html)
R (https://www.r-project.org/)
Rapid Miner (https://rapidminer.com/)
Otros
43
RESUMEN CLASE
IN v.2021
44
TAREAS PREVIAS TRABAJO PRÁCTICO DE
MINERÍA DE DATOS
Instalar la herramienta Weka
WEKA Enlaces de Descarga Software – Última versión estable por S.O.
Downloading and installing Weka - Weka Wiki (waikato.github.io)
Enlace de descarga última versión estable Windows: Weka 3.8.5
IN v.2021
Download Weka from SourceForge.net
Documentación oficial Universidad de Waikato)
Documentation - Weka Wiki (waikato.github.io)
IN v.2021
Lista Completa - Data Mining with Weka:
Data Mining with Weka - YouTube
Lista Completa – More Data Mining with Weka:
More Data Mining with Weka: Trailer - YouTube
Google Developers - Getting Started with Weka - Machine Learning Recipes #10
Getting Started with Weka - Machine Learning Recipes #10 - YouTube
Rushdi Shams - Weka Tutorials Lista Completa:
Weka Tutorials - YouTube
UPV/EHU - Primer acercamiento al software WEKA:
Primer acercamiento al software WEKA - YouTube
José Supo - BIOESTADISTICO EN VIVO - Minería de Datos con WEKA
José Supo - Minería de Datos con WEKA – YouTube
46
TRABAJO PRÁCTICO DE MINERÍA DE DATOS
CASO: CRÉDITOS BANCARIOS
ENTREGA 23/06
• Utilice la herramienta WEKA para desarrollar los
procesos de explotación de información identificados en
el Caso de Estudio.