Tema 1

UA 1: El proceso de descubrimiento de conocimiento en bases de datos
UA Unidad de aprendizaje
El proceso de descubrimiento de conocimiento en bases de datos
1
Objetivos
Objetivo general
Entender en qué consiste el Data Mining en términos generales y aprender a aplicar la metodología
CRISP-DM en un proyecto de Data Mining.
Objetivos especí cos

Comprender el concepto de Data Mining y saber qué es.
Conocer qué es la metodología CRISP-DM y para qué sirve.
Saber en qué consiste la fase de comprensión del negocio, especialmente las tareas de definición de
objetivos de negocios y Data Mining.
Conocer la fase de comprensión de datos, especialmente las tareas de recolección y exploración de
datos.
Entender la fase de preparación de datos, haciendo hincapié en las tareas de selección, limpieza y
construcción de datos.
Estar familiarizado con la fase de modelado, así como qué se hace en sus distintas tareas.
Saber en qué consiste la fase de evaluación y cómo evaluar los resultados de un modelo.
Entender la última fase de implantación, concretamente en qué consiste la tarea de elaboración de un
plan de mantenimiento.
Mapa conceptual o esquema de contenidos
1 De nición del proceso de Data Mining

1.1 Concepto
1.2 Historia y evolución
1.3 Metodologías principales en el proceso de Data Mining
1.4 Conceptos relacionados con Data Mining
1.5 Áreas de aplicación
2 Análisis de las fases del proceso de acuerdo a CRISP-DM (I)

2.1 El modelo CRISP-DM
2.2 Comprensión del negocio
3 Análisis de las fases del proceso de acuerdo a CRISP-DM (II)
3.1 Comprensión de los datos
3.2 Preparación de los datos
4 Análisis de las fases del proceso de acuerdo a CRISP-DM (III)

4.1 Modelado
4.2 Evaluación
4.3 Implantación
Introducción
Como ya te habrás dado cuenta, el mundo en el que vivimos va a un ritmo frenético, tanto para los seres
humanos como para las nuevas tecnologías. No somos capaces de dar un paso sin estar “conectados” al mundo
que nos rodea, ya sea mediante ordenadores, teléfonos móviles u otros dispositivos que nos permiten
comunicarnos al instante con amistades y, en general, con cualquier persona. Estamos continuamente
generando y recibiendo grandes cantidades de datos.
En este punto te preguntarás por qué los datos tienen tanta importancia en todos los ámbitos de esta nueva
sociedad. En un principio los datos por sí solos no serían nada más que registros sin un significado útil, y
necesitan de un elemento que los analice y dote de información útil a todo este conglomerado de cadenas de
caracteres almacenado en las bases de datos. En este aspecto, las bases de datos de las compañías
comenzaron a ser de fácil acceso por su escaso tamaño, y mediante consultas simples se podían obtener
resultados satisfactorios. Pero estas fueron ampliando su tamaño, eran cada vez más los dispositivos que
generaban datos y estos almacenes de información se fueron haciendo cada vez más complejos y de un
tamaño enorme.
Debido a esto surge la minería de datos o Data Mining, que se encarga de extraer conocimiento de estos
grandes volúmenes de datos y que será el tema principal que estudiarás durante este curso. Asimismo,
aprenderás de manera práctica cómo implantar esta tecnología en un proyecto empresarial gracias a la guía
CRISP-DM, para ser capaz de sacarle el máximo partido a los datos de los que se dispone.
En esta unidad aprenderás qué es la minería de datos en líneas generales y cuáles son los pasos a seguir en la
implantación de un proyecto según la guía CRISP-DM. Para ello tomaremos como referencia la empresa
FitnessRob, S. L., empresa dedicada a la venta de artículos deportivos (ropa, material para practicar deportes,
máquinas de gimnasio, etc.), tanto en tiendas como por internet, la cual se dispone a implantar la tecnología de
Data Mining para encontrar información útil a partir de su base de datos.
1. De nición del proceso de



FitnessRob, S. L., es una empresa de venta de bicicletas y, gracias a sus distintas sucursales repartidas
por Europa y a su venta online, está obteniendo grandes beneficios. A la cabeza de la dirección de la
empresa se encuentra Roberto Fernández. Roberto desea dar un paso más en la política de ventas de la
empresa y sacarle partido a toda la información que tienen almacenada en su base de datos con la
implantación de un sistema de Data Mining, que les ayudará a ser proactivos en sus decisiones.
La minería de datos surge de la necesidad de adquirir conocimiento de grandes volúmenes de datos. Antes
de que surgiera este concepto, las organizaciones basaban su análisis de datos en métodos estadísticos,
también llamados analítica descriptiva; gracias a estos métodos podían conocer pasado y presente de la
situación de la empresa.
Pero fue debido a la creación de internet cuando estos métodos pasaron a ser insuficientes como medio de
análisis de datos; los nuevos datos no eran iguales a los datos almacenados en las compañías y eran necesarios
nuevos mecanismos para su análisis. Desde el punto de vista del análisis, se dividen en tres grupos:
Datos estructurados 1
Datos no estructurados 2
Datos semiestructurados 3
1 Los datos estructurados es la información que se encuentra normalmente en las bases de

datos. Son archivos que están organizados en tablas formadas por las y columnas con
título. Se podría ver como un gran archivador en el que toda la información está organizada
en tablas perfectamente identificadas y relacionadas entre sí.
Este tipo de datos es muy fácil de analizar por herramientas Data Mining:
Esquema de una base de datos relacional. Tanto

en su estructura interna como en la externa se
aprecia una estructura organizada.
2 Los datos no estructurados son estructuras binarias que no presentan una estructura
interna identi cable. Estos datos están formados por un conglomerado de cadenas de
caracteres desorganizados en distintos tipos de objetos que no tienen valor hasta que son
almacenados de una forma organizada.
Aunque parezca mentira, la gran parte de los datos generados por una organización, y
especialmente por internet, son de tipo no estructurado. Por ello, es fundamental contar
con mecanismo capaces de procesar estos datos y extraer su información útil y
almacenarla.
La mayoría de las herramientas de minería de datos no son capaces de analizar

directamente la información que contienen estos datos, por lo que es necesario clasificar y
recopilar los datos útiles antes de este proceso.
Algunos datos no estructurados pueden ser los siguientes:
Archivos de textos como Word o PDF.

Correos electrónicos.
Imágenes.
Archivos de audio y vídeo.


 Nota
Las hojas de cálculo en la mayoría de sus casos, ya que, aunque aparezca de forma
ordenada, estos archivos se almacenan sin estructura interna organizada
aparentemente.
3 Por último, están los datos semiestructurados. Estos datos suelen tener un formato que
podría ser de nido, pero no es de fácil comprensión para los usuarios, por lo que es
necesario usar ciertas reglas que ayuden a leer la información que contienen. Algunos de
estos datos son los llamados “de etiquetas”, como los archivos XML, HTML o JSON.
Si ves la estructura interna de la página web de

Google, puedes notar con cierta di cultad que tiene
una estructura más o menos de nida
1.1 Concepto
Debido a los avances tecnológicos y a la rápida evolución de los sistemas de almacenamiento, las
organizaciones disponen de herramientas tanto hardware como software cada vez más avanzadas que hacen
posible el almacenamiento de enormes cantidades de datos.
Existen técnicas con las que es posible analizar estos datos y extraer información que, a simple vista, se
encuentra oculta en ellos. Una de estas técnicas es la minería de datos o Data Mining, la cual es una
combinación de técnicas de análisis estadístico, inteligencia arti cial, aprendizaje automático, análisis de bases
de datos y herramientas de visualización gráfica para obtener información que no se encuentre representada
explícitamente en estos datos.



 De nición
Minería de datos (DM)
Es una técnica de análisis predictivo de datos que trata de descubrir patrones y relaciones en los datos,
así como tendencias, y comportamientos atípicos con el objetivo de proporcionar información útil de cara
al futuro para el proceso de toma de decisiones.
El término de DM hace analogía con una montaña y la cantidad de datos que se encuentran almacenados en
una organización. Dentro de la montaña, entre roca y tierra, se encuentran materiales de gran valor que deben
ser extraídos mediante procesos mecánicos. De igual forma, dentro de los datos se encuentra información que
debe ser encontrada y extraída para aportar valor a la toma de decisiones.
Analogía de Data Mining
1.2 Historia y evolución

El origen de DM se remonta a los años cincuenta, cuando las empresas preparaban información de tipo
comercial procedente de su ordenador central para que la dirección la estudiara. Estos sistemas de información
eran voluminosos y difíciles de entender para el personal no informático.
Esto evolucionó con los sistemas gestores de bases de datos en los años sesenta. En esta época aparecieron
las primeras bases de datos jerárquicas, y bases de datos en red. En ellas la información ya era almacenada en
forma de listas y árboles. Posteriormente, en los años setenta aparecieron los sistemas relacionales, aunque
aún existía la problemática de que las bases de datos no eran integrales y se encontraban de forma repartida en
las distintas áreas de la organización, lo cual hacía laborioso el hecho de acceder a su información y relacionarla.
En los años ochenta nació el concepto de Data Warehouse, en el que la base de datos se centraliza y se crea
una infraestructura en torno a esta para capturar, depurar, almacenar y gestionar los datos de la organización.
De esta forma se establecen las bases para la minería de datos en la forma actual.
En resumen, puedes ver a continuación su evolución histórica:
Años sesenta
¿Qué quiero saber? Tecnología disponible Características
"Dime los beneficios totales del Ordenadores, discos y cintas Datos estáticos y de carácter
año anterior" retrospectivo
Años setenta
"Dime las ventas en Madrid del Base de datos relacional, Datos dinámicos y de carácter
mes anterior" lenguaje SQL retrospectivo
Años noventa
"Dime ventas en Madrid en Base de datos Datos dinámicos en múltiples

mes anterior, por cada tienda" multidimensionales (OLAP) niveles de carácter
retrospectivo
Data Mining
"Dime la tendencia de las Superordenadores, bases de Datos de carácter prospectivo

ventas en Madrid para el datos masivas, algoritmos
próximo año" avanzados
1.3 Metodologías principales en el proceso de



FitnessRob pretende usar una metodología estandarizada para llevar a cabo la integración de estas
tecnologías en su Data Warehouse. Durante este curso irás viendo todo el proceso completo de
implantación que llevará a cabo.
En la empresa deben tener claras ciertas cuestiones para que el proyecto salga adelante:
Roberto debe contar con las habilidades necesarias para saber qué quiere conseguir con el DM y
cómo debe ir enfocada su política de negocio.
Los trabajadores también deben adoptar esa filosofía, sus trabajos deben ir enfocados a la
mentalidad adoptada. En este aspecto entran dos figuras importantes, José, director de recursos
humanos, y María, directora del departamento de marketing.
Para crear un proyecto de DM es necesario aplicar cierta metodología, como en cualquier otro proyecto; de lo
contrario, no podrían obtenerse los resultados que se esperan. Es importante, por tanto, saber qué se va a hacer
y cómo se va a hacer, ya que no se trata solamente de instalar ciertas aplicaciones y realizar consultas aleatorias
a los datos.
Además, el contar con una metodología facilitará la forma de plani car y dirigir el proyecto, pudiendo así
realizar un correcto seguimiento del mismo. Tanto la dirección de la organización como los trabajadores deben
contar con las habilidades necesarias para que la implementación sea completamente funcional. En definitiva,
hay que concienciar a todos los elementos y adoptar el tipo de filosofía necesario para que las acciones de la
organización vayan siempre enfocadas a ese fin que se persigue.
Existen tres metodologías principales que se emplean en la elaboración de un proyecto de DM, y son las
siguientes:
Metodología KDD
El proceso de extracción de conocimiento, en sus siglas en inglés KDD o Knowledge Discovery from
Databases. KDD es un proceso por el cual se obtiene información y conclusiones gracias a un conjunto
de datos que normalmente se encuentran almacenados en una base de datos.
Es un proceso iterativo en el que la minería de datos forma parte de una de sus fases. Durante la
ejecución de algunas de sus fases, podría ser necesario volver a una fase anterior o, en su caso,
realizar el procedimiento nuevamente para después extraer el conocimiento adecuado de los datos.
Metodología SEMMA
SEMMA es el acrónimo que hace referencia a las cinco fases de este método: Sample, Explore, Modify,
Model, Access. Esta metodología secuencial fue propuesta por SAS Institute, uno de los más
importantes desarrolladores de software para inteligencia de negocios. Viene definida como un
proceso de selección, exploración y modelado de datos en grandes cantidades con el objetivo de
descubrir patrones y relaciones. Según esta definición, más que un proceso, es una metodología
general de DM.
Metodología CRISP-DM
Su nombre procede de Cross-Industry Standard Process for data Mining. Esta guía surgió en 1999
gracias a una propuesta de un importante consorcio de empresas para crear una guía de libre
distribución basada en KDD.
CRISP-DM es, por tanto, una guía de referencia que de ne los pasos a seguir para implementar un
proyecto de Data Mining. Contiene un conjunto de actividades definidas según la experiencia del
procedimiento de ensayo-error recogidas por las empresas que forman parte del consorcio de
creación. Está compuesta por seis fases sucesivas que recorren horizontalmente todo el proceso de
DM.
Adoptar una de las metodologías estandarizadas para implementar un proyecto de DM es una práctica que
realizan gran parte de las empresas, ya que contienen las pautas que guiarán el proceso.


 Actividad de aprendizaje 1
A continuación, realizarás una actividad en la que entenderás ciertas condiciones que se deben dar para
implantar una metodología de DM.
Andrés es el director de una empresa en la que desea llevar a cabo un proyecto de Data Mining. Él no
conoce dicho campo ni ninguno de sus trabajadores, por lo que te pide ayuda. ¿Cómo podrías ayudarlo?
a. Le aconsejas que se forme en materia de Data Mining para adquirir conocimientos técnicos y
poder implantar el proyecto.
b. Lo mejor será que se ponga en manos de una empresa auditora que lleve a cabo todo el proceso
y gestión futura del proyecto, aunque será caro.
c. Tu consejo es que contrate a un analista de datos que lleve a cabo las labores técnicas y ayude a
adoptar la filosofía en la empresa.
d. Debes tener en cuenta que es una pequeña empresa, por lo que no está a su alcance la
implementación de un proyecto de DM.
1.3.1. Fases del proceso KDD

Por ser el origen y la referencia a las demás, y una de las metodologías más importantes, merece la pena
enumerar y explicar cada una de sus fases principales. Es importante recalcar que, aunque a veces los términos
KDD y minería de datos se utilicen como sinónimos, en realidad no lo son, ya que KDD describe el proceso
completo de extracción de conocimiento, mientras que DM define exclusivamente las técnicas utilizadas en los
datos para descubrir los patrones y las relaciones en el proceso general de descubrimiento de conocimiento. A
continuación, verás sus distintas fases:
6 1
5 2
1. Recopilación de datos
En la primera fase se tratará de identificar las fuentes de datos que se van a utilizar para extraer
información más adelante. Estos datos de distintas fuentes deberán transformarse a un formato común
y unificado, generalmente se conseguirá esto usando un almacén de datos.
Los datos pueden provenir de distintas fuentes:
Base de datos interna de la propia organización.

Fuentes externas como censos de población, datos de páginas webs o datos compartidos de otras
empresas o industrias.
2. Selección, limpieza y transformación

Tras recopilar los datos en un almacén, estos posiblemente contendrán errores o se encontrarán
incompletos. En esta fase se tratará de corregir estos fallos y eliminar los datos corrompidos y los
datos irrelevantes para los objetivos marcados. Además, se deberán seleccionar aquellos datos que
son importantes para el proceso de extracción de conocimiento.
Ante estos datos se pueden realizar las siguientes acciones:
Simplemente ignorarlos, ya que algunos algoritmos de DM como los árboles de decisión no tienen
problemas de datos anómalos.
Filtrar la fila o columnas que carezcan de utilidad.
Rellenar los datos vacíos con valores de medidas, en caso de poder hallar su función de
correlación.
Eliminar los datos que no cumplan con los objetivos.
3. Minería de datos
Esta es la fase principal del proyecto, en la que se debe decidir qué tarea se llevará a cabo con los
datos y qué técnica de análisis se utilizará. Es muy importante elegir una adecuada, ya que, además
del gran volumen de datos existente, los datos se encontrarán almacenados y no son susceptibles de
ser escaneados múltiples veces. También se puede dar el caso de que la técnica de muestreo no sea
compatible con determinados algoritmos.
El DM se basa en el descubrimiento de patrones, por lo que:
Se debe decidir qué tipos de patrones de datos se quieren descubrir.

Según el tipo de conocimiento, habrá técnicas más adecuadas y menos:
Se puede dar el caso de que sepamos lo que se busca concretamente (Directed Data Mining),
en este caso es el propio sistema de Dm el que elige el algoritmo más adecuado para el patrón
a buscar.
Pero también se puede dar el caso contrario (Undirected Data Mining), donde no se sabe qué se
busca y será el propio explorador de datos el que debe determinar qué técnica se debe utilizar.
4. Evaluación y validación
Mediante la fase anterior, se han creado una o varias hipótesis de modelos, por lo que en esta fase se
debe evaluar estos modelos y validarlos.
En la fase de evaluación se ha de comprobar la precisión del modelo mediante la aplicación de una

serie de ejemplos independientes de los que se han utilizado para aprender el modelo. De esta forma
se podrá saber qué modelo es el mejor.
En la segunda fase se debe tomar el modelo elegido en la primera fase y ponerlo a prueba. Por
ejemplo, si el modelo lo quieres para predecir el comportamiento de tus clientes ante el lanzamiento
de un nuevo producto, podrías enviar un e-mail a un conjunto de clientes y evaluar qué fiabilidad tiene
el modelo.
5. Interpretación y difusión
En esta fase se llevará a cabo el proceso de implementación del modelo una vez comprobado y
validado. Este puede ser un modelo que necesite ciertas características como procesamiento en
tiempo real de cobros o pagos, el cual necesitará de la implementación de ciertas características
adicionales al propio modelo.
También puede ser un modelo descriptivo que necesite de cierto personal con cualificación específica
para entender qué se está realizando.
O contar con una difusión a usuarios de distintos países, en cuyo caso necesitará estar expresado de
una forma comprensible para todos. Aquí ya entraría la estrategia de marketing que la empresa quiera
llevar a cabo.
6. Actualización y monitorización
Tras las fases anteriores y con el modelo puesto en funcionamiento, es necesario llevar un
seguimiento del mismo con el objetivo de realizar mejoras y simplemente controlar su mantenimiento.
Esto se llevará a cabo monitorizando el modelo.
1.3.2. La metodología SEMMA

Esta metodología es una de las menos comunes de las tres que se citarán, aun así, forma parte de las tres más
usadas históricamente.
Esta metodología, a diferencia de KDD y CRISP-DM, se centra en mayor medida en el desarrollo de un modelo
DM desde el punto de vista estadístico en cuanto a definir sus características. Además, al ser desarrollado por la
empresa SAS Institute, se podría considerar como un paquete agregado al software estadístico de la propia SAS,
y el propósito de esta no es tan genérico ni orientado a la implantación de DM como las otras dos metodologías.
A continuación, se detallan cada una de las fases en las que se divide esta metodología:
1. Muestreo (Sample)
En esta fase se procederá a seleccionar una muestra que represente el problema que se va a estudiar.
Es muy importante que esta muestra sea representativa, ya que de lo contrario los resultados no
tendrían validez al no aportar información propia del contexto de estudio. Lo más indicado sería realizar
un método de muestreo aleatorio simple en el que cada individuo de la población se selecciona de
forma aleatoria.
2. Exploración (Explore)
En esta fase se tomará la información para simplificar lo más posible el problema planteado, para que,
de esta forma, gane en eficiencia y comprensión. Para ello se aconseja utilizar herramientas de
visualización de datos, como tableros de mando y diagramas, o herramientas estadísticas para
establecer las relaciones entre variables.
3. Manipulación (Modify)
En la fase de manipulación se definirán los datos, de manera que tengan un formato adecuado y
uniforme en su conjunto. Además, se seleccionarán de forma clara las variables que serán las entradas
al modelo.
4. Modelado (Model)
En esta fase se utilizarán las distintas herramientas de DM para analizar los datos y crear un modelo, y
de esta forma relacionar las variables analizadas con las del objeto del estudio.
5. Valoración (Assess)
En la última fase del proceso se pasará a valorar los resultados obtenidos, que pueden ser uno o varios
modelos, y de esta forma seleccionar el más adecuado.
1.4 Conceptos relacionados con

DM es una solución empresarial relativamente nueva, o al menos es en la actualidad cuando está teniendo
mayor repercusión. Esto se debe en gran parte a la evolución de las tecnologías existentes en su entorno, que la
han hecho evolucionar y extenderse.
La gran mayoría de trabajos en DM se enfocan en trabajar con los Data Warehouse de las empresas, ya que
estos contienen los datos estructurados y organizados. Aunque es gracias al Big Data donde entra la posibilidad
de almacenar datos no estructurados para que, una vez adecuados a las necesidades de las herramientas DM,
se puedan analizar.
Otra de las tecnologías más utilizadas son los métodos estadísticos y el aprendizaje automático o Machine
Learning, que proporcionan una serie de reglas matemáticas y de aprendizaje que son la base fundamental de
la DM.
A continuación, se definirán algunos de estos conceptos que dan apoyo y sentido al DM.
Métodos estadísticos 1
Data Warehouse 2
Big Data 3
Machine Learning 4
Procesamiento paralelo 5
Tecnologías de visualización 6
1 La estadística ha sido durante mucho tiempo la única técnica existente para analizar datos.
Se puede decir que la DM proviene del análisis estadístico, ya que implementa muchas de
sus reglas y metodologías en operaciones básicas como promedios, sumas, etc.
2 El sistema de almacenamiento de las empresas es el lugar donde actúa la DM, es la base

de datos central de una organización, de gran tamaño y que a veces se presenta en forma
distribuida si el volumen de almacenamiento es demasiado grande.
Existen bases de datos relacionales o SQL, donde se almacenan datos perfectamente

estructurados, y bases de datos NoSQL, las cuales son capaces de almacenar todo tipo de
datos que no necesitan con una estructura entidad-relación.
3 El Big Data o macrodatos es sin duda la razón fundamental de expansión de tecnologías

como DM. Se puede definir como un conjunto de datos de un tamaño tan grande que van a
superar la capacidad del software existente para poder ser capturados, gestionados y
procesados. Estos conjuntos de datos son caracterizados por los conceptos de volumen,
velocidad y variedad.
Gracias al Big Data, las empresas cuentan con medios capaces de trabajar con datos no
estructurados capturados de internet y que es posible someterlos a un análisis en busca de
información y conocimiento.
4 Se trata de una rama que forma parte de la computación científica y de la inteligencia

artificial. Su objetivo es desarrollar técnicas que permitan a las computadoras aprender
mediante la creación de reglas a partir de datos. Consiste en crear programas que sean
capaces de generalizar comportamientos gracias al procesado de información a modo de
ejemplos y dotar a las máquinas de capacidad para aprender con un código que no ha sido
creado para ese fin específico.
El aprendizaje automático, en gran parte de los casos, se basa precisamente en la creación

de estas reglas y es por esto que las técnicas de esta rama son semejantes a las de DM.
5
La llegada de la filosofía de Google, con su sistema de cheros distribuido y la creación de
Big Data a partir de esta, ha ayudado a la evolución de los sistemas de análisis de datos. La
creación de Data Warehouses con procesamiento, almacenado y gestión de archivos en
paralelo ha proporcionado la capacidad de ejecutar varias funciones de forma paralela,
siendo esto un paso muy importante en los algoritmos de DM, y con ello su evolución.
6
Las herramientas de visualización de datos proporcionan la capacidad de desarrollar de
forma interactiva el proceso. La representación de los datos almacenados de tal forma
que sean comprensibles por los usuarios ayuda, en gran medida, a entender mejor lo que
se está haciendo.
Uno de los elementos principales para ejecutar un proyecto de DM es contar con un Data Warehouse.


A continuación, realizarás una actividad en la que reflexionarás sobre algunas características que debe
cumplir un Data Warehouse para su uso en DM.
Andrés, el empresario del ejemplo anterior, necesita ampliar la base de datos de su empresa para
almacenar más datos y poder utilizarlos. Se plantea varias opciones, ¿cuál crees que debería llevar a
cabo?
a. Debería invertir en uno completamente nuevo y realizar un volcado de datos al nuevo Data
Warehouse.
b. Debería renovar por completo su DW implementando uno para almacenar datos no estructurados
(NoSQL), ya que son los que usa Data Mining para su análisis.
c. Debería ampliar el ya existente mediante sistemas distribuidos que permitan la escalabilidad del
sistema.
d. No necesita ampliar su base de datos, puesto que lo más recomendable es ir borrando datos
históricos por carecer de utilidad e ir almacenando los nuevos; es una opción barata y generalizada.



Una de las aplicaciones más útiles para aplicar DM es el marketing, justo lo que la empresa necesita, ya
que ellos pretenden analizar datos de los clientes en busca de información útil sobre ellos. El papel de
María será importante durante todo el proyecto, pues es la directora del departamento de marketing.
No se podría hablar de minería de datos sin que conozcas algunas de sus áreas de aplicación en el sector
empresarial, para así hacerte una idea de que esto es realmente útil para los negocios y las personas.
1 2 3
Marketing Compañías aseguradoras Bancos
6
5
Investigación
Telecomunicaciones Investigación médica farmacéutica
Química biológica
1. Marketing
El uso de los CRM o gestión de las relaciones con los clientes hace necesario disponer de algún tipo
de método de análisis de datos para desarrollar la interactividad con los clientes, detectando aspectos
tan importantes como los siguientes:
Determinar los patrones de compra de los clientes.

Segmentación de los clientes para crear grupos con características similares y personalizar las
campañas de marketing enfocadas a distintos colectivos.
Predecir respuestas de los clientes a campañas de publicidad.
2. Compañías aseguradoras
Este tipo de negocio se nutre de complejos análisis de reglas de negocios para determinar precios y
clientes para sus seguros que, entre otras cosas, consiguen:
Posibilidad de identificar fraudes.

Determinar patrones de riesgo en el comportamiento de los clientes.
Predecir clientes potenciales.
3. Bancos
Con el uso de la tarjeta de crédito, los bancos son capaces de identificar muchas pautas de
comportamiento de los usuarios. Usando DM pueden:
Detectar el uso fraudulento de las tarjetas de crédito.

Identificar los clientes leales; es más barato mantener clientes que crear nuevos.
Analizar los gastos según grupos de tarjetas de crédito.
4. Telecomunicaciones
Las compañías de telecomunicaciones disponen de mucha información de los usuarios, como
llamadas, mensajes de textos, videollamadas y todo tipo de interacciones a través de dispositivos
móviles con el uso de aplicaciones de chat. Con DM se pueden identificar aspectos como:
Detección de fraudes telefónicos.

Detección de actividades ilegales o grupos organizados.
5. Investigación médica
Gracias a la información almacenada de todos los pacientes, es posible:
Estudiar brotes de potenciales epidemias.

Estudiar factores genéticos para el riesgo de contraer enfermedades.
Determinar nuevas formas de combatir enfermedades o soluciones para evitar estas.
6. Investigación farmacéutica
Según los estudios y ventas, las compañías farmacéuticas disponen de gran cantidad de información.
Gracias a DM se pueden usar estos datos para:
Tener información sobre nuevas investigaciones universitarias y de laboratorios.

Obtener datos de experimentos y de uso de componentes químicos.
7. Química biológica
El estudio del genoma humano es de vital importancia para investigar la aparición de enfermedades y
pautas de herencia genética. Mediante DM es posible:
Analizar información de sensores y dispositivos que monitorizan el cuerpo humano.

Analizar la genética humana en busca de respuestas médicas sobre enfermedades y
comportamientos anómalos.


 Actividad colaborativa 1
Es el momento de realizar la siguiente Actividad colaborativa. No obstante puedes seguir estudiando la

unidad didáctica y realizar esta actividad en otro momento que te sea más favorable.
En esta actividad podrás poner en contexto el uso de la minería de datos en diferentes ámbitos de los
negocios y la sociedad.
Piensa en al menos una aplicación más de uso de DM y explica qué beneficios tendría su uso (pueden
ser en empresas concretas o áreas generales).
Comparte tu propuesta en el foro correspondiente de la unidad junto con tus compañeros/as. De esta
forma podrás ver todas las posibilidades que ofrece Data Mining.
Para realizar las Actividades colaborativas debes acceder a la página principal del curso, allí
encontrarás la información necesaria para realizarla. Podrás identi car las Actividades colaborativas
por la numeración correspondiente.
2. Análisis de las fases del proceso de acuerdo a CRISP-DM (I)



Los resultados de las encuestas son evidentes: CRISP-DM es la guía de referencia a seguir, por su nivel de
extensión en su utilización y por su nivel de detalle que permite implantar un proyecto siguiendo los
pasos con todo lujo de detalles.
La razón de aprender más en profundidad esta guía de implantación de proyectos DM es debido a su mayor
utilización por parte de las empresas en todo el mundo.
Los atractivos de esta radican en que proporciona una visión amplia para las empresas en cuanto a definir y
desarrollar los objetivos de negocios del proyecto. Esto hace ver o identificar más y mejores posibilidades para
la obtención de éxito, ya que cuenta con una buena guía de análisis de requerimientos que tienen en cuenta los
objetivos de negocio que se desean alcanzar.
La siguiente imagen corresponde a una encuesta que realizó en 2014 la empresa KDnuggets sobre el uso de las
distintas metodologías que usaban las empresas para implantar DM.
Encuesta de 2014 que mide las metodologías más

usadas en Data Mining
Fuente https://www.kdnuggets.com
2.1 El modelo CRISP-DM



La clave para FitnessRob es definir las fases correctamente; de esta forma, podrán ir descendiendo en
los niveles de abstracción de CRISP-DM e ir rellenando las indicaciones que se dan tanto en el
documento del modelo de referencia como en la guía de usuario.
La metodología CRISP-DM es la guía de implementación de proyectos DM más utilizada actualmente por las
empresas. Si bien en los próximos puntos se llevará a cabo una explicación totalmente detallada de cómo
implementarla en un proyecto, en este punto verás su estructura básica dividida en cuatro niveles de
abstracción, partiendo desde el nivel más genérico hasta los más específicos.
Niveles de abstracción en CRISP-DM
Considerando el nivel más general, el proceso se organiza en seis fases principales. Cada una de estas fases
se dividen, a su vez, en distintas tareas generales que representarían el segundo nivel de abstracción.
Estas tareas generales darán paso a otras tareas más específicas, las cuales describen cada una de las acciones
que se deben desarrollar en las situaciones específicas. Por ejemplo, en la fase 4 del proceso “Modelamiento”,
existe una tarea general llamada “Seleccionar técnica de modelamiento”; dentro de esta existirán dos tareas
especializadas llamadas “Técnicas de modelamiento” y “Supuestos del modelamiento”. Finalmente, el último
nivel define las acciones, decisiones y los resultados sobre el proyecto DM.
CRISP-DM proporciona dos documentos como herramientas de ayuda en el desarrollo de un proyecto de DM:
Modelo de referencia de CRISP-DM

Este documento proporciona una descripción general de las fases que componen el ciclo de vida del
proceso. Contiene una descripción de las fases generales del proyecto, cada una de sus tareas generales y
algunas de las relaciones más generales existentes entre estas tareas.
La estructura del ciclo de vida de un proyecto DM está dividido en seis fases, las cuales interactúan entre ellas
de manera iterativa para mejorar los aspectos del proyecto mientras este se desarrolla.
Fases del proceso CRISP-DM
Guía de usuario de CRISP-DM

Por su parte, este documento cuenta con información más detallada y con un enfoque práctico sobre cómo
aplicar el modelo de referencia a los proyectos DM específicos, facilitando consejos y listas de tareas a realizar
en cada una de las fases.
Tras haber visto cuáles son los cuatro niveles de abstracción de la metodología CRISP-DM y cómo se dividen
cada una de sus fases, es hora de conocer cada una de sus tareas, tanto de forma teórica como con el
seguimiento de un caso práctico que desea aplicar FitnessRob, S. L.
El cuadro general que se desarrollará a lo largo de los siguientes puntos será el siguiente:
Fases y tareas de la metodología CRISP-DM


 Para saber más
KDnuggets es una empresa especializada en Big Data, Data Mining y Machine Learning, entre otras. En su
página web aporta información interesante sobre estas tecnologías, así como noticias y publicaciones. Si
sabes inglés, es un lugar interesante que poder visitar.
KDnuggets (https://redirectoronline.com/ifcd012po0101)
La guía de implantación CRISP-DM establece una serie de fases de implantación organizadas en niveles de
abstracción que ayudan a su comprensión y utilización.


Esta actividad te ayudará a clarificar el funcionamiento básico de la metodología CRISP-DM.
Andrés desea entender un poco mejor la metodología CRISP-DM, explícale el funcionamiento básico de
esta de la forma más correcta posible.
a. Esta guía cuenta con seis fases que permiten retroactividad, con diferentes tareas a realizar.
Además, cuenta con una guía de usuario que detalla los pasos a seguir.
b. CRISP-DM cuenta con cuatro fases de abstracción en las que hay que cumplir una serie de tareas
perfectamente explicadas en su guía de usuario.
c. En la guía de usuario vienen explicadas de forma general las distintas fases. Una vez terminadas
estas, es posible empezar por el principio para mejorar el proyecto.
d. La guía de usuario está exclusivamente orientada al personal técnico, por lo que no sería de
utilidad para Andrés.
2.2 Comprensión del negocio



Esta fase es muy importante, y Roberto y María deben prestar especial atención en definir correctamente
los objetivos; en este caso serán orientados al marketing, y también a los problemas que puedan
plantearse. Roberto ha decidido contratar a John, un analista de datos que se va a encargar de dirigir la
implantación del proyecto y ayudar a la dirección a dar los pasos adecuados. Junto a John estará Daniel,
director del departamento informático de la empresa, y como figura de control de gastos se encuentra
Lucía, directora del departamento financiero.
En esta tarea es necesario obtener toda la información posible sobre los objetivos desde el punto de vista
comercial de la DM. Esta tarea es fundamental realizarla correctamente, ya que su objetivo es clarificar los
problemas que se plantean, definiendo los objetivos y los recursos necesarios.
A continuación, se desarrollarán sus tareas generales, así como las distintas salidas de resultados que se deben
obtener en esta tarea.
1. Determinar los objetivos de negocios

En 1esta tarea se debe entender desde el punto de vista del negocio lo que se quiere conseguir con
el proyecto y, en definitiva, encontrarle una utilidad. Por ejemplo, aumentar beneficios, disminuir
gastos, evaluar la respuesta de los clientes a nuevos productos, etc. Normalmente el escenario que se
plantea
2 contiene muchos objetivos y restricciones que es necesario darles un equilibrio investigando
qué factores influyen en cada objetivo y determinar si es viable o no.
De3esta forma, los objetivos quedarán bien definidos y plantearán preguntas coherentes, para que en
el proyecto generen las respuestas correctas.
4
2. Evaluar la situación
En esta tarea hay que investigar detalladamente todos los recursos, las restricciones y las
suposiciones que influyen en los objetivos que se vayan a plantear y en el plan de proyecto que se
quiere diseñar. Si en la tarea anterior debías ponerte en situación viendo objetivos posibles, aquí tienes
que investigar qué detalles influyen en estos.
3. Determinar objetivos de Data Mining

En esta tarea, los objetivos que se han planteado como negocio deben traducirse a objetivos desde
un punto de vista técnico. Por ejemplo, si te planteas el objetivo de “evaluar la respuesta de los
clientes a nuevos productos”, el objetivo en DM puede ser “predecir qué probabilidades hay de que
cada uno de los clientes compren tu producto en función de su economía, número de hijos o lugar de
residencia”.
4. Elaborar el plan de proyecto

En esta tarea se debe describir el plan ideado para poder cumplir los objetivos en DM y, por ende,
cumplir los objetivos de negocio planteados. Es recomendable describir los pasos a seguir en el
proyecto, así como las herramientas que se van a utilizar y las técnicas.
Objetivos de negocios: contexto




El grupo principal de FitnessRob está organizado, y es hora de plantear el objetivo del proyecto y el
contexto de la organización.
La situación del negocio es de continua expansión, las tiendas físicas y online generan datos de ventas
de clientes que son almacenados. No existen análisis de tipo predictivo con los datos. Se cuenta con
personal especializado en informática, marketing, recursos humanos y finanzas.
El objetivo será el de realizar un estudio predictivo con los datos de los clientes almacenados en el Data
Warehouse de la empresa, para conocer su interacción con FitnessRob y, de esta forma, poder ofrecer un
mejor producto y aumentar los beneficios y fidelizar los clientes.
Esta salida está orientada a llevar a cabo una recopilación de información acerca de la situación del negocio.
Gracias a esta se puede visualizar el alcance de los objetivos respecto al estado actual de la empresa, así
como identi car los recursos humanos y materiales disponibles para poder ser utilizados en el proyecto.
Actividades
Plantea un organigrama que plasme las áreas de la organización, departamentos y grupos de
proyecto. Asimismo, debería contener información sobre los cargos y sus responsabilidades.
Identifica a las personas que son clave en la organización y sus funciones.
Identifica si existe un grupo de dirección y lista sus miembros.
Identifica las áreas o departamentos que se verán más afectados por la implantación del proyecto.
Problemas actuales
Debes identificar el área del problema, por ejemplo, relación con los clientes, lanzamiento de
nuevos productos, apertura de nuevas sedes, así como hacer una descripción del mismo.
Comprueba qué requisitos necesita el proyecto de DM y si la creación de este reportará los
beneficios que esperas.
Define los grupos que serán objetivos de, quizá, la entrega de resultados o documentos del
proyecto, por ejemplo, a la dirección.
Debes saber qué necesidades tiene el usuario del proyecto y sus expectativas de este.
Soluciones actuales
En vista a los problemas planteados, describe si ya existe una solución en uso para dirigirlo.
En función de las posibles soluciones vigentes para el problema, describe sus ventajas y
desventajas, para así plantear soluciones en el proyecto DM.
Objetivos de negocios: objetivos y criterios de éxito



Definir los objetivos de negocio y criterios para asegurar el éxito de los mismos es un paso fundamental
para FitnessRob. Para asegurar el éxito de su objetivo, han establecido una serie de criterios:
Gracias a los resultados se puede optimizar la campaña de marketing, enfocarse solo en clientes
potenciales y, con ello, ahorrar dinero.
Además, será también una forma de acercamiento al cliente, ya que tendrá la sensación de ser
importante para la empresa por conocer sus gustos.
En la primera salida se deben definir los objetivos principales y secundarios que el proyecto debe ser capaz de
responder.
En la segunda salida se deben aportar criterios de peso para que los resultados sean de éxito desde el punto
de vista del negocio.
En estas salidas es recomendable tener en cuenta la realización de las siguientes prácticas:
Plantear qué ventajas esperas obtener y qué exigencias quieres cumplir, por ejemplo, fidelizar
clientes o no perder clientes.
Definir qué criterios vas a usar para obtener éxito e identificar quién debe evaluarlos.
Cada criterio de éxito debe referirse al menos a un objetivo de negocio.
Y lo más importante de todo: plantear objetivos realistas y posibles de alcanzar.
Evaluar la situación: inventario




El equipo formado para este proyecto debe proceder a realizar las tareas que definirán el escenario con
el que disponen para llevar a cabo el proyecto. Para ello, han elaborado una lista con los siguientes
recursos:
Se dispone de una licencia del paquete O ce de Microsoft y la hoja de cálculo Excel que cuenta con
una extensión para hacer minería de datos.
Se cuenta con un clúster de base de datos gestionada por Microsoft SQL Server.
Se dispone del suficiente personal informático y de otras áreas para que en cualquier momento sean
de ayuda.
Para elaborar el inventario de recursos, se debe hacer una lista de los recursos con los que se dispone; estos
serán el personal que llevará a cabo la implantación (técnicos de datos, expertos en las áreas, etc.), datos y su
ubicación, y recursos informáticos como software y hardware.
Así mismo, se debe crear un diccionario de términos relevantes para el proyecto; por un lado, terminología
orientada al negocio y, por otro, terminología orientada a la minería de datos.
Para obtener un buen informe del inventario disponible debes tener en cuenta lo siguiente:
Identificar tanto el software como el hardware básico y su disponibilidad.
Identificar tus fuentes de datos y de conocimiento y el tipo, por ejemplo, bases de dos o en línea.
Localizar al personal de otras áreas implicadas en el proyecto como marketing o RR. H
Evaluar la situación: requisitos y restricciones




El equipo debe definir debidamente qué requisitos y restricciones son necesarios introducir en el
proyecto, para que, de alguna forma, deba encauzarse su despliegue. Para ello, Roberto desea que el
proyecto entre en funcionamiento en tres meses; se ha impuesto un techo de gasto en el proyecto de
70.000 € y la revisión de los datos para que cumplan con el Reglamento General de Protección de Datos
vigente en Europa.
En esta salida se deben plasmar todos los requisitos del proyecto. También se deben reflejar la calidad de los
resultados y su seguridad. En cuanto a esto último, se debe tener claro qué datos se pueden utilizar sin violar
las leyes de protección de datos y cuáles no.
Se deben incluir las suposiciones realizadas por el proyecto, por ejemplo, presunciones que se realicen con
los datos que después, mediante el DM, se cumplan o no. Y nalmente las restricciones que se le van a poner
al proyecto, por ejemplo, la no disponibilidad de acceso a ciertos recursos como datos bancarios, etc.
Las actividades recomendables correspondientes a cada uno de los conceptos que abordan esta salida son los
siguientes:
Requisitos
Define el perfil del grupo objetivo, por ejemplo, clientes potenciales.
Identifica todos los requerimientos que puedan ser relevantes para la planificación del proyecto,
tanto para ejecutar el proyecto como para velar por su seguridad.
De igual forma, identifica los requerimientos para asegurar que el proyecto sea comprensible por
todos los miembros y que se lleve a cabo de acuerdo a lo planificado. Si es necesario, debes
desarrollar las habilidades para ser capaz de cumplir esto.
Supuestos
Define los supuestos con los que vas a trabajar, por ejemplo, enfocarte en un grupo de clientes de
edad determinada.
Define las presunciones sobre calidad de datos (disponibilidad), factores externos (economía) y de
modelo (quién se encarga de ver los resultados).
Restricciones
Investiga y determina las restricciones a las que está sometido el proyecto, estas pueden ser
legales, de acceso a los datos o recursos disponibles.
Debes asegurarte de que existe acceso a las fuentes de datos, sobre todo a las principales que se
van a usar.
Junto con los supuestos, establece un techo presupuestario o de tiempo.
Evaluar la situación: riesgos y análisis de costos



Las siguientes salidas que concretar son las de analizar y determinar los riesgos que el proyecto, para
ello, debe mirar aspectos como los pazos de implementación, fallos en los elementos informáticos o el
techo de gastos.
Se deben señalar los posibles riegos que se pueden producir durante el proyecto, por ejemplo, no cumplir el
techo de presupuesto o no cumplir con los plazos impuestos. En su caso, proponer planes de contingencia
frente a estos posibles riegos.
En esta tarea también se debe llevar a cabo un análisis de costes y de bene cios, incluyendo los gastos del
proyecto completo y sus ganancias potenciales.
Existen una serie de riesgos habituales que combiene conocerlos para estar preparado en la forma de
enfrentarlos:
Identificar los riesgos relativos al negocio, como posibles competidores.
Identificar también los riesgos relativos a la empresa, por ejemplo, la falta de personal.
Los riesgos financieros suelen presentarse especialmente en las pequeñas empresas y se debe
tener cuidado con generar más costes que beneficios.
Finalmente debes identificar los riesgos técnicos como una falta de capacidad del hardware o
riesgos en los propios datos como datos erróneos o incompletos.
Objetivos de DM



John debe traducir los objetivos de negocio a objetivos de Data Mining para que así sean ilustrativos
desde el punto de vista técnico.
Entonces el objetivo técnico del proyecto será el de identificar qué factores o atributos de los clientes
son más influyentes a la hora de comprar determinados productos en la empresa.
Para cumplirlo ha establecido como un criterio de éxito el de determinar qué volumen de muestra de
población aportará mayores beneficios, ya que el envío de publicidad a todos los clientes aumenta los
gastos y disminuye los beneficios. Para esto se cogerán los clientes que tengan una posibilidad mayor al
65 % de comprar productos con la publicidad enviada.
En estas salidas se deben de nir los objetivos desde el punto de vista técnico, es decir, traducir los objetivos
de negocios a objetivos de minería de datos. También se hará lo mismo seleccionando los criterios de éxito,
pero en este caso desde un punto de vista cuantificable para su cálculo.


 Ejemplo
Traducir los objetivos y preguntas planteadas desde el punto de vista del negocio en definiciones
técnicas en DM, por ejemplo, “querer encontrar los clientes más fieles a la empresa” se traduce a
“calcular los factores comunes de los clientes que han realizado compras”.




 Importante
Los objetivos de negocios NO son los mismos que los objetivos de DM; los primeros están orientados al
beneficio de la empresa y los segundos al éxito de implantación del modelo DM.
Plan de proyecto



El equipo ha realizado una gráfica de Gantt, enumerando las distintas fases del proyecto y su duración,
práctica muy recomendable para cualquier proyecto.
Además, se deben atender aspectos como la vuelta a fases o tareas anteriores, en caso de descubrir
fallos. Esto lo permite hacer esta metodología perfectamente.
Hay que enumerar las distintas fases de las que se compone el proyecto, detallando la duración, recursos,
entradas y salidas. También hay que re ejar si existirán iteraciones, por ejemplo, durante la evaluación del
modelo DM.
A continuación, verás una serie prácticas que deberás tener en cuenta a la hora de realizar el plan del proyecto:
Debes definir las distintas fases que vas a llevar a cabo en tu proyecto y consultar al equipo seleccionado o
al personal sobre la viabilidad de todos los pasos.
Una vez ya has definido los objetivos y seleccionado las técnicas que vas a utilizar, debes diseñar un
procedimiento acorde a esos elementos para así cumplir con los criterios de éxito de negocio.
De igual forma, tienes que calcular de manera aproximada el esfuerzo que se va a requerir y los recursos
que vas a poner en juego para el proyecto. Es recomendable que tomes como ejemplo la experiencia de
personas que ya han implantado otros proyectos similares para determinar las escalas de tiempo.
Normalmente la fase más larga es la de recolección y preparación de los datos.
Presta especial atención en los puntos críticos, como la determinación de objetivos o la selección de datos.
Enumera y plasma los puntos de toma de decisiones y los de revisión.
Marca también las iteraciones.
Plan de proyecto: herramientas y técnicas



Una vez definidos los objetivos, es hora de investigar y seleccionar una herramienta de análisis de los
datos, así como una técnica que sea capaz de cumplirlos con éxito.
La herramienta seleccionada por John para Data Mining es el conocido programa de Microsoft Excel junto
a la extensión “Minería de Datos”, ya que cuentan con licencia del paquete O ce y utilizan Microsoft SQL
Server para la gestión del Data Warehouse de la empresa.
Como técnica predictiva se utilizará la de Árboles de Clasi cación.
En la siguiente salida hay que hacer una evaluación inicial y selección de las herramientas y técnicas que se
van a utilizar.
Es importante que la herramienta de análisis de datos que vayas a escoger sea capaz de trabajar con los datos
de los que dispones, por ejemplo, que sea capaz de conectarse a sistemas gestores de bases de datos como
SQL Server, y además que sea capaz de utilizar diferentes técnicas de análisis de datos para poder contrastar
los distintos modelos que se elaboren para un objetivo.



 De nición
SQL Server
Es un sistema para el manejo de bases de datos relacionales desarrollado por Microsoft.
Conviene que tengas en cuenta algunas nociones importantes a la hora de elaborar de forma inicial las
herramientas y técnicas:
Crea un listado de criterios para seleccionar la herramienta y técnicas más adecuadas. Luego
escógelas y evalúa si son las que buscas.
Si vas a utilizar varias técnicas, selecciona el momento de su uso según la prioridad.


Esta actividad te ayudará a saber cómo comenzar debidamente un proyecto de DM.
Las primeras decisiones para poder focalizar el proyecto corresponden a tu amigo Andrés, pero no tiene
del todo claro cómo hacerlo. Él desea utilizar DM para aumentar sus ventas, ayúdale a dar los pasos
iniciales para focalizar el proyecto.
a. Lo primero que debe hacer es fijar un objetivo de DM, es esencial saber qué puede hacer la
herramienta DM para poder diseñar los objetivos de negocios según esta.
b. Ayúdale a establecer los objetivos de negocios, investigad la situación de la empresa y sus

recursos para así diseñar unos objetivos lógicos.
c. Lo primero es saber la situación de la empresa y, a partir de ahí, diseñar los objetivos de DM y los
criterios de éxito.
d. Debe diseñar un gráfico a modo de esquema con los pasos que debe seguir para elaborar el
proyecto, asignar recursos económicos y herramientas, luego establecerá los distintos objetivos.
3. Análisis de las fases del proceso de acuerdo a CRISP-DM (II)

En los siguientes apartados seguimos con las explicaciones de las fases del proceso de acuerdo a CRISP-DM.
3.1 Comprensión de los datos



Tras definir los objetivos y tener claro lo que desean hacer, Roberto y su equipo encomiendan la segunda
fase a John, Daniel y el resto del equipo informático destinado al proyecto.
Mientras parte del equipo ultiman los detalles de la fase 1, los componentes más cualificados para la fase
de comprensión de datos, comienzan a llevar a cabo las tareas y salidas que conforman esta. Será una
de las fases más largas de completar, ya que los datos son la fuente de alimento de DM y deben ser lo
más exactos posibles.
En esta segunda fase, procederás a la recolección de los datos para conseguir tener un primer contacto con el
problema que has planteado y sus objetivos finales.
Esta fase es casi siempre la de más larga duración, ya que se deben recolectar todos datos, realizar su
descripción y realizar un procedimiento completo de exploración para verificar su calidad e integridad.




 Importante
Una recomendación para esta fase es habilitar una base de datos ad hoc, es decir, una base de datos
destinada específicamente para los datos que se van a trabajar durando el proceso de DM.
A continuación, se explicarán sus tareas generales, así como las distintas salidas de resultados que se deben
obtener en esta tarea, tomando como ejemplo el caso de FitnessRob, S. L.
1. Recolectar datos iniciales 1

En la primera tarea de esta fase se procederá a obtener todos los datos o, al menos, asegurar el
acceso a los necesarios para el proyecto, utilizando para esto los recursos disponibles definidos en la
2
segunda tarea de la fase 1.
3
Esta tarea también debe incluir el cargado de los datos en la herramienta de DM para así poder
comprender mejor la información. Gracias a esto, se podrá describir cada una de las tareas y salidas de
esta fase.
4
2. Describir los datos

En esta tarea deben describirse las diferentes propiedades básicas de los datos, como son, el tipo, la
distribución, valores máximos y mínimos, su distribución, tablas de frecuencia y otros.
3. Explorar los datos

La tarea de exploración de datos trata de analizar los datos de manera estadística mediante el uso
de tablas y grá cos. Gracias a este estudio, podría obtenerse información sobre los clientes, sobre
ventas de productos, descubrir tendencias, etc.
Además, el análisis está orientado a cumplir los objetivos de DM del proyecto, ya que se realizará el
refinamiento de la descripción de los mismos, aportando más calidad y seguridad.
4. Veri car la calidad de los datos

Finalmente, y una vez descritos y recopilado los datos, y mientras se realizan estas acciones, se
procederá a comprobar la calidad de los datos. Por ejemplo, se debe comprobar que los datos
seleccionados cubren los objetivos o casos definidos, hay que asegurarse de que no tengan errores ni
omisión de valores. Aunque en este último caso se podría subsanar mediante el estudio de tendencias
o directamente dar un valor nulo si el campo de datos no es esencial.
Recolectar datos iniciales

Se trata de que elabores una lista con los datos que serán utilizados en el proyecto. También se especificarán
las peticiones de selección de datos que debas realizar para obtener información.
De igual forma, deberás indicar qué atributos son los más importantes y si cumplen con la calidad necesaria:
existencia de errores en los datos o la existencia de campos vacíos, en cuyo caso, no es motivo para
descartarlos, ya que puede deberse a determinadas condiciones o incluso poder rellenarse mediante
interpolación.




 Importante
Presta atención a la calidad de los datos si estos son recolectados de distintas fuentes, ya que pueden
ser incompatibles.
No solamente hay datos útiles en las bases de datos, también en los documentos físicos de la empresa.
Descripción de los datos




En el informe de recolección de datos, John ha descrito todos los tipos de datos que se van a utilizar, así
como las tablas que los contienen y, entre otras cosas, se puede ver que la base de datos es relacional.
Además, hay un total de 18.500 clientes registrados, una cifra considerable.
En esta salida de la tarea 2, deberás describir los datos que se han obtenido indicando su formato, cantidad
de registros, campos de la tabla y relación de las tablas.
Conviene que describas detalladamente los datos para que posteriormente sea una información completa y útil
para poder realizar la fase de preparación de los datos de una forma más ágil y rápida. Así mismo se detallarán a
continuación algunas de las actividades más importantes que debes tener en cuenta:
Actividades de análisis de volumen de datos 1
Atributos de los datos 2
1
Identifica los datos elegidos.
Accede a los datos para analizarlos estadísticamente si procede.
Muestra las tablas y sus relaciones, así como el volumen de registros.
Mira también si los datos tienen entrada de texto libre, por ejemplo, descripción de
productos.
2
Comprueba los atributos y describe los tipos, por ejemplo, numérico, carácter, etc.
Comprueba el rango de valores que tienen los atributos y sus correlaciones.
Debes entender estos atributos para describir su valor para el negocio.
Haz cálculos de los atributos, por ejemplo, una media o moda, etc.
Plantea si determinados atributos son necesarios para el proyecto de DM.
Asimismo, infórmate del personal experto si los atributos seleccionados son realmente
correctos.
Presta atención a los atributos claves y si estos presentan coincidencias.
Exploración de los datos




En este informe, el equipo ha realizado algunas investigaciones de tipo estadístico preliminares para ver
el comportamiento de los clientes y su interacción con la empresa. Se ha tomado una muestra de 1.000
clientes para ello. Esta información es útil para ver qué tipo de clientes tiene la empresa y detectar
posibles errores o datos particulares.
En este informe debes detallar los resultados tras haber llevado a cabo la exploración de datos. Esto consiste
en realizar representaciones grá cas con los datos y pruebas para descubrir posibles relaciones y
estadísticas que ayuden a las hipótesis del proyecto. Se añadirán distintos gráficos, subconjuntos de datos
especialmente relevantes o distintos descubrimientos importantes.
Es común encontrar ciertas desviaciones en los datos; esto puede deberse a la inconsistencia de los propios
datos por errores o peculiaridades que, a la postre, pueden ser buenas fuentes de información.
Deberías realizar las siguientes actividades para mejorar la tarea de exploración de los datos:
Analiza detalladamente las propiedades de los datos que te parezcan más interesantes. Para ello,
utiliza representaciones gráficas para estudiar los datos.
Estos resultados darán pie a que puedas formar hipótesis que posteriormente transformarás en
objetivos de DM.
Calidad de los datos




En cuanto a la calidad de los datos, el equipo no ha encontrado problemas como los siguientes, que, sin
duda, son muy recurrentes en este tipo de proyectos:
Valores nulos en atributos

Formatos incorrectos para la herramienta de análisis
Valores de edad demasiado altos para personas
En la siguiente fase se dará solución a todo este tipo de cuestiones.
En este informe debes elaborar una lista de comprobaciones de calidad de los datos. En ella, además de
enumerar posibles problemas de calidad de los datos, también se propondrán soluciones.
La verificación de la calidad de los datos es una tarea esencial que determinará el funcionamiento de las futuras
tareas que involucren los datos. Por ello, es necesario que tengas en cuenta las siguientes actividades u
observaciones:
Revisión de atributos 1
Inconsistencia entre fuentes 2

1
Comprueba que todos los valores posibles de un atributo son representados. Por
ejemplo, que todos los productos tengan la fecha de compra o el precio como atributo.
Verifica las claves de las tablas.
Verifica que los valores de los atributos son coherentes con su significado. Por ejemplo,
no tiene sentido listar una edad de 200 años para clientes, ya que nunca van a existir
tales.
Identifica en los datos la existencia de campos vacíos y razona el porqué de su
ausencia.
Comprueba que no haya datos repetidos o que, en su caso, esté el mismo campo
escrito de forma distinta o con faltas de ortografía.
Analiza la existencia de desviaciones y determina si es algo normal o es “ruido”, es decir,
datos no válidos.
Comprueba que el número de campos en cada uno de los datos sea el mismo.
2
Es muy importante que verifiques bien los datos si estos vienen de distintas fuentes, ya
que podrían darse casos en que son diferentes o utilizan claves distintas o diferentes
atributos, por ejemplo, que un cliente en tienda tenga como información su código
postal y un cliente web no lo tenga.
Descubre qué datos son considerados innecesarios o “ruido”.


 Consejo
Ten especialmente cuidado en que los datos sean coherentes, no tiene sentido que un bebé haya
realizado una compra.
En esta fase es común encontrar ciertas inconsistencias en los datos y valores anómalos.


En esta actividad deberás reflexionar ante determinadas circunstancias que normalmente aparecen
durante el transcurso de la fase de comprensión de los datos.
El analista de datos ha encontrado algunos campos vacíos en los datos que servirán para el proyecto y,
además, varias grá cas dan resultados anómalos que se salen de la tendencia del resto. ¿Cómo crees
que debería proceder?
a. Debe descartar los atributos que presenten campos vacíos como las desviaciones en las gráficas,
por ser inconsistencia en los datos.
b. Las desviaciones presentadas por los datos no son de consideración para su estudio, pero los
atributos con campos vacíos son perfectamente válidos.
c. Deberá estudiar más a fondo estas anomalías, podrían ser fuente de descubrimientos importantes
y los atributos vacíos pueden ser investigados en la siguiente fase más detenidamente.
d. Será en la siguiente fase donde se realicen acciones ante todas las anomalías detectadas.



 Aplicación práctica 1
Duración: 40 minutos
Objetivos:
Familiarizarse con el concepto de Data Mining y saber qué es.

Saber qué es la metodología CRISP-DM y para qué sirve.
Conocer en qué consiste la fase de comprensión del negocio, especialmente las tareas de de nir
objetivos de negocios y Data Mining.
Estar familiarizado con la fase de comprensión de datos, especialmente las tareas de recolección
y exploración de datos.
Para esta actividad práctica vas a tomar como ejemplo la empresa de moda textil Fashion2020, la cual
desea implementar un proyecto de DM para maximizar sus ingresos en los puntos de ventas del territorio
español.
Tu tarea será la de justificar por qué Data Mining es capaz de cumplir este objetivo. Después, diseña las
fases de “Comprensión del negocio” y “Comprensión de los datos” del modelo CRISP-DM, desarrollando
al menos sus tareas más importantes. Con la ayuda de las indicaciones teóricas, plantea un supuesto del
proyecto a diseñar describiendo qué harías en estas fases y tareas.
3.2 Preparación de los datos



Esta fase, junto con la anterior, conforma casi el 70 % de la elaboración del proyecto de DM, por lo que
Roberto y su equipo deben tener especial cuidado en qué datos y atributos seleccionar y qué
modificaciones realizar.
En la fase de preparación de datos, procederás a adecuar el conjunto de datos seleccionados para su

utilización en el análisis de DM. Se realizarán acciones como seleccionar un subconjunto de datos, limpiarlos
para mejorar su calidad o crear nuevos datos a partir de los seleccionados.
También estudiarás las posibles anomalías de los datos, como huecos vacíos en los atributos y la subsanación
en caso de ser motivo de errores o de mantenerlos debido a causas válidas.
A continuación, se presentan las tareas y salidas que componen la fase de preparación de los datos.
1
2
1. Seleccionar datos
Es en esta tarea cuando se decidirá nalmente qué datos se van a utilizar para el análisis. Estos
3
deben adecuarse a los objetivos planteados en DM, contar con la calidad suficiente y cumplir las
restricciones impuestas, por ejemplo, un determinado volumen o tipo de datos.
4
2. Limpieza de datos
Aumentar la calidad de los datos significa limpiar estos, que la selección
5 de subconjuntos no tenga
registros vacíos, corregir faltas o directamente estimar los datos que falten, si es posible, mediante
técnicas matemáticas.
3. Construir datos
En esta tarea se tomarán los datos existentes y se crearán nuevos conjuntos; por ejemplo, definir
atributos derivados de los originales. Algunos de los motivos para construir nuevos datos serían:
La necesidad de contar con ciertos datos según los objetivos planteados que, gracias a los datos
disponibles, se pueden crear.
La imposibilidad de manejo de ciertos datos por parte del programa de DM; por ejemplo, convertir
datos no estructurados en estructuras relacionales.
4. Integrar los datos

En esta tarea se combinarán los datos de distintas tablas o distintas fuentes si procede, para crear
nuevos registros o atributos. Normalmente esta tarea la realizan los programas automáticamente en
función de los análisis que realices.
5. Formatear los datos

Finalmente se realizarán modi caciones a los datos de tipo sintáctico. Por ejemplo, codificar una lista
de elementos o redefinir atributos de tipo “Verdadero” o “Falso”.
Selección del Dataset



El Data Warehouse de FitnessRob es de gran tamaño, pero para el objetivo concreto que desean cumplir
solo es necesario el uso de determinadas tablas y datos. Lo más indicado es definir un Dataset o
conjunto de datos para acumular todos los atributos que se van a utilizar para su análisis.
La mayoría de los atributos que se utilizan serán los que tengan que ver con los clientes y, para esto, ya
hay una tabla en la base de datos, aunque también se necesitan otros atributos de tablas distintas como,
por ejemplo, la región donde viven.
En la salida de esta primera tarea debes elaborar una lista de los datos que vas a usar y los que no, si procede,
y los motivos de su uso o desuso. Asimismo, debes proporcionar una descripción de cada uno de los atributos
seleccionados, por ejemplo, el tipo de datos, extensión de las tablas, etc. Si el volumen de datos es muy grande,
puedes usar técnicas de muestreo para reducir este conjunto de datos a uno más significativo.



 De nición
Dataset
Es el conjunto de datos que se obtiene en la fase de preparación de datos y que es usado para el trabajo
de análisis del proyecto.
Limpieza de datos



Tras haber comprobado estadísticamente los datos mediante representaciones gráficas en busca de
valores anormales y datos “ruido” o nulos, John ha corregido los huecos existentes mediante la media en
valores numéricos y la moda en valores nominales. Aunque también se podría haber hecho mediante
análisis predictivo para introducir valores más significativos.
En esta salida realizarás el informe que corresponde a las acciones que se hayan llevado a cabo para corregir
los problemas de calidad de los datos que se detectaron en la cuarta tarea de la fase anterior: “Verificar la
calidad de la datos”. En este informe se reflejará también si los datos que aún tienen problemas se van a utilizar
y qué consecuencias tendrá su uso.
En esta tarea deberás explicar cómo vas a manejar los datos que hayas encontrado particulares o con valores
especiales. Estos datos pueden ser, por ejemplo, información sobre los clientes no adjuntada, preguntas no
contestadas o valores truncados; en lugar de tener un registro 100, aparecería un 00.




 Importante
En última instancia, no debes simplemente borrar dichos datos particulares, ya que podrían ser fuente
importante de información.
Construcción de datos



Gracias a los datos almacenados, el equipo puede crear nuevos datos a partir de los existentes como,
por ejemplo, la edad o los tipos de productos comprados. Para realizar el análisis de los datos ha sido
necesario crear una serie de atributos:
Se ha creado la variable “Edad” calculada según la fecha de nacimiento de cada cliente.
Se ha creado la variable “Comprador” que define si un cliente ha comprado determinados productos o

no. Luego, esta variable será la que se quiere predecir con Data Mining.
Los atributos derivados hacen referencia a nuevos datos creados a partir de campos ya existentes, por
ejemplo, cuando se genera la edad de alguien a partir de la fecha de nacimiento o el tiempo desde la última
compra a partir de la fecha de compra.
La siguiente salida se diferencia de la anterior en que no se crean los atributos a partir de otros, sino que se
generan de forma independiente, por ejemplo, asignando un número de identificación o clave a una lista de
clientes.


 Consejo
Para crear un nuevo atributo, mira si realmente es más útil que otro parecido que ya tengas. El objetivo es
simplificar en lo posible el modelado, no omitir una información por otra.
Integración y formateo de datos




Finalmente, se realizarán las dos últimas tareas de esta fase para conseguir completar una correcta
preparación de los datos que se van a utilizar. Para ello, se ha procedido a unificar los datos de varias
tablas de productos, clientes, territorios y fechas para conformar los datos de análisis en el Dataset.
También se han realizado cambios de formatos para que la herramienta entienda los datos que está
analizando, esto habrá que hacerlos siempre.
La salida de unificación de datos consiste en la obtención de nuevos conjuntos de datos gracias a la

uni cación de dos o más tablas. Por ejemplo, existen dos tablas que contienen datos relativos a los clientes,
pues estas se unificarán y darán lugar a un subconjunto de datos resultados de esa unión.
En la última salida de esta fase, procederás a modi car determinados atributos para dotar de funcionalidad
computacional a estos, por ejemplo, convertir una columna de tipo texto a booleano (verdadero o falso) o
convertir entradas de texto a enteros.




 Importante
El formateo de datos es importante, ya que muchas aplicaciones necesitan un campo para identificar a
los atributos y su orden.
Una de las tareas que con más frecuencia se deben realizar es la de construir nuevos datos, ya que no se
encuentran de manera explícita en los datos que se van a analizar.


En esta actividad se muestra el desarrollo de ciertas acciones durante la preparación de los datos.
El analista de datos que trabaja en el proyecto de DM de Andrés necesita determinar la edad de los
clientes que se van a analizar. ¿Cómo crees que debería proceder si acaba de comenzar la fase de
preparación de datos?
a. Debe ejecutar esta tarea de construcción de datos en primer lugar para luego definir el Dataset.
b. Esta tarea debe realizarla después de definir el Dataset y limpiar los datos a utilizar.
c. La construcción de los datos se realiza al final de esta fase, por ser la más compleja.
d. Tras definir el Dataset, construirá estos nuevos datos para posteriormente realizar su limpieza.
4. Análisis de las fases del proceso de acuerdo a CRISP-DM (III)

A continuación, seguimos con las explicaciones de las fases del proceso de acuerdo a CRISP-DM.
4.1 Modelado



En esta fase el equipo de Roberto debe escoger una técnica de DM para trabajar con los datos y obtener los resultados que desean ver.
La extensión de minería de datos de Microsoft Excel cuenta con la posibilidad de implementar varias técnicas de DM, por lo que en esta fase irás viendo cuál
escogen y qué procedimientos realizan para implantarla.
En la cuarta fase, llamada fase de modelado, se escogerá la técnica o técnicas de DM que mejor se adapten a los objetivos propuestos en el proyecto.
Es necesario que realices un proceso de prueba con las técnicas seleccionadas, para comprobar que sus modelos reúnen las condiciones para satisfacer los objetivos
del proyecto.




 Importante
Cada técnica de minería de datos está orientada a resultados diferentes, por lo que quizá unas son más adecuadas que otras.
Finalmente se aplicará la técnica de DM sobre los datos escogidos en fases anteriores y se generará el modelo. Este modelo se debe evaluar para determinar si
efectivamente cumple los objetivos o no.
La fase de modelado es el corazón del proyecto y su razón de ser, en los apartados siguientes se desarrollarán las siguientes tareas:
1. Seleccionar la técnica de modelado

4
El primer paso obvio es el de seleccionar una técnica para el análisis de los datos. Existen varias técnicas que ofrecen distintos resultados y modelos, por lo
que, en función del tipo de objetivos marcados para el proyecto, habrá técnicas que funcionarán mejor y otras que funcionarán peor, o incluso que no sean
viables.
De los objetivos marcados y las restricciones impuestas, se deberá escoger la técnica que más se adapte a las necesidades del proyecto.
2. Generar el plan de pruebas

Antes de llevar a cabo la construcción del modelo, debes diseñar algún procedimiento o plan para poder probar la calidad de dicho modelo. Un ejemplo
puede ser aplicar tasas de error a técnicas de clasificación como los árboles de decisión.
Por un lado, hay que escoger un conjunto de datos de entrenamiento para construir el modelo y, por otro, un conjunto de datos de prueba para la validación
del modelo.
3. Construir el modelo
Llega la hora de ejecutar la herramienta de DM en el conjunto de datos de entrenamiento para obtener un modelo según los parámetros seleccionados.
En esta tarea se pueden obtener uno o varios modelos con distintos parámetros.
4. Evaluar técnica de modelado

Una vez realizado el modelo, debes asegurarte de que cumple con los criterios de éxito que habías de nido en la tarea 3 de la fase 1 “Determinar objetivos
de Data Mining”, así como con los criterios de las pruebas definidos en el plan de pruebas de la tarea 2 de esta misma fase.
Esta evaluación será solamente de origen técnico para evaluar los resultados de las diferentes tareas de modelado. En la siguiente fase es donde se evaluará
el modelo desde el punto de vista de los negocios.
Selección de la técnica de modelado



El equipo de FitnessRob ha determinado que la técnica de minería de datos más adecuada para llevar a cabo el análisis que desean es la de árboles de decisión
por los siguientes motivos:
Necesitan conocer qué factores de los clientes determinan que sean compradores. Para ello, deben realizar sucesivas condiciones en cada factor para saber
cuáles son las más determinantes a la hora de comprar en la tienda.
Necesitan obtener una vista clara y esquemática de los pasos que llevan a determinar qué factores son decisivos.
La primera salida corresponde a la selección propiamente dicha de la técnica que se va a utilizar en el proyecto. Como ya has visto antes, cada técnica aporta
funciones específicas, por lo que unas se adaptarán mejor que otras a tus necesidades.



 De nición
Árboles de clasi cación
Se utilizan para definir un conjunto de decisiones que, a su vez, generan reglas para clasificar un conjunto de datos. Sobre los datos se realizarán bifurcaciones
con preguntas lógicas, simulando las ramas de un árbol, para obtener distintas posibilidades de decisión según las preguntas realizadas.
Identi ca si debes realizar supuestos en función de la técnica de DM escogida, por ejemplo, formato de ciertos datos, distribución de las variables o tamaños de la
muestra. Si los supuestos no se cumplen, debes volver a la fase de preparación de los datos para hacer que cumplan con lo que demanda la aplicación de DM
seleccionada.
Plan de pruebas



En la extensión de Data Mining que el equipo va a utilizar, es posible determinar la precisión del modelo realizado, muy importante para el plan de prueba del
modelo de Data Mining que se va a crear.
Por otro lado, la cantidad de datos se dividirá en un 60 % para el entrenamiento del modelo y un 40 % para la realización de pruebas con el modelo generado.
En esta salida debes documentar y describir el plan que se va a llevar a cabo para el entrenamiento del modelo, la realización de las pruebas y la evaluación del
modelo creado.
Es en este punto donde se debe decidir de qué forma se va a dividir el conjunto de datos destinados a entrenamiento y a las pruebas, así como las pruebas de
validación.




 Importante
Si tienes varios objetivos en el proyecto de DM, deberías tener un plan de pruebas para cada objetivo específico, ya que tendrás un modelo por cada objetivo.
Construcción del modelo

En esta salida se enumerarán los parámetros seleccionados en la herramienta de DM para la creación del modelo.
Para construir un modelo normalmente se deben definir sus parámetros iniciales que se irán cambiando hasta generar el modelo más exacto posible.
Un ejemplo de los pasos típicos para la construcción de un modelo de análisis se puede ver mediante la herramienta de Minería de datos de Microsoft Excel:
Elección de atributos y asignación de variable de análisis 1
Determinar porcentaje de datos 2
Definición del nombre del modelo 3
En el primer paso se procederá a elegir los atributos que servirán de información para crear el árbol de decisión y la variable en la que se realizará
el análisis. En este caso será la que determine si una persona ha comprado algún producto o no.
2
Tal y como se definió en la tarea anterior, en este paso se determinará qué porcentaje de datos servirá como entrenamiento para el modelo y qué
porcentaje será el de prueba para el modelo. Excel te ofrece una descripción detallada de esto en la ventana.
Finalmente se le dará un nombre al modelo para que, en el caso de tener varios, se pueda identificar correctamente.



El modelo realizado ha sido el de árboles de decisión. Tras haber elegido el equipo de Roberto los atributos de los clientes para comprobar cuáles de ellos son
determinantes para que un cliente compre o no su producto, procederán en la siguiente tarea a analizar el modelo.
En esta salida se producirá el modelo creado por la herramienta de DM según la técnica elegida.
Vista general del modelo de árbol de decisión


 Actividad colaborativa 2
Es el momento de realizar la siguiente Actividad colaborativa. No obstante puedes seguir estudiando la unidad didáctica y realizar esta actividad en otro
momento que te sea más favorable.
Microsoft Excel es una de las muchas herramientas con las que se puede hacer Data Mining. En esta actividad podrás conocer más herramientas orientadas a
realizar esta práctica, mucho más específicas que la utilizada para este ejemplo del curso.
Busca una herramienta para Data Mining y comparte información sobre ella en el foro correspondiente para que, de esta manera, tú y tus compañeros podáis
conocer algunas de ellas.
Para realizar las Actividades colaborativas debes acceder a la página principal del curso, allí encontrarás la información necesaria para realizarla. Podrás
identi car las Actividades colaborativas por la numeración correspondiente.



Tras obtener el modelo, es hora de analizarlo cuidadosamente para conocer mejor los clientes de FitnessRob y, de esta forma, enfocar los escuerzos de
marketing en el público que tenga altas posibilidades de responder de forma positiva a la publicidad de los nuevos productos.
La última salida de esta tarea corresponde a la evaluación del modelo en cuanto a sus diferentes variables y el comportamiento de las mismas.


 Consejo
Para modelos que se basen en reglas, debes listar las que se hayan producido y el alcance de estas. De igual forma, para modelos no transparentes, por
ejemplo, donde no sea visible su estructura, también deberías listar información técnica que ayude a comprenderlo mejor.
A continuación, puedes ver un ejemplo de cómo interpretar el modelo de árbol de decisión antes planteado:
1
2 4
5
3
1. Inicio
Vista del inicio del árbol de decisión con el

recuento de elementos analizados
Se puede ver cómo del total de clientes de entrenamiento del modelo, que son 11.091, hay casi un 70 % que son compradores, por lo que más de 2/3 de los
clientes de la base de datos son compradores.
2. Sí son compradores
Representación de factores más in uyentes según

color
En el siguiente nivel de decisión puedes ver cómo el factor más influyente para determinar si son compradores es la edad (recuadro más oscuro). Los clientes
de entre 25 y 32 años son los que más compran en la organización. Esto se puede deber a que hay un mayor número de jóvenes que practican deporte con
respecto el resto de personas.
3. Desarrollo completo
Vista completa de la rama con el factor más

in uyente en la decisión de compra
Desplegando el factor de la edad hasta el final, puedes ver que el siguiente factor más influyente es la posesión de vehículos, los que no cuentan con más
compras. Esto puede deberse a que, al no tener coche, tienen menos gastos y son propensos a comprar más o simplemente utilizan medios de transporte
saludables como bicicletas o patines.
A continuación, el factor que influye es la ocupación y, después de este, que su formación sea universitaria. Esto puede deberse a que las personas que no son
de clase obrera cuenten con trabajos más idóneos para hacer deporte, ya que al tener estudios superiores es posible que sus trabajos sean de oficina y
sedentarios.
Finalmente, el último factor más influyente será el no tener hijos: las personas sin hijos compran más, por lo que se deduce que tienen más tiempo para hacer
deporte.
4. No son compradores
Factores analizados para las personas que menos

compran
Si por el contrario te fijas en qué factores influyen más en clientes que no compran, el más importante es sin duda la edad: los mayores de 60 compran menos,
lo que puede deberse a problemas de salud a edades ya avanzadas.
5. Desarrollo completo
Desarrollo completo del segundo factor más

in uyente en clientes que no compran
Desarrollando el segundo factor más influyente, que son los de edad menor a 25 años, verás que los que menos compran son los de la región del Pacífico,
sobre todo asiáticos, y que además poseen coche. Esto puede deberse a menores ingresos o al uso de vehículo para su desplazamiento.
Evaluar la técnica de modelado




Una vez realizado el modelo es hora de comprobar su exactitud con los datos de prueba, ese 40 % que el equipo había separado de los datos de entrenamiento.
En la salida de evaluación del modelo se llevará a cabo un resumen de los resultados del modelo en términos de precisión y el nivel de calidad que se ha alcanzado.
En la siguiente salida se procederá a revisar el modelo en cuanto a los parámetros de ajuste para realizar iteraciones hasta alcanzar el nivel de exactitud deseado.
Precisión del modelo (gris) respecto a uno ideal

(naranja) y otro inexistente (azul)
En un proyecto de DM se pueden definir varios objetivos de negocios y, por tanto, de DM se deseen, todo dependerá de cómo de ambicioso sea este y la capacidad del
equipo para dar respuesta a todos los objetivos planteados.


En esta actividad se plantea la posibilidad de tener varios objetivos de DM en un mismo proyecto y cómo se debe proceder para cumplirlos.
En el proyecto de DM de la empresa de Andrés nalmente se decidieron dos objetivos distintos: predecir el volumen de ventas en un territorio y qué producto
será el más vendido. ¿Qué objetivos debe tener un proyecto de DM?
a. Al deber desarrollar dos objetivos es necesario seleccionar dos técnicas de DM distintas, en su caso, también son necesarios dos modelos de análisis.
b. Se pueden definir varios objetivos en los cuales es posible seleccionar o no la misma técnica de análisis, pero cada objetivo tendrá un modelo para su
análisis.
c. Se puede seleccionar varios objetivos, pero se debe tener en cuenta que el modelo ha de ser compatible para ambos objetivos.
d. Lo más recomendable es llevar a cabo la implantación para un objetivo y, una vez cumplido este, se tratará el siguiente.
4.2 Evaluación



Una vez han considerado que los objetivos de DM han sido cumplidos por el modelo obtenido de compradores, Roberto, junto con María y Lucía, se disponen a
evaluar el modelo para ver si quedan satisfechos con los resultados que obtienen desde el punto de vista de los objetivos marcados para el negocio.
Esta fase se encarga de evaluar los modelos de DM generados, pero desde el punto de vista de los objetivos de negocios marcados en lugar de los objetivos de DM
como en la anterior fase.
Esta evaluación comprueba que el modelo cumpla con los objetivos y, de esta forma, permitir pasar a la siguiente y última fase CRISP-DM.
En caso de no cumplir los objetivos, se deberá volver a fases anteriores, donde el problema se haya detectado, tal y como indica el diagrama de fases CRISP-DM
propuesto en el apartado 2.1.
A continuación, se detallan cada una de las tareas de esta fase:
1. Evaluar los resultados

Tal y como la descripción de la fase 5 plantea, en esta primera tarea se debe evaluar si el modelo se ajusta a esos objetivos de negocio planteados. Si no los
cumple, es necesario identificar los motivos, que pueden estar originados en alguna de las fases anteriores. Por tanto, será necesario volver a ellas e identificar
y corregir el error.
2. Revisión del proceso

Esta segunda tarea se centra de nuevo en el proceso en sí del DM, en este caso se deberá realizar una revisión del proceso que generó el modelo. No se trata
de hacer un análisis de calidad de los datos, esto ya se realizó antes, sino del proceso DM.
3. Determinar los próximos pasos

Esta tarea es la culminación de las dos tareas anteriores. Puede llevarse a cabo justo después de las anteriores o, por el contrario, tardar en aparecer por la
realización de ajustes en todo el modelo. En ella, se decidirá si se concluye el proyecto y se procede a realizar el despliegue de acciones que materializará el
objetivo final de negocio.
Evaluar los resultados de negocios




En esta tarea Roberto quiere saber, gracias al modelo de predicción creado, qué probabilidad de compra tienen los clientes en respuesta al envío de publicidad
de los nuevos productos, de esta forma sabrá qué clientes tienen mayor probabilidad de comprar y a qué cantidad de población llegar para que la campaña sea
lo más rentable posible.
También se ha tenido en cuenta que los costes de publicidad fijos son 10.000 €, 8 € por cada cliente y los beneficios mínimos por compra de unos 12 €.
En la primera salida se trata de resumir y analizar los resultados obtenidos y ver si estos cumplen satisfactoriamente con los objetivos de negocio.
De la misma forma, en la siguiente salida se seleccionará nalmente el modelo más idóneo.
A continuación, se muestra un proceso de evaluación de resultados para el modelo creado anteriormente:
Pronóstico de bene cios 1
Pronóstico de compradores 2
1
Grá ca que muestra la cantidad de población

necesaria para obtener los máximos bene cios.
Para probar el algoritmo de DM (línea naranja), puedes simular una campaña de publicidad de tu producto en la que determines unos costes fijos y
por cliente y puedas obtener los beneficios obtenidos con este modelo.
En él puedes ver qué porcentaje de población necesitas para obtener los máximos beneficios (en este caso sobre el 54 %) y a cuánto ascienden
estos.
Probabilidad de compra para el último cliente al

que se le enviará publicidad
En el siguiente paso, usarás el modelo creado para listar la probabilidad de que un cliente responda a tu publicidad con una compra reportándote
beneficios.
Si en la prueba anterior necesitabas el 54 % de la población para reportar los máximos beneficios, aquí puedes ver cómo en ese 54 % (cliente
número 10.000) su probabilidad de compra es del 66 %.
Revisión del proyecto y siguientes pasos a seguir




Tras la revisión del proceso y comprobar que no se han producido resultados anómalos e inconsistencias, Roberto y su equipo han quedado satisfechos con los
resultados del modelo. Es hora de determinar los pasos a seguir para el despliegue que serán, revisar las tareas realizadas para ver si debe volver a alguna fase
anterior; después de esto, implantar el modelo en toda la empresa y finalmente elaborar un plan de mantenimiento para el modelo predictivo.
Debes realizar un reporte con la revisión del proceso de DM en el que plasmar posibles prácticas no tenidas en cuenta o que debieran ser repetidas.
Una vez validado el modelo es hora de hacer una lista con las acciones a llevar a cabo para cumplir los objetivos de negocios planteados y las decisiones que se
deben tomar para ello.
Las actividades más importantes que debes tener en cuenta para estas dos tareas son las siguientes:
Haz una descripción del proceso de DM, enumerando sus etapas y reflexionando sobre si cada una de ellas se ejecutó bien, si era necesaria o si podría ser
mejorada.
Identifica los pasos que salieron mal o los que has dado y que no estaban previstos.
Revisa nuevamente los resultados de los modelos para confirmar que se cumplen los objetivos de negocio.
Determina si debe volver a fases anteriores para subsanar errores o si por el contrario es posible seguir adelante en el proyecto.
4.3 Implantación



Una vez llegados a esta última fase, es hora de poner en práctica el modelo creado por el equipo de FitnessRob. Las tareas a realizar en esta fase también son
muy importantes, ya que se debe planificar muy bien su despliegue por parte de la empresa y elaborar un buen plan de mantenimiento capaz de monitorizar en
todo momento el estado del modelo y su validez ante la evolución de la empresa.
Esta es la última fase de la guía CRISP-DM, la cual consiste en la puesta en ejecución del proyecto realizado en las fases anteriores. En ella se informará al cliente
(dirección de la empresa), en caso de no haber tomado parte en el proceso, de los resultados que se han obtenido.




 Importante
En esta fase debes diseñar un plan de mantenimiento del proyecto junto con un informe de problemas encontrados y mejoras futuras.
A continuación, se detallan cada una de las tareas de esta fase:
1. Plani car el despliegue

Para planificar el despliegue del proyecto, se deben tomar los datos del proceso de evaluación del modelo de DM, y según estos diseñar cómo va a ser. En
esta tarea es donde se llevará a cabo la estrategia de propagación de los resultados que ha dado el modelo a los usuarios de la empresa con los diferentes
sistemas informáticos.
2. Plan de vigilancia y mantenimiento

Además de planificar el despliegue del modelo en toda la organización, también debe estudiarse cómo se monitorizará su funcionamiento y la precisión
que este tenga. Es esencial llevar a cabo un mantenimiento del modelo, ya que los datos van actualizándose continuamente. En una organización no es muy
importante saber cuándo el modelo deja de tener validez o disminuye su precisión.
Una ausencia o incorrecto mantenimiento podría provocar desviación de resultados y, con ello, tomarse decisiones incorrectas que podrían llevar a serios
problemas económicos a las organizaciones.
3. Producción del informe

Se deberá realizar un informe final en el que se describa el proyecto y las acciones llevadas a cabo con el mismo. También se pueden mostrar los resultados
del modelo de DM.
4. Revisión del proyecto

En la tarea final se debe reportar y evaluar qué cosas se realizaron correctamente y cuáles no. También se hará una reflexión del éxito o no que se ha obtenido
y qué áreas necesitan ser mejoradas.
Despliegue del proyecto




Las tareas a realizar en esta fase de despliegue van a ser repartidas entre los distintos componentes del equipo. Para ello, se plantean los siguientes pasos a
seguir:
Asignar responsabilidades.
Desplegar resultados del modelo en la empresa.
Publicar el conocimiento descubierto a los empleados.
Diseñar el plan de mantenimiento.
Llevar a cabo los objetivos de negocio y obtener beneficio.
En esta salida debes realizar un resumen de la estrategia de implantación, así como los pasos a seguir en la estrategia y la forma en que se ejecutarán.
También debes plantear cómo será publicado el conocimiento a toda la organización y cómo se van a desplegar los resultados obtenidos en todos los sistemas de la
organización. Para ello, es recomendable que tengas en cuenta lo siguiente:
Hacer también planes alternativos, por si el plan principal falla.
En caso de tener varios modelos u objetivos, detalla un pan de despliegue para cada uno.
Definir cómo se supervisarán los modelos implementados y cómo se van a medir sus beneficios.
Plani cación del mantenimiento del modelo



Como tareas primordiales para el equipo de Roberto, quedan las del diseño de un plan que asegure la monitorización del proyecto y su mantenimiento. Debido a
que la empresa está continuamente obteniendo y almacenando datos de clientes, es importante controlar que el modelo sigue obteniendo buenos resultados y
que los datos lleguen correctamente a él.
En esta salida se resumirá la estrategia de mantenimiento y supervisión del proyecto.
En él se enumerarán los pasos a seguir y la forma de ejecutarlos. Se deben tener en cuenta eventos como los siguientes:
Que los datos sean obtenidos de forma incorrecta
Que los datos sean modificados en su estructura
Introducción de nuevos atributos en las tablas que se estudian en el modelo
Que las políticas de proteccion de datos cambien
La periodicidad con la que se extraen muestras de datos para el modelo
La propia caducidad con el tiempo del modelo
Informe nal y revisión del proyecto




El diseño del proyecto está concluido y es hora de que el equipo de FitnessRob haga el reporte final, detallando sus experiencias, los problemas que han
aparecido y los resultados que han obtenido. Con esta experiencia es posible que realicen nuevos proyectos de DM para otras áreas en las que poder mejorar.
En la elaboración del informe final se debe describir todo el proceso, los resultados obtenidos y las distintas desviaciones que se han producido frente a diseño del
plan original. También sería interesante introducir los costes que ha supuesto el proyecto.
Del mismo modo, es recomendable realizar una presentación nal a partir del informe final con información importante que los interesados deban conocer.
Y finalmente hacer un documento a modo de re exión de los conocimientos adquiridos, las experiencias aprendidas, los problemas que han aparecido e incluso
información útil para saber qué técnicas escoger para futuros proyectos en función de los objetivos que se quieran plantear gracias a la experiencia adquirida en la
realización de este.
El plan de mantenimiento debe tener carácter proactivo, para poder tratar los problemas antes que estos se produzcan. Es muy importante tener el modelo de análisis
de DM actualizado.


En esta actividad reflexionarás sobre ciertas prácticas que pueden aparecer como elementos de un plan de mantenimiento.
Para el plan de mantenimiento, el analista de datos ha propuesto el uso de aplicaciones informáticas para la automatización de todo el plan y solo sea
necesaria la intervención humana de forma gradual. ¿Qué opinas del plan diseñado?
a. Se está haciendo un plan de mantenimiento perfectamente válido, la automatización es fundamental para ahorrar en personal y fallos humanos.
b. El plan de mantenimiento es válido, siempre que las herramientas usadas se puedan anticipar a los posibles fallos.
c. El plan no es válido, en este debe estar implicado el personal de mantenimiento. Sin una vigilancia adecuada, los programas podrían empeorar el
mantenimiento.
d. El plan no es válido, ya que también debe haber un procedimiento de registro de inspecciones por parte del analista de datos, al menos cada semana.



 Aplicación práctica 2
Duración: 40 minutos
Objetivos:
Entender la fase de preparación de datos, haciendo hincapié en las tareas de selección, limpieza y construcción de datos.
Entender cómo es la fase de modelado y qué se hace en sus distintas tareas.
Saber en qué consiste la fase de evaluación y cómo evaluar los resultados de un modelo.
Entender la última fase de implantación, concretamente en qué consiste la tarea de elaborar un plan de mantenimiento.
Para esta actividad práctica seguirás con el ejemplo de la empresa de moda textil Fashion2020, para la que ya has diseñado sus dos primeras fases del proyecto
DM.
En esta actividad continuarás diseñando sus cuatro fases siguientes, desarrollando al menos sus tareas más importantes. Con la ayuda de las indicaciones
teóricas, plantea un supuesto del proyecto a diseñar describiendo qué harías en estas fases y tareas.
Resumen
La minería de datos (DM) es una técnica de análisis predictivo de datos que trata de descubrir patrones y
relaciones en los datos, así como tendencias y comportamientos atípicos con el objetivo de proporcionar
información útil de cara al futuro para el proceso de toma de decisiones.
Para saber el alcance de las técnicas de análisis de datos, es conveniente conocer qué tipos de datos existen:
Datos estructurados
Datos no estructurados
Datos semiestructurados
Para implantar un proyecto de minería de datos en una organización, es necesario seguir una serie de pautas.
Entre los procedimientos más utilizados en encuentran los siguientes:
Metodología KDD Metodología SEMMA Metodología CRISP-DM
El concepto de Data Mining se enmarca en un entorno en el que existen multitud de conceptos relacionados
con los datos y su gestión y creación. Es importante conocer algunos de ellos:
Métodos estadísticos
Data Warehouse
Big Data
Machine Learning
Procesamiento paralelo
Tecnologías de visualización
La metodología más utilizada para la implantación de proyectos de minería de datos es CRISP-DM. Su diagrama
de fases es el siguiente:
Cada fase se divide en diferentes tareas que, a su vez, contienen distintos procedimientos que se deben realizar.
El esquema de fases y tareas es el siguiente:

Tema 1

Cargado por

Copyright:

Formatos disponibles

Tema 1

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 1

Cargado por

Copyright:

Formatos disponibles

UA 1: El proceso de descubrimiento de conocimiento en bases de datos

Objetivos especí cos

Mapa conceptual o esquema de contenidos

1 De nición del proceso de Data Mining

2 Análisis de las fases del proceso de acuerdo a CRISP-DM (I)

4 Análisis de las fases del proceso de acuerdo a CRISP-DM (III)

1. De nición del proceso de

1 Los datos estructurados es la información que se encuentra normalmente en las bases de

Esquema de una base de datos relacional. Tanto

La mayoría de las herramientas de minería de datos no son capaces de analizar

Algunos datos no estructurados pueden ser los siguientes:

Archivos de textos como Word o PDF.

Si ves la estructura interna de la página web de

Minería de datos (DM)

Analogía de Data Mining

1.2 Historia y evolución

En resumen, puedes ver a continuación su evolución histórica:

¿Qué quiero saber? Tecnología disponible Características

¿Qué quiero saber? Tecnología disponible Características

"Dime ventas en Madrid en Base de datos Datos dinámicos en múltiples

¿Qué quiero saber? Tecnología disponible Características

"Dime la tendencia de las Superordenadores, bases de Datos de carácter prospectivo

1.3 Metodologías principales en el proceso de

1.3.1. Fases del proceso KDD

Los datos pueden provenir de distintas fuentes:

Base de datos interna de la propia organización.

2. Selección, limpieza y transformación

Ante estos datos se pueden realizar las siguientes acciones:

El DM se basa en el descubrimiento de patrones, por lo que:

Se debe decidir qué tipos de patrones de datos se quieren descubrir.

En la fase de evaluación se ha de comprobar la precisión del modelo mediante la aplicación de una

1.3.2. La metodología SEMMA

1.4 Conceptos relacionados con

2 El sistema de almacenamiento de las empresas es el lugar donde actúa la DM, es la base

Existen bases de datos relacionales o SQL, donde se almacenan datos perfectamente

3 El Big Data o macrodatos es sin duda la razón fundamental de expansión de tecnologías

4 Se trata de una rama que forma parte de la computación cientíﬁca y de la inteligencia

El aprendizaje automático, en gran parte de los casos, se basa precisamente en la creación

Marketing Compañías aseguradoras Bancos

Determinar los patrones de compra de los clientes.

Posibilidad de identiﬁcar fraudes.

Detectar el uso fraudulento de las tarjetas de crédito.

Detección de fraudes telefónicos.

Estudiar brotes de potenciales epidemias.

Tener información sobre nuevas investigaciones universitarias y de laboratorios.

Analizar información de sensores y dispositivos que monitorizan el cuerpo humano.

Es el momento de realizar la siguiente Actividad colaborativa. No obstante puedes seguir estudiando la

2. Análisis de las fases del proceso de acuerdo a CRISP-DM (I)

Encuesta de 2014 que mide las metodologías más

2.1 El modelo CRISP-DM

Modelo de referencia de CRISP-DM

Fases del proceso CRISP-DM

Guía de usuario de CRISP-DM

Fases y tareas de la metodología CRISP-DM

Esta actividad te ayudará a clariﬁcar el funcionamiento básico de la metodología CRISP-DM.

2.2 Comprensión del negocio

1. Determinar los objetivos de negocios

3. Determinar objetivos de Data Mining