Tema 1
Tema 1
Tema 1
UA Unidad de aprendizaje
El proceso de descubrimiento de conocimiento en bases de datos
1
Objetivos
Objetivo general
Entender en qué consiste el Data Mining en términos generales y aprender a aplicar la metodología
CRISP-DM en un proyecto de Data Mining.
Introducción
Como ya te habrás dado cuenta, el mundo en el que vivimos va a un ritmo frenético, tanto para los seres
humanos como para las nuevas tecnologías. No somos capaces de dar un paso sin estar “conectados” al mundo
que nos rodea, ya sea mediante ordenadores, teléfonos móviles u otros dispositivos que nos permiten
comunicarnos al instante con amistades y, en general, con cualquier persona. Estamos continuamente
generando y recibiendo grandes cantidades de datos.
En este punto te preguntarás por qué los datos tienen tanta importancia en todos los ámbitos de esta nueva
sociedad. En un principio los datos por sí solos no serían nada más que registros sin un significado útil, y
necesitan de un elemento que los analice y dote de información útil a todo este conglomerado de cadenas de
caracteres almacenado en las bases de datos. En este aspecto, las bases de datos de las compañías
comenzaron a ser de fácil acceso por su escaso tamaño, y mediante consultas simples se podían obtener
resultados satisfactorios. Pero estas fueron ampliando su tamaño, eran cada vez más los dispositivos que
generaban datos y estos almacenes de información se fueron haciendo cada vez más complejos y de un
tamaño enorme.
Debido a esto surge la minería de datos o Data Mining, que se encarga de extraer conocimiento de estos
grandes volúmenes de datos y que será el tema principal que estudiarás durante este curso. Asimismo,
aprenderás de manera práctica cómo implantar esta tecnología en un proyecto empresarial gracias a la guía
CRISP-DM, para ser capaz de sacarle el máximo partido a los datos de los que se dispone.
En esta unidad aprenderás qué es la minería de datos en líneas generales y cuáles son los pasos a seguir en la
implantación de un proyecto según la guía CRISP-DM. Para ello tomaremos como referencia la empresa
FitnessRob, S. L., empresa dedicada a la venta de artículos deportivos (ropa, material para practicar deportes,
máquinas de gimnasio, etc.), tanto en tiendas como por internet, la cual se dispone a implantar la tecnología de
Data Mining para encontrar información útil a partir de su base de datos.
UA 1: El proceso de descubrimiento de conocimiento en bases de datos
FitnessRob, S. L., es una empresa de venta de bicicletas y, gracias a sus distintas sucursales repartidas
por Europa y a su venta online, está obteniendo grandes beneficios. A la cabeza de la dirección de la
empresa se encuentra Roberto Fernández. Roberto desea dar un paso más en la política de ventas de la
empresa y sacarle partido a toda la información que tienen almacenada en su base de datos con la
implantación de un sistema de Data Mining, que les ayudará a ser proactivos en sus decisiones.
La minería de datos surge de la necesidad de adquirir conocimiento de grandes volúmenes de datos. Antes
de que surgiera este concepto, las organizaciones basaban su análisis de datos en métodos estadísticos,
también llamados analítica descriptiva; gracias a estos métodos podían conocer pasado y presente de la
situación de la empresa.
Pero fue debido a la creación de internet cuando estos métodos pasaron a ser insuficientes como medio de
análisis de datos; los nuevos datos no eran iguales a los datos almacenados en las compañías y eran necesarios
nuevos mecanismos para su análisis. Desde el punto de vista del análisis, se dividen en tres grupos:
Datos estructurados 1
Datos no estructurados 2
Datos semiestructurados 3
Este tipo de datos es muy fácil de analizar por herramientas Data Mining:
Aunque parezca mentira, la gran parte de los datos generados por una organización, y
especialmente por internet, son de tipo no estructurado. Por ello, es fundamental contar
con mecanismo capaces de procesar estos datos y extraer su información útil y
almacenarla.
Nota
Las hojas de cálculo en la mayoría de sus casos, ya que, aunque aparezca de forma
ordenada, estos archivos se almacenan sin estructura interna organizada
aparentemente.
3 Por último, están los datos semiestructurados. Estos datos suelen tener un formato que
podría ser de nido, pero no es de fácil comprensión para los usuarios, por lo que es
necesario usar ciertas reglas que ayuden a leer la información que contienen. Algunos de
estos datos son los llamados “de etiquetas”, como los archivos XML, HTML o JSON.
1.1 Concepto
Debido a los avances tecnológicos y a la rápida evolución de los sistemas de almacenamiento, las
organizaciones disponen de herramientas tanto hardware como software cada vez más avanzadas que hacen
posible el almacenamiento de enormes cantidades de datos.
Existen técnicas con las que es posible analizar estos datos y extraer información que, a simple vista, se
encuentra oculta en ellos. Una de estas técnicas es la minería de datos o Data Mining, la cual es una
combinación de técnicas de análisis estadístico, inteligencia arti cial, aprendizaje automático, análisis de bases
de datos y herramientas de visualización gráfica para obtener información que no se encuentre representada
explícitamente en estos datos.
De nición
Es una técnica de análisis predictivo de datos que trata de descubrir patrones y relaciones en los datos,
así como tendencias, y comportamientos atípicos con el objetivo de proporcionar información útil de cara
al futuro para el proceso de toma de decisiones.
El término de DM hace analogía con una montaña y la cantidad de datos que se encuentran almacenados en
una organización. Dentro de la montaña, entre roca y tierra, se encuentran materiales de gran valor que deben
ser extraídos mediante procesos mecánicos. De igual forma, dentro de los datos se encuentra información que
debe ser encontrada y extraída para aportar valor a la toma de decisiones.
Esto evolucionó con los sistemas gestores de bases de datos en los años sesenta. En esta época aparecieron
las primeras bases de datos jerárquicas, y bases de datos en red. En ellas la información ya era almacenada en
forma de listas y árboles. Posteriormente, en los años setenta aparecieron los sistemas relacionales, aunque
aún existía la problemática de que las bases de datos no eran integrales y se encontraban de forma repartida en
las distintas áreas de la organización, lo cual hacía laborioso el hecho de acceder a su información y relacionarla.
En los años ochenta nació el concepto de Data Warehouse, en el que la base de datos se centraliza y se crea
una infraestructura en torno a esta para capturar, depurar, almacenar y gestionar los datos de la organización.
De esta forma se establecen las bases para la minería de datos en la forma actual.
Años sesenta
"Dime los beneficios totales del Ordenadores, discos y cintas Datos estáticos y de carácter
año anterior" retrospectivo
Años setenta
¿Qué quiero saber? Tecnología disponible Características
"Dime las ventas en Madrid del Base de datos relacional, Datos dinámicos y de carácter
mes anterior" lenguaje SQL retrospectivo
Años noventa
Data Mining
FitnessRob pretende usar una metodología estandarizada para llevar a cabo la integración de estas
tecnologías en su Data Warehouse. Durante este curso irás viendo todo el proceso completo de
implantación que llevará a cabo.
En la empresa deben tener claras ciertas cuestiones para que el proyecto salga adelante:
Roberto debe contar con las habilidades necesarias para saber qué quiere conseguir con el DM y
cómo debe ir enfocada su política de negocio.
Los trabajadores también deben adoptar esa filosofía, sus trabajos deben ir enfocados a la
mentalidad adoptada. En este aspecto entran dos figuras importantes, José, director de recursos
humanos, y María, directora del departamento de marketing.
Para crear un proyecto de DM es necesario aplicar cierta metodología, como en cualquier otro proyecto; de lo
contrario, no podrían obtenerse los resultados que se esperan. Es importante, por tanto, saber qué se va a hacer
y cómo se va a hacer, ya que no se trata solamente de instalar ciertas aplicaciones y realizar consultas aleatorias
a los datos.
Además, el contar con una metodología facilitará la forma de plani car y dirigir el proyecto, pudiendo así
realizar un correcto seguimiento del mismo. Tanto la dirección de la organización como los trabajadores deben
contar con las habilidades necesarias para que la implementación sea completamente funcional. En definitiva,
hay que concienciar a todos los elementos y adoptar el tipo de filosofía necesario para que las acciones de la
organización vayan siempre enfocadas a ese fin que se persigue.
Existen tres metodologías principales que se emplean en la elaboración de un proyecto de DM, y son las
siguientes:
Metodología KDD
El proceso de extracción de conocimiento, en sus siglas en inglés KDD o Knowledge Discovery from
Databases. KDD es un proceso por el cual se obtiene información y conclusiones gracias a un conjunto
de datos que normalmente se encuentran almacenados en una base de datos.
Es un proceso iterativo en el que la minería de datos forma parte de una de sus fases. Durante la
ejecución de algunas de sus fases, podría ser necesario volver a una fase anterior o, en su caso,
realizar el procedimiento nuevamente para después extraer el conocimiento adecuado de los datos.
Metodología SEMMA
SEMMA es el acrónimo que hace referencia a las cinco fases de este método: Sample, Explore, Modify,
Model, Access. Esta metodología secuencial fue propuesta por SAS Institute, uno de los más
importantes desarrolladores de software para inteligencia de negocios. Viene definida como un
proceso de selección, exploración y modelado de datos en grandes cantidades con el objetivo de
descubrir patrones y relaciones. Según esta definición, más que un proceso, es una metodología
general de DM.
Metodología CRISP-DM
Su nombre procede de Cross-Industry Standard Process for data Mining. Esta guía surgió en 1999
gracias a una propuesta de un importante consorcio de empresas para crear una guía de libre
distribución basada en KDD.
CRISP-DM es, por tanto, una guía de referencia que de ne los pasos a seguir para implementar un
proyecto de Data Mining. Contiene un conjunto de actividades definidas según la experiencia del
procedimiento de ensayo-error recogidas por las empresas que forman parte del consorcio de
creación. Está compuesta por seis fases sucesivas que recorren horizontalmente todo el proceso de
DM.
Adoptar una de las metodologías estandarizadas para implementar un proyecto de DM es una práctica que
realizan gran parte de las empresas, ya que contienen las pautas que guiarán el proceso.
Actividad de aprendizaje 1
A continuación, realizarás una actividad en la que entenderás ciertas condiciones que se deben dar para
implantar una metodología de DM.
Andrés es el director de una empresa en la que desea llevar a cabo un proyecto de Data Mining. Él no
conoce dicho campo ni ninguno de sus trabajadores, por lo que te pide ayuda. ¿Cómo podrías ayudarlo?
a. Le aconsejas que se forme en materia de Data Mining para adquirir conocimientos técnicos y
poder implantar el proyecto.
b. Lo mejor será que se ponga en manos de una empresa auditora que lleve a cabo todo el proceso
y gestión futura del proyecto, aunque será caro.
c. Tu consejo es que contrate a un analista de datos que lleve a cabo las labores técnicas y ayude a
adoptar la filosofía en la empresa.
d. Debes tener en cuenta que es una pequeña empresa, por lo que no está a su alcance la
implementación de un proyecto de DM.
6 1
5 2
1. Recopilación de datos
En la primera fase se tratará de identificar las fuentes de datos que se van a utilizar para extraer
información más adelante. Estos datos de distintas fuentes deberán transformarse a un formato común
y unificado, generalmente se conseguirá esto usando un almacén de datos.
Simplemente ignorarlos, ya que algunos algoritmos de DM como los árboles de decisión no tienen
problemas de datos anómalos.
Filtrar la fila o columnas que carezcan de utilidad.
Rellenar los datos vacíos con valores de medidas, en caso de poder hallar su función de
correlación.
Eliminar los datos que no cumplan con los objetivos.
3. Minería de datos
Esta es la fase principal del proyecto, en la que se debe decidir qué tarea se llevará a cabo con los
datos y qué técnica de análisis se utilizará. Es muy importante elegir una adecuada, ya que, además
del gran volumen de datos existente, los datos se encontrarán almacenados y no son susceptibles de
ser escaneados múltiples veces. También se puede dar el caso de que la técnica de muestreo no sea
compatible con determinados algoritmos.
4. Evaluación y validación
Mediante la fase anterior, se han creado una o varias hipótesis de modelos, por lo que en esta fase se
debe evaluar estos modelos y validarlos.
En la segunda fase se debe tomar el modelo elegido en la primera fase y ponerlo a prueba. Por
ejemplo, si el modelo lo quieres para predecir el comportamiento de tus clientes ante el lanzamiento
de un nuevo producto, podrías enviar un e-mail a un conjunto de clientes y evaluar qué fiabilidad tiene
el modelo.
5. Interpretación y difusión
En esta fase se llevará a cabo el proceso de implementación del modelo una vez comprobado y
validado. Este puede ser un modelo que necesite ciertas características como procesamiento en
tiempo real de cobros o pagos, el cual necesitará de la implementación de ciertas características
adicionales al propio modelo.
También puede ser un modelo descriptivo que necesite de cierto personal con cualificación específica
para entender qué se está realizando.
O contar con una difusión a usuarios de distintos países, en cuyo caso necesitará estar expresado de
una forma comprensible para todos. Aquí ya entraría la estrategia de marketing que la empresa quiera
llevar a cabo.
6. Actualización y monitorización
Tras las fases anteriores y con el modelo puesto en funcionamiento, es necesario llevar un
seguimiento del mismo con el objetivo de realizar mejoras y simplemente controlar su mantenimiento.
Esto se llevará a cabo monitorizando el modelo.
Esta metodología, a diferencia de KDD y CRISP-DM, se centra en mayor medida en el desarrollo de un modelo
DM desde el punto de vista estadístico en cuanto a definir sus características. Además, al ser desarrollado por la
empresa SAS Institute, se podría considerar como un paquete agregado al software estadístico de la propia SAS,
y el propósito de esta no es tan genérico ni orientado a la implantación de DM como las otras dos metodologías.
A continuación, se detallan cada una de las fases en las que se divide esta metodología:
1. Muestreo (Sample)
En esta fase se procederá a seleccionar una muestra que represente el problema que se va a estudiar.
Es muy importante que esta muestra sea representativa, ya que de lo contrario los resultados no
tendrían validez al no aportar información propia del contexto de estudio. Lo más indicado sería realizar
un método de muestreo aleatorio simple en el que cada individuo de la población se selecciona de
forma aleatoria.
2. Exploración (Explore)
En esta fase se tomará la información para simplificar lo más posible el problema planteado, para que,
de esta forma, gane en eficiencia y comprensión. Para ello se aconseja utilizar herramientas de
visualización de datos, como tableros de mando y diagramas, o herramientas estadísticas para
establecer las relaciones entre variables.
3. Manipulación (Modify)
En la fase de manipulación se definirán los datos, de manera que tengan un formato adecuado y
uniforme en su conjunto. Además, se seleccionarán de forma clara las variables que serán las entradas
al modelo.
4. Modelado (Model)
En esta fase se utilizarán las distintas herramientas de DM para analizar los datos y crear un modelo, y
de esta forma relacionar las variables analizadas con las del objeto del estudio.
5. Valoración (Assess)
En la última fase del proceso se pasará a valorar los resultados obtenidos, que pueden ser uno o varios
modelos, y de esta forma seleccionar el más adecuado.
La gran mayoría de trabajos en DM se enfocan en trabajar con los Data Warehouse de las empresas, ya que
estos contienen los datos estructurados y organizados. Aunque es gracias al Big Data donde entra la posibilidad
de almacenar datos no estructurados para que, una vez adecuados a las necesidades de las herramientas DM,
se puedan analizar.
Otra de las tecnologías más utilizadas son los métodos estadísticos y el aprendizaje automático o Machine
Learning, que proporcionan una serie de reglas matemáticas y de aprendizaje que son la base fundamental de
la DM.
A continuación, se definirán algunos de estos conceptos que dan apoyo y sentido al DM.
Métodos estadísticos 1
Data Warehouse 2
Big Data 3
Machine Learning 4
Procesamiento paralelo 5
Tecnologías de visualización 6
1 La estadística ha sido durante mucho tiempo la única técnica existente para analizar datos.
Se puede decir que la DM proviene del análisis estadístico, ya que implementa muchas de
sus reglas y metodologías en operaciones básicas como promedios, sumas, etc.
Gracias al Big Data, las empresas cuentan con medios capaces de trabajar con datos no
estructurados capturados de internet y que es posible someterlos a un análisis en busca de
información y conocimiento.
6
Las herramientas de visualización de datos proporcionan la capacidad de desarrollar de
forma interactiva el proceso. La representación de los datos almacenados de tal forma
que sean comprensibles por los usuarios ayuda, en gran medida, a entender mejor lo que
se está haciendo.
Uno de los elementos principales para ejecutar un proyecto de DM es contar con un Data Warehouse.
Actividad de aprendizaje 2
A continuación, realizarás una actividad en la que reflexionarás sobre algunas características que debe
cumplir un Data Warehouse para su uso en DM.
Andrés, el empresario del ejemplo anterior, necesita ampliar la base de datos de su empresa para
almacenar más datos y poder utilizarlos. Se plantea varias opciones, ¿cuál crees que debería llevar a
cabo?
a. Debería invertir en uno completamente nuevo y realizar un volcado de datos al nuevo Data
Warehouse.
b. Debería renovar por completo su DW implementando uno para almacenar datos no estructurados
(NoSQL), ya que son los que usa Data Mining para su análisis.
c. Debería ampliar el ya existente mediante sistemas distribuidos que permitan la escalabilidad del
sistema.
d. No necesita ampliar su base de datos, puesto que lo más recomendable es ir borrando datos
históricos por carecer de utilidad e ir almacenando los nuevos; es una opción barata y generalizada.
Una de las aplicaciones más útiles para aplicar DM es el marketing, justo lo que la empresa necesita, ya
que ellos pretenden analizar datos de los clientes en busca de información útil sobre ellos. El papel de
María será importante durante todo el proyecto, pues es la directora del departamento de marketing.
No se podría hablar de minería de datos sin que conozcas algunas de sus áreas de aplicación en el sector
empresarial, para así hacerte una idea de que esto es realmente útil para los negocios y las personas.
1 2 3
6
5
Investigación
Telecomunicaciones Investigación médica farmacéutica
Química biológica
1. Marketing
El uso de los CRM o gestión de las relaciones con los clientes hace necesario disponer de algún tipo
de método de análisis de datos para desarrollar la interactividad con los clientes, detectando aspectos
tan importantes como los siguientes:
2. Compañías aseguradoras
Este tipo de negocio se nutre de complejos análisis de reglas de negocios para determinar precios y
clientes para sus seguros que, entre otras cosas, consiguen:
3. Bancos
Con el uso de la tarjeta de crédito, los bancos son capaces de identificar muchas pautas de
comportamiento de los usuarios. Usando DM pueden:
5. Investigación médica
Gracias a la información almacenada de todos los pacientes, es posible:
6. Investigación farmacéutica
Según los estudios y ventas, las compañías farmacéuticas disponen de gran cantidad de información.
Gracias a DM se pueden usar estos datos para:
7. Química biológica
El estudio del genoma humano es de vital importancia para investigar la aparición de enfermedades y
pautas de herencia genética. Mediante DM es posible:
Actividad colaborativa 1
En esta actividad podrás poner en contexto el uso de la minería de datos en diferentes ámbitos de los
negocios y la sociedad.
Piensa en al menos una aplicación más de uso de DM y explica qué beneficios tendría su uso (pueden
ser en empresas concretas o áreas generales).
Comparte tu propuesta en el foro correspondiente de la unidad junto con tus compañeros/as. De esta
forma podrás ver todas las posibilidades que ofrece Data Mining.
Para realizar las Actividades colaborativas debes acceder a la página principal del curso, allí
encontrarás la información necesaria para realizarla. Podrás identi car las Actividades colaborativas
por la numeración correspondiente.
UA 1: El proceso de descubrimiento de conocimiento en bases de datos
Los resultados de las encuestas son evidentes: CRISP-DM es la guía de referencia a seguir, por su nivel de
extensión en su utilización y por su nivel de detalle que permite implantar un proyecto siguiendo los
pasos con todo lujo de detalles.
La razón de aprender más en profundidad esta guía de implantación de proyectos DM es debido a su mayor
utilización por parte de las empresas en todo el mundo.
Los atractivos de esta radican en que proporciona una visión amplia para las empresas en cuanto a definir y
desarrollar los objetivos de negocios del proyecto. Esto hace ver o identificar más y mejores posibilidades para
la obtención de éxito, ya que cuenta con una buena guía de análisis de requerimientos que tienen en cuenta los
objetivos de negocio que se desean alcanzar.
La siguiente imagen corresponde a una encuesta que realizó en 2014 la empresa KDnuggets sobre el uso de las
distintas metodologías que usaban las empresas para implantar DM.
La clave para FitnessRob es definir las fases correctamente; de esta forma, podrán ir descendiendo en
los niveles de abstracción de CRISP-DM e ir rellenando las indicaciones que se dan tanto en el
documento del modelo de referencia como en la guía de usuario.
La metodología CRISP-DM es la guía de implementación de proyectos DM más utilizada actualmente por las
empresas. Si bien en los próximos puntos se llevará a cabo una explicación totalmente detallada de cómo
implementarla en un proyecto, en este punto verás su estructura básica dividida en cuatro niveles de
abstracción, partiendo desde el nivel más genérico hasta los más específicos.
Niveles de abstracción en CRISP-DM
Considerando el nivel más general, el proceso se organiza en seis fases principales. Cada una de estas fases
se dividen, a su vez, en distintas tareas generales que representarían el segundo nivel de abstracción.
Estas tareas generales darán paso a otras tareas más específicas, las cuales describen cada una de las acciones
que se deben desarrollar en las situaciones específicas. Por ejemplo, en la fase 4 del proceso “Modelamiento”,
existe una tarea general llamada “Seleccionar técnica de modelamiento”; dentro de esta existirán dos tareas
especializadas llamadas “Técnicas de modelamiento” y “Supuestos del modelamiento”. Finalmente, el último
nivel define las acciones, decisiones y los resultados sobre el proyecto DM.
CRISP-DM proporciona dos documentos como herramientas de ayuda en el desarrollo de un proyecto de DM:
La estructura del ciclo de vida de un proyecto DM está dividido en seis fases, las cuales interactúan entre ellas
de manera iterativa para mejorar los aspectos del proyecto mientras este se desarrolla.
Tras haber visto cuáles son los cuatro niveles de abstracción de la metodología CRISP-DM y cómo se dividen
cada una de sus fases, es hora de conocer cada una de sus tareas, tanto de forma teórica como con el
seguimiento de un caso práctico que desea aplicar FitnessRob, S. L.
El cuadro general que se desarrollará a lo largo de los siguientes puntos será el siguiente:
Para saber más
KDnuggets es una empresa especializada en Big Data, Data Mining y Machine Learning, entre otras. En su
página web aporta información interesante sobre estas tecnologías, así como noticias y publicaciones. Si
sabes inglés, es un lugar interesante que poder visitar.
KDnuggets (https://redirectoronline.com/ifcd012po0101)
La guía de implantación CRISP-DM establece una serie de fases de implantación organizadas en niveles de
abstracción que ayudan a su comprensión y utilización.
Actividad de aprendizaje 3
Andrés desea entender un poco mejor la metodología CRISP-DM, explícale el funcionamiento básico de
esta de la forma más correcta posible.
a. Esta guía cuenta con seis fases que permiten retroactividad, con diferentes tareas a realizar.
Además, cuenta con una guía de usuario que detalla los pasos a seguir.
b. CRISP-DM cuenta con cuatro fases de abstracción en las que hay que cumplir una serie de tareas
perfectamente explicadas en su guía de usuario.
c. En la guía de usuario vienen explicadas de forma general las distintas fases. Una vez terminadas
estas, es posible empezar por el principio para mejorar el proyecto.
d. La guía de usuario está exclusivamente orientada al personal técnico, por lo que no sería de
utilidad para Andrés.
Esta fase es muy importante, y Roberto y María deben prestar especial atención en definir correctamente
los objetivos; en este caso serán orientados al marketing, y también a los problemas que puedan
plantearse. Roberto ha decidido contratar a John, un analista de datos que se va a encargar de dirigir la
implantación del proyecto y ayudar a la dirección a dar los pasos adecuados. Junto a John estará Daniel,
director del departamento informático de la empresa, y como figura de control de gastos se encuentra
Lucía, directora del departamento financiero.
En esta tarea es necesario obtener toda la información posible sobre los objetivos desde el punto de vista
comercial de la DM. Esta tarea es fundamental realizarla correctamente, ya que su objetivo es clarificar los
problemas que se plantean, definiendo los objetivos y los recursos necesarios.
A continuación, se desarrollarán sus tareas generales, así como las distintas salidas de resultados que se deben
obtener en esta tarea.
De3esta forma, los objetivos quedarán bien definidos y plantearán preguntas coherentes, para que en
el proyecto generen las respuestas correctas.
4
2. Evaluar la situación
En esta tarea hay que investigar detalladamente todos los recursos, las restricciones y las
suposiciones que influyen en los objetivos que se vayan a plantear y en el plan de proyecto que se
quiere diseñar. Si en la tarea anterior debías ponerte en situación viendo objetivos posibles, aquí tienes
que investigar qué detalles influyen en estos.
La situación del negocio es de continua expansión, las tiendas físicas y online generan datos de ventas
de clientes que son almacenados. No existen análisis de tipo predictivo con los datos. Se cuenta con
personal especializado en informática, marketing, recursos humanos y finanzas.
El objetivo será el de realizar un estudio predictivo con los datos de los clientes almacenados en el Data
Warehouse de la empresa, para conocer su interacción con FitnessRob y, de esta forma, poder ofrecer un
mejor producto y aumentar los beneficios y fidelizar los clientes.
Esta salida está orientada a llevar a cabo una recopilación de información acerca de la situación del negocio.
Gracias a esta se puede visualizar el alcance de los objetivos respecto al estado actual de la empresa, así
como identi car los recursos humanos y materiales disponibles para poder ser utilizados en el proyecto.
Actividades
Plantea un organigrama que plasme las áreas de la organización, departamentos y grupos de
proyecto. Asimismo, debería contener información sobre los cargos y sus responsabilidades.
Identifica a las personas que son clave en la organización y sus funciones.
Identifica si existe un grupo de dirección y lista sus miembros.
Identifica las áreas o departamentos que se verán más afectados por la implantación del proyecto.
Problemas actuales
Debes identificar el área del problema, por ejemplo, relación con los clientes, lanzamiento de
nuevos productos, apertura de nuevas sedes, así como hacer una descripción del mismo.
Comprueba qué requisitos necesita el proyecto de DM y si la creación de este reportará los
beneficios que esperas.
Define los grupos que serán objetivos de, quizá, la entrega de resultados o documentos del
proyecto, por ejemplo, a la dirección.
Debes saber qué necesidades tiene el usuario del proyecto y sus expectativas de este.
Soluciones actuales
En vista a los problemas planteados, describe si ya existe una solución en uso para dirigirlo.
En función de las posibles soluciones vigentes para el problema, describe sus ventajas y
desventajas, para así plantear soluciones en el proyecto DM.
Objetivos de negocios: objetivos y criterios de éxito
Definir los objetivos de negocio y criterios para asegurar el éxito de los mismos es un paso fundamental
para FitnessRob. Para asegurar el éxito de su objetivo, han establecido una serie de criterios:
Gracias a los resultados se puede optimizar la campaña de marketing, enfocarse solo en clientes
potenciales y, con ello, ahorrar dinero.
Además, será también una forma de acercamiento al cliente, ya que tendrá la sensación de ser
importante para la empresa por conocer sus gustos.
En la primera salida se deben definir los objetivos principales y secundarios que el proyecto debe ser capaz de
responder.
En la segunda salida se deben aportar criterios de peso para que los resultados sean de éxito desde el punto
de vista del negocio.
Plantear qué ventajas esperas obtener y qué exigencias quieres cumplir, por ejemplo, fidelizar
clientes o no perder clientes.
Definir qué criterios vas a usar para obtener éxito e identificar quién debe evaluarlos.
Se dispone de una licencia del paquete O ce de Microsoft y la hoja de cálculo Excel que cuenta con
una extensión para hacer minería de datos.
Se cuenta con un clúster de base de datos gestionada por Microsoft SQL Server.
Se dispone del suficiente personal informático y de otras áreas para que en cualquier momento sean
de ayuda.
Para elaborar el inventario de recursos, se debe hacer una lista de los recursos con los que se dispone; estos
serán el personal que llevará a cabo la implantación (técnicos de datos, expertos en las áreas, etc.), datos y su
ubicación, y recursos informáticos como software y hardware.
Así mismo, se debe crear un diccionario de términos relevantes para el proyecto; por un lado, terminología
orientada al negocio y, por otro, terminología orientada a la minería de datos.
Para obtener un buen informe del inventario disponible debes tener en cuenta lo siguiente:
Identificar tanto el software como el hardware básico y su disponibilidad.
Identificar tus fuentes de datos y de conocimiento y el tipo, por ejemplo, bases de dos o en línea.
En esta salida se deben plasmar todos los requisitos del proyecto. También se deben reflejar la calidad de los
resultados y su seguridad. En cuanto a esto último, se debe tener claro qué datos se pueden utilizar sin violar
las leyes de protección de datos y cuáles no.
Se deben incluir las suposiciones realizadas por el proyecto, por ejemplo, presunciones que se realicen con
los datos que después, mediante el DM, se cumplan o no. Y nalmente las restricciones que se le van a poner
al proyecto, por ejemplo, la no disponibilidad de acceso a ciertos recursos como datos bancarios, etc.
Las actividades recomendables correspondientes a cada uno de los conceptos que abordan esta salida son los
siguientes:
Requisitos
Define el perfil del grupo objetivo, por ejemplo, clientes potenciales.
Identifica todos los requerimientos que puedan ser relevantes para la planificación del proyecto,
tanto para ejecutar el proyecto como para velar por su seguridad.
De igual forma, identifica los requerimientos para asegurar que el proyecto sea comprensible por
todos los miembros y que se lleve a cabo de acuerdo a lo planificado. Si es necesario, debes
desarrollar las habilidades para ser capaz de cumplir esto.
Supuestos
Define los supuestos con los que vas a trabajar, por ejemplo, enfocarte en un grupo de clientes de
edad determinada.
Define las presunciones sobre calidad de datos (disponibilidad), factores externos (economía) y de
modelo (quién se encarga de ver los resultados).
Restricciones
Investiga y determina las restricciones a las que está sometido el proyecto, estas pueden ser
legales, de acceso a los datos o recursos disponibles.
Debes asegurarte de que existe acceso a las fuentes de datos, sobre todo a las principales que se
van a usar.
Junto con los supuestos, establece un techo presupuestario o de tiempo.
Evaluar la situación: riesgos y análisis de costos
Las siguientes salidas que concretar son las de analizar y determinar los riesgos que el proyecto, para
ello, debe mirar aspectos como los pazos de implementación, fallos en los elementos informáticos o el
techo de gastos.
Se deben señalar los posibles riegos que se pueden producir durante el proyecto, por ejemplo, no cumplir el
techo de presupuesto o no cumplir con los plazos impuestos. En su caso, proponer planes de contingencia
frente a estos posibles riegos.
En esta tarea también se debe llevar a cabo un análisis de costes y de bene cios, incluyendo los gastos del
proyecto completo y sus ganancias potenciales.
Existen una serie de riesgos habituales que combiene conocerlos para estar preparado en la forma de
enfrentarlos:
Identificar también los riesgos relativos a la empresa, por ejemplo, la falta de personal.
Los riesgos financieros suelen presentarse especialmente en las pequeñas empresas y se debe
tener cuidado con generar más costes que beneficios.
Finalmente debes identificar los riesgos técnicos como una falta de capacidad del hardware o
riesgos en los propios datos como datos erróneos o incompletos.
Objetivos de DM
John debe traducir los objetivos de negocio a objetivos de Data Mining para que así sean ilustrativos
desde el punto de vista técnico.
Entonces el objetivo técnico del proyecto será el de identificar qué factores o atributos de los clientes
son más influyentes a la hora de comprar determinados productos en la empresa.
Para cumplirlo ha establecido como un criterio de éxito el de determinar qué volumen de muestra de
población aportará mayores beneficios, ya que el envío de publicidad a todos los clientes aumenta los
gastos y disminuye los beneficios. Para esto se cogerán los clientes que tengan una posibilidad mayor al
65 % de comprar productos con la publicidad enviada.
En estas salidas se deben de nir los objetivos desde el punto de vista técnico, es decir, traducir los objetivos
de negocios a objetivos de minería de datos. También se hará lo mismo seleccionando los criterios de éxito,
pero en este caso desde un punto de vista cuantificable para su cálculo.
Ejemplo
Traducir los objetivos y preguntas planteadas desde el punto de vista del negocio en definiciones
técnicas en DM, por ejemplo, “querer encontrar los clientes más fieles a la empresa” se traduce a
“calcular los factores comunes de los clientes que han realizado compras”.
Importante
Los objetivos de negocios NO son los mismos que los objetivos de DM; los primeros están orientados al
beneficio de la empresa y los segundos al éxito de implantación del modelo DM.
Plan de proyecto
El equipo ha realizado una gráfica de Gantt, enumerando las distintas fases del proyecto y su duración,
práctica muy recomendable para cualquier proyecto.
Además, se deben atender aspectos como la vuelta a fases o tareas anteriores, en caso de descubrir
fallos. Esto lo permite hacer esta metodología perfectamente.
Hay que enumerar las distintas fases de las que se compone el proyecto, detallando la duración, recursos,
entradas y salidas. También hay que re ejar si existirán iteraciones, por ejemplo, durante la evaluación del
modelo DM.
A continuación, verás una serie prácticas que deberás tener en cuenta a la hora de realizar el plan del proyecto:
Debes definir las distintas fases que vas a llevar a cabo en tu proyecto y consultar al equipo seleccionado o
al personal sobre la viabilidad de todos los pasos.
Una vez ya has definido los objetivos y seleccionado las técnicas que vas a utilizar, debes diseñar un
procedimiento acorde a esos elementos para así cumplir con los criterios de éxito de negocio.
De igual forma, tienes que calcular de manera aproximada el esfuerzo que se va a requerir y los recursos
que vas a poner en juego para el proyecto. Es recomendable que tomes como ejemplo la experiencia de
personas que ya han implantado otros proyectos similares para determinar las escalas de tiempo.
Normalmente la fase más larga es la de recolección y preparación de los datos.
Presta especial atención en los puntos críticos, como la determinación de objetivos o la selección de datos.
Enumera y plasma los puntos de toma de decisiones y los de revisión.
Marca también las iteraciones.
Plan de proyecto: herramientas y técnicas
Una vez definidos los objetivos, es hora de investigar y seleccionar una herramienta de análisis de los
datos, así como una técnica que sea capaz de cumplirlos con éxito.
La herramienta seleccionada por John para Data Mining es el conocido programa de Microsoft Excel junto
a la extensión “Minería de Datos”, ya que cuentan con licencia del paquete O ce y utilizan Microsoft SQL
Server para la gestión del Data Warehouse de la empresa.
En la siguiente salida hay que hacer una evaluación inicial y selección de las herramientas y técnicas que se
van a utilizar.
Es importante que la herramienta de análisis de datos que vayas a escoger sea capaz de trabajar con los datos
de los que dispones, por ejemplo, que sea capaz de conectarse a sistemas gestores de bases de datos como
SQL Server, y además que sea capaz de utilizar diferentes técnicas de análisis de datos para poder contrastar
los distintos modelos que se elaboren para un objetivo.
De nición
SQL Server
Conviene que tengas en cuenta algunas nociones importantes a la hora de elaborar de forma inicial las
herramientas y técnicas:
Crea un listado de criterios para seleccionar la herramienta y técnicas más adecuadas. Luego
escógelas y evalúa si son las que buscas.
Actividad de aprendizaje 4
Las primeras decisiones para poder focalizar el proyecto corresponden a tu amigo Andrés, pero no tiene
del todo claro cómo hacerlo. Él desea utilizar DM para aumentar sus ventas, ayúdale a dar los pasos
iniciales para focalizar el proyecto.
a. Lo primero que debe hacer es fijar un objetivo de DM, es esencial saber qué puede hacer la
herramienta DM para poder diseñar los objetivos de negocios según esta.
d. Debe diseñar un gráfico a modo de esquema con los pasos que debe seguir para elaborar el
proyecto, asignar recursos económicos y herramientas, luego establecerá los distintos objetivos.
UA 1: El proceso de descubrimiento de conocimiento en bases de datos
Tras definir los objetivos y tener claro lo que desean hacer, Roberto y su equipo encomiendan la segunda
fase a John, Daniel y el resto del equipo informático destinado al proyecto.
Mientras parte del equipo ultiman los detalles de la fase 1, los componentes más cualificados para la fase
de comprensión de datos, comienzan a llevar a cabo las tareas y salidas que conforman esta. Será una
de las fases más largas de completar, ya que los datos son la fuente de alimento de DM y deben ser lo
más exactos posibles.
En esta segunda fase, procederás a la recolección de los datos para conseguir tener un primer contacto con el
problema que has planteado y sus objetivos finales.
Esta fase es casi siempre la de más larga duración, ya que se deben recolectar todos datos, realizar su
descripción y realizar un procedimiento completo de exploración para verificar su calidad e integridad.
Importante
Una recomendación para esta fase es habilitar una base de datos ad hoc, es decir, una base de datos
destinada específicamente para los datos que se van a trabajar durando el proceso de DM.
A continuación, se explicarán sus tareas generales, así como las distintas salidas de resultados que se deben
obtener en esta tarea, tomando como ejemplo el caso de FitnessRob, S. L.
Además, el análisis está orientado a cumplir los objetivos de DM del proyecto, ya que se realizará el
refinamiento de la descripción de los mismos, aportando más calidad y seguridad.
De igual forma, deberás indicar qué atributos son los más importantes y si cumplen con la calidad necesaria:
existencia de errores en los datos o la existencia de campos vacíos, en cuyo caso, no es motivo para
descartarlos, ya que puede deberse a determinadas condiciones o incluso poder rellenarse mediante
interpolación.
Importante
Presta atención a la calidad de los datos si estos son recolectados de distintas fuentes, ya que pueden
ser incompatibles.
No solamente hay datos útiles en las bases de datos, también en los documentos físicos de la empresa.
Conviene que describas detalladamente los datos para que posteriormente sea una información completa y útil
para poder realizar la fase de preparación de los datos de una forma más ágil y rápida. Así mismo se detallarán a
continuación algunas de las actividades más importantes que debes tener en cuenta:
1
Identifica los datos elegidos.
Accede a los datos para analizarlos estadísticamente si procede.
Muestra las tablas y sus relaciones, así como el volumen de registros.
Mira también si los datos tienen entrada de texto libre, por ejemplo, descripción de
productos.
2
Comprueba los atributos y describe los tipos, por ejemplo, numérico, carácter, etc.
Comprueba el rango de valores que tienen los atributos y sus correlaciones.
Debes entender estos atributos para describir su valor para el negocio.
Haz cálculos de los atributos, por ejemplo, una media o moda, etc.
Plantea si determinados atributos son necesarios para el proyecto de DM.
Asimismo, infórmate del personal experto si los atributos seleccionados son realmente
correctos.
Presta atención a los atributos claves y si estos presentan coincidencias.
En este informe debes detallar los resultados tras haber llevado a cabo la exploración de datos. Esto consiste
en realizar representaciones grá cas con los datos y pruebas para descubrir posibles relaciones y
estadísticas que ayuden a las hipótesis del proyecto. Se añadirán distintos gráficos, subconjuntos de datos
especialmente relevantes o distintos descubrimientos importantes.
Es común encontrar ciertas desviaciones en los datos; esto puede deberse a la inconsistencia de los propios
datos por errores o peculiaridades que, a la postre, pueden ser buenas fuentes de información.
Deberías realizar las siguientes actividades para mejorar la tarea de exploración de los datos:
Analiza detalladamente las propiedades de los datos que te parezcan más interesantes. Para ello,
utiliza representaciones gráficas para estudiar los datos.
Estos resultados darán pie a que puedas formar hipótesis que posteriormente transformarás en
objetivos de DM.
En este informe debes elaborar una lista de comprobaciones de calidad de los datos. En ella, además de
enumerar posibles problemas de calidad de los datos, también se propondrán soluciones.
La verificación de la calidad de los datos es una tarea esencial que determinará el funcionamiento de las futuras
tareas que involucren los datos. Por ello, es necesario que tengas en cuenta las siguientes actividades u
observaciones:
Revisión de atributos 1
2
Es muy importante que verifiques bien los datos si estos vienen de distintas fuentes, ya
que podrían darse casos en que son diferentes o utilizan claves distintas o diferentes
atributos, por ejemplo, que un cliente en tienda tenga como información su código
postal y un cliente web no lo tenga.
Descubre qué datos son considerados innecesarios o “ruido”.
Consejo
Ten especialmente cuidado en que los datos sean coherentes, no tiene sentido que un bebé haya
realizado una compra.
En esta fase es común encontrar ciertas inconsistencias en los datos y valores anómalos.
Actividad de aprendizaje 5
En esta actividad deberás reflexionar ante determinadas circunstancias que normalmente aparecen
durante el transcurso de la fase de comprensión de los datos.
El analista de datos ha encontrado algunos campos vacíos en los datos que servirán para el proyecto y,
además, varias grá cas dan resultados anómalos que se salen de la tendencia del resto. ¿Cómo crees
que debería proceder?
a. Debe descartar los atributos que presenten campos vacíos como las desviaciones en las gráficas,
por ser inconsistencia en los datos.
b. Las desviaciones presentadas por los datos no son de consideración para su estudio, pero los
atributos con campos vacíos son perfectamente válidos.
c. Deberá estudiar más a fondo estas anomalías, podrían ser fuente de descubrimientos importantes
y los atributos vacíos pueden ser investigados en la siguiente fase más detenidamente.
d. Será en la siguiente fase donde se realicen acciones ante todas las anomalías detectadas.
Aplicación práctica 1
Duración: 40 minutos
Objetivos:
Para esta actividad práctica vas a tomar como ejemplo la empresa de moda textil Fashion2020, la cual
desea implementar un proyecto de DM para maximizar sus ingresos en los puntos de ventas del territorio
español.
Tu tarea será la de justificar por qué Data Mining es capaz de cumplir este objetivo. Después, diseña las
fases de “Comprensión del negocio” y “Comprensión de los datos” del modelo CRISP-DM, desarrollando
al menos sus tareas más importantes. Con la ayuda de las indicaciones teóricas, plantea un supuesto del
proyecto a diseñar describiendo qué harías en estas fases y tareas.
Esta fase, junto con la anterior, conforma casi el 70 % de la elaboración del proyecto de DM, por lo que
Roberto y su equipo deben tener especial cuidado en qué datos y atributos seleccionar y qué
modificaciones realizar.
También estudiarás las posibles anomalías de los datos, como huecos vacíos en los atributos y la subsanación
en caso de ser motivo de errores o de mantenerlos debido a causas válidas.
A continuación, se presentan las tareas y salidas que componen la fase de preparación de los datos.
1
2
1. Seleccionar datos
Es en esta tarea cuando se decidirá nalmente qué datos se van a utilizar para el análisis. Estos
3
deben adecuarse a los objetivos planteados en DM, contar con la calidad suficiente y cumplir las
restricciones impuestas, por ejemplo, un determinado volumen o tipo de datos.
4
2. Limpieza de datos
Aumentar la calidad de los datos significa limpiar estos, que la selección
5 de subconjuntos no tenga
registros vacíos, corregir faltas o directamente estimar los datos que falten, si es posible, mediante
técnicas matemáticas.
3. Construir datos
En esta tarea se tomarán los datos existentes y se crearán nuevos conjuntos; por ejemplo, definir
atributos derivados de los originales. Algunos de los motivos para construir nuevos datos serían:
La necesidad de contar con ciertos datos según los objetivos planteados que, gracias a los datos
disponibles, se pueden crear.
La imposibilidad de manejo de ciertos datos por parte del programa de DM; por ejemplo, convertir
datos no estructurados en estructuras relacionales.
El Data Warehouse de FitnessRob es de gran tamaño, pero para el objetivo concreto que desean cumplir
solo es necesario el uso de determinadas tablas y datos. Lo más indicado es definir un Dataset o
conjunto de datos para acumular todos los atributos que se van a utilizar para su análisis.
La mayoría de los atributos que se utilizan serán los que tengan que ver con los clientes y, para esto, ya
hay una tabla en la base de datos, aunque también se necesitan otros atributos de tablas distintas como,
por ejemplo, la región donde viven.
En la salida de esta primera tarea debes elaborar una lista de los datos que vas a usar y los que no, si procede,
y los motivos de su uso o desuso. Asimismo, debes proporcionar una descripción de cada uno de los atributos
seleccionados, por ejemplo, el tipo de datos, extensión de las tablas, etc. Si el volumen de datos es muy grande,
puedes usar técnicas de muestreo para reducir este conjunto de datos a uno más significativo.
De nición
Dataset
Es el conjunto de datos que se obtiene en la fase de preparación de datos y que es usado para el trabajo
de análisis del proyecto.
Limpieza de datos
Tras haber comprobado estadísticamente los datos mediante representaciones gráficas en busca de
valores anormales y datos “ruido” o nulos, John ha corregido los huecos existentes mediante la media en
valores numéricos y la moda en valores nominales. Aunque también se podría haber hecho mediante
análisis predictivo para introducir valores más significativos.
En esta salida realizarás el informe que corresponde a las acciones que se hayan llevado a cabo para corregir
los problemas de calidad de los datos que se detectaron en la cuarta tarea de la fase anterior: “Verificar la
calidad de la datos”. En este informe se reflejará también si los datos que aún tienen problemas se van a utilizar
y qué consecuencias tendrá su uso.
En esta tarea deberás explicar cómo vas a manejar los datos que hayas encontrado particulares o con valores
especiales. Estos datos pueden ser, por ejemplo, información sobre los clientes no adjuntada, preguntas no
contestadas o valores truncados; en lugar de tener un registro 100, aparecería un 00.
Importante
En última instancia, no debes simplemente borrar dichos datos particulares, ya que podrían ser fuente
importante de información.
Construcción de datos
Gracias a los datos almacenados, el equipo puede crear nuevos datos a partir de los existentes como,
por ejemplo, la edad o los tipos de productos comprados. Para realizar el análisis de los datos ha sido
necesario crear una serie de atributos:
Los atributos derivados hacen referencia a nuevos datos creados a partir de campos ya existentes, por
ejemplo, cuando se genera la edad de alguien a partir de la fecha de nacimiento o el tiempo desde la última
compra a partir de la fecha de compra.
La siguiente salida se diferencia de la anterior en que no se crean los atributos a partir de otros, sino que se
generan de forma independiente, por ejemplo, asignando un número de identificación o clave a una lista de
clientes.
Consejo
Para crear un nuevo atributo, mira si realmente es más útil que otro parecido que ya tengas. El objetivo es
simplificar en lo posible el modelado, no omitir una información por otra.
También se han realizado cambios de formatos para que la herramienta entienda los datos que está
analizando, esto habrá que hacerlos siempre.
En la última salida de esta fase, procederás a modi car determinados atributos para dotar de funcionalidad
computacional a estos, por ejemplo, convertir una columna de tipo texto a booleano (verdadero o falso) o
convertir entradas de texto a enteros.
Importante
El formateo de datos es importante, ya que muchas aplicaciones necesitan un campo para identificar a
los atributos y su orden.
Una de las tareas que con más frecuencia se deben realizar es la de construir nuevos datos, ya que no se
encuentran de manera explícita en los datos que se van a analizar.
Actividad de aprendizaje 6
En esta actividad se muestra el desarrollo de ciertas acciones durante la preparación de los datos.
El analista de datos que trabaja en el proyecto de DM de Andrés necesita determinar la edad de los
clientes que se van a analizar. ¿Cómo crees que debería proceder si acaba de comenzar la fase de
preparación de datos?
a. Debe ejecutar esta tarea de construcción de datos en primer lugar para luego definir el Dataset.
b. Esta tarea debe realizarla después de definir el Dataset y limpiar los datos a utilizar.
c. La construcción de los datos se realiza al final de esta fase, por ser la más compleja.
d. Tras definir el Dataset, construirá estos nuevos datos para posteriormente realizar su limpieza.
UA 1: El proceso de descubrimiento de conocimiento en bases de datos
4.1 Modelado
En esta fase el equipo de Roberto debe escoger una técnica de DM para trabajar con los datos y obtener los resultados que desean ver.
La extensión de minería de datos de Microsoft Excel cuenta con la posibilidad de implementar varias técnicas de DM, por lo que en esta fase irás viendo cuál
escogen y qué procedimientos realizan para implantarla.
En la cuarta fase, llamada fase de modelado, se escogerá la técnica o técnicas de DM que mejor se adapten a los objetivos propuestos en el proyecto.
Es necesario que realices un proceso de prueba con las técnicas seleccionadas, para comprobar que sus modelos reúnen las condiciones para satisfacer los objetivos
del proyecto.
Importante
Cada técnica de minería de datos está orientada a resultados diferentes, por lo que quizá unas son más adecuadas que otras.
Finalmente se aplicará la técnica de DM sobre los datos escogidos en fases anteriores y se generará el modelo. Este modelo se debe evaluar para determinar si
efectivamente cumple los objetivos o no.
La fase de modelado es el corazón del proyecto y su razón de ser, en los apartados siguientes se desarrollarán las siguientes tareas:
De los objetivos marcados y las restricciones impuestas, se deberá escoger la técnica que más se adapte a las necesidades del proyecto.
Por un lado, hay que escoger un conjunto de datos de entrenamiento para construir el modelo y, por otro, un conjunto de datos de prueba para la validación
del modelo.
3. Construir el modelo
Llega la hora de ejecutar la herramienta de DM en el conjunto de datos de entrenamiento para obtener un modelo según los parámetros seleccionados.
En esta tarea se pueden obtener uno o varios modelos con distintos parámetros.
Esta evaluación será solamente de origen técnico para evaluar los resultados de las diferentes tareas de modelado. En la siguiente fase es donde se evaluará
el modelo desde el punto de vista de los negocios.
Selección de la técnica de modelado
El equipo de FitnessRob ha determinado que la técnica de minería de datos más adecuada para llevar a cabo el análisis que desean es la de árboles de decisión
por los siguientes motivos:
Necesitan conocer qué factores de los clientes determinan que sean compradores. Para ello, deben realizar sucesivas condiciones en cada factor para saber
cuáles son las más determinantes a la hora de comprar en la tienda.
Necesitan obtener una vista clara y esquemática de los pasos que llevan a determinar qué factores son decisivos.
La primera salida corresponde a la selección propiamente dicha de la técnica que se va a utilizar en el proyecto. Como ya has visto antes, cada técnica aporta
funciones específicas, por lo que unas se adaptarán mejor que otras a tus necesidades.
De nición
Se utilizan para definir un conjunto de decisiones que, a su vez, generan reglas para clasificar un conjunto de datos. Sobre los datos se realizarán bifurcaciones
con preguntas lógicas, simulando las ramas de un árbol, para obtener distintas posibilidades de decisión según las preguntas realizadas.
Identi ca si debes realizar supuestos en función de la técnica de DM escogida, por ejemplo, formato de ciertos datos, distribución de las variables o tamaños de la
muestra. Si los supuestos no se cumplen, debes volver a la fase de preparación de los datos para hacer que cumplan con lo que demanda la aplicación de DM
seleccionada.
Plan de pruebas
En la extensión de Data Mining que el equipo va a utilizar, es posible determinar la precisión del modelo realizado, muy importante para el plan de prueba del
modelo de Data Mining que se va a crear.
Por otro lado, la cantidad de datos se dividirá en un 60 % para el entrenamiento del modelo y un 40 % para la realización de pruebas con el modelo generado.
En esta salida debes documentar y describir el plan que se va a llevar a cabo para el entrenamiento del modelo, la realización de las pruebas y la evaluación del
modelo creado.
Es en este punto donde se debe decidir de qué forma se va a dividir el conjunto de datos destinados a entrenamiento y a las pruebas, así como las pruebas de
validación.
Importante
Si tienes varios objetivos en el proyecto de DM, deberías tener un plan de pruebas para cada objetivo específico, ya que tendrás un modelo por cada objetivo.
Para construir un modelo normalmente se deben definir sus parámetros iniciales que se irán cambiando hasta generar el modelo más exacto posible.
Un ejemplo de los pasos típicos para la construcción de un modelo de análisis se puede ver mediante la herramienta de Minería de datos de Microsoft Excel:
En el primer paso se procederá a elegir los atributos que servirán de información para crear el árbol de decisión y la variable en la que se realizará
el análisis. En este caso será la que determine si una persona ha comprado algún producto o no.
2
Tal y como se definió en la tarea anterior, en este paso se determinará qué porcentaje de datos servirá como entrenamiento para el modelo y qué
porcentaje será el de prueba para el modelo. Excel te ofrece una descripción detallada de esto en la ventana.
Finalmente se le dará un nombre al modelo para que, en el caso de tener varios, se pueda identificar correctamente.
El modelo realizado ha sido el de árboles de decisión. Tras haber elegido el equipo de Roberto los atributos de los clientes para comprobar cuáles de ellos son
determinantes para que un cliente compre o no su producto, procederán en la siguiente tarea a analizar el modelo.
En esta salida se producirá el modelo creado por la herramienta de DM según la técnica elegida.
Actividad colaborativa 2
Es el momento de realizar la siguiente Actividad colaborativa. No obstante puedes seguir estudiando la unidad didáctica y realizar esta actividad en otro
momento que te sea más favorable.
Microsoft Excel es una de las muchas herramientas con las que se puede hacer Data Mining. En esta actividad podrás conocer más herramientas orientadas a
realizar esta práctica, mucho más específicas que la utilizada para este ejemplo del curso.
Busca una herramienta para Data Mining y comparte información sobre ella en el foro correspondiente para que, de esta manera, tú y tus compañeros podáis
conocer algunas de ellas.
Para realizar las Actividades colaborativas debes acceder a la página principal del curso, allí encontrarás la información necesaria para realizarla. Podrás
identi car las Actividades colaborativas por la numeración correspondiente.
Tras obtener el modelo, es hora de analizarlo cuidadosamente para conocer mejor los clientes de FitnessRob y, de esta forma, enfocar los escuerzos de
marketing en el público que tenga altas posibilidades de responder de forma positiva a la publicidad de los nuevos productos.
La última salida de esta tarea corresponde a la evaluación del modelo en cuanto a sus diferentes variables y el comportamiento de las mismas.
Consejo
Para modelos que se basen en reglas, debes listar las que se hayan producido y el alcance de estas. De igual forma, para modelos no transparentes, por
ejemplo, donde no sea visible su estructura, también deberías listar información técnica que ayude a comprenderlo mejor.
A continuación, puedes ver un ejemplo de cómo interpretar el modelo de árbol de decisión antes planteado:
1
2 4
5
3
1. Inicio
Se puede ver cómo del total de clientes de entrenamiento del modelo, que son 11.091, hay casi un 70 % que son compradores, por lo que más de 2/3 de los
clientes de la base de datos son compradores.
2. Sí son compradores
En el siguiente nivel de decisión puedes ver cómo el factor más influyente para determinar si son compradores es la edad (recuadro más oscuro). Los clientes
de entre 25 y 32 años son los que más compran en la organización. Esto se puede deber a que hay un mayor número de jóvenes que practican deporte con
respecto el resto de personas.
3. Desarrollo completo
Desplegando el factor de la edad hasta el final, puedes ver que el siguiente factor más influyente es la posesión de vehículos, los que no cuentan con más
compras. Esto puede deberse a que, al no tener coche, tienen menos gastos y son propensos a comprar más o simplemente utilizan medios de transporte
saludables como bicicletas o patines.
A continuación, el factor que influye es la ocupación y, después de este, que su formación sea universitaria. Esto puede deberse a que las personas que no son
de clase obrera cuenten con trabajos más idóneos para hacer deporte, ya que al tener estudios superiores es posible que sus trabajos sean de oficina y
sedentarios.
Finalmente, el último factor más influyente será el no tener hijos: las personas sin hijos compran más, por lo que se deduce que tienen más tiempo para hacer
deporte.
4. No son compradores
5. Desarrollo completo
Desarrollando el segundo factor más influyente, que son los de edad menor a 25 años, verás que los que menos compran son los de la región del Pacífico,
sobre todo asiáticos, y que además poseen coche. Esto puede deberse a menores ingresos o al uso de vehículo para su desplazamiento.
En la salida de evaluación del modelo se llevará a cabo un resumen de los resultados del modelo en términos de precisión y el nivel de calidad que se ha alcanzado.
En la siguiente salida se procederá a revisar el modelo en cuanto a los parámetros de ajuste para realizar iteraciones hasta alcanzar el nivel de exactitud deseado.
En un proyecto de DM se pueden definir varios objetivos de negocios y, por tanto, de DM se deseen, todo dependerá de cómo de ambicioso sea este y la capacidad del
equipo para dar respuesta a todos los objetivos planteados.
Actividad de aprendizaje 7
En esta actividad se plantea la posibilidad de tener varios objetivos de DM en un mismo proyecto y cómo se debe proceder para cumplirlos.
En el proyecto de DM de la empresa de Andrés nalmente se decidieron dos objetivos distintos: predecir el volumen de ventas en un territorio y qué producto
será el más vendido. ¿Qué objetivos debe tener un proyecto de DM?
a. Al deber desarrollar dos objetivos es necesario seleccionar dos técnicas de DM distintas, en su caso, también son necesarios dos modelos de análisis.
b. Se pueden definir varios objetivos en los cuales es posible seleccionar o no la misma técnica de análisis, pero cada objetivo tendrá un modelo para su
análisis.
c. Se puede seleccionar varios objetivos, pero se debe tener en cuenta que el modelo ha de ser compatible para ambos objetivos.
d. Lo más recomendable es llevar a cabo la implantación para un objetivo y, una vez cumplido este, se tratará el siguiente.
4.2 Evaluación
Una vez han considerado que los objetivos de DM han sido cumplidos por el modelo obtenido de compradores, Roberto, junto con María y Lucía, se disponen a
evaluar el modelo para ver si quedan satisfechos con los resultados que obtienen desde el punto de vista de los objetivos marcados para el negocio.
Esta fase se encarga de evaluar los modelos de DM generados, pero desde el punto de vista de los objetivos de negocios marcados en lugar de los objetivos de DM
como en la anterior fase.
Esta evaluación comprueba que el modelo cumpla con los objetivos y, de esta forma, permitir pasar a la siguiente y última fase CRISP-DM.
En caso de no cumplir los objetivos, se deberá volver a fases anteriores, donde el problema se haya detectado, tal y como indica el diagrama de fases CRISP-DM
propuesto en el apartado 2.1.
También se ha tenido en cuenta que los costes de publicidad fijos son 10.000 €, 8 € por cada cliente y los beneficios mínimos por compra de unos 12 €.
En la primera salida se trata de resumir y analizar los resultados obtenidos y ver si estos cumplen satisfactoriamente con los objetivos de negocio.
Pronóstico de compradores 2
1
Para probar el algoritmo de DM (línea naranja), puedes simular una campaña de publicidad de tu producto en la que determines unos costes fijos y
por cliente y puedas obtener los beneficios obtenidos con este modelo.
En él puedes ver qué porcentaje de población necesitas para obtener los máximos beneficios (en este caso sobre el 54 %) y a cuánto ascienden
estos.
En el siguiente paso, usarás el modelo creado para listar la probabilidad de que un cliente responda a tu publicidad con una compra reportándote
beneficios.
Si en la prueba anterior necesitabas el 54 % de la población para reportar los máximos beneficios, aquí puedes ver cómo en ese 54 % (cliente
número 10.000) su probabilidad de compra es del 66 %.
Debes realizar un reporte con la revisión del proceso de DM en el que plasmar posibles prácticas no tenidas en cuenta o que debieran ser repetidas.
Una vez validado el modelo es hora de hacer una lista con las acciones a llevar a cabo para cumplir los objetivos de negocios planteados y las decisiones que se
deben tomar para ello.
Las actividades más importantes que debes tener en cuenta para estas dos tareas son las siguientes:
Haz una descripción del proceso de DM, enumerando sus etapas y reflexionando sobre si cada una de ellas se ejecutó bien, si era necesaria o si podría ser
mejorada.
Identifica los pasos que salieron mal o los que has dado y que no estaban previstos.
Revisa nuevamente los resultados de los modelos para confirmar que se cumplen los objetivos de negocio.
Determina si debe volver a fases anteriores para subsanar errores o si por el contrario es posible seguir adelante en el proyecto.
4.3 Implantación
Una vez llegados a esta última fase, es hora de poner en práctica el modelo creado por el equipo de FitnessRob. Las tareas a realizar en esta fase también son
muy importantes, ya que se debe planificar muy bien su despliegue por parte de la empresa y elaborar un buen plan de mantenimiento capaz de monitorizar en
todo momento el estado del modelo y su validez ante la evolución de la empresa.
Esta es la última fase de la guía CRISP-DM, la cual consiste en la puesta en ejecución del proyecto realizado en las fases anteriores. En ella se informará al cliente
(dirección de la empresa), en caso de no haber tomado parte en el proceso, de los resultados que se han obtenido.
Importante
En esta fase debes diseñar un plan de mantenimiento del proyecto junto con un informe de problemas encontrados y mejoras futuras.
Una ausencia o incorrecto mantenimiento podría provocar desviación de resultados y, con ello, tomarse decisiones incorrectas que podrían llevar a serios
problemas económicos a las organizaciones.
Asignar responsabilidades.
Desplegar resultados del modelo en la empresa.
Publicar el conocimiento descubierto a los empleados.
Diseñar el plan de mantenimiento.
Llevar a cabo los objetivos de negocio y obtener beneficio.
En esta salida debes realizar un resumen de la estrategia de implantación, así como los pasos a seguir en la estrategia y la forma en que se ejecutarán.
También debes plantear cómo será publicado el conocimiento a toda la organización y cómo se van a desplegar los resultados obtenidos en todos los sistemas de la
organización. Para ello, es recomendable que tengas en cuenta lo siguiente:
En caso de tener varios modelos u objetivos, detalla un pan de despliegue para cada uno.
Definir cómo se supervisarán los modelos implementados y cómo se van a medir sus beneficios.
Plani cación del mantenimiento del modelo
Como tareas primordiales para el equipo de Roberto, quedan las del diseño de un plan que asegure la monitorización del proyecto y su mantenimiento. Debido a
que la empresa está continuamente obteniendo y almacenando datos de clientes, es importante controlar que el modelo sigue obteniendo buenos resultados y
que los datos lleguen correctamente a él.
En él se enumerarán los pasos a seguir y la forma de ejecutarlos. Se deben tener en cuenta eventos como los siguientes:
En la elaboración del informe final se debe describir todo el proceso, los resultados obtenidos y las distintas desviaciones que se han producido frente a diseño del
plan original. También sería interesante introducir los costes que ha supuesto el proyecto.
Del mismo modo, es recomendable realizar una presentación nal a partir del informe final con información importante que los interesados deban conocer.
Y finalmente hacer un documento a modo de re exión de los conocimientos adquiridos, las experiencias aprendidas, los problemas que han aparecido e incluso
información útil para saber qué técnicas escoger para futuros proyectos en función de los objetivos que se quieran plantear gracias a la experiencia adquirida en la
realización de este.
El plan de mantenimiento debe tener carácter proactivo, para poder tratar los problemas antes que estos se produzcan. Es muy importante tener el modelo de análisis
de DM actualizado.
Actividad de aprendizaje 8
En esta actividad reflexionarás sobre ciertas prácticas que pueden aparecer como elementos de un plan de mantenimiento.
Para el plan de mantenimiento, el analista de datos ha propuesto el uso de aplicaciones informáticas para la automatización de todo el plan y solo sea
necesaria la intervención humana de forma gradual. ¿Qué opinas del plan diseñado?
a. Se está haciendo un plan de mantenimiento perfectamente válido, la automatización es fundamental para ahorrar en personal y fallos humanos.
b. El plan de mantenimiento es válido, siempre que las herramientas usadas se puedan anticipar a los posibles fallos.
c. El plan no es válido, en este debe estar implicado el personal de mantenimiento. Sin una vigilancia adecuada, los programas podrían empeorar el
mantenimiento.
d. El plan no es válido, ya que también debe haber un procedimiento de registro de inspecciones por parte del analista de datos, al menos cada semana.
Aplicación práctica 2
Duración: 40 minutos
Objetivos:
Entender la fase de preparación de datos, haciendo hincapié en las tareas de selección, limpieza y construcción de datos.
Entender cómo es la fase de modelado y qué se hace en sus distintas tareas.
Saber en qué consiste la fase de evaluación y cómo evaluar los resultados de un modelo.
Entender la última fase de implantación, concretamente en qué consiste la tarea de elaborar un plan de mantenimiento.
Para esta actividad práctica seguirás con el ejemplo de la empresa de moda textil Fashion2020, para la que ya has diseñado sus dos primeras fases del proyecto
DM.
En esta actividad continuarás diseñando sus cuatro fases siguientes, desarrollando al menos sus tareas más importantes. Con la ayuda de las indicaciones
teóricas, plantea un supuesto del proyecto a diseñar describiendo qué harías en estas fases y tareas.
UA 1: El proceso de descubrimiento de conocimiento en bases de datos
Resumen
La minería de datos (DM) es una técnica de análisis predictivo de datos que trata de descubrir patrones y
relaciones en los datos, así como tendencias y comportamientos atípicos con el objetivo de proporcionar
información útil de cara al futuro para el proceso de toma de decisiones.
Para saber el alcance de las técnicas de análisis de datos, es conveniente conocer qué tipos de datos existen:
Datos estructurados
Datos no estructurados
Datos semiestructurados
Para implantar un proyecto de minería de datos en una organización, es necesario seguir una serie de pautas.
Entre los procedimientos más utilizados en encuentran los siguientes:
El concepto de Data Mining se enmarca en un entorno en el que existen multitud de conceptos relacionados
con los datos y su gestión y creación. Es importante conocer algunos de ellos:
Métodos estadísticos
Data Warehouse
Big Data
Machine Learning
Procesamiento paralelo
Tecnologías de visualización
La metodología más utilizada para la implantación de proyectos de minería de datos es CRISP-DM. Su diagrama
de fases es el siguiente:
Cada fase se divide en diferentes tareas que, a su vez, contienen distintos procedimientos que se deben realizar.
El esquema de fases y tareas es el siguiente: