Asum DM
Asum DM
Se define que para los propósitos de este documento solo se hablará del la fase iterativa
ANÁLISIS - DISEÑO - CONFIGURACIÓN & CONSTRUCCIÓN.
1.1. Revisión de los detalles del proyecto: Clarificar expectativas del CLIENTE,
suposiciones principales, puntos importantes, PERSONALIDADES y todo aquello que
puede ser de valor durante el ciclo de vida del proyecto.
Figura
2. Entender el negocio: El propósito de esta actividad es entender los objetivos del
proyecto, los requerimientos desde la perspectiva del negocio, convertir este conocimiento
en la definición de un problema de minería de datos y trazar un plan para lograr estos
objetivos.
2.1. Determinar los objetivos del negocio: Entender profundamente desde una
perspectiva del negocio, aquello que el CLIENTE realmente quiere lograr.
2.1.1. Entender el estado del negocio ayuda a conocer : Recursos
disponibles (Personal y material), Problemas y Objetivos.
2.1.2. Definir los objetivos del negocio: Describir el objetivo principal del
CLIENTE desde la perspectiva del negocio. Esto ayuda identificar preguntas que
ayudan al entendimiento del negocio.
2.1.3. Definir criterios de éxito desde la perspectiva del negocio: Describir los
criterios para un término exitoso o usable del proyecto desde las perspectiva del
negocio, esto debe ser bastante específico y se debe medir objetivamente.
2.2. Evaluar la situación: Esta actividad involucra una investigación más detallada
de los recursos , restricciones, suposiciones y otros factores que deben ser
considerados en la definición del objetivo del análisis de datos y el plan del proyecto.
2.2.1 Determinar recursos, requerimientos, suposiciones y restricciones:
Hacer una lista para item ( Recursos, requerimiento, suposiciones y restricciones)
que permitan hacer una valoración de los pasivos del proyectos, Haciendo estas lo
más detalladas posible.
2.2.2. Considerar riesgos y contingencias: Considerar los riesgos del
proyecto y opciones de mitigación. algunos ejemplos de riesgo son :
- ¿Que pasa si el proyecto toma más tiempo del anticipado?
- ¿Que pasa si CLIENTE encuentra problemas de presupuesto
en el el proyecto?
- ¿Que pasa si los datos tiene poca calidad o poca cobertura?
- ¿Que pasa si el resultado del proyecto es menos útil de lo
esperado?
2.2.3. Análisis de comportamiento y costo-beneficio: Es crucial comparar
los costos del proyecto con el beneficio potencial si resultase ser exitoso. L a comparación
debe ser los más especifico posible.
2.3. Determinar los objetivos de la minería de datos: Traducir los objetivos del
negocio en procesos de minería de datos.
2.4 Crear un plan para el proyecto: Describir un plan para lograr los objetivos
de la minería de datos y de esa manera lograr el objetivo del negocio. el plan debe
especificar los pasos a ser realizados durante el resto del proyecto, incluyendo el conjunto
de herramientas y técnicas a ser utilizadas.
3. Entendimiento de los datos: Esta actividad involucra conseguir una visión de los
datos disponibles para la minería. este paso es crucial para evadir problemas inesperados
durante las siguientes actividades. Además permite determinar la calidad de los datos.
3.1. Recolectar los datos iniciales: Adquirir o acceder a los datos listados en los
recursos del proyecto, Si se adquiere datos de distintas fuentes este paso es donde se dá la
integración de los datos.
3.2. Describir los datos : Crear un reporte que describe los datos tal y como han
sido adquiridos, incluyendo el formato de los datos, la cantidad de los datos e identificar si
los datos satisfacen los requerimientos de relevancia del proyecto.
3.3. Verificar la calidad de los datos: Examinar la calidad de los dato, abordando
preguntas como: ¿están los datos completos?, ¿son correctos o contienen errores? y si
tienen errores ¿que tan comun son encontrarlos en los datos?, ¿Existen MISSING
VALUES? si es así , ¿cómo son representados?, ¿Donde ocurren? y ¿qué tan comunes
son?.
4. Preparar los datos: Es uno de las actividades más importantes y que más tiempo
consumen en la minería de datos. Depende mucho de las actividades “Entendimiento de los
datos” y “ Entendimiento del negocio”.
4.1. Seleccionar los datos: Decidir qué datos serán usados para el análisis. Los
criterios de selección incluyen relevancia, calidad y restricciones técnicas como el volumen
o el tipo de datos; incluyendo la selección de atributos y de observaciones en una tabla.
4.2. Limpieza de los datos: Aumentar la calidad de los datos hasta llegar al nivel
de calidad requerido . Involucra detección y selección de subconjuntos de datos de alta
calidad, inserción de defaults adecuados o estimación de los MISSING VALUES.
4.3. Construcción de los datos: Es común que exista la necesidad que se
construya nuevos datos a partir de los datos existentes, con el objetivo de lograr el objetivo
de la minería de datos más fácilmente.
4.4. Formatear los datos: Aplicar transformaciones que realizan modificaciones
sintácticas a los datos pero no cambian el significado de los datos, pero facilitan su análisis
o son requeridos por una herramienta o técnica.