Tema 2 LOL

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 5

TEMA 2: Herramientas para análisis de datos

Almacén de datos y OLAP

En este documento comenzaremos hablando de los Data Warehouses o almacenes de datos.


Los sistemas tradicionales empezaron a tener problemas para satisfacer las necesidades de los
usuarios y de esta problemática, surgen los Data Warehouse como sistemas de apoyo a la
toma de decisiones, en que los datos de una organización se transforman en información
estratégica. Ayudan a su vez a disponer de un acceso sencillo e inmediato a determinada
información de negocio estructurada y de calidad. Acceder a los datos directamente en
sistemas operacionales de BD (del día a día, no DWH) suponía algunos problemas:

- Conocer lenguajes como SQL


- Rendimiento
- Los datos no están preparados para las consultas necesarias.
- No suelen tener un horizonte histórico como para detectar tendencias o realizar
seguimientos.

Características de un DWH

- Orientado a temas: en contra de la orientación a procesos de los sistemas


operacionales, facilitando su acceso y entendimiento.
- Integrado: Los datos de un DWH son íntegros en unidades de medida, nombres,
codificación, etc...
- Variante en el tiempo: Se guardan datos históricos (del orden de años) que facilitan la
evaluación e identificación de tendencias.
- No volátil: Los valores permanecen en el DWH sin modificación.

Diferencias entre un DWH y un BD operacional

La principal diferencia entre una BD operacional y una Data Warehouse es su objetivo, el


primero está orientado a las operaciones del día a día y el segundo al análisis y la toma de
decisiones. Por tanto podemos prever que uno recibe multitud de transacciones repetitivas y
conocidas y el DWH consultas masivas, puntuales y no conocidas. También como diferencia
encontramos el rendimiento, la volatilidad, los usuarios (más expertos), estructura (relacional
versus multidimensional), alcance histórico, detalle de los datos y por último el volumen,
mucho mayor en un DWH.

¿Qué es y para qué sirve un Almacén de datos (Data Warehouse)?

La información es indispensable para decidir. En este sentido, la creación de un Data


Warehouse corporativo es una gran manera de recoger los datos necesarios y construir los
indicadores adecuados para la toma de decisiones...

El Business Intelligence permite gestionar el día a día de la empresa y generar información útil
para la toma de decisiones. Ahora bien, ¿cómo se realiza concretamente esta tarea? La clave
para pasar de la cotidianeidad operativa (donde se generan los datos) a información apta para
decidir es la construcción de un Data Warehouse.
Almacén de datos y OLAP

1 Datos desagregados

En primer lugar, un buen Data Warehouse contiene toda la información generada por el
mundo transaccional de la firma. Es decir, datos sobre pedidos de clientes, facturación, cobros,
etc.

Estos datos generados internamente pueden enriquecerse con información proveniente del
exterior de la empresa. Por ejemplo, datos de mercado (Nielsen, CCR, etc), información
capturada por Internet (cotización de commodities y demás activos) o información
proveniente de sistemas paralelos internos (legacy systems) o externos de la compañía.

Así, a través de la centralización de datos provenientes de distintas fuentes, el Data


Warehouse se convierte en un poderoso reservorio de información útil para reducir la
incertidumbre a la hora de decidir. En este punto, es importante que la empresa cuente con un
único Data Warehouse. Así, los miembros de la organización podrán acceder a una misma
fuente de información organizada según convenciones determinadas por el alministrador.

Esta práctica puede evitar una serie de problemas comunes. En efecto, los distintos miembros
de la firma pueden tener distintas definiciones para el término “venta". Para un departamento,
"venta" puede significar que un pedido ha sido confirmado. Para otro, puede significar que el
pedido ha sido efectivamente cobrado.

En el Data Warehouse este problema no existe. Allí, el concepto “venta" tiene una sola
definición que permite unificar criterios a la hora de tomar decisiones

2 Información agregada

A medida que se va subiendo por la pirámide organizacional, también se van modificando las
necesidades de información para la toma de decisiones. El gerente de bajo nivel,
habitualmente preocupado por las decisiones tácticas, necesita datos desagregados sobre
pedidos, cobros, etc. Los top managers, responsables de la formulación estratégica, requieren
información agregada sobre tendencias de mercado. Por lo tanto, a medida que se asciende
por la pirámide organizacional, el detalle empieza a perder relevancia y cobra importancia la
agregación.

Ahora bien, ¿cuáles son los indicadores fundamentales que necesitan los altos directivos para
decidir? Todo decisor, al momento de elaborar una acción tiene presentes (consciente o
inconscientemente) los indicadores que le ayudarán a elegir. Estos indicadores pueden tener
origen en múltiples y diversos universos: desde un simple listado de la venta diaria hasta una
noticia de un sitio web de los Estados Unidos.

No obstante, cuando se pretende sistematizar la información, es necesario organizarla. Es


decir, todos los indicadores deben pasar por un proceso de sistematización. Precisamente,
Business Intelligence apunta a encontrar los indicadores clave a considerar para la toma de
decisiones, es decir, los "drivers" del negocio.

De esta forma, una vez definidos los indicadores clave (también llamados Key Performance
Indicators o KPI), se los resuelve aplicando las definiciones que se encuentran en el Data
Warehouse. Es decir, dada la sistematización de los indicadores, todos los ejecutivos utilizan
las mismas definiciones sobre los indicadores fundamentales que hacen al éxito de la empresa.
Así, estos indicadores se vuelven comparables y pueden detectarse desvíos entre ellos (con la
posibilidad de aplicar medidas correctivas). Y aquí comienza nuevamente el ciclo donde la
captura de los ambientes transaccionales y su control posterior en el Data Warehouse,
permitirá medir cuán efectiva fue la medida adoptada y si se debe corregir nuevamente o no.
Este ciclo se repite en forma permanente durante la vida de la empresa.

Explorar un Data Warehouse

El reto es sacar datos y convertirlo en información, que se dice pronto... y encima querer crear
una ventaja empresarial. Este reto va desde la edición de informes hasta una minería de datos
avanzada, con análisis multidimensional. Por tanto, un DWH es un medio, no un fin en sí
mismo. Ningún proyecto deberá tener como finalidad construir un DWH, sino obtener
información... si bien, cabe decir que el construirlo debe suponer una gran meta. Para la
explotación encontramos tres técnicas principalmente:

- Query and reporting.


- OLAP (análisis multidimensional).
- Minería de datos.

La primera consiste en realizar informes y generar consultas exigibles, con una interfaz gráfica,
permitiendo también escribir total o parcialmente la consulta en SQL (o similar). La segunda
(OLAP) consiste en realizar análisis desde un conjunto de perspectivas o dimensiones. Muy
adecuada para grandes volúmenes de datos. La tercera consiste en el descubrimiento de
conocimiento no accesible de manera directa... si no que se encuentra oculto, por ejemplo,
buscar patrones de información en los datos.

Minería de datos

La minería de datos (DM, Data Mining) consiste en la extracción no trivial de información que
reside de manera implícita en los datos. Dicha información era previamente desconocida y
podría resultar útil para algún proceso. En otras palabras, la minería de datos prepara, sondea
y explora los datos para sacar la información oculta en ellos. Para un experto, o para el
responsable de un sistema, normalmente no son los datos más relevantes, sino la información
que se encierra en sus relaciones, fluctuaciones y dependencias. Bajo el nombre de minería de
datos se engloba todo un conjunto de técnicas encaminadas a la extracción de conocimiento
procesable, implícito en las bases de datos.

Está fuertemente ligado con la supervisión de procesos industriales ya que resulta muy útil
para aprovechar los datos almacenados en las bases de datos. Las bases de la minería de datos
se encuentran en la inteligencia artificial y en el análisis estadístico. Mediante los modelos
extraídos utilizando técnicas de minería de datos se aborda la solución a problemas de
predicción, clasificación y segmentación.
Proceso de minería de datos

Los pasos a seguir para la realización de un proyecto de minería de datos son siempre los
mismos, independientemente de la técnica específica de extracción de conocimiento usada. El
proceso de minería de datos se compone de las siguientes fases:

1. Selección y preprocesado de datos: El formato de los datos contenidos en la fuente de datos


(base de datos, Data Warehouse, etc) nunca es el idóneo y la mayoría de las veces no es
posible ni siquiera utilizar ningún algoritmo de minería sobre los datos “en bruto". Mediante el
preprocesado se filtran los datos (de forma que se eliminan valores incorrectos, no válidos,
desconocidos,..., según las necesidades y el algoritmo que va a usarse), se obtienen muestras
de los mismos (en busca de una mayor velocidad respuesta del proceso), o se reduce el
número de valores posibles (mediante redondeo, clustering...).

2. Selección de variables: Aún después de haber sido preprocesados, en la mayoría de los casos
se tiene una cantidad ingente de datos. La selección de características reduce el tamaño de los
datos eligiendo las variables más influyentes en el problema, sin apenas sacrificar la calidad del
modelo de conocimiento obtenido del proceso de minería. Los métodos para la selección de
características son básicamente dos:

a. Aquellos basados en la elección de los mejores atributos del problema

b. Aquellos que buscan variables independientes mediante tests de sensibilidad,


algoritmos de distancia o heurísticos.

3. Extracción de conocimiento: Mediante una técnica de minería de datos, se obtiene un


modelo de conocimiento, que representa patrones de comportamiento observados en los
valores de las variables del problema o relaciones de asociación entre dichas variables.
También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque
generalmente cada técnica obliga a un preprocesado diferente de los datos.

4. Interpretación y evaluación: Una vez obtenido el modelo, se debe proceder a su validación


comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. En
el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben
comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los
modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para
generar nuevos modelos.

Ventajas de la minería de datos

En resumen, usar minería de datos para construir un modelo desde las bases de datos tiene las
siguientes ventajas.

- Los modelos son fáciles de entender: no precisa de grandes conocimientos de


estadísticos.
- Enormes bases de datos pueden ser analizadas: Enormes bases de datos pueden ser
analizadas mediante la tecnología de la minería de datos. Estas Bases de datos pueden
ser enormes tanto en largo como en ancho. Por ejemplo, para cada cliente se puede
tener cientos de atributos que contienen información detallada; y además tener miles
de registros de clientes.
- La minería de datos descubre información que no se esperaba obtener.
- Los Modelos son Confiables: El modelo es probado y comprobado usando técnicas
estadísticas antes de ser usado, luego las predicciones que se obtienen por el modelo
son válidas y confiables.
- Los modelos se construyen de manera rápida: La minería de datos permite construir y
generar modelos en sólo unos minutos u horas.

Ejemplos de aplicaciones en minería de datos

Detección de fraudes

Esta es una aplicación que puede ser considerada como una técnica de clasificación. En efecto,
cuando el algoritmo analiza una gran cantidad de transacciones, el mismo tratará de
categorizar aquellas que sean ilegítimas mediante la identificación de ciertas características
que estas últimas tengan en común. Esto puede ser usado en las corporaciones para prevenir
que se culmine un proceso que muestre pertenecer a una “clase" peligrosa.

Análisis de riesgos en créditos

Esta es una aplicación similar a la anterior, pero con la ventaja de usar métodos tradicionales.
El clásico procedimiento de asignación de puntos puede ser complementado y mejorado con la
ayuda de la minería de datos.

Recursos humanos

La minería de datos también puede ser útil para los departamentos de recursos humanos en la
identificación de las características de sus empleados de mayor éxito. La información obtenida
puede ayudar a la contratación de personal, centrándose en los esfuerzos de sus empleados y
los resultados obtenidos por éstos. Además, las ayudas ofrecidas por las aplicaciones para
Dirección estratégica en una empresa se traducen en la obtención de ventajas a nivel
corporativo, tales como mejorar el margen de beneficios o compartir objetivos; y en la mejora
de las decisiones operativas, tales como desarrollo de planes de producción o gestión de mano
de obra.

Análisis de tipo de delitos

Mediante la acumulación de información puede realizarse un estudio de la tipología de delitos


por año, ciudad, distrito postal, etc. Esto permite una mejor planificación tanto en recursos
humanos como decisiones en la actividad a realizar en las comisarías de policía.

También podría gustarte