Análisis Multidimensional de Datos Warehouse

Descargar como pptx, pdf o txt
Descargar como pptx, pdf o txt
Está en la página 1de 84

Análisis multidimensional

de datos
Parte I

Cortesía: UENM/Internet.
Los tres componentes de un modelo de
datos

Todo modelo de datos esta formado por tres


componentes

• Estructura De Datos
• Operaciones Sobre Los Datos
• Restricciones De Integridad
Por qué la base de datos multidimensional

• Permite análisis interactivos de grandes cantidades de datos


para la toma de decisiones.

• Diferenciarse de las tecnologías anteriores al ver los datos


como cubos multidimensionales, que han demostrado ser
especialmente adecuados para el análisis de datos.

• Procesa rápidamente los datos en la base de datos para que


las respuestas se puedan generar rápidamente.

• Una aplicación OLAP exitosa proporciona información "justo


a tiempo" para una toma de decisiones eficaz.
Comparación entre base de datos
relacional y multidimensional

• El modelo de base de datos relacional utiliza una estructura


bidimensional de filas y columnas para almacenar datos. Las tablas
se pueden vincular mediante valores clave comunes.

• El acceso a datos de bases de datos relacionales puede requerir


combinaciones complejas de muchas tablas y es claramente no
trivial para usuarios finales no capacitados.
Comparación entre bases de datos
relacionales y multidimensionales
• Para obtener la información deseada de los datos, las organizaciones
se vieron obligadas a contratar profesionales de TI para estructurar
consultas tan complejas y también estas consultas complejas
necesitan mucho tiempo para devolver los resultados.
• Al escribir consultas como INSERT, DELETE y UPDATE en tablas, las
consecuencias de hacerlo mal aumentan considerablemente cuando
se emplean en un entorno de tiempo real.
Comparación entre bases de datos
relacionales y multidimensionales
• Mejora la presentación y navegación de datos mediante una hoja de
cálculo intuitiva como vistas que son difíciles de generar en una base
de datos de relación.
• Fácil de mantener porque los datos se almacenan de la misma forma
en que se ven, por lo que no se requieren gastos generales de cálculo
adicionales.
Comparación entre bases de datos
relacionales y multidimensionales

• El análisis de datos y la toma de decisiones es mucho más fácil a


través de bases de datos multidimensionales que comparar bases de
datos relacionales.
Relacional a multidimencional
Warehouse/Data Marts
Datawarehouse: Los principales componentes de un modelado
dimensional son las tablas de hechos y las tablas de
dimensión, que se pueden definir de la siguiente manera:
• Tablas de hechos, representan los procesos que ocurren en la organización, son
independientes entre sí (no se relacionan unas con otras). La llave de la tabla de
hechos, es una llave compuesta que se forma con las llaves primarias de las
tablas dimensionales a las que está unida. Se pueden distinguir dos tipos de
columnas en una tabla de hechos, columnas de hechos que almacenan las medidas
del negocio que se quieren controlar y las columnas llaves que forman parte de la
llave de la tabla.

• Tabla de dimensión, que contiene, por lo general, una llave simple y un conjunto
de atributos que describen la dimensión. Sin embargo, pueden existir atributos que
representen llaves foráneas de otras tablas de dimensión. Las tablas de dimensión
se relacionan con las tablas de hechos haciendo parte de la llave de un hecho,
por tanto, los atributos que conforman las tablas de dimensiones también
describen el hecho.
Existen tres esquemas fundamentales para
representar multidatos:
• Estrella
• Copo de nieve
• Conteslación
En el esquema de representación dimensional se muestran los hechos y las
dimensiones que lo conforman, entre los esquemas de representación se
encuentran:

Esquema Estrella:
Esquema copo de nieve:

∞ 1

Dimenciones compartidas con tabla


de hechos.
Constelación:

Compartida
CUBO (en los cruces de las dimenciones
están los HECHOS)

Hecho
Ejemplos de cubos
Cubos
Cubos

Sub matriz paralela a cada eje dimensional


Clasificación del CUBO por tipo de
almacenamiento:
Consulta MDX:
Consulta para
cubos OLAP.

Dimensiones -KEY-
y medidas de tabla de hecho
del cubo
Operación básica en CUBO:
Operaciones básicas en CUBO:
Pasos básicos para construir un CUBO:
Ejemplo 1
Para diseñar un cubo OLAP es necesario tener un origen de datos, la fuente de datos puede ser una base de datos relacional
creada previamente, administrada por ejemplo en SQL:
Transformación a tabla de hechos de un
CUBO:
Construcción del cubo OLAP: Para construir un nuevo cubo se
necesita seleccionar la vista del origen de datos y las tablas del
cubo, para establecer sus propiedades.
Diseño de dimensiones…
Nombre a CUBO:
Estructura del CUBO:
Ejemplo 2 (Viviendas)
Consultas…
Tipos de consultas al CUBO:
• Cómo ha sido el beneficio obtenido en ROPA JUVENIL de la
empresa en verano de este año, con respecto al verano de
años anteriores?
• Cuál es el menor y mayor margen de ELECTRODOMESTICOS
de las tiendas de todos los departamentos por año?
• Se desea saber si es conveniente invertir más en marketing ?
Proceso ETL:
Ejemplo Metodología DSDM DW
Ejemplo:
Ejemplo dimencional de tabla de HECHO
¿QUÉ ES OLAP?

OLAP (On-Line Analytical Processing), es un método para


organizar y consultar datos sobre una
multidimensional proporcionando una estructura mayor
flexibilidad al usuario de negocio. agilidad y

Forma parte de lo que se conoce como sistemas analíticos,


esta formada por un motor y un visor.
Ventaja Desventajas
s
 Tiene acceso a grandes cantidades • Imposibilidad de realizar cambios
de información. en su estructura.
 Analiza las relaciones entre muchos • Requiere organizar los datos en
tipos de elementos empresariales. un esquema estrella el cual es
 Compara datos agregados a través complicado de implementar y
de periodos jerárquicos. administrar.
 Involucran cálculos • No puede tener un gran numero
complejos entre elementos de de dimensiones en un único
datos. cubo OLAP.
 Pueden responder con rapidez
a
consultas de usuarios.
Operaciones analíticas básicas de la
OLAP

Cuatro tipos de operaciones analíticas en OLAP son:

• Roll-up
• Desglose
• Cortar y dados
• Pivotar (girar)
Roll-up:
También se conoce
como “Consolidación” o
“agregación”.

1. Reducir dimensiones
2. Subiendo la jerarquía
conceptual. La
conceptual es unjerarquía
sistema de
agrupación de las cosas en
función de su orden o nivel.
Desglose
En el desglose los datos se fragmentan en partes más
pequeñas. Es lo opuesto al proceso acumulativo. Se puede
hacer a través de:

• Bajar la jerarquía conceptual

• Aumento de una dimensión.


Rebanada Dados
Esta operación es similar a un
Aquí se selecciona una
segmento. La diferencia en dados es
dimensión y se crea un nuevo
que selecciona 2 o más dimensiones
subcubo.
que dan como resultado la creación de
un subcubo.
Pivot

El Pivot girara los ejes de


datos para proporcionar
una presentación sustituta
de los datos.
Tipos de sistemas OLAP
Sistemas Ventajas Desventajas
ROLAP Alta eficiencia de datos porque el Demanda de recursos mas elevados
Funciona con datos que existen en rendimiento de las consulta y el ya que necesita una alta utilización de
una base de datos relacional. lenguaje de acceso están optimizados mano de obra, software y hardware.
Las tablas de hechos y dimensiones se para el análisis de datos
almacenan como tablas relacionales. multidimensionales. Rendimiento de consultas lento en
comparación con MOLAP.
Escalabilidad: Ofrece escalabilidad
para administrar grandes volúmenes
de datos.

HOLAP Rendimiento mas rápido debido a que Mayor nivel de complejidad porque
Es una mezcla de ROLAP y MOLAP ya utiliza tecnología de cubo. soporta herramientas y aplicaciones
que ofrece un rápido cálculo y una Acceso a datos actualizados en ROLAP Y MOLAP.
escalabilidad mayor a la de ROLAP. tiempo real
Utiliza 2 bases de datos Ahorra espacio en disco y sigue Mayores posibilidades
1 Datos calculados almacenados en siendo compacto, lo que ayuda a de solapamiento especialmente es
un cubo OLAP evitar problemas relacionados con la sus funcionalidades.
2 Información detallada almacenada en velocidad de acceso.
una base de datos relacional.
Utilización de Herramientas para OLAP
Ejemplo
Amazon analiza las compras realizadas por sus clientes para
crear una página de inicio personalizada con productos que
probablemente interesen a sus clientes.
¿Cuál es el margen de beneficios de la venta de bicicletas para
febrero de 2007?
• Tiempo
• Productos
• Medidas
OLTP

• Esel procesamiento de transacciones en línea, admite


aplicaciones orientadas a transacciones en
una arquitectura de 3 niveles.
• Administra las transacciones diarias de una organización
OLTP

Objetivo Principal

Procesamiento de datos y no el análisis de


datos.
OLTP

Beneficios del método Inconvenientes del método


• Si el sistema se
• Administra
enfrenta
fallos dea hardware las
las transacciones diarias
transacciones en línea se
de una organización.
ven gravemente afectadas.
• OLTP amplia la base de
• Los sistemas permiten
clientes de una
varios usuarios acceder a
organización al simplificar
cambiar los mismos datos aly
los procesos individuales.
mismo tiempo, lo que
muchas veces creo una
situación sin precedentes.
Tabla de parámetros:

R
Arquitectura de tres niveles
NIVEL INFERIOR: La base de datos de los
servidores de Datawarehouse como el
nivel inferior.

NIVEL MEDIO: El nivel intermedio de


Datawarehouse es un servidor OLAP que
se implementa utilizando el modelo
ROLAP o MOLAP.

NIVEL SUPERIOR: El nivel superior es una


capa de cliente front-end.
Aplicaciones

Las • Transacciones que implican pequeñas


cantidades de datos
aplicaciones • Acceso indexado a los datos
OLTP tienen las • Numerosos usuarios
características • Consultas y actualizaciones frecuentes
siguientes: • Tiempos de respuesta rápidos
MODELO MULTIDIMENSIONAL CONCEPTUAL
• Se debe acometer a nivel conceptual con el fin de reflejar
de manera fidedigna y abstraer el diseño de la plataforma
donde el almacén de datos será implementado.
• Debe representar aquellos elementos que permitan al
usuario obtener información necesario para el apoyo a la
toma de decisiones.
• Estos elementos o propiedades multidimensionales
pueden ser estructurales o dinámicos.
Propiedades multidimensionales estructurales

Consisten en la definición de estructuras de datos que


faciliten el análisis multidimensional de los mismos.

Un hecho contiene medidas interesantes que son el objeto


de análisis, mientras que las dimensiones representan
diferentes perspectivas para analizar dichas medidas.
Representación de un modelo multidimensional
Se representa en forma de cubo o hipercubo o en su versión
más sencilla, como tablas multidimensionales.
Propiedades multidimensionales dinámicas

Las propiedades dinámicas están relacionadas con la


definición de los requisitos iniciales de usuario.

Para contestar algunos requisitos se deben utilizar un tipo


de operaciones con el fin de interrogar a la parte
estructural del modelo multidimensional.
ROLL-UP
Esta operación permite agregar valores de medidas a lo largo de
los niveles de jerarquías de clasificación de las dimensiones.
DRILL-DOWN
Esta operación permite desagregar valores de medidas a lo
largo de jerarquías de clasificación. Es la operación
contraria al roll-up.

DRILL-ACROSS

Esta operación permite navegar de un hecho a otro mediante


el uso de dimensiones comunes. Gracias a esta
operación, se pueden consultar medidas de varios hechos
en el mismo cubo.
SLICE & DICE
Este par de operaciones permiten definir restricciones sobre
niveles de jerarquías.
PIVOTING
Esta operación permite reorientar la vista multidimensional de los
datos, es decir, cambiar la distribución de filas o columnas.
Algunos autores consideran también el intercambio de medidas y
hechos como pivoting.
DISEÑO LOGICO MULTIDIMENCIONAL

Toma como entrada un esquema conceptual y genera un


esquema lógico relacional o multidimensional.

Esto tiene particular impacto en el caso de usarse bases


relacionales, ya que las consultas de análisis de datos
incluyen operaciones muy costosas para DBMS
relacionales.
DISEÑO LOGICO MULTIDIMENCIONAL

Este modelo es independiente de cualquier herramienta y


nos servirá para aclarar los conceptos generales.

Le permite a analistas y diseñadores más flexibilidad en el


diseño, para lograr un mayor desempeño y optimizar la
recuperación de la información, desde un punto de vista
más cercano al usuario final.
DISEÑO LOGICO MULTIDIMENCIONAL

El modelo multidimensional produce una base de datos que


es simple de navegar y encuestar.

Existen menor cantidad de tablas y relaciones en este, que


en el modelo entidad-relación, el cual tiene cientos de
tablas relacionadas entre sí y hay diferentes caminos para
obtener una misma información, desde la perspectiva del
usuario final resulta prácticamente inusable.
¿QUÉ ES MOLAP?
El OLAP multidimensional (MOLAP) es un OLAP clásico
que facilita el análisis de datos mediante el uso de un cubo
de datos multidimensional.

Los datos se calculan previamente, se resumen y se


almacenan en un MOLAP (Una diferencia importante con
respecto a ROLAP).
¿Qué se puede hacer con un MOLAP?
Mediante un MOLAP, un usuario puede utilizar datos de
vista multidimensional con diferentes facetas. El análisis
de datos multidimensionales también es posible si se
utiliza una base de datos relacional.

De este modo, sería necesario consultar datos de varias


tablas.
MOLAP:

MOLAP tiene todas las combinaciones posibles de datos


ya almacenados en un array multidimensional.

MOLAP puede acceder directamente a estos datos.


Arquitectura MOLAP
MOLAP Architecture incluye los siguientes
componentes:

• Servidor de base de datos.


• Servidor MOLAP
• Herramienta frontal
Características:

1. Los informes de solicitud de usuario a través


de la interfaz.

2. La capa lógica de aplicación de MDDB recupera los


datos almacenados de la base de datos.

3. La capa lógica de la aplicación reenvía el resultado


al cliente/usuario.
Funcionamiento de la arquitectura
La arquitectura MOLAP lee principalmente los datos
precompilados.

La arquitectura MOLAP tiene capacidades limitadas para


crear agregaciones dinámicamente o para calcular
resultados que no se han calculado ni almacenado
previamente.
Ejemplo
Un jefe contable puede ejecutar un informe que muestre la
cuenta P/L corporativa o la cuenta P/L de una filial especifica.

El MDDB recuperaría las cifras pre-compiladas de Protfit &


Loss y mostraría ese resultado al usuario.
Herramientas MOLAP
Nombre Definición
ESSBASE Herramienta de ORACLE que tienen una base de datos
multidimensional.
YELLOWFIN Herramientas de análisis empresarial para
crear informes y paneles.
CLEAR ANALYTICS Clear Analytics es una solución empresarial basada en
Excel.
SAP Soluciones de análisis de negocios SAP
BUSINESS
INTELLIGENCES
Ventajas

• MOLAP puede gestionar, y almacenar


analizar cantidades considerables de datos
multidimensionales .

• Rendimiento consultas rápido, gracias al


de optimizado, la indexación y el
almacenamiento en caché.
Ventajas

• MOLAP es más fácil para el usuario, por eso


un modelo adecuado para usuarios sin experiencia.

• Todos los cálculos se generan previamente cuando se


crea el cubo.
Desventajas
• Las soluciones MOLAP pueden ser largas, especialmente en
grandes volúmenes de datos.

• Los productos MOLAP pueden tener problemas al actualizar y


consultar modelos cuando las dimensiones son más de
10.

• No es capaz de contener datos detallados.


Desventajas

• Es menos escalable que ROLAP, ya que maneja sólo


una cantidad limitada de datos.

• El MOLAP también introduce la redundancia de datos,


ya que requiere un uso intensivo de recursos.
CONCLUSIONES

 El procesamiento analítico en línea (OLAP) es una tecnología


de análisis de datos que hace lo siguiente:

 Presenta una visión multidimensional lógica de los datos en el


Data Warehouse. La visión es independiente de cómo se
almacenan los datos.

 Comprende siempre la consulta interactiva y el análisis de los


datos. Por lo regular la interacción es de varias pasadas, lo cual
incluye la profundización en niveles cada vez más detallados o
el ascenso a niveles superiores de resumen y adición.

También podría gustarte