Base de Datos Multidimensionales

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 11

Universidad Autónoma de Coahuila

Esc. De Sistemas Marcial Ruiz Vargas

Alumna:
Karla Larissa Domínguez Ortiz.

Matricula:
17220636

Materia:
Base de Datos II.

Docente:
Ing. Jose Yahveh contreras de los reyes.

Actividad:
Investigación unidad 3.

Fecha:
05 de noviembre del 2020.
INDICE:
3. Bases de datos multidimensionales

❖3.1 Definición y conceptos de las bases


de datos multidimensionales………….3

❖3.2 Modelos conceptuales


multidimensionales……………………..4

❖3.3 Definición de cubos………………5

❖3.4 Análisis de datos de los cubos….6

❖3.5 Herramientas para el análisis de los


datos……………………………………7

❖3.6 Almacenamiento de cubos……….10

❖3.7 Procesamiento de cubos…………11

Conclusión……………………………...11

05 de noviembre de 2020 2
3.1 Definición y conceptos de las bases de datos
multidimensionales:
Las bases de datos multidimensionales (BDMB) son un tipo de base de datos
optimizada para Data Warehouse que se utilizan principalmente para crear
aplicaciones OLAP, una tecnología asociada al acceso y análisis de datos en
línea.

Las bases de datos multidimensionales se caracterizan por los siguientes


atributos:
• Se basan en la creación de aplicaciones OLAP y pueden verse como
bases de datos contenidos en una sola tabla.
• En las tablas multivaluadas se almacenan registros referidos bien a las
dimensiones de esta o a las métricas que se desean analizar, adoptando
un campo o columna por cada dimensión y otro campo por cada métrica o
hecho.
• Las tablas del modelo multidimensional se asimilan a un hipercubo o, si
usamos herramientas OLAP, a un cubo OLAP. En ambos casos, las
dimensiones de los cubos se corresponden con la de la tabla y el valor
almacenado en cada celda equivale al de la métrica.

Las bases de datos multidimensionales se caracterizan por una mayor


versatilidad que las bases de datos relacionales a la hora de realizar
consultas. De hecho, a menudo éstas se crean a partir de entradas de las
bases de datos relacionales, a los que se normalmente se accede mediante
SQL, el lenguaje de consultas para este tipo de bases de datos.

A diferencia del carácter declarativo del lenguaje SQL (las órdenes


especifican el resultado), las BDMD facilitan un tipo de análisis muy útil para el
negocio, que permite extraer datos de forma selectiva y realizar consultas de
distinto tipo. Sin embargo, es importante subrayar que, si bien los cubos OLAP
son muy ventajosos en cuanto a rapidez y procesamiento, no es posible
modificar la estructura de estas bases de datos multidimensionales, por lo que
cuando sea preciso introducir cambios, habrá que diseñarlos de nuevo.

05 de noviembre de 2020 3
3.2 Modelos conceptuales multidimensionales:
En los últimos tiempos los almacenes de datos y la tecnología On-line Analysis
Processing (OLAP) se han convertido en temas de interés en el área de las
tecnologías de la información, Aspectos concretos como el modelado
conceptual, la transformación de esquemas de sistemas operacionales, el
diseño físico, etc., se han tratado ampliamente. En esta tesis presentamos un
modelo conceptual multidimensional llamado IDEA (Integración de Datos:
Elementales-Agregados).

El modelo Entidad-Interrelación extendido se utiliza para representar el


metamodelo de IDEA. IDEA es además la base para una metodología de
desarrollo de almacenes de datos y del sistema IDEA-DWCASE que la soporta.

En la actualidad, el diseño de bases de datos multidimensionales se realiza


habitualmente de forma artesanal. Los datos elementales (microdatos)
almacenados en sistemas de gestión de datos transaccionales se transforman
en datos agregados (macrodatos) en almacenes de datos corporativos de
departamentales con el fin de ser analizados con la ayuda de herramientas
OLAP y sin ningún enfoque metodológico lo que lleva asociado una serie de
limitaciones:

• Escasa o nula intervención de los estrategas en el proceso de desarrollo


del sistema.

• Características de calidad del producto final como flexibilidad,


extensibilidad o eficiencias, entre otras, no se pueden garantizar por la
ausencia de una metodología.

• En muchos casos, no existe un modelo conceptual multidimensional en el


desarrollo del almacén de datos. Por ello todo proyecto está basado en
los productos con los que se desarrolla. Esta es una de las razones
fundamentales por las que no existe la posibilidad de definir una
metodología universal de desarrollo de almacenes de datos.

05 de noviembre de 2020 4
La ausencia de estándares de modelado de datos multidimensional ha dado
lugar a la utilización de distintos enfoques: modelos muy próximos al modelo
relacional, extensiones del modelo E/R o de modelos de objetos.

3.3 Definición de cubos:


El esquema de un cubo queda determinado dando a conocer sus ejes con sus
respectivas estructuras y la estructura de los datos que se presentan en cada
celda de la matriz. Se asume que los datos en todas las celdas son uniformes,
es decir, todas las posiciones de la matriz tienen datos con igual estructura.

Una instancia de un cubo queda determinada por un conjunto de datos para


cada eje y un conjunto de datos para la matriz.

A los ejes se les llama Dimensiones y al dato que se presenta en la matriz, se le


llama Medida. A los elementos del producto cartesiano de los ejes
(dimensiones) se le llama Coordenadas. La matriz definida, puede ser dispersa
(es una función parcial).

Los datos se modelan en data cubes (cubos de datos), estructuras


multidimensionales (hipercubos) cuyas operaciones más comunes son:

• Roll up: Incremento en el nivel de agregación de los datos.

• Drill down: Incremento en el nivel de detalle, opuesto a roll up.

• Slice: Reducción de la dimensionalidad de los datos mediante selección.

• Dice: Reducción de la dimensionalidad de los datos mediante


proyección.

• Pivotaje o rotación: Reorientación de la visión multidimensional de los


datos.

05 de noviembre de 2020 5
3.4 Análisis de datos de los cubos:

Un cubo OLAP es una estructura de datos que supera las limitaciones de las
bases de datos relacionales y proporciona un análisis rápido de datos. Los
cubos pueden mostrar y sumar grandes cantidades de datos, a la vez que
proporcionan a los usuarios acceso mediante búsqueda a los puntos de
datos. De esta manera, los datos se pueden acumular, segmentar y reorganizar
según sea necesario para administrar la variedad más amplia de preguntas
relevantes para el área de interés de un usuario.
Los proveedores de software o () los desarrolladores de tecnologías de la
información que tienen conocimientos prácticos de los cubos OLAP pueden
crear módulos de administración para definir sus propios cubos OLAP
extensibles y personalizables que se basan en la infraestructura del
almacenamiento de datos. Estos cubos se almacenan en SQL Server Analysis
Services (SSAS). -Las herramientas de inteligencia empresarial de autoservicio,
como Excel y SQL Server Reporting Services (SSRS) pueden tener como
destino estos cubos en SSAS y se pueden utilizar para analizar los datos desde
varias perspectivas.
Las bases de datos que usa un negocio para almacenar todas sus
transacciones y registros se denominan bases de datos OLTP de
procesamiento de transacciones en línea (). Normalmente, estas bases de datos
tienen registros que se introducen uno a uno y que contienen una gran
cantidad de información, que los estrategas pueden utilizar para tomar
decisiones fundamentadas sobre sus negocios. Sin embargo, las bases de
datos que se utilizan para almacenar los datos no se diseñaron para el
análisis. Por lo tanto, obtener respuestas de estas bases de datos es costoso
en términos de tiempo y esfuerzo. Las bases de datos OLAP son bases de
datos especializadas, diseñadas para ayudar a extraer esta información de
inteligencia empresarial de los datos.
Los cubos OLAP se pueden considerar como la última pieza del rompecabezas
para una solución de almacenamiento de datos. Un cubo OLAP, también
conocido como cubo multidimensional o el hipercubo, es una estructura de
datos de SQL Server Analysis Services (SSAS) que se crea, mediante bases de
datos OLAP, para permitir el - análisis casi instantáneo de datos. La topología
de este sistema se muestra en la siguiente ilustración.

05 de noviembre de 2020 6
3.5 Herramientas para el análisis de los datos
1. Microsoft Power BI:
Power BI es la herramienta analítica de Microsoft y una de las más populares,
ya que ofrece visualizaciones interactivas de datos, así como una integración
sencilla con otras herramientas de la corporación. Además, Power BI puede
integrarse en aplicaciones de terceros mediante Power BI Embedded y permite
compartir reports y análisis de datos de forma muy segura. Puede conectarse
con más de 60 fuentes de datos, como Spark, Hadoop o SAP y es fácil de
utilizar incluso para usuarios sin conocimientos técnicos.

2. Programación en R:
Esta es una de las mejores herramientas analíticas disponibles en la industria
hoy en día. Se utiliza principalmente para el modelado de datos y estadísticas.
Esta herramienta es muy fácil de usar y hace posible y fácil manipular y
presentar los datos de muchas maneras. Supera a muchas otras herramientas
en términos de rendimiento, capacidad de datos y resultados. Funciona en
múltiples plataformas, incluyendo MacOS, Windows, UNIX, etc. Dependiendo de
los requerimientos, tiene más de 11.000 paquetes y se clasifican por categoría
y se instalan automáticamente.

3. SAS:
Esta herramienta fue desarrollada inicialmente en 1966 en el Instituto SAS, y
luego mejorada en los años 80 y 90, y es también una de las herramientas
líderes en análisis de datos. Es un lenguaje de programación que permite
manipular los datos fácilmente. Es muy manejable, accesible y tiene la
capacidad de analizar un dato independientemente de la fuente de datos. En
2011, SAS lanzó un conjunto de productos, para sus múltiples módulos SAS que
incluyen redes sociales, web, análisis de marketing, etc. Ahora se usa
ampliamente para hacer perfiles tanto de clientes como de prospectos y para
predecir sus comportamientos y optimizar la comunicación con ellos.

4. Python:
Se trata de una herramienta de open source y un lenguaje de scripts
orientado a los objetos y muy fácil de mantener, leer y escribir. Python fue
desarrollado a finales de los 80 por Guido van Rossum para soportar tanto

05 de noviembre de 2020 7
métodos de programación estructurados como funcionales. Aprender a usar
esta herramienta es muy fácil y tiene muchas similitudes con otros lenguajes
como Ruby, JavaScript y PHP. Tiene bibliotecas para el aprendizaje automático
y puede usarse en plataformas como JSON, base de datos MongoDB, servidor
SQL.

5. Excel:
Excel es una herramienta analítica muy popular y casi fundamental. Es una
herramienta bastante básica, aunque muy versátil y se utiliza en prácticamente
todas las industrias. No importa si eres experto en SAS, Tableau o
programación en R, o incluso si solo te dedicas a escribir ensayos
personalizados, necesitas aprender a usar Excel también. Esta herramienta
juega un gran papel cuando deben analizarse los datos internos de un
cliente. Aunque que es una herramienta básica, también tiene una opción
avanzada de business analytics para las capacidades de modelado con
opciones preconstruidas como la agrupación de tiempo, funciones DAX y
relación automática.

6. Tableau Public:
Tableau Public es un software gratuito que conecta diferentes fuentes de
datos, como Microsoft Excel, Data Warehouse, datos basados en la web, etc. y
crea dashboards, mapas y visualizaciones que tienen actualizaciones en
tiempo real desde la web. También puedes compartirlos con un cliente o a
través de los medios sociales. Una vez que tienes acceso, puedes descargar
diferentes formatos para un archivo. Para disfrutar típicamente de esta
herramienta y ver su poder, tu fuente de datos debe ser muy buena. La
capacidad de Big Data de esta herramienta la hace importante y el hecho de
que puedas analizar y visualizar los datos mucho mejor que otros programas
de visualización de datos les da una ventaja.

7. Rapid Miner:
Esta es una potente herramienta para el data science integrado. Fue
desarrollada por una compañía que también realiza análisis predictivos y
algunos análisis más avanzados como machine learning, análisis de texto,
análisis visual y minería de datos sin necesidad de programación. Esta
herramienta puede incorporarse a cualquier tipo de fuente de datos,
incluyendo Excel, Oracle, IBM SPSS, Teradata, Access, Microsoft SQL, Dbase,
Sybase, etc. Esta herramienta es capaz de generar análisis tomando como
base los ajustes de transformación de los datos de la vida real, lo que significa

05 de noviembre de 2020 8
que puede controlar los conjuntos de datos y los formatos para el análisis
predictivo.

8. Apache Spark:
Apache fue desarrollado en 2009 en el laboratorio de AMP de Berkeley en la
Universidad de California. Esta herramienta es un motor de procesamiento de
datos que funciona a gran escala y puede ejecutar aplicaciones que ya
están en clusters Hadoop más rápido (hasta 10 veces) en disco y hasta 100
veces más rápido si está en memoria. El concepto de esta herramienta hace
que la ciencia de los datos (en la que se basa) sea muy fácil. Es una
herramienta muy popular para el desarrollo de modelos de aprendizaje de
máquinas y pipelinesde datos. También tiene una biblioteca llamada MLib, de
donde se pueden obtener técnicas para data sciencerepetitivo como el
filtrado de colaboración, regresión, clasificación, etc. a partir de un conjunto
avanzado de algoritmos.

9. Qlik View:
Esta herramienta tiene una serie de características únicas, algunas de las
cuales son el procesamiento de datos en memoria y la tecnología patentada
para ayudarle a ejecutar su resultado rápidamente y almacenar todos los
datos que están presentes en el informe. Esta herramienta mantiene
automáticamente la asociación de datos y puede comprimirlos a sólo el 10%
del tamaño inicial. Visualiza la relación de los datos con los colores, con un
color dado a los datos relacionados y otro a los datos no relacionados.

05 de noviembre de 2020 9
3.6 Almacenamiento de cubos:
Puede que el almacenamiento solamente incluya metadatos del cubo o puede
que incluya todos los datos de origen de la tabla de hechos y las
agregaciones definidas por dimensiones relacionadas con el grupo de medida.
La cantidad de datos almacenados varía en función del modo de
almacenamiento seleccionado y el número de agregaciones. La cantidad de
datos almacenados afecta directamente al rendimiento de las consultas.
MicrosoftSQL Server Analysis Services usa varias técnicas para minimizar el
espacio necesario para el almacenamiento de los datos y las agregaciones
de los cubos:
• Las opciones de almacenamiento permiten seleccionar las ubicaciones y
los modos de almacenamiento más adecuados a los datos del cubo.
• Un sofisticado algoritmo diseña eficientes agregaciones de resumen
para minimizar el almacenamiento sin que se pierda velocidad.
• No se asigna almacenamiento a las celdas vacías.

El almacenamiento se define de partición en partición, existiendo al menos una


partición para cada grupo de medida de un cubo. Para obtener más
información, vea particiones (Analysis Services de datos multidimensionales),
modos de almacenamiento de particiones y procesamiento, medidas y grupos
de medida, y crear medidas y grupos de medida en modelos
multidimensionales.

05 de noviembre de 2020 10
3.7 Procesamiento de cubos:
Cuando se procesan Dimensiones o cubos se están actualizando los datos, las
estructuras multidimensionales o ambas cosas.

Esta definición debe considerar los siguientes factores:


• Modo de almacenamiento que escogimos (MOLAP-ROLAP-HOLAP),
• Tamaño de la tabla de hechos (cantidad de registros)
• Numero de dimensiones del modelo
• Porcentaje de agregaciones

Para determinar la frecuencia con que procesaremos el cubo debemos tener


en cuenta lo analizado con el cliente respecto de la granularidad de los
datos para el tiempo. EL nivel de detalle (día, mes, etcétera) nos fijará la
periodicidad de actualización de los datos.
A diferencia de los sistemas OLTP en los que la actualización de los datos se
realiza en línea con las transacciones y la agregación de los datos se realiza
en el momento en que el usuario realiza una consulta, en OLAP el
procesamiento de los cubos se realiza a contra turno, en los horarios en que
no se afecta la tarea de los usuarios.

Conclusión:
En conclusión puedo decir que el crear bases de datos multidimensionales son
complejas pero tiene una mejor estructura que los OLTP puesto que permite
dar una mejor información cuando se requiere, a menos para mí este tipo de
bases de datos me permite tener una mejor visibilidad de los datos.

Además de que hay que saber qué es lo que realmente se desea conocer
para poder crear un cubo y además como mostrar la información a través de
una aplicación de escritorio o Web.

Estos cubos de datos, así como también la herramienta de Analysis Services nos
permiten administrar mejor toda esa información.

Y pues yo les recomendaría antes de querer hacer un cubo de datos realicen


un buen diseño de la base de datos.

05 de noviembre de 2020 11

También podría gustarte