Práctica #2 - Mineria de Datos PDF

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 8

EBD I

Práctica #2 – Estructura de Bases de Datos I

Minería de
Datos
Sustentante: Miguel Alcibíades Sánchez.
EBD I

ÍNDICE
1. ¿Qué es minería de datos? ................................................................................................... 3
2. Características....................................................................................................................... 3
3. Tipo de herramientas que utiliza. ........................................................................................ 3
- Clementine de SPSS. ......................................................................................................... 3
- YALE................................................................................................................................... 3
- WEKA................................................................................................................................. 4
- RAMSES. ............................................................................................................................ 4
- SAS Enterprise Miner. ....................................................................................................... 4
4. ¿Qué es data warehouse? .................................................................................................... 4
5. Diga con un ejemplo, qué beneficio o beneficios encuentra utilizar minería de datos. .... 5
Big Data ......................................................................................................................................... 5
1. Manejo de la data. ................................................................................................................ 5
2. Características....................................................................................................................... 5
- Volumen de información. ................................................................................................. 5
- Velocidad de datos. .......................................................................................................... 5
- Variedad de los datos. ...................................................................................................... 5
- Veracidad de los datos. .................................................................................................... 5
- Viabilidad. ......................................................................................................................... 6
- Visualización de los datos. ............................................................................................... 6
- Valor de los datos. ............................................................................................................ 6
3. Tipos de almacenes. ............................................................................................................. 6
4. Componentes de una plataforma Big Data. ........................................................................ 6
- Hadoop Distributed File System (HDFS). ......................................................................... 6
- Hadoop MapReduce. ........................................................................................................ 6
- Hadoop Common. ............................................................................................................. 6
- Avro. .............................................................................................................................. 6
- Casssandra. ................................................................................................................... 7
- Chukwa. ........................................................................................................................ 7
- Flume. ........................................................................................................................... 7
- HBase. ........................................................................................................................... 7
- Hive. .............................................................................................................................. 7
- Jaql. ............................................................................................................................... 7
Bibliografía: ................................................................................................................................... 8
EBD I

1. ¿Qué es minería de datos?


El datamining (minería de datos), es el conjunto de técnicas y tecnologías que
permiten explorar grandes bases de datos, de manera automática o semiautomática,
con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el
comportamiento de los datos en un determinado contexto.

2. Características.
- La minería de datos auxilia los usuarios empresariales en el procesamiento de
reservas de datos para descubrir relaciones de las que, en algunos casos,
anteriormente ni siquiera se sospechaban.
- La información obtenida a través de la minería de datos ayuda a los usuarios a
elegir cursos de acción y a definir estrategias competitivas, porque conocen
información que sólo ellos pueden emplear.
- Los seres humanos tienen la capacidad para percibir excepciones y
anormalidades rápidamente pero no tienen la habilidad para inferir en grandes
volúmenes de datos, por lo que la minería de datos, mediante modelos
avanzados y reglas de inducción, puede examinar gran cantidad de datos y
encontrar patrones difíciles de identificar a simple vista.
- Puede trabajar siguiendo los mismos criterios con grandes cantidades de
información histórica.
- El proceso de búsqueda puede ser realizado por herramientas que
automáticamente buscan patrones porque así están programadas y despliegan
los tópicos más importantes.

3. Tipo de herramientas que utiliza.


Las herramientas de minería de datos empleadas en el proceso de extracción de
conocimiento se pueden clasificar en dos grandes grupos: Técnicas de verificación, en
las que el sistema se limita a comprobar hipótesis suministrada por el usuario. Método
de descubrimiento, en los que se han de encontrar patrones potencialmente
interesantes de forma automática, incluyendo en este grupo todas las técnicas de
predicción. Las más populares de estas herramientas son:
- Clementine de SPSS. Se centra en la integración de datamining con otros
procesos y sistemas de negocio que ayuden a entregar inteligencia predictiva
en un tiempo eficiente durante las operaciones de negocio diarias. La
funcionalidad abierta de datamining en bases de datos que posee Clementine
permite que muchos de los procesos de datamining se realicen en entornos
que mejoran tanto el rendimiento como el despliegue de los resultados de
datamining.
- YALE. Es una herramienta creada en la universidad de Dortmund bastante
flexible para el descubrimiento del conocimiento y la minería de datos. Puesto
que YALE está escrito enteramente en Java, funciona en las plataformas o
EBD I

sistemas operativos más conocidos. Es un software de código abierto GNU y


con licencia GPL.
- WEKA. Es de libre distribución (licencia GPL) y destacada por la cantidad de
algoritmos que presenta así como por la eficiencia de los mismos, por los
generadores de reglas, está desarrollada por miembros de la Universidad de
Waikato, ella proporciona gran cantidad de herramientas para la realización de
tareas propias de minería de datos, la visualización y permite la programación
en JAVA de algoritmos más sofisticados para análisis de datos y modelado
predicativo, unidos a una interfaz gráfica de usuario para acceder fácilmente a
sus funcionalidades.
- RAMSES. (Sistema de Gestión de Selección y Evaluación de Análisis de Riesgo -
Risk Analysis Management Selection & Evaluation System) es un programa de
gestión de riesgos integrado en el sistema de proceso de datos de Bureau
Veritas. El programa recopila todos los datos correspondientes a las
operaciones de comercio internacional y está interconectado con la aplicación
de minería de datos Angoss® Knowledge Studio.
- SAS Enterprise Miner. Es una solución de minería de datos que permite
incorporar patrones inteligentes a los procesos de marketing, tanto operativos
como estratégicos. El software de SAS, es un sistema de entrega de
información que provee acceso transparente a cualquier fuente de datos,
incluyendo archivos planos, archivos jerárquicos, y los más importantes
manejadores de bases de datos relacionales. También incluye su propia base de
datos de información para almacenar y manejar los datos, es decir, un "data
warehouse".

4. ¿Qué es data warehouse?


Un Datawarehouse es una base de datos corporativa que se caracteriza por integrar y
depurar información de una o más fuentes distintas, para luego procesarla
permitiendo su análisis desde infinidad de perspectivas y con grandes velocidades de
respuesta. La creación de un datawarehouse representa en la mayoría de las ocasiones
el primer paso, desde el punto de vista técnico, para implantar una solución completa
y fiable de Business Intelligence.
La ventaja principal de este tipo de bases de datos radica en las estructuras en las que
se almacena la información (modelos de tablas en estrella, en copo de nieve, cubos
relacionales, etcétera). Este tipo de persistencia de la información es homogénea y
fiable, y permite la consulta y el tratamiento jerarquizado de la misma (siempre en un
entorno diferente a los sistemas operacionales).
EBD I

5. Diga con un ejemplo, qué beneficio o beneficios encuentra utilizar minería de


datos.
Las tiendas online: el e-commerce es uno de los grandes beneficiados del uso de
técnicas de minería de datos. Por una parte, datamining permite aumentar la eficiencia
en relación a los contenidos que se publican en la web y la forma de hacerlo. Por otra,
se centra en la forma en que los usuarios llegan al sitio online, la forma de navegar por
él y el momento en que se toma la decisión de abandonar la página. Con todos estos
datos se tiene una imagen más clara de qué información compartir y cómo hacerlo
para conectar mejor con los clientes potenciales, aumentando el poder de atracción a
nuevos usuarios y garantizando una experiencia satisfactoria a todos los niveles.

Big Data

1. Manejo de la data.
Cuando hablamos de Big Data nos referimos a conjuntos de datos o combinaciones de
conjuntos de datos cuyo tamaño (volumen), complejidad (variabilidad) y velocidad de
crecimiento (velocidad) dificultan su captura, gestión, procesamiento o análisis
mediante tecnologías y herramientas convencionales, tales como bases de
datos relacionales y estadísticas convencionales o paquetes de visualización, dentro
del tiempo necesario para que sean útiles.

La naturaleza compleja del Big Data se debe principalmente a la naturaleza no


estructurada de gran parte de los datos generados por las tecnologías modernas, como
los web logs, la identificación por radiofrecuencia (RFID), los sensores incorporados en
dispositivos, la maquinaria, los vehículos, las búsquedas en Internet, las redes sociales
como Facebook, computadoras portátiles, teléfonos inteligentes y otros teléfonos
móviles, dispositivos GPS y registros de centros de llamadas.

En la mayoría de los casos, con el fin de utilizar eficazmente el Big Data, debe
combinarse con datos estructurados (normalmente de una base de datos relacional)
de una aplicación comercial más convencional, como un ERP (Enterprise Resource
Planning) o un CRM (Customer Relationship Management).

2. Características.

- Volumen de información. Cantidad de datos que son generados y se


almacenan con la finalidad de procesarlos para transformar los datos en
acciones.
- Velocidad de datos. Es la rapidez en la que los datos son creados, almacenados
y procesados en tiempo real.
- Variedad de los datos. Formas, tipos y fuentes en las que se registran los datos:
documentos de texto, correos electrónicos, audios, videos o imágenes que
tenemos en nuestro dispositivo móvil, perfiles de redes sociales, etcétera.
- Veracidad de los datos. Es la incertidumbre de los datos, es decir, el grado de
fiabilidad de la información recibida.
EBD I

- Viabilidad. Capacidad que tienen las compañías en generar un uso eficaz del
gran volumen de datos que manejan.
- Visualización de los datos. Modo en el que los datos son presentados para
encontrar patrones y claves ocultas en el tema a investigar.
- Valor de los datos. Datos que se transforman en información; este a su vez se
convierte en conocimiento, y este en acción o decisión.

3. Tipos de almacenes.
El concepto de almacenamiento por niveles es clave, ya que significa que será posible
segregar los datos por clases, y cada clase tendrá un cierto nivel de importancia
estratégica para la empresa. Asigna datos a dos o más tipos de medios de
almacenamiento según el valor comercial que tengan.
Este tipo de estrategia en el campo del big data implica dividir el flujo de datos en
categorías dependiendo de su importancia, como hemos dicho, y asignar una
tecnología de almacenamiento (estado sólido, discos duros
tradicionales, almacenamiento en la nube o almacenamiento en cinta). Dependerá de
cómo se clasifiquen los datos y cuántos niveles estén previstos para decidir cuántos
tipos de almacenamiento hay que configurar.

4. Componentes de una plataforma Big Data.

- Hadoop Distributed File System (HDFS). Los datos en el clúster de Hadoop son
divididos en pequeñas piezas llamadas bloques y distribuidas a través del
clúster; de esta manera, las funciones map y reduce pueden ser ejecutadas en
pequeños subconjuntos y esto provee de la escalabilidad necesaria para el
procesamiento de grandes volúmenes.

- Hadoop MapReduce. MapReduce es el núcleo de Hadoop. El término


MapReduce en realidad se refiere a dos procesos separados que Hadoop
ejecuta. El primer proceso map, el cual toma un conjunto de datos y lo
convierte en otro conjunto, donde los elementos individuales son separados
en tuplas (pares de llave/valor). El proceso reduce obtiene la salida
de map como datos de entrada y combina las tuplas en un conjunto más
pequeño de las mismas.

- Hadoop Common. Hadoop Common Components son un conjunto de librerías


que soportan varios subproyectos de Hadoop.

Además de estos tres componentes principales de Hadoop, existen otros proyectos


relacionados los cuales son:
- Avro. Es un proyecto de Apache que provee servicios de serialización. Cuando
se guardan datos en un archivo, el esquema que define ese archivo es
guardado dentro del mismo; de este modo es más sencillo para cualquier
EBD I

aplicación leerlo posteriormente puesto que el esquema está definido dentro


del archivo.

- Casssandra. Es una base de datos no relacional distribuida y basada en un


modelo de almacenamiento de <clave-valor>, desarrollada en Java. Permite
grandes volúmenes de datos en forma distribuida.

- Chukwa. Diseñado para la colección y análisis a gran escala de "logs". Incluye


un toolkit para desplegar los resultados del análisis y monitoreo.

- Flume. Tal como su nombre lo indica, su tarea principal es dirigir los datos de
una fuente hacia alguna otra localidad, en este caso hacia el ambiente de
Hadoop.

- HBase. Es una base de datos columnar (column-oriented database) que se


ejecuta en HDFS. HBase no soporta SQL, de hecho, HBase no es una base de
datos relacional. Cada tabla contiene filas y columnas como una base de datos
relacional. HBase permite que muchos atributos sean agrupados
llamándolos familias de columnas, de tal manera que los elementos de una
familia de columnas son almacenados en un solo conjunto.

- Hive. Es una infraestructura de data warehouse que facilita administrar grandes


conjuntos de datos que se encuentran almacenados en un ambiente
distribuido. Hive tiene definido un lenguaje similar a SQL llamado Hive Query
Language (HQL), estas sentencias HQL son separadas por un servicio de Hive y
son enviadas a procesos MapReduce ejecutados en el clúster de Hadoop.

- Jaql. Query Language for Javascript Object Notation (JSON) es un lenguaje


funcional y declarativo que permite la explotación de datos en formato JSON
diseñado para procesar grandes volúmenes de información. Internamente el
motor de Jaql transforma el query en procesos map y reduce para reducir el
tiempo de desarrollo asociado en analizar los datos en Hadoop.

- Lucene. Lucene provee de librerías para indexación y búsqueda de texto. Ha


sido principalmente utilizado en la implementación de motores de búsqueda,
básicamente los documentos (document) son divididos en campos de texto
(fields) y se genera un índice sobre estos campos de texto.

- Oozie. Oozie es un proyecto de código abierto que simplifica los flujos de


trabajo y la coordinación entre cada uno de los procesos. Permite que el
usuario pueda definir acciones y las dependencias entre dichas acciones.
EBD I

Bibliografía:

- Anónimo (año desconocido): "Datamining (Minería de datos)". Disponible en:


https://www.sinnexus.com/business_intelligence/datamining.aspx
- Ángeles, María & Santillán, Angélica (año desconocido): "Minería de datos: Concepto,
características, estructura y aplicaciones". Disponible en:
https://lihectortorres.files.wordpress.com/2011/04/mineria_de_datos.pdf
- Surárez, Yuniet & Amador, Anolandy (2009): "Herramientas de Minería de Datos -
Data Mining Tools". Disponible en: https://rcci.uci.cu/?journal=rcci&page=index
- Anónimo (año desconocido): "Datawarehouse". Disponible en:
https://www.sinnexus.com/business_intelligence/datawarehouse.aspx
- Captio (2016): "Beneficios de la minería de datos en las ventas". Disponible en:
https://www.captio.net/blog/beneficios-de-la-mineria-de-datos-en-las-ventas
- Anónimo (año desconocido): "BigData: "¿En qué consiste? Su importancia, desafíos y
gobernabilidad". Disponible en: https://www.powerdata.es/big-data
- Anónimo (2016): "¿Cuáles son las características del BigData?". Disponible en:
https://www.masquenegocio.com/2016/11/26/caracteristicas-big-
data/#:~:text=El%20Big%20Data%20se%20puede,%3A%20viabilidad%2C%20visualizaci
%C3%B3n%20y%20valor.
- Anónimo (2018): "Big Data: ventajas del almacenamiento de datos por niveles".
Disponible en: https://www.t-systemsblog.es/big-data-almacenamiento-datos-niveles/

También podría gustarte