Práctica #2 - Mineria de Datos PDF
Práctica #2 - Mineria de Datos PDF
Práctica #2 - Mineria de Datos PDF
Minería de
Datos
Sustentante: Miguel Alcibíades Sánchez.
EBD I
ÍNDICE
1. ¿Qué es minería de datos? ................................................................................................... 3
2. Características....................................................................................................................... 3
3. Tipo de herramientas que utiliza. ........................................................................................ 3
- Clementine de SPSS. ......................................................................................................... 3
- YALE................................................................................................................................... 3
- WEKA................................................................................................................................. 4
- RAMSES. ............................................................................................................................ 4
- SAS Enterprise Miner. ....................................................................................................... 4
4. ¿Qué es data warehouse? .................................................................................................... 4
5. Diga con un ejemplo, qué beneficio o beneficios encuentra utilizar minería de datos. .... 5
Big Data ......................................................................................................................................... 5
1. Manejo de la data. ................................................................................................................ 5
2. Características....................................................................................................................... 5
- Volumen de información. ................................................................................................. 5
- Velocidad de datos. .......................................................................................................... 5
- Variedad de los datos. ...................................................................................................... 5
- Veracidad de los datos. .................................................................................................... 5
- Viabilidad. ......................................................................................................................... 6
- Visualización de los datos. ............................................................................................... 6
- Valor de los datos. ............................................................................................................ 6
3. Tipos de almacenes. ............................................................................................................. 6
4. Componentes de una plataforma Big Data. ........................................................................ 6
- Hadoop Distributed File System (HDFS). ......................................................................... 6
- Hadoop MapReduce. ........................................................................................................ 6
- Hadoop Common. ............................................................................................................. 6
- Avro. .............................................................................................................................. 6
- Casssandra. ................................................................................................................... 7
- Chukwa. ........................................................................................................................ 7
- Flume. ........................................................................................................................... 7
- HBase. ........................................................................................................................... 7
- Hive. .............................................................................................................................. 7
- Jaql. ............................................................................................................................... 7
Bibliografía: ................................................................................................................................... 8
EBD I
2. Características.
- La minería de datos auxilia los usuarios empresariales en el procesamiento de
reservas de datos para descubrir relaciones de las que, en algunos casos,
anteriormente ni siquiera se sospechaban.
- La información obtenida a través de la minería de datos ayuda a los usuarios a
elegir cursos de acción y a definir estrategias competitivas, porque conocen
información que sólo ellos pueden emplear.
- Los seres humanos tienen la capacidad para percibir excepciones y
anormalidades rápidamente pero no tienen la habilidad para inferir en grandes
volúmenes de datos, por lo que la minería de datos, mediante modelos
avanzados y reglas de inducción, puede examinar gran cantidad de datos y
encontrar patrones difíciles de identificar a simple vista.
- Puede trabajar siguiendo los mismos criterios con grandes cantidades de
información histórica.
- El proceso de búsqueda puede ser realizado por herramientas que
automáticamente buscan patrones porque así están programadas y despliegan
los tópicos más importantes.
Big Data
1. Manejo de la data.
Cuando hablamos de Big Data nos referimos a conjuntos de datos o combinaciones de
conjuntos de datos cuyo tamaño (volumen), complejidad (variabilidad) y velocidad de
crecimiento (velocidad) dificultan su captura, gestión, procesamiento o análisis
mediante tecnologías y herramientas convencionales, tales como bases de
datos relacionales y estadísticas convencionales o paquetes de visualización, dentro
del tiempo necesario para que sean útiles.
En la mayoría de los casos, con el fin de utilizar eficazmente el Big Data, debe
combinarse con datos estructurados (normalmente de una base de datos relacional)
de una aplicación comercial más convencional, como un ERP (Enterprise Resource
Planning) o un CRM (Customer Relationship Management).
2. Características.
- Viabilidad. Capacidad que tienen las compañías en generar un uso eficaz del
gran volumen de datos que manejan.
- Visualización de los datos. Modo en el que los datos son presentados para
encontrar patrones y claves ocultas en el tema a investigar.
- Valor de los datos. Datos que se transforman en información; este a su vez se
convierte en conocimiento, y este en acción o decisión.
3. Tipos de almacenes.
El concepto de almacenamiento por niveles es clave, ya que significa que será posible
segregar los datos por clases, y cada clase tendrá un cierto nivel de importancia
estratégica para la empresa. Asigna datos a dos o más tipos de medios de
almacenamiento según el valor comercial que tengan.
Este tipo de estrategia en el campo del big data implica dividir el flujo de datos en
categorías dependiendo de su importancia, como hemos dicho, y asignar una
tecnología de almacenamiento (estado sólido, discos duros
tradicionales, almacenamiento en la nube o almacenamiento en cinta). Dependerá de
cómo se clasifiquen los datos y cuántos niveles estén previstos para decidir cuántos
tipos de almacenamiento hay que configurar.
- Hadoop Distributed File System (HDFS). Los datos en el clúster de Hadoop son
divididos en pequeñas piezas llamadas bloques y distribuidas a través del
clúster; de esta manera, las funciones map y reduce pueden ser ejecutadas en
pequeños subconjuntos y esto provee de la escalabilidad necesaria para el
procesamiento de grandes volúmenes.
- Flume. Tal como su nombre lo indica, su tarea principal es dirigir los datos de
una fuente hacia alguna otra localidad, en este caso hacia el ambiente de
Hadoop.
Bibliografía: