Clase 03 Arquitecturas y Herramientas de Big Data

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 39

Arquitecturas y herramientas de

Big Data
Prof. M.Sc. Neptalí Menejes Palomino
Datos masivos…
¿Qué hacemos
con tantos datos?
Crecimiento explosivo
¡¡ZettaBytes!!

Zettabytes:
10^21 bytes
Unidades de información
● Kilobyte = 10^3 = 1.000
● Megabyte = 10^6 = 1.000.000
● Gigabyte = 10^9 = 1.000.000.000
● Terabyte = 10^12 = 1.000.000.000.000
● Petabyte = 10^15 = 1.000.000.000.000.000
● Exabyte = 10^18 = 1.000.000.000.000.000.000
● Zettabyte = 10^21
● Yottabyte = 10^24
¿Qué es Big Data?
● Big data es una colección de datos grande,
complejos, muy difícil de procesar a través
de herramientas de gestión y
procesamiento de datos tradicionales.
● “Big Data” son datos cuyo volumen,
diversidad y complejidad requieren nueva
arquitectura, técnicas, algoritmos y análisis
para gestionar y extraer valor y
conocimiento oculto en ellos ...
¿Qué es Big Data?

Big data es cualquier característica sobre los


datos que represente un reto para las
capacidades de un sistema.
¿Pero de dónde vienen todos estos datos?
● Producidos por personas
○ Mandar un email, escribir un comentario en Facebook, contestar a una encuesta telefónica,
ingresar información en una hoja de cálculo, responder a un WhatsApp, hacer clic en un enlace
de Internet…
● Entre máquinas
○ Lo que se conoce igualmente como M2M. Así, los termómetros, parquímetros y sistemas de
riego automático de las ciudades, los GPS de vehículos y teléfonos móviles, el Wifi, el ADSL, la
fibra óptica y el Bluetooth...
● Biométricos
○ Artefactos como sensores de huellas dactilares, escáneres de retina, lectores de ADN,
sensores de reconocimiento facial o reconocimiento de voz.
● Marketing o transaccionales
○ Nuestros movimientos en la Red están sujetos a todo tipo de mediciones que tienen como
objeto estudios de marketing y análisis de comportamiento. Asimismo, el traspaso de dinero de
una cuenta bancaria a otra, la reserva de un billete de avión o añadir un artículo a un carrito de
compra virtual de un portal de comercio electrónico, serían algunos ejemplos.
Casos de uso frecuentes
Casos de uso en la administración pública
● IMM - Movilidad y Transporte
○ Mediante IoT/Big data desarrollaron la Matriz Origen Destino (MOD) para el transporte público
de Montevideo, herramienta clave para la planificación y gestión del transporte.
○ Mediante analítica predictiva determinaron indicadores claves como el porcentaje de
ocupación de autobuses para diferentes líneas y horarios, control horario de flota, cantidad
de pasajeros que suben por parada, entre otros
● IMM - Turismo
○ Utilizan Big Data como herramienta para conocer los principales mercados emisores,
preferencias y comportamiento de los visitantes. Esto ayuda a identificar y segmentar mejor
los perfiles de visitantes que componen la demanda.
○ Con Big Data se podrá mejorar el servicio que ofrece a sus visitantes.
● Cuenca Inteligente - Río Santa Lucía
○ Monitoreo de parámetros medioambientales de la cuenca del río Santa Lucía, con información
online e histórica generada por diferentes organismos del Estado (MVOTMA MGAP, MIEM,
InUMet OSE y Antel)
El ciclo del Big data
Arquitectura referencia
Arquitectura referencia
Arquitectura referencia
Arquitectura referencia
Arquitectura referencia
Arquitectura referencia
Arquitectura referencia
Arquitectura referencia
Arquitectura referencia
Arquitectura referencia
Herramientas

¡Tecnología
disponible y open
source ! ¿qué más
pedir?
Apache Hadoop
● La tecnología es open source y está al alcance de la mano de cualquier
organización.
● Creado por Doug Cutting (chairman of board of directors of the Apache
Software Foundation, 2010)
Apache Hadoop
Apache Hadoop
Consta de dos servicios principales:

● Almacenamiento: HDFS.
● Procesamiento: MapReduce.

Aporta una serie de ventajas:

● Bajo coste: clústeres baratos / cloud.


● Facilidad de uso.
● Tolerancia a fallos.
Hadoop CORE = Almacenamiento + Cómputo

● HDFS
○ Sistema de
almacenamiento
distribuido
● YARN
○ Administrador de recursos
del cluster
Arquitectura de HDFS
Arquitectura de YARN
● Muchas aplicaciones, una
sola plataforma
● Soporta acceso y
procesamiento multi-tenant
● Cada nodo procesa los
bloques locales
● Batch y real time
Apache Spark
● Entorno de trabajo (gestión de ejecución, API) genérico y rápido (hasta 100
veces más que Hadoop) para procesamiento de datos masivos
● Centrado en una estructura de datos distribuida denominada “Resilient
Distributed Dataset” (RDD)
● Desarrollado en Scala. Interfaces en Scala, Java, Python, …
Apache Spark
● Big Data “in-memory”. Spark permite realizar trabajos paralelizados
totalmente en memoria:
○ Reducción de tiempos
○ Procesos iterativos
● Esquema de computación más flexible que MapReduce.
○ Permite la flujos acíclicos de procesamiento de datos
Cloud Computing
● Modelo de prestación de servicios de negocio y tecnología, que permite al
usuario acceder a un catálogo de servicios estandarizado y responder a las
necesidades del negocio, de forma flexible y adaptativa, […] pagando
únicamente por el consumo efectuado.
● El usuario tiene la ilusión de estar utilizando un ordenador virtual con
recursos ilimitados
Paralelismo…

¡ Distribuir para
maximizar la
eficiencia!
Procesamiento en paralelo con datos distribuidos
● MapReduce
Ejemplo MapReduce : Contar palabras
Ejemplo MapReduce : Contar palabras
Ejemplo MapReduce : Contar palabras
Ejemplo MapReduce : Contar palabras
Ejemplo MapReduce : Contar palabras

También podría gustarte