1.1.1.PPT - Introducción A Big Data

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 21

Big Data

BDY7101
Introducción
a Big Data
Introducción a Big Data

Visión General
En esta clase aprenderás:
✓ Qué es el Big Data.
✓ Por qué se necesita Hadoop.
✓ Qué problemas resuelve Hadoop.
✓ Qué comprende Hadoop y su ecosistema.
Introducción a Big Data

El diluvio de datos
Estamos generando más datos que nunca:
– Transacciones financieras.
– Redes de sensores.
– Registros del servidor.
– Analy@cs.
– Correo electrónico y mensajes de texto.
– Medios de comunicación social.
Introducción a Big Data
Introducción a Big Data

El diluvio de datos
Y estamos generando datos más rápido que nunca:
– Automa@zación.
– Conexión a Internet ubicua.
– Contenido generado por el usuario.

Por ejemplo, todos los días:


– TwiIer procesa 500 millones de mensajes.
– Los usuarios de Facebook generan 4.5 mil millones de comentarios y "Me gusta".
Introducción a Big Data

Los datos son el valor


Este dato ?ene muchas aplicaciones valiosas.
– Análisis de Marke@ng.
– Recomendaciones de productos.
– Pronós@cos de demanda.
– Detección de fraude.
– Y muchos más...

Hay que procesarlos para extraer ese valor.


Introducción a Big Data

Escalabilidad de procesamiento de datos


¿Cómo podemos procesar toda esa información?

En realidad hay dos problemas.


– Almacenamiento de datos a gran escala.
– Análisis de datos a gran escala.
Introducción a Big Data

Capacidad de disco y precio


Estamos generando más datos que nunca.

Afortunadamente, el tamaño y el costo de almacenamiento han mantenido el


ritmo.
– La capacidad ha aumentado mientras que el precio ha disminuido.
Introducción a Big Data

Capacidad de disco y rendimiento


El rendimiento del disco también ha aumentado en los úl?mos 15 años.

Desafortunadamente, las tasas de transferencia no han seguido el ritmo de la


capacidad.
Introducción a Big Data

El acceso a los datos es el cuello de botella


Aunque podemos procesar los datos más rápidamente, el acceso es lento.
– Esto es cierto tanto para lecturas como para escrituras.

Por ejemplo, la lectura de un solo disco de 3TB toma casi cuatro horas.
– No podemos procesar los datos hasta que los hayamos leído.
– Estamos limitados por la velocidad de un solo disco.

Veremos la solución de Hadoop más adelante.


– Pero primero examinaremos cómo procesamos grandes can@dades de datos.
Introducción a Big Data

Computación monolí?ca
Tradicionalmente, el cálculo ha sido vinculado al procesador.
– Procesamiento intenso sobre pequeñas can@dades de datos.

Durante décadas, el obje?vo era una máquina más grande y más poderosa.
– Procesador más rápido, más memoria RAM.

Este enfoque ?ene limitaciones.


– Alto costo.
– Escalabilidad limitada.
Introducción a Big Data

El caso de los sistemas distribuidos


Introducción a Big Data

Computación distribuida
El procesamiento moderno a gran escala se distribuye entre las máquinas.
– A menudo cientos o miles de nodos.
– Los marcos comunes incluyen MPI, PVM y Condor.

Se centra en la distribución de la carga de trabajo de procesamiento.


– Poderosos nodos de cómputo.
– Sistemas separados para almacenamiento de datos.
– Conexiones de red rápidas para conectarlas.
Introducción a Big Data

Modelo de procesamiento de computación distribuida


Modelo Vpico de procesamiento.
– Paso 1: Copie los datos de entrada del almacenamiento al nodo de cómputo.
– Paso 2: Realizar el procesamiento necesario.
– Paso 3: Copie los datos de salida de nuevo al almacenamiento.

Esto funciona bien con can?dades rela?vamente pequeñas de datos.


– Es decir, donde el paso 2 domina la ejecución global.
Introducción a Big Data

Procesamiento de datos, “el cuello de botella”


Ese modelo no se escala con grandes can?dades de datos.
– Más @empo inver@do en copiar datos que en procesarlos.
– Llevar datos a los procesadores es el cuello de botella.

Crece peor a medida que se agregan más nodos de cómputo.


– Están compi@endo por el mismo ancho de banda.
– Los nodos de cómputo se hacen hambrientos de datos.
Introducción a Big Data

Complejidad de la computación distribuida


Los sistemas distribuidos pagan por la escalabilidad agregando complejidad.

Gran parte de esta complejidad implica.


– Disponibilidad
– Consistencia de los datos
– sincronización de eventos
– Limitaciones de ancho de banda
– Fallo parcial
– Fallos en cascada

Estos son a menudo más diYciles que el problema original.


– El manejo de errores a menudo representa la mayoría del código.
Introducción a Big Data

Requisitos del sistema: manejo de fallas


La falla es inevitable.
– Debemos esforzarnos por manejarla bien.

Una solución ideal debe tener (al menos) estas funciones adecuadas.

Propiedades de manejo de fallas de un sistema distribuido ideal:


Introducción a Big Data

Más requisitos del sistema


Escalabilidad horizontal lineal
– Agregar nuevos nodos debería agregar capacidad de carga proporcional.
– Evite la contención usando una arquitectura de "nada compar@do”.
– Debe ser capaz de expandir el cluster a un costo razonable.

Trabajos ejecutados en aislamiento rela?vo.


– Los resultados deben ser independientes de otros trabajos que se ejecuten
simultáneamente.
– Aunque el rendimiento puede verse afectado por otros trabajos.

Modelo de programación simple.


– Debe apoyar un lenguaje ampliamente u@lizado.
– La API debe ser rela@vamente fácil de aprender.

Hadoop aborda estos requisitos.


Introducción a Big Data

Hadoop: una solución radical


La computación distribuida tradicional frecuentemente involucra:
– Programación compleja que requiere sincronización explícita.
– Hardware costoso y especializado tolerante a fallas.
– Sistemas de almacenamiento de alto rendimiento con redundancia incorporada.

Hadoop toma un enfoque radicalmente diferente.


– Inspirado en la arquitectura GFS y MapReduce de Google.
– Este nuevo enfoque aborda los problemas descritos anteriormente.
Introducción a Big Data

Puntos Esenciales
✓ Hoy estamos generando más datos que nunca.
✓ La computación monolí@ca es limitada, mientras que el procesamiento distribuido
puede escalar de manera más rápida.

También podría gustarte