1.1.1.PPT - Introducción A Big Data

Big Data
BDY7101
Introducción
a Big Data
Introducción a Big Data
Visión General
En esta clase aprenderás:
✓ Qué es el Big Data.
✓ Por qué se necesita Hadoop.
✓ Qué problemas resuelve Hadoop.
✓ Qué comprende Hadoop y su ecosistema.
El diluvio de datos
Estamos generando más datos que nunca:
– Transacciones ﬁnancieras.
– Redes de sensores.
– Registros del servidor.
– Analy@cs.
– Correo electrónico y mensajes de texto.
– Medios de comunicación social.
El diluvio de datos
Y estamos generando datos más rápido que nunca:
– Automa@zación.
– Conexión a Internet ubicua.
– Contenido generado por el usuario.
Por ejemplo, todos los días:

– TwiIer procesa 500 millones de mensajes.
– Los usuarios de Facebook generan 4.5 mil millones de comentarios y "Me gusta".
Los datos son el valor

Este dato ?ene muchas aplicaciones valiosas.
– Análisis de Marke@ng.
– Recomendaciones de productos.
– Pronós@cos de demanda.
– Detección de fraude.
– Y muchos más...
Hay que procesarlos para extraer ese valor.

Escalabilidad de procesamiento de datos

¿Cómo podemos procesar toda esa información?
En realidad hay dos problemas.

– Almacenamiento de datos a gran escala.
– Análisis de datos a gran escala.
Capacidad de disco y precio

Estamos generando más datos que nunca.
Afortunadamente, el tamaño y el costo de almacenamiento han mantenido el

ritmo.
– La capacidad ha aumentado mientras que el precio ha disminuido.
Capacidad de disco y rendimiento

El rendimiento del disco también ha aumentado en los úl?mos 15 años.
Desafortunadamente, las tasas de transferencia no han seguido el ritmo de la

capacidad.
El acceso a los datos es el cuello de botella

Aunque podemos procesar los datos más rápidamente, el acceso es lento.
– Esto es cierto tanto para lecturas como para escrituras.
Por ejemplo, la lectura de un solo disco de 3TB toma casi cuatro horas.
– No podemos procesar los datos hasta que los hayamos leído.
– Estamos limitados por la velocidad de un solo disco.
Veremos la solución de Hadoop más adelante.

– Pero primero examinaremos cómo procesamos grandes can@dades de datos.
Computación monolí?ca
Tradicionalmente, el cálculo ha sido vinculado al procesador.
– Procesamiento intenso sobre pequeñas can@dades de datos.
Durante décadas, el obje?vo era una máquina más grande y más poderosa.
– Procesador más rápido, más memoria RAM.
Este enfoque ?ene limitaciones.

– Alto costo.
– Escalabilidad limitada.
El caso de los sistemas distribuidos

Computación distribuida
El procesamiento moderno a gran escala se distribuye entre las máquinas.
– A menudo cientos o miles de nodos.
– Los marcos comunes incluyen MPI, PVM y Condor.
Se centra en la distribución de la carga de trabajo de procesamiento.

– Poderosos nodos de cómputo.
– Sistemas separados para almacenamiento de datos.
– Conexiones de red rápidas para conectarlas.
Modelo de procesamiento de computación distribuida

Modelo Vpico de procesamiento.
– Paso 1: Copie los datos de entrada del almacenamiento al nodo de cómputo.
– Paso 2: Realizar el procesamiento necesario.
– Paso 3: Copie los datos de salida de nuevo al almacenamiento.
Esto funciona bien con can?dades rela?vamente pequeñas de datos.

– Es decir, donde el paso 2 domina la ejecución global.
Procesamiento de datos, “el cuello de botella”

Ese modelo no se escala con grandes can?dades de datos.
– Más @empo inver@do en copiar datos que en procesarlos.
– Llevar datos a los procesadores es el cuello de botella.
Crece peor a medida que se agregan más nodos de cómputo.

– Están compi@endo por el mismo ancho de banda.
– Los nodos de cómputo se hacen hambrientos de datos.
Complejidad de la computación distribuida

Los sistemas distribuidos pagan por la escalabilidad agregando complejidad.
Gran parte de esta complejidad implica.

– Disponibilidad
– Consistencia de los datos
– sincronización de eventos
– Limitaciones de ancho de banda
– Fallo parcial
– Fallos en cascada
Estos son a menudo más diYciles que el problema original.

– El manejo de errores a menudo representa la mayoría del código.
Requisitos del sistema: manejo de fallas

La falla es inevitable.
– Debemos esforzarnos por manejarla bien.
Una solución ideal debe tener (al menos) estas funciones adecuadas.
Propiedades de manejo de fallas de un sistema distribuido ideal:

Más requisitos del sistema

Escalabilidad horizontal lineal
– Agregar nuevos nodos debería agregar capacidad de carga proporcional.
– Evite la contención usando una arquitectura de "nada compar@do”.
– Debe ser capaz de expandir el cluster a un costo razonable.
Trabajos ejecutados en aislamiento rela?vo.

– Los resultados deben ser independientes de otros trabajos que se ejecuten
simultáneamente.
– Aunque el rendimiento puede verse afectado por otros trabajos.
Modelo de programación simple.

– Debe apoyar un lenguaje ampliamente u@lizado.
– La API debe ser rela@vamente fácil de aprender.
Hadoop aborda estos requisitos.

Hadoop: una solución radical

La computación distribuida tradicional frecuentemente involucra:
– Programación compleja que requiere sincronización explícita.
– Hardware costoso y especializado tolerante a fallas.
– Sistemas de almacenamiento de alto rendimiento con redundancia incorporada.
Hadoop toma un enfoque radicalmente diferente.

– Inspirado en la arquitectura GFS y MapReduce de Google.
– Este nuevo enfoque aborda los problemas descritos anteriormente.
Puntos Esenciales
✓ Hoy estamos generando más datos que nunca.
✓ La computación monolí@ca es limitada, mientras que el procesamiento distribuido
puede escalar de manera más rápida.

1.1.1.PPT - Introducción A Big Data

Cargado por

Copyright:

Formatos disponibles

1.1.1.PPT - Introducción A Big Data

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

1.1.1.PPT - Introducción A Big Data

Cargado por

Copyright:

Formatos disponibles

Big Data

Por ejemplo, todos los días:

Los datos son el valor

Hay que procesarlos para extraer ese valor.

Escalabilidad de procesamiento de datos

En realidad hay dos problemas.

Capacidad de disco y precio

Afortunadamente, el tamaño y el costo de almacenamiento han mantenido el

Capacidad de disco y rendimiento

Desafortunadamente, las tasas de transferencia no han seguido el ritmo de la

El acceso a los datos es el cuello de botella

Veremos la solución de Hadoop más adelante.

Este enfoque ?ene limitaciones.

El caso de los sistemas distribuidos

Se centra en la distribución de la carga de trabajo de procesamiento.

Modelo de procesamiento de computación distribuida

Esto funciona bien con can?dades rela?vamente pequeñas de datos.

Procesamiento de datos, “el cuello de botella”

Crece peor a medida que se agregan más nodos de cómputo.

Complejidad de la computación distribuida

Gran parte de esta complejidad implica.

Estos son a menudo más diYciles que el problema original.

Requisitos del sistema: manejo de fallas

Propiedades de manejo de fallas de un sistema distribuido ideal:

Más requisitos del sistema

Trabajos ejecutados en aislamiento rela?vo.

Modelo de programación simple.

Hadoop aborda estos requisitos.

Hadoop: una solución radical

Hadoop toma un enfoque radicalmente diferente.

También podría gustarte