1 Big Data Professional Fundamentos v2 - Conceptos
1 Big Data Professional Fundamentos v2 - Conceptos
1 Big Data Professional Fundamentos v2 - Conceptos
PROFESSIONAL
Conceptos fundamentales Big Data.
personalsoft.com
Contenido
1. OBJETIVOS
2. FUNDAMENTOS DE BIG DATA
2.1 Qué es Big Data
2.2 Terminología
2.3 Taller 1
2.4 Factores empresariales y tecnológicos de Big Data
2.5 Terminología Empresarial Tradicional
2.6 Características de los datos en los entornos Big Data
2.7 Tipos de Datos En Los Entornos Big Data
2.3 Taller 2
2.4 Tipos de análisis, analítica, Machine Learning
2.5 Taller 3
2.6 Inteligencia de negocios (BI) de Big Data
2.7 Arquitectura Tecnológica de Big Data – shared-nothing
2.8 Elementos a tener en cuenta al planear y adoptar Big Data
2.9 Ciclo de vida de Análisis de Big Data
Objetivos
Las cualidades que diferencian los datos procesados por medio de soluciones de Big Data son
conocidas comúnmente como las “Cinco V”, y serán presentadas en la sección Características .
En los entornos Big Data, los datos son acumulados al interior de la empresa por medio de
aplicaciones o a partir de fuentes externas, y posteriormente son almacenados en la solución de Big
Data. Los datos procesados por una solución de Big Data pueden ser utilizados directamente por las
aplicaciones empresariales, o pueden ser enviados a una bodega de datos digital (Data Warehouse), a
fin de enriquecer los datos ya existentes. Estos datos generalmente son analizados y sometidos a
analítica.
Figura 1.1 -Los ejemplos de datos generados por humanos
incluyen social media, correos electrónicos, fotos compartidas
y mensajería.
Análisis de datos (Data Analysis): es el proceso de examinación de los datos con el fin de hallar hechos, relaciones,
patrones, explicaciones y/o tendencias. El objetivo final del análisis de datos (Data Analysis) es respaldar la toma de
decisiones. Permite establecer patrones y relaciones entre los datos analizados.
Terminología
Analítica: La analítica es la disciplina encargada comprender los datos, analizándolos mediante una variedad de técnicas
científicas y herramientas automatizadas, enfocada en el descubrimiento de patrones y correlaciones ocultos. Ejemplos
entornos orientados a los negocios , ámbito científico y entornos basados en servicios . Por lo general, el proceso de
analítica implica filtrar grandes cantidades de datos sin procesar ni estructurar, con el fin de extraer información
significativa que pueda servir como datos de entrada para identificar patrones, enriquecer los datos empresariales actuales
o realizar búsquedas a gran escala.
Inteligencia de negocios (BI): La Inteligencia de negocios (BI) es el proceso de comprender el funcionamiento de una
empresa —para mejorar la toma de decisiones— al analizar los datos externos y los datos generados por sus procesos
empresariales.
Terminología
Indicadores Clave de Desempeño (KPI) : Un indicador clave de desempeño (KPI, por sus siglas en inglés) es una forma de
medir el éxito dentro de un contexto particular. Los KPI están estrechamente relacionados con los objetivos estratégicos de
una empresa y generalmente son utilizados para:
• Identificar áreas problemáticas, con el fin de adoptar medidas correctivas
• Lograr el cumplimiento normativo
DataSet
1. Un _________________________ es un conjunto de datos relacionados, en el cual todos
los miembros del grupo poseen el mismo conjunto de atributos.
Análisis de Datos
2. El objetivo _________________________ es respaldar la toma de decisiones al
establecer patrones y relaciones en los datos que son analizados.
Analítica
3. La _________________________ se enfoca en filtrar grandes cantidades de datos sin
Estructurar
_________________________, con el fin de extraer información significativa que pueda ser
útil para enriquecer los datos empresariales actuales.
Digitalización
Para muchas empresas, los medios digitales han reemplazado los medios físicos como las comunicaciones y el
mecanismo estándar de entrega. Los datos digitalizados brindan la oportunidad de recopilar datos “secundarios”
adicionales; por ejemplo, cuando las personas realizan búsquedas o completan encuestas. La recopilación de datos
secundarios puede ser importante para las empresas, ya que la extracción de este tipo de datos posibilita el mercadeo
personalizado, las recomendaciones automatizadas y el desarrollo de características optimizadas de productos.
Social media
El surgimiento de social media ha permitido que los clientes suministren retroalimentación en tiempo (prácticamente) real a
través de medios públicos y privados, un cambio que ha obligado a las empresas a tener en cuenta en su planeación
estratégica la retroalimentación que los clientes hacen de sus ofertas. Como resultado, las empresas almacenan cada vez más
datos sobre las interacciones de los clientes y a través de social media en un intento de recopilar los datos para aumentar las
ventas, posibilitar un mercadeo dirigido y crear nuevos productos y servicios. Asimismo, las empresas están cada vez más
interesadas en incorporar datasets disponibles al público provenientes de social media y otras fuentes externas de datos.
Cloud Computing
Los avances en la tecnología de Cloud Computing han llevado a la creación de entornos remotos, a los que se les
conoce como “nubes.” Estos entornos proporcionan alta escalabilidad y recursos de TI por demanda que pueden
ser arrendados bajo los modelos de “pago por uso”. Las empresas tienen la oportunidad de mejorar la
infraestructura y la capacidad de almacenamiento y procesamiento que proporcionan estos entornos, con el fin de
crear soluciones de Big Data de gran escala que pueden ejecutar grandes tareas de procesamiento.
las cinco características de Big Data que pueden ser utilizadas para diferenciar los
datos categorizados como “Big Data” de otros tipos de datos. Los cinco rasgos de Big
Data son comúnmente conocidos como las Cinco "V":
• Volumen
• Velocidad
• Variedad
• Veracidad
• Valor
Características de los datos en los entornos Big Data
VOLUMEN
El volumen anticipado de los datos que son procesados por las soluciones de Big
Data es importante y cada vez mayor. Un gran volumen de datos implica demandas
específicas de almacenamiento y procesamiento, al igual que procesos de gestión y
acceso. La imagen ofrece una representación visual del gran volumen de datos
empleados por las organizaciones y los usuarios en todo el mundo.
VOLUMEN
VELOCIDAD
Los datos de Big Data son recibidos con tal velocidad que se pueden acumular enormes datasets en periodos de
tiempo cortos. Desde el punto de vista empresarial, la velocidad de los datos se traduce en la cantidad de tiempo
necesaria para que los datos sean procesados una vez que llegan a la empresa. Lidiar con el veloz flujo de entrada de
datos requiere que la empresa diseñe soluciones altamente flexibles y disponibles de procesamiento, que cuenten con
la correspondiente capacidad de almacenamiento de datos.
La velocidad no siempre será alta, dependiendo de la fuente de los datos. Por ejemplo, las imágenes de resonancias
magnéticas usualmente no son generadas tan frecuentemente como las entradas en un log de un servidor web con
mucho tráfico. Como se ilustra en la siguente figura , la posible velocidad de los datos se pone en perspectiva si
consideramos que, en la actualidad, los siguientes datos son generados cada minuto: 100.000 tuits, 48 horas de video,
171 millones de correos electrónicos y 330 GB generados por un motor de base de datos en promedio.
Características de los datos en los entornos Big Data
VELOCIDAD
Entre los ejemplos de datasets
altamente veloces de Big Data que
son producidos cada minuto están
tuits, video, correos electrónicos y
GB generados por un motor de base
de datos en promedio.
Características de los datos en los entornos Big Data
VARIEDAD
VARIEDAD
La Figura ofrece una
representación visual de la
variedad de los datos, incluyendo
datos estructurados como
transacciones financieras, datos
semiestructurados como correos
electrónicos y datos sin estructurar
como imágenes.
Características de los datos en los entornos Big Data
VERACIDAD
La veracidad se refiere a la calidad o fidelidad de los datos. Dentro de los entornos Big Data,
existen datos que pueden ser significativos o que simplemente ocupan espacio. Cuando se
evalúan en función de su veracidad, los datos pueden ser de dos tipos:
Ruido; datos que no tienen valor alguno
Señal; datos que tienen valor que conduce a información importante
Por lo general, los datos que son adquiridos de forma controlada —por ejemplo, mediante
registros de clientes online— contienen menos ruido que los datos adquiridos mediante
fuentes no controladas, como las publicaciones de blog. La cantidad de ruido (datos sin valor) o
la proporción entre ruido y señal varía de acuerdo al tipo de datos presentes.
Características de los datos en los entornos Big Data
VALOR
El valor se define como la utilidad que los datos tienen para una empresa. La
característica de valor está directamente relacionada con la característica de
veracidad, en la medida en que, entre más alta sea la fidelidad de los datos,
mayor será el valor de los mismos para la empresa. El valor también depende
de qué tanto tiempo consuma el procesamiento de los datos, ya que el valor y
el tiempo de procesamiento son inversamente proporcionales. Cuanto más
tiempo se tarden los datos en ser convertidos en información significativa,
menor será el valor que tengan para la empresa, ya que afecta la velocidad con
la cual se pueden tomar decisiones informadas.
Características de los datos en los entornos Big Data
ilustran una comparación entre el valor potencial que los datos podrían llegar a tener
y el tiempo necesario para el análisis de los mismos.
Resumen de las
Al interior de una empresa,
proporciones entre
generalmente el 80% de los datos
ruido y señal para
está compuesto por datos sin
estructurar, mientras que el 20% los datos
restante está compuesto por estructurados,
datos estructurados semiestructurados y
sin estructurar.
Contenido
1. OBJETIVOS
2. FUNDAMENTOS DE BIG DATA
2.1 Qué es Big Data
2.2 Terminología
2.3 Taller 1
2.4 Factores empresariales y tecnológicos de Big Data
2.5 Terminología Empresarial Tradicional
2.6 Características de los datos en los entornos Big Data
2.7 Tipos de Datos En Los Entornos Big Data
2.3 Taller 2
Taller 2
Respuestas: Metadatos, ETL, Variedad, Depende, Estructurados, Valor, Semi Estructurados, No Estructurados, Veracidad
Ejercicio 1.2: complete los espacios en blanco
1. _________________________
Metadatos Proporcionan información sobre las características y la estructura
de un dataset
ETL
2. _________________________ es un proceso utilizado para cargar los datos desde un sistema origen
hasta un sistema destino, y es la principal operación utilizada para enviar datos a las bodegas de datos
digitales (Data Warehouse).
3. Las cinco principales características de Big Data que la diferencian de los datos tradicionales son
VARIEDAD
volumen, velocidad, _________________________, VERACIDAD
_________________________ y
VALOR
_________________________.
DEPENDE
4. La característica de valor de Big Data _________________________ de qué tanto tiempo consuma el
procesamiento de los datos.
5. En general, los datos que son procesados por las soluciones de Big Data pueden estar clasificados en
ESTRUCTURADOS
los siguientes tipos de datos o formatos: _________________________, SEMI ESTRUCTURADOS
_________________________,
NO ESTRUCTURADOS
_________________________
6. Cuanto más tiempo tarde el análisis de los datos, mayor será el posible valor que tengan para la
FALSO
empresa. (Verdadero o Falso)________________
Contenido
1. OBJETIVOS
2. FUNDAMENTOS DE BIG DATA
2.1 Qué es Big Data
2.2 Terminología
2.3 Taller 1
2.4 Factores empresariales y tecnológicos de Big Data
2.5 Terminología Empresarial Tradicional
2.6 Características de los datos en los entornos Big Data
2.7 Tipos de Datos En Los Entornos Big Data
2.3 Taller 2
2.4 Tipos de análisis, analítica, Machine Learning
Tipos de análisis, analítica, Machine Learning
Tipos de análisis de datos (Data Analysis)
• Análisis cuantitativo
• Análisis cualitativo
• Minería de datos (Data Mining)
Tipos de analítica
cuatro tipos comunes de analítica:
• Analítica descriptiva
• Analítica diagnóstica
• Analítica predictiva
• Analítica prescriptiva
Tipos de analítica
cuatro tipos comunes de analítica:
• Analítica descriptiva
• Analítica diagnóstica
• Analítica predictiva
• Analítica prescriptiva
Tipos de analítica
Tipos de análisis, analítica, Machine Learning
Tipos de analítica
El valor y la complejidad
aumentan progresivamente,
comenzando por la analítica
descriptiva y terminando en
la analítica prescriptiva.
Tipos de análisis, analítica, Machine Learning
Tipos de análisis de datos (Data Analysis)
• Análisis cuantitativo
• Análisis cualitativo
• Minería de datos (Data Mining)
Tipos de analítica
cuatro tipos comunes de analítica:
• Analítica descriptiva
• Analítica diagnóstica
• Analítica predictiva
• Analítica prescriptiva