1 Big Data Professional Fundamentos v2 - Conceptos

Descargar como pptx, pdf o txt
Descargar como pptx, pdf o txt
Está en la página 1de 55

BIG DATA

PROFESSIONAL
Conceptos fundamentales Big Data.

personalsoft.com
Contenido
1. OBJETIVOS
2. FUNDAMENTOS DE BIG DATA
2.1 Qué es Big Data
2.2 Terminología
2.3 Taller 1
2.4 Factores empresariales y tecnológicos de Big Data
2.5 Terminología Empresarial Tradicional
2.6 Características de los datos en los entornos Big Data
2.7 Tipos de Datos En Los Entornos Big Data
2.3 Taller 2
2.4 Tipos de análisis, analítica, Machine Learning
2.5 Taller 3
2.6 Inteligencia de negocios (BI) de Big Data
2.7 Arquitectura Tecnológica de Big Data – shared-nothing
2.8 Elementos a tener en cuenta al planear y adoptar Big Data
2.9 Ciclo de vida de Análisis de Big Data
Objetivos

1. Entendimiento de los conceptos fundamentales de Big Data, sus


características y conceptos teóricos de mecanismos, patrones de diseño
para una solución, integración y plataforma de Big Data.

2. Identificar tipos de análisis en Big Data.

3. Poder planear y adoptar el Big Data en un ambiente empresarial.

4. Tener el conocimiento necesario para la solución de la evaluación al finalizar


la capacitación. Big Data).
Contenido
1. OBJETIVOS
2. FUNDAMENTOS DE BIG DATA
2.1 Qué es Big Data
¿Qué es Big Data?
Big Data es un campo orientado al análisis, procesamiento y almacenamiento de
grandes colecciones de datos que, con frecuencia, provienen de distintas fuentes. Por lo
general, se requieren soluciones y prácticas de Big Data cuando la tecnología tradicional de análisis,
procesamiento y almacenamiento de datos no es suficiente.

Las cualidades que diferencian los datos procesados por medio de soluciones de Big Data son
conocidas comúnmente como las “Cinco V”, y serán presentadas en la sección Características .

En los entornos Big Data, los datos son acumulados al interior de la empresa por medio de
aplicaciones o a partir de fuentes externas, y posteriormente son almacenados en la solución de Big
Data. Los datos procesados por una solución de Big Data pueden ser utilizados directamente por las
aplicaciones empresariales, o pueden ser enviados a una bodega de datos digital (Data Warehouse), a
fin de enriquecer los datos ya existentes. Estos datos generalmente son analizados y sometidos a
analítica.
Figura 1.1 -Los ejemplos de datos generados por humanos
incluyen social media, correos electrónicos, fotos compartidas
y mensajería.

Figura 1.2 – Los ejemplos de datos


generados por máquinas incluyen logs
de servidores web, datos de sensores,
datos de telemetría, datos de
medidores inteligentes y datos de uso
de dispositivos.
Resultados
Los resultados del procesamiento de la solución de Big Data pueden generar una
gran variedad de conocimientos y beneficios, por ejemplo:
• Optimización operativa
• Inteligencia accionable
• Identificación de nuevos mercados
• Predicciones precisas
• Detección de errores y fraudes
• Registros más detallados
• Mejor toma de decisiones
• Descubrimientos importantes
Contenido
1. OBJETIVOS
2. FUNDAMENTOS DE BIG DATA
2.1 Qué es Big Data
2.2 Terminología
Terminología
Datasets : Los conjuntos o grupos de datos relacionados se les conoce comúnmente como datasets. Cada grupo o
miembro de un dataset (dato) comparte los mismos atributos con otros dentro de un dataset.

Los datasets pueden estar basados


en datos XML, datos relacionales y/o
archivos de imágenes
Análisis de datos (Data Analysis)

Análisis de datos (Data Analysis): es el proceso de examinación de los datos con el fin de hallar hechos, relaciones,
patrones, explicaciones y/o tendencias. El objetivo final del análisis de datos (Data Analysis) es respaldar la toma de
decisiones. Permite establecer patrones y relaciones entre los datos analizados.
Terminología
Analítica: La analítica es la disciplina encargada comprender los datos, analizándolos mediante una variedad de técnicas
científicas y herramientas automatizadas, enfocada en el descubrimiento de patrones y correlaciones ocultos. Ejemplos
entornos orientados a los negocios , ámbito científico y entornos basados en servicios . Por lo general, el proceso de
analítica implica filtrar grandes cantidades de datos sin procesar ni estructurar, con el fin de extraer información
significativa que pueda servir como datos de entrada para identificar patrones, enriquecer los datos empresariales actuales
o realizar búsquedas a gran escala.

Inteligencia de negocios (BI): La Inteligencia de negocios (BI) es el proceso de comprender el funcionamiento de una
empresa —para mejorar la toma de decisiones— al analizar los datos externos y los datos generados por sus procesos
empresariales.
Terminología
Indicadores Clave de Desempeño (KPI) : Un indicador clave de desempeño (KPI, por sus siglas en inglés) es una forma de
medir el éxito dentro de un contexto particular. Los KPI están estrechamente relacionados con los objetivos estratégicos de
una empresa y generalmente son utilizados para:
• Identificar áreas problemáticas, con el fin de adoptar medidas correctivas
• Lograr el cumplimiento normativo

UNIDADES EN BIG DATA


Contenido
1. OBJETIVOS
2. FUNDAMENTOS DE BIG DATA
2.1 Qué es Big Data
2.2 Terminología
2.3 Taller 1
Taller 1

Respuestas: Analítica, DataSet, Analítica, Estructurar y Análisis de datos

DataSet
1. Un _________________________ es un conjunto de datos relacionados, en el cual todos
los miembros del grupo poseen el mismo conjunto de atributos.
Análisis de Datos
2. El objetivo _________________________ es respaldar la toma de decisiones al
establecer patrones y relaciones en los datos que son analizados.
Analítica
3. La _________________________ se enfoca en filtrar grandes cantidades de datos sin
Estructurar
_________________________, con el fin de extraer información significativa que pueda ser
útil para enriquecer los datos empresariales actuales.

4. El proceso de la Inteligencia de negocios (BI) puede aplicar la


Analítica
_________________________ a grandes cantidades de datos.
Contenido
1. OBJETIVOS
2. FUNDAMENTOS DE BIG DATA
2.1 Qué es Big Data
2.2 Terminología
2.3 Taller 1
2.4 Factores empresariales y tecnológicos de Big Data
Factores empresariales y tecnológicos de Big Data

Digitalización
Para muchas empresas, los medios digitales han reemplazado los medios físicos como las comunicaciones y el
mecanismo estándar de entrega. Los datos digitalizados brindan la oportunidad de recopilar datos “secundarios”
adicionales; por ejemplo, cuando las personas realizan búsquedas o completan encuestas. La recopilación de datos
secundarios puede ser importante para las empresas, ya que la extracción de este tipo de datos posibilita el mercadeo
personalizado, las recomendaciones automatizadas y el desarrollo de características optimizadas de productos.

Entre los ejemplos de


digitalización están la
banca online, la televisión
por demanda y el video por
streaming.
Factores empresariales y tecnológicos de Big Data
Tecnología asequible y hardware básico
La tecnología relacionada con la recopilación y el procesamiento de grandes cantidades de diversos datos es cada vez
más asequible. Las soluciones típicas de Big Data están basadas en software de código abierto que requiere hardware
básico.
El uso de este tipo de hardware permite que la adopción de soluciones de Big Data sea asequible para aquellas
empresas que carecen de grandes inversiones de capital. La Figura ilustra un ejemplo de los ahorros relacionados con
los precios de almacenamiento de datos.

A través de las décadas, el


precio del almacenamiento de
datos ha disminuido
significativamente, de USD
10.000 a menos de USD 0,10
por GB.
Factores empresariales y tecnológicos de Big Data

Social media

El surgimiento de social media ha permitido que los clientes suministren retroalimentación en tiempo (prácticamente) real a
través de medios públicos y privados, un cambio que ha obligado a las empresas a tener en cuenta en su planeación
estratégica la retroalimentación que los clientes hacen de sus ofertas. Como resultado, las empresas almacenan cada vez más
datos sobre las interacciones de los clientes y a través de social media en un intento de recopilar los datos para aumentar las
ventas, posibilitar un mercadeo dirigido y crear nuevos productos y servicios. Asimismo, las empresas están cada vez más
interesadas en incorporar datasets disponibles al público provenientes de social media y otras fuentes externas de datos.

Comunidades y dispositivos hiperconectados


El alcance cada vez mayor de la internet y la proliferación de redes de
telefonía celular y wifi ha permitido que cada vez más personas estén activas
de forma constante en las comunidades virtuales, ya sea directamente por
medio de la interacción online, o indirectamente a través del uso de
dispositivos conectados. Esto ha traído como resultado flujos masivos de
datos. Algunos flujos de datos son públicos, mientras que otros flujos están
dirigidos directamente a los proveedores y a las empresas.
Factores empresariales y tecnológicos de Big Data

Cloud Computing
Los avances en la tecnología de Cloud Computing han llevado a la creación de entornos remotos, a los que se les
conoce como “nubes.” Estos entornos proporcionan alta escalabilidad y recursos de TI por demanda que pueden
ser arrendados bajo los modelos de “pago por uso”. Las empresas tienen la oportunidad de mejorar la
infraestructura y la capacidad de almacenamiento y procesamiento que proporcionan estos entornos, con el fin de
crear soluciones de Big Data de gran escala que pueden ejecutar grandes tareas de procesamiento.

La nube puede ser utilizada, por ejemplo, para completar


un análisis de datos (Data Analysis) por demanda a fin de
mes, o mejorar la escalabilidad de los sistemas,
aumentando la carga.
Contenido
1. OBJETIVOS
2. FUNDAMENTOS DE BIG DATA
2.1 Qué es Big Data
2.2 Terminología
2.3 Taller 1
2.4 Factores empresariales y tecnológicos de Big Data
2.5 Terminología Empresarial Tradicional
Terminología Empresarial Tradicional
 Transacciones en tiempo real.
• Procesamiento de Transacciones en Línea  Completamente normalizado.
(OLTP)  Procesamiento de consultas de análisis
de datos .
 Almacenan datos históricos que son
agregados y desnormalizados.
• Procesamiento Analítico en Línea (OLAP)

• Extraer - Transformar - Cargar (ETL)


Terminología Empresarial Tradicional
 Es un repositorio central a
• Bodegas de Datos Digitales (Data nivel empresarial que
contiene datos históricos y
Warehouse) actuales. Son usadas
considerablemente por la BI
para realizar distintas
consultas analíticas
Terminología Empresarial Tradicional

 Un data mart es un subconjunto de


• Data Marts datos almacenados en una bodega de
datos digital (Data Warehouse) que, por
lo general, pertenece a un
departamento, división o línea de
negocio específica.
 Las bodegas de datos digitales (Data
Warehouse) pueden tener múltiples
data marts. Como se muestra en la
Figura
Terminología Empresarial Tradicional

• Hadoop  Hadoop es un framework de código


abierto para el almacenamiento y
procesamiento de datos a gran escala
que técnicamente es ejecutado en
hardware básico. El framework de
Hadoop se ha establecido como la
plataforma predeterminada de la
industria para las soluciones modernas
de Big Data. Puede ser utilizado como
un motor de ETL o analítico para
procesar grandes cantidades de datos
estructurados, semiestructurados y sin
estructurar. La Figura ilustra algunas de
las características de Hadoop.
Contenido
1. OBJETIVOS
2. FUNDAMENTOS DE BIG DATA
2.1 Qué es Big Data
2.2 Terminología
2.3 Taller 1
2.4 Factores empresariales y tecnológicos de Big Data
2.5 Terminología Empresarial Tradicional
2.6 Características de los datos en los entornos Big Data
Características de los datos en los entornos Big Data

las cinco características de Big Data que pueden ser utilizadas para diferenciar los
datos categorizados como “Big Data” de otros tipos de datos. Los cinco rasgos de Big
Data son comúnmente conocidos como las Cinco "V":

• Volumen
• Velocidad
• Variedad
• Veracidad
• Valor
Características de los datos en los entornos Big Data
VOLUMEN

El volumen anticipado de los datos que son procesados por las soluciones de Big
Data es importante y cada vez mayor. Un gran volumen de datos implica demandas
específicas de almacenamiento y procesamiento, al igual que procesos de gestión y
acceso. La imagen ofrece una representación visual del gran volumen de datos
empleados por las organizaciones y los usuarios en todo el mundo.

Las organizaciones y los usuarios en todo el mundo


crean 2,5 EB de datos diariamente, mientras que la
Biblioteca del Congreso de los EE. UU. actualmente
contiene cerca de 300 TB.
Características de los datos en los entornos Big Data

VOLUMEN

Entre las fuentes típicas de datos que son responsables de la


generación de grandes volúmenes de datos están:
• Las transacciones online (punto de venta, bancarias)
• Datos científicos y de investigación (Gran Colisionador de
Partículas
• Telescopio del Atacama Large Millimeter/submillimeter Array
(ALMA))
• Datos de sensores (RFID, medidores inteligentes, sensores GPS)
• Social media (Facebook, Twitter)
Características de los datos en los entornos Big Data

VELOCIDAD

Los datos de Big Data son recibidos con tal velocidad que se pueden acumular enormes datasets en periodos de
tiempo cortos. Desde el punto de vista empresarial, la velocidad de los datos se traduce en la cantidad de tiempo
necesaria para que los datos sean procesados una vez que llegan a la empresa. Lidiar con el veloz flujo de entrada de
datos requiere que la empresa diseñe soluciones altamente flexibles y disponibles de procesamiento, que cuenten con
la correspondiente capacidad de almacenamiento de datos.
La velocidad no siempre será alta, dependiendo de la fuente de los datos. Por ejemplo, las imágenes de resonancias
magnéticas usualmente no son generadas tan frecuentemente como las entradas en un log de un servidor web con
mucho tráfico. Como se ilustra en la siguente figura , la posible velocidad de los datos se pone en perspectiva si
consideramos que, en la actualidad, los siguientes datos son generados cada minuto: 100.000 tuits, 48 horas de video,
171 millones de correos electrónicos y 330 GB generados por un motor de base de datos en promedio.
Características de los datos en los entornos Big Data

VELOCIDAD
Entre los ejemplos de datasets
altamente veloces de Big Data que
son producidos cada minuto están
tuits, video, correos electrónicos y
GB generados por un motor de base
de datos en promedio.
Características de los datos en los entornos Big Data

VARIEDAD

La variedad de los datos se refiere a los múltiples formatos y


tipos de datos que deben ser compatibles con las soluciones
de Big Data, como datos estructurados, semiestructurados y
sin estructurar, los cuales son descritos detalladamente en la
sección Tipos de datos en los entornos Big Data, más adelante.
La variedad de datos presenta desafíos para las empresas en
términos de integración, transformación, procesamiento y
almacenamiento de los datos.
Características de los datos en los entornos Big Data

VARIEDAD
La Figura ofrece una
representación visual de la
variedad de los datos, incluyendo
datos estructurados como
transacciones financieras, datos
semiestructurados como correos
electrónicos y datos sin estructurar
como imágenes.
Características de los datos en los entornos Big Data

VERACIDAD

La veracidad se refiere a la calidad o fidelidad de los datos. Dentro de los entornos Big Data,
existen datos que pueden ser significativos o que simplemente ocupan espacio. Cuando se
evalúan en función de su veracidad, los datos pueden ser de dos tipos:
 Ruido; datos que no tienen valor alguno
 Señal; datos que tienen valor que conduce a información importante

Por lo general, los datos que son adquiridos de forma controlada —por ejemplo, mediante
registros de clientes online— contienen menos ruido que los datos adquiridos mediante
fuentes no controladas, como las publicaciones de blog. La cantidad de ruido (datos sin valor) o
la proporción entre ruido y señal varía de acuerdo al tipo de datos presentes.
Características de los datos en los entornos Big Data

VALOR

El valor se define como la utilidad que los datos tienen para una empresa. La
característica de valor está directamente relacionada con la característica de
veracidad, en la medida en que, entre más alta sea la fidelidad de los datos,
mayor será el valor de los mismos para la empresa. El valor también depende
de qué tanto tiempo consuma el procesamiento de los datos, ya que el valor y
el tiempo de procesamiento son inversamente proporcionales. Cuanto más
tiempo se tarden los datos en ser convertidos en información significativa,
menor será el valor que tengan para la empresa, ya que afecta la velocidad con
la cual se pueden tomar decisiones informadas.
Características de los datos en los entornos Big Data

ilustran una comparación entre el valor potencial que los datos podrían llegar a tener
y el tiempo necesario para el análisis de los mismos.

Cuanto más confiables sean los Cuanto más tiempo tarde el


datos, mayor será el posible análisis de los datos, menor será
valor que tengan para la el posible valor que tengan para
empresa. la empresa.
Características de los datos en los entornos Big Data

Al igual que la veracidad y el tiempo, el valor también está


determinado por las siguientes consideraciones:
• ¿Qué tan bien fueron almacenados los datos?
• ¿Los datos fueron despojados de cualquier atributo valioso?
• Durante el análisis de datos (Data Analysis), ¿se hacen las
preguntas correctas?
• ¿Los resultados del análisis de datos (Data Analysis) son
comunicados con precisión a las personas correctas
encargadas de la toma de decisiones?
Contenido
1. OBJETIVOS
2. FUNDAMENTOS DE BIG DATA
2.1 Qué es Big Data
2.2 Terminología
2.3 Taller 1
2.4 Factores empresariales y tecnológicos de Big Data
2.5 Terminología Empresarial Tradicional
2.6 Características de los datos en los entornos Big Data
2.7 Tipos de Datos En Los Entornos Big Data
Tipos De Datos Big Data
DATOS ESTRUCTURADOS DATOS NO ESTRUCTURADOS DATOS SEMI ESTRUCTURADOS
• Cumplen un modelo de • No cumplen un modelo de • Los datos semiestructurados
datos o esquema datos o esquema tienen un nivel definido de
• Son almacenados de forma • Generalmente no son estructura y consistencia,
tabular consistentes ni relacionales pero no son relacionales.
• Pueden ser relacionales • En su mayoría se encuentran
en formatos textuales, como
archivos XML o JSON, y
generalmente, su
procesamiento es más
sencillo que el de los datos
sin estructurar.
Tipos De Datos Big Data
METADATOS
Ejemplos de Metadatos
• Los metadata proporcionan
• Las etiquetas XML que brindan información sobre el autor y la fecha de
información sobre las
creación de un documento
características y la estructura • Los atributos que proporcionan información sobre el tamaño del archivo y la
de un dataset
resolución de una fotografía digital

Resumen de las
Al interior de una empresa,
proporciones entre
generalmente el 80% de los datos
ruido y señal para
está compuesto por datos sin
estructurar, mientras que el 20% los datos
restante está compuesto por estructurados,
datos estructurados semiestructurados y
sin estructurar.
Contenido
1. OBJETIVOS
2. FUNDAMENTOS DE BIG DATA
2.1 Qué es Big Data
2.2 Terminología
2.3 Taller 1
2.4 Factores empresariales y tecnológicos de Big Data
2.5 Terminología Empresarial Tradicional
2.6 Características de los datos en los entornos Big Data
2.7 Tipos de Datos En Los Entornos Big Data
2.3 Taller 2
Taller 2
Respuestas: Metadatos, ETL, Variedad, Depende, Estructurados, Valor, Semi Estructurados, No Estructurados, Veracidad
Ejercicio 1.2: complete los espacios en blanco
1. _________________________
Metadatos Proporcionan información sobre las características y la estructura
de un dataset

ETL
2. _________________________ es un proceso utilizado para cargar los datos desde un sistema origen
hasta un sistema destino, y es la principal operación utilizada para enviar datos a las bodegas de datos
digitales (Data Warehouse).
3. Las cinco principales características de Big Data que la diferencian de los datos tradicionales son
VARIEDAD
volumen, velocidad, _________________________, VERACIDAD
_________________________ y
VALOR
_________________________.
DEPENDE
4. La característica de valor de Big Data _________________________ de qué tanto tiempo consuma el
procesamiento de los datos.
5. En general, los datos que son procesados por las soluciones de Big Data pueden estar clasificados en
ESTRUCTURADOS
los siguientes tipos de datos o formatos: _________________________, SEMI ESTRUCTURADOS
_________________________,
NO ESTRUCTURADOS
_________________________
6. Cuanto más tiempo tarde el análisis de los datos, mayor será el posible valor que tengan para la
FALSO
empresa. (Verdadero o Falso)________________
Contenido
1. OBJETIVOS
2. FUNDAMENTOS DE BIG DATA
2.1 Qué es Big Data
2.2 Terminología
2.3 Taller 1
2.4 Factores empresariales y tecnológicos de Big Data
2.5 Terminología Empresarial Tradicional
2.6 Características de los datos en los entornos Big Data
2.7 Tipos de Datos En Los Entornos Big Data
2.3 Taller 2
2.4 Tipos de análisis, analítica, Machine Learning
Tipos de análisis, analítica, Machine Learning
Tipos de análisis de datos (Data Analysis)
• Análisis cuantitativo
• Análisis cualitativo
• Minería de datos (Data Mining)

Tipos de analítica
cuatro tipos comunes de analítica:
• Analítica descriptiva
• Analítica diagnóstica
• Analítica predictiva
• Analítica prescriptiva

Tipos de aprendizaje automático (Machine Learning)


• Aprendizaje supervisado
• Aprendizaje no supervisado
Tipos de análisis, analítica, Machine Learning

Tipos de análisis de datos (Data Analysis)


• Análisis Cuantitativo : Orientada a cuantificar patrones y correlaciones hallados en los
datos. Los resultados del análisis cuantitativo son de naturaleza absoluta y, por lo tanto,
pueden ser usados para realizar comparaciones numéricas. Por ejemplo, en un análisis
cuantitativo de las ventas de helados, se puede encontrar que un aumento de 5 grados en la
temperatura incrementa las ventas en un 15%.

• Análisis Cualitativo: orientada a describir cualidades de varios datos por medio de


palabras. Por ejemplo, un análisis de las ventas de conos de helado puede indicar que las
cifras de las ventas en mayo no fueron tan altas comparadas con el mes de junio. Los
resultados del análisis solo muestran que las cifras “no fueron tan altas comparadas con”,
mas no indican ninguna diferencia numérica
Tipos de análisis, analítica, Machine Learning

Tipos de análisis de datos (Data Analysis)


• Minería de datos (Data Mining) : La minería de datos (Data Mining), también conocida como
exploración de datos, es una forma especializada de análisis de datos (Data Analysis)
dedicada a los datasets grandes. En relación con el análisis de Big Data, la minería de datos
(Data Mining) por lo general se refiere a técnicas automáticas basadas en software que filtran
los datasets masivos para identificar patrones y tendencias. Específicamente, implica extraer
patrones ocultos o desconocidos en los datos con la intención de identificar patrones antes
desconocidos. La minería de datos (Data Mining) constituye la base para la analítica
predictiva y la Inteligencia de negocios (BI).
Tipos de análisis, analítica, Machine Learning
Tipos de análisis de datos (Data Analysis)
• Análisis cuantitativo
• Análisis cualitativo
• Minería de datos (Data Mining)

Tipos de analítica
cuatro tipos comunes de analítica:
• Analítica descriptiva
• Analítica diagnóstica
• Analítica predictiva
• Analítica prescriptiva

Tipos de aprendizaje automático (Machine Learning)


• Aprendizaje supervisado
• Aprendizaje no supervisado
Tipos de análisis, analítica, Machine Learning

Tipos de analítica
Tipos de análisis, analítica, Machine Learning

Analítica descriptiva: La analítica descriptiva se ejecuta para


responder preguntas sobre eventos que ocurrieron.
Algunas preguntas de ejemplo pueden ser:
• ¿Cuáles son los datos de las ventas de los últimos 12 meses?
• ¿Cuántas llamadas de soporte técnico fueron recibidas y
categorizadas según la gravedad y ubicación geográfica?
• ¿Cuál es la comisión mensual que gana cada agente de
ventas?
En términos de valor, la analítica descriptiva proporciona un
valor mínimo y requiere un conjunto relativamente básico de
habilidades
A menudo, la analítica descriptiva se ejecuta mediante reportes
o tableros de control (Dashboards) especializados, como se
muestra en la figura . Por lo general, los reportes son de
naturaleza estática y muestran datos históricos que son
presentados en forma de grillas de datos o gráficos. Las
consultas son ejecutadas en los sistemas de OLTP o en los datos
obtenidos a partir de una variedad de otros sistemas de
información, tales como CRM Y ERP.
Tipos de análisis, analítica, Machine Learning

Analítica diagnóstica : Tiene como objetivo determinar la


causa de un fenómeno que ocurrió en el pasado, usando
preguntas que se enfocan en la razón del evento. Algunas
preguntas de ejemplo pueden ser:
• ¿Por qué las ventas del segundo trimestre fueron menores
que las de primer trimestre?
• ¿Por qué se han recibido más llamadas de soporte técnico de
la región este que de la región oeste?
• ¿Por qué hubo un incremento en las tasas de readmisión de
pacientes en los últimos tres meses?

Se considera que la analítica diagnóstica proporciona más valor


que la analítica descriptiva, y que requiere un conjunto de
habilidades más avanzadas. Normalmente, también requiere
recopilar datos a partir de múltiples fuentes y almacenarlos en
una estructura que se presta para realizar drill-downs y roll-ups.
Los resultados de esta analítica pueden ser observados por
medio de herramientas interactivas de visualización, que
permiten que los usuarios identifiquen tendencias y patrones.
Tipos de análisis, analítica, Machine Learning

Analítica predictiva : La analítica predictiva se ejecuta en un intento


por determinar el resultado de un evento que podría ocurrir en el
futuro.
Las preguntas normalmente se formulan usando una lógica
condicional qué tal sí, como en los siguientes ejemplos:
• ¿Cuáles son las probabilidades de que un cliente incurra en el
incumplimiento de un préstamo si él no ha hecho el pago
mensual?
• Si se administra el medicamento B en vez del medicamento A,
¿cuál será la tasa de supervivencia del paciente?
• Si un cliente compra los Productos A y B, ¿qué posibilidades hay
de que también compre el Producto C? Se considera que este tipo de analítica
La analítica predictiva intenta predecir el resultado de un evento. proporciona más valor y requiere un
Las predicciones se hacen con base en patrones, tendencias y conjunto de habilidades más avanzadas
excepciones encontradas en datos históricos y actuales. Este que las analíticas descriptiva y
análisis permite identificar riesgos y oportunidades. diagnóstica.
La analítica predictiva implica el uso de datasets grandes
compuestos por datos internos y externos, además de técnicas
estadísticas, de análisis cuantitativo, de aprendizaje automático
(Machine Learning) y de minería de datos (Data Mining).
Tipos de análisis, analítica, Machine Learning

Analítica prescriptiva : La analítica prescriptiva está basada en


los resultados de la analítica predictiva, al indicar acciones que
se deberían realizar. Esta analítica se enfoca en qué opción
indicada se debe seguir y en por qué y cuándo se debería seguir,
con el fin de obtener una ventaja o mitigar un riesgo.
Algunas preguntas de ejemplo pueden ser:
• Entre tres opciones de medicamentos, ¿cuál ofrece los
mejores resultados?
• ¿Cuándo es el mejor momento para comercializar una
mercancía particular?
La analítica prescriptiva incorpora datos internos, incluidos
datos de ventas actuales e históricos, información de los
clientes, datos del producto, normas comerciales y también
datos externos, incluidos datos de social media, datos La analítica prescriptiva proporciona más
climatológicos y datos demográficos. La analítica prescriptiva valor que cualquier otro tipo de analítica, y
implica el uso de normas comerciales y grandes cantidades de en consecuencia, requiere un conjunto de
datos internos y/o externos para simular los resultados y habilidades más avanzadas, además de
prescribir el mejor plan de acción. software y herramientas especializadas.
Tipos de análisis, analítica, Machine Learning

Tipos de analítica

El valor y la complejidad
aumentan progresivamente,
comenzando por la analítica
descriptiva y terminando en
la analítica prescriptiva.
Tipos de análisis, analítica, Machine Learning
Tipos de análisis de datos (Data Analysis)
• Análisis cuantitativo
• Análisis cualitativo
• Minería de datos (Data Mining)

Tipos de analítica
cuatro tipos comunes de analítica:
• Analítica descriptiva
• Analítica diagnóstica
• Analítica predictiva
• Analítica prescriptiva

Tipos de aprendizaje automático (Machine Learning)


• Aprendizaje supervisado
• Aprendizaje no supervisado
Tipos de análisis, analítica, Machine Learning

• Tipos de aprendizaje automático (Machine Learning): El aprendizaje automático


(Machine Learning) es el proceso de enseñar a las computadoras a aprender a partir de datos existentes y
a aplicar el conocimiento adquirido para formular predicciones sobre datos desconocidos. Esto implica
identificar patrones en los datos de entrenamiento y clasificar datos nuevos y no mostrados con base en
patrones conocidos. Los algoritmos de aprendizaje automático. Normalmente se dividen en los siguientes
dos tipos: Aprendizaje supervisado y Aprendizaje no supervisado

Aprendizaje supervisado Aprendizaje no supervisado


Los datos de muestra son enviados al algoritmo de
En un algoritmo de aprendizaje no supervisado, no
aprendizaje supervisado, donde ya se conocen las
se conocen las categorías de los datos y no se envía
categorías de los datos. Con base en los datos
ningún dato de muestra. En vez de eso, el algoritmo
introducidos, el algoritmo comprende qué datos
intenta categorizar los datos agrupándolos según
corresponden a qué categoría. Posteriormente, el
atributos similares.
algoritmo puede aplicar el comportamiento que
aprendió para categorizar los datos desconocidos.
Tipos de análisis, analítica, Machine Learning

• Tipos de aprendizaje automático (Machine Learning): El aprendizaje automático


(Machine Learning) es el proceso de enseñar a las computadoras a aprender a partir de datos existentes y
a aplicar el conocimiento adquirido para formular predicciones sobre datos desconocidos. Esto implica
identificar patrones en los datos de entrenamiento y clasificar datos nuevos y no mostrados con base en
patrones conocidos. Los algoritmos de aprendizaje automático. Normalmente se dividen en los siguientes
dos tipos: Aprendizaje supervisado y Aprendizaje no supervisado

Aprendizaje supervisado Aprendizaje no supervisado


Los datos de muestra son enviados al algoritmo de
En un algoritmo de aprendizaje no supervisado, no
aprendizaje supervisado, donde ya se conocen las
se conocen las categorías de los datos y no se envía
categorías de los datos. Con base en los datos
ningún dato de muestra. En vez de eso, el algoritmo
introducidos, el algoritmo comprende qué datos
intenta categorizar los datos agrupándolos según
corresponden a qué categoría. Posteriormente, el
atributos similares.
algoritmo puede aplicar el comportamiento que
aprendió para categorizar los datos desconocidos.
Contenido
1. OBJETIVOS
2. FUNDAMENTOS DE BIG DATA
2.1 Qué es Big Data
2.2 Terminología
2.3 Taller 1
2.4 Factores empresariales y tecnológicos de Big Data
2.5 Terminología Empresarial Tradicional
2.6 Características de los datos en los entornos Big Data
2.7 Tipos de Datos En Los Entornos Big Data
2.3 Taller 2
2.4 Tipos de análisis, analítica, Machine Learning
2.5 Taller 3

También podría gustarte