Principios Básicos de Big Data

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 17

Principios básicos de Big Data

M1. CONCEPTOS BÁSICOS DEL BIG DATA


Todos los días escuchamos el término Big Data en los medios de comunicación, así como
en las comunicaciones de todas las empresas.
El Big Data es claramente un concepto clave en la economía actual y en nuestra sociedad.
A continuación, vamos a explicar cómo ha evolucionado la tecnología y cuáles son las
motivaciones de las nuevas tecnologías, qué es Big Data, las cuatro Vs así como las fases
de un proyecto que usa tecnología Big Data.

Bienvenida
Estamos afrontando una era de cambio que ninguna generación anterior ha vivido en
términos de efectos económicos y sociales. Gran parte de este cambio que estamos viviendo
viene dado por la globalización y la digitalización de la economía. Las empresas están en
una carrera hacia la digitalización, con el foco en ser capaces de competir en una economía
que cada vez más es digital.

Introducción

Antecedentes del Big Data


Vamos a hacer un repaso sobre cómo ha evolucionado la tecnología en los últimos 40 años.
Para todos aquellos que sois millenials o centenials será como una clase de historia.

Tecnologías y cronograma del Big Data


Vamos a explicar cómo nació la tecnología Big Data. Como gran parte de la tecnología que
usamos actualmente, tanto a nivel de herramientas como de servicios, tiene su origen en
Google.
Google continuó realizando avances en la realización de los índices invertidos,
concretamente a través de dos tecnologías: Google File System y el
paradigma Map/Reduce.
A continuación, en el documento adjunto, podrás ver la Cronología del ecosistema Big
Data.
Fases de un proyecto de Big Data
Vamos a definir las etapas o fases de un proyecto Big Data. Cuando hablamos de Big Data,
hablamos en realidad de un ecosistema de herramientas que nos permiten afrontar las
diferentes fases de un proyecto Big Data.

Las 4 V's del Big Data: Volumen y Variedad


Vamos a terminar este módulo hablando de las 4V’s.
Cuando hablamos de Big Data, es inevitable hablar de las Vs que caracterizan Big Data.
Definen las características o situaciones que deben darse dentro de un proyecto para poder
decir que es efectivamente Big Data.
Las cuatro Vs son las siguientes:
 Volumen
 Variedad
 Velocidad
 Valor
En el siguiente vídeo aprenderemos acerca del Volumen y la Variedad.

Las 4 V's del Big Data: Velocidad y Valor


En el siguiente vídeo aprenderemos sobre la Velocidad y el Valor.
Test M1
Tus respuestas
Las fases de un proyecto de Big Data son...

Almacenamiento, Identificación, Tratamiento del dato, Ingesta de Data Lake,


Visualización.

Identificación, Ingesta de Data Lake, Almacenamiento, Tratamiento del dato,


Visualización.

Identificación, Ingesta de Data Lake, Tratamiento del dato, Alamacenamiento,


Visualización.

Almacenamiento, Ingesta de Data Lake, Identificación, Tratamiento del dato;


Visualización.
¿Por qué es importante comprobar la Veracidad de los datos?

La información no veraz tiene gran distorsión ya que nos daría como resultado un producto
que no cumple con las expectativas.

Todas las anteriores.

Si usamos fuentes no fiables podemos llegar a tener sesgos en el análisis de los datos que
nos puede llevar a tomar decisiones no correctas.

Un volumen mayor de datos nos ayuda a sacar conclusiones más exactas. Pero no solo
importa la cantidad, sino también la calidad de los datos para asegurar un resultado fiable.
¿Dónde podemos encontrar datos no estructurados?

Página web.

El resultado de los cuestionarios de opción múltiple.

Videos.

HTML.
¿A qué se refiere la velocidad cómo característica de Big Data?
La velocidad hace referencia a la capacidad de conocer la información a la velocidad en la
que se genera.

A la posibilidad de procesar los datos en el momento y obtener información en tiempo real.

A todas.

La velocidad hace referencia a la capacidad de tratar y procesar los datos durante el periodo
que sea válida para tener el producto actualizado y obtener así su máximo provecho.
¿Dónde podemos encontrar datos semi estructurados?

Hoja de cáculo.

Textos.

Página web.

El resultado de los cuestionarios de opción múltiple.


¿Quién creo un proyecto en Apache llamado Hadoop, lo cual es una implementación
del paradigma Map/Reduce?

Mark Zuckerberg.

Matei Zaharia.

Doug Cutting.

Jeff Dean.
Cuando nos referimos a un estudio de datos inferencial hablamos de...

Un estudio que tiene como objetivo encontrar y establecer conexiones entre los datos.
Buscamos correlaciones, linealidad y relaciones entre las variables.

Un estudio que trata de explicar que ocurre a una variable cuando se cambia otra.

Un estudio que tiene como objetivo probar teorías que se ven muy afectadas por la muestra
de los datos ya que no contamos solo una parte de los datos y su incertidumbre. Es el
objetivo de los modelos estadísticos.
Un estudio en el que el científico de datos se basa en los datos que tiene para predecir el
futuro.
Las fases de un proyecto Big Data son...

Cuatro.

Seis.

Tres.

Cinco.
¿Qués es la programación distribuida?

Hablamos de porgramación distribuida siempre cuando hay varios programadores


trabajando en un proyecto común.

La programación distribuida hace referencia a las herramientas Open Source, que se


encuentran en abierto y se pueden utilizar sin coste.

El uso de diferentes máquinas que colaboran entre si para dar una solución a un problema.

Para el tratamiento de Big Data colaboran diferentes máquinas en un orden establecido.


Sólo se habla de la programación distribuida cuando no hay más de una máquina trabajando
a la vez.
¿Qués es Big Data?

Big Data se refiere al conocimiento que contiene los datos.

Cuando hablamos de Big Data nos referimos a un volumen de datos que se puede manejar
con herramientas como hojas de cálculo de Excel.

El concepto Big Data es un concepto que hace referencia a una cantidad voluminosa de
datos estructurados, semiestructurados y no estructurados que tienen el potencial de ser
ecxtraídos para obtener información.

Big Data es otra palabra para la Inteligencia Artificial.


M2. ESTRATEGIA Y GOBIERNO DEL DATO
Los datos constituyen el elemento fundamental de la información. En ella se basa el
conocimiento y, por extensión, el soporte de muchas decisiones.
A los datos se les conoce también como hechos o eventos. Son representaciones simbólicas
como: texto, números, imágenes, grabaciones de audio o vídeo, etc. que pueden ser
almacenadas e incluso procesadas.
Los datos pueden ser inexactos, incompletos, estar desactualizados o incluso ser
incomprensibles, lo que en la práctica es un problema, ya que en estos casos su valor se
reduce enormemente.

Conceptos: Datos y objetivos del Gobierno del Dato


El propósito del Gobierno del dato es poner bajo control y en estado óptimo los datos de
los que dispone la empresa para su comprensión y aprovechamiento. Esto significa que
estén definidos, haya responsables de los mismos, su calidad sea conocida y existan reglas
claras para administrarlos.

Enfoques para la definición de Estrategia de Datos


Ahora más que nunca, la habilidad para gestionar un gran volumen y diversidad de
información es crítica para la supervivencia de las empresas. El solo hecho de manejar tal
cantidad de datos, hace que surjan problemas que requieren en muchos casos de complejas
soluciones, como por ejemplo: garantizar la unicidad del dato, asegurar su calidad, velar
por su accesibilidad, cuidar de su seguridad...

Estrategia de Datos "Defensiva-Ofensiva" y Balance entre


ambos
Veamos en que consiste la Estrategia Defensiva-Ofensiva de datos y el balance que se
produce entre ambas para lograr los objetivos empresariales.

Principios y roles en el Gobierno del Dato


El Gobierno del Dato se define como un conjunto de principios, políticas,
procedimientos, herramientas, roles y responsabilidades, orientados a promover la
mejora de la calidad y consistencia de los datos, y a conseguir una mayor y mejor 
disponibilidad de los mismos.
De esta manera, las empresas pueden satisfacer las necesidades de información en la
gestión, reporting y toma de decisiones.
El establecimiento de un adecuado Gobierno del dato permite tener una visión clara de los
datos, saber quién es el propietario, conocer qué usos se hacen de los datos, cómo pueden
gestionarse y cómo se puede extraer valor de estos datos.
Para que los datos tengan valor tienen que estar disponibles, ser entendibles por los diferentes
usuarios y ser fiables para la toma de decisiones.
Se estima que sólo un 15% de los datos que almacenan las compañías tiene Valor.
El Gobierno del dato es una tarea de toda la organización. En mayor o menor medida
todas las personas desempeñan alguna función sobre los datos.
Es importante distinguir entre los principales roles y las responsabilidades asociadas e
identificar dentro de la empresa quién desempeñará cada función. Consulta el documento
adjunto para conocer más al respecto.

Funciones y herramientas del Gobierno del Dato


El principal problema del Gobierno del Dato es que abarca un gran abanico de funciones.
Para facilitar las cosas, se suele descomponer en subdisciplinas que se pueden priorizar de
acuerdo a su alineación con las metas de la organización y al impacto económico que
representan.
Para llevar a cabo las funciones de Gobierno y Gestión de los Datos es necesario disponer
de herramientas que permitan gestionar y llevar a cabo de una manera automática los
diferentes procesos definidos.

Descubre la Inteligencia Artificial


La inteligencia artificial quizás sea la tecnología más disruptiva que hemos conocido hasta
el momento, y supone uno de los mayores hitos de nuestro tiempo.
Tras décadas de desarrollo, la inteligencia artificial ha salido de la universidad y del
laboratorio, y se ha ido filtrando poco a poco en diversos ámbitos de nuestra vida: en
nuestros teléfonos móviles, en nuestros coches, en los bancos y hasta en la forma en la que
escuchamos música.

Aplicaciones de la Inteligencia Artificial


A continuación vamos a conocer los diferentes usos de la inteligencia artificial en los
principales sectores.
Test M2
El Gobierno del dato es una tarea de…

Toda la organización.

CDO.

CEO.

Data Owner.
¿Quién acuñó la expresión Inteligencia Artificial?

Doug Cutting.

Andreas Kaplan.

John McCarthy .

Alan Turing.
¿Cuál es la pirámide del tratamiento de datos comenzando desde la base a la cúspide?

Datos, Información, Conocimiento, Sabiduría.

Conocimiento, Sabiduría, Datos, Información.

Sabiduría, Conocimiento, Datos, Información.

Información, Datos, Conocimiento, Sabiduría.


¿En que años había los primeros adelantos que se pueden considerar como IA?

En los años 30 del siglo XX.

En los años 40 del siglo XIX.

En los años 40 del siglo XX.

En los años 60 del siglo XX.


Muchas de las herramientas del marco DAMA son Open Source. Eso significa que…
Están en abiertos y cualquier persona las puede utilizar, pero no permiten el acceso a su
código de programación.

Que están en abiertos y cualquier persona las puede utilizar. Además permiten el acceso a
su código de programación.

Una ves pagado la licencia ofrecen un uso ilimitado de la herramienta.

Cumplen con las normas de transparencia y desglosan sus fuentes.


¿Cuándo hablamos de Conocimiento en la pirámide del tratamiento de datos?

Hablamos de Conocimiento cuando interioricemos un conocimiento y lo ponemos en


practica.

Hablamos de Conocimiento siempre cuando tengamos datos almacenados sin haberlos


procesados.

Hablamos de Conocimiento cuando dotamos de un significado a un hecho, o dato, se


incorpora una definición formal que permite estandarizarlo y ordenarlo.

Hablamos de Conocimiento cuando añadimos una perspectiva, una hipotosis o una


interpretación a la información que tenemos sobre su significado.
¿Cuáles son las herramientas del gobierno de datos para gestionar sus procesos?

Diccionario de datos.

Biblioteca de datos.

Cuadro de mando.

Todas las anteriores.


¿Cuál no es una función del gobierno de datos?

Arquitectura de datos.

Creación de datos.

Gestión de operaciones.
Gestión de la seguridad.
La Conferencia de Darmouth supuso el nacimiento de la Inteligencia Artificial ¿En
qué año se produjo?

1950.

1957.

1956.

1946.
¿Cuándo hablamos de Información en la pirámide del tratamiento de datos?

Hablamos de Información cuando interioricemos un conocimiento y lo ponemos en


practica.

Hablamos de Información siempre cuando tengamos datos almacenados sin haberlos


procesados.

Hablamos de información cuando dotamos de un significado a un hecho, o dato, se


incorpora una definición formal que permite estandarizarlo y ordenarlo.

Hablamos de Información cuando añadimos una perspectiva, una hipotesis o una


interpretación al significado de dato.
M3. CASOS DE USO Y ESTRATEGIAS DE
VISUALIZACIÓN
En el siguiente módulo conocemos casos de uso en empresas reales donde se aplica el Big
Data y las estrategias más importantes aplicadas en la visualización de la información
recopilada.

Introducción a los casos de uso


En este vídeo vamos a poder ver casos prácticos en los que se utiliza Big Data.
Son numerosas las empresas que hacen uso en su día a día de esta tecnología. Vamos a
verlos para que seamos conscientes de que el Big Data está en nuestro día a día.
M3. CASOS DE USO Y ESTRATEGIAS DE
VISUALIZACIÓN
En el siguiente módulo conocemos casos de uso en empresas reales donde se aplica el Big
Data y las estrategias más importantes aplicadas en la visualización de la información
recopilada.

Introducción a los casos de uso


En este vídeo vamos a poder ver casos prácticos en los que se utiliza Big Data.
Son numerosas las empresas que hacen uso en su día a día de esta tecnología. Vamos a
verlos para que seamos conscientes de que el Big Data está en nuestro día a día.

Ejemplo aplicado "House of cards"


Netflix es una empresa americana que proporciona un servicio por el que un usuario
(cliente) puede darse de alta pagando una cuota fija al mes, obteniendo acceso ilimitado a
todos los contenidos de la plataforma, películas y series principalmente.
Su infraestructura es muy madura e innovadora en el procesamiento de datos, basada en
tecnología Amazon tanto para almacenamiento como para procesamiento, con fuerte uso
de Spark.
Antes de comenzar con el caso de “House of Cards”, vamos a describir los datos que
potencialmente puede utilizar Netflix para su posterior análisis y realimentación de sus
sistemas.
¿Qué datos estáticos se obtienen?
Datos del cliente, edad, género, país y ciudad donde reside.
Los datos de las películas y series, entre otros:
 Productor.
 Actores y actrices principales.
 Actores y actrices secundarios.
 Género: comedia, intriga, amor.
 Guionistas.
¿Qué datos dinámicos se almacenan?
Para cada cliente:
 Qué ha visto, género, actores.
 Ratings, cómo valoran los clientes el contenido que han visionado 4 millones diarios.
 Cuándo ha realizado una pausa.
 Cuándo ha acelerado la cinta, hacia delante o hacia atrás.
 Qué día de la semana ve qué contenido.
 Fecha de visionado.
 Hora de visionado.
 Cuándo ha abandonado un contenido.
 Búsqueda de contenido que ha realizado cada cliente.
 Cómo se mueve por la web, tiempo que se está en cada contenido.
 Si se hace clic para tener más información.
 Si se ve el tráiler.
 Cuando comienzan los créditos.

Sistemas de recomendación y escucha activa: "Amazon",


"Netflix" y "Walmart"
Amazon
Los sistemas de recomendación son una herramienta de personalización muy utilizada ya
que son muy efectivos.
Amazon es otra de las empresas que usa de manera masiva los datos y aprendizaje
automático. El 35% de las ventas que hace vienen de su sistema de recomendación. Tiene
varios sistemas de recomendación en esta sección vamos a describir dos de ellos.
Netflix
Netflix tiene uno de los sistemas de recomendación más potentes que existen. El 70% de las
visualizaciones que tiene Netflix provienen de su sistema de recomendación.
Walmart
Walmart es también una de las empresas que más fuertemente ha apostado por la
tecnología Big Data.
Sus resultados son un fiel reflejo de esta decisión estratégica, si bien usa Big Data de
manera extensiva para analizar precios, optimización de unidades en almacén, selección de
personal y retención.
En el vídeo vamos a ver cómo usan las redes sociales para optimizar las referencias
disponibles en cada tienda y poder dar mejor servicio a sus clientes.

Sector retail: Fondos de inversión y optimización de precios


Los fondos de inversión también utilizan el Big Data, con la intención de obtener
información antes que la competencia, y tener así una ventaja a la hora de la toma de
decisiones la compra o venta de un determinado valor bursátil.
Otra área donde se utiliza Big Data es en la optimización de precios.
Veamos en el vídeo cómo se aplica en estos dos sectores.

Cómo obtenemos la información


Estamos más que habituados a ver presentaciones y, en muchos casos, a hacerlas. Muchas
veces nos llama la atención lo claras que son algunas presentaciones a la hora de transmitir
el mensaje, son eficientes.
En este vídeo vamos a ver las claves de la visualización para que a partir de ahora tú
también puedas hacer presentaciones eficientes.

Fases de un proceso de visualización


Veamos los pasos que se deben seguir para poder realizar una visualización efectiva:
 El objetivo de la visualización.
 La audiencia.
 Los datos.

Tipos de datos
Conoce los distintos tipos de datos que podemos tener como base para hacer una correcta
visualización.

Propiedades y elementos de una visualización


Un elemento de visualización es cualquier atributo que la compone, como los colores, las
barras, las formas, y demás recursos que podamos utilizar para elaborarla.
Veamos en el vídeo los elementos más usados en las visualizaciones y si tienen o no la
propiedad de orden natural.

Gráficos, colores y texto: uso recomendado


Veamos los gráficos más usados en el día a día y cuándo se recomienda su uso.
Por último, conozcamos algunos aspectos más sobre los colores y el texto en una
visualización.
Ya no tienes excusas para realizar visualizaciones efectivas. ¡Ponlas en práctica para
conseguir grandes resultados!
Test M3
Cuando hablamos de tipos de datos que no pueden ser medidos con un valor
numérico, y nos referimos a modalidades numéricas que no admiten un orden,
hablamos de…

Variable cualitativa categórica.

Variable cuantitativa discreta.

Variable cualitativa nominal.

Variable cuantitativa continua.


En la fase de un proceso de visualización, cuando hablamos de tipos de datos que
toman valores aislados y no admite valores intermedios entre dos valores específicos,
nos referimos a...

Vriable cualitativa categórica.

Variable cuantitativa discreta.

Variable cuantitativa continua.

Vriable cualitativa nominal.


¿Qué características o condiciones de la audiencia no influyen la decisión de cómo
visualizar los datos?

Su experiencia.

Su sector.

Su última promoción.

Su posición.
¿Cómo usan Netflix y compañías similares Big Data?

Usan los datos de los usuarios para decidir que tipos de contenidos crear y así incrementar
la satisfacción de los usuarios que tienen cada vez más contenidos que les gustan en la
plataforma.
Usan los datos de los usuarios, para establecer el precio mensual en función del nivel
socioeconómico de los usuarios.

Usan los datos de los usuarios para hacerles encuestas y así aumentar el conocimiento sobre
ellos.

Todas de las anteriores.


¿Qué no describe la Business Intelligence?

Captura información de las fuentes disponibles de la organización y, tras la aplicación de


algoritmia de análisis, la muestra con el fin de ayudar a la toma de decisiones estratégicas
en la empresa.

Procesa sobre todo información no estructurada, como lenguaje natural o redes sociales.

Toda la información analizada y visualizada proviene de fuentes de datos estructuradas.

Gestores la utilizan sobre todo para convertir sus empresas en organizaciones eficaces y
eficientes.
¿Qué porcentaje de información que procesa nuestro celebro se capta a través de la
vista?

70%

80%

40%

55%
¿Cómo funciona el sistema de recomendación colaborativo?

Se usa las herramientas del análisis de Big Data de manera extensiva para analizar los
precios que cada usuario estaría dispuesto a pagar por los productos y les recomienda estos
productos.

El sistema geolocaliza y analiza los contenidos en redes sociales y cruza esta información
con los productos disponibles en sus tiendas. Si se esta hablando de un producto que no
tienen en el catálogo, lo incorporan.
Primero se identifica todos los usuarios que han visto los mismos contenido. En el segundo
paso un algoritmo calcula basado en el rating de otros usuarios el rating que el usuario daría
a estos contenidos.

El sistema analiza si un usuario ve o ha comprado un producto. El sistema entiende que


todos aquellos usuarios que también vieron o compararon el mismo producto son similares.
Por eso recomienda recomienda otros productos que otros usuarios han visto a ti.
En una empresa hay 25 trabajadoras y 25 trabajador. ¿Qué tipo de variables son los
trabajadores?

Variable cuantitativa continua.

Variable cualitativa nominal.

Variable cuantitativa discreta.

Variable cualitativa categórica.


El uso se mayúsculas en el texto puede…

Sugerir enfado.

Ninguna de las anteriores.

Resultar más fácil de leer.

Distraer el foco.
¿Cuál de estos elementos de visualización no tiene propiedad de orden natural?

Formas.

Etiquetas de textos.

Longitud.

Brillo.

También podría gustarte