Quitándole Humo A La IA

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 174

We make

it happen

Data Science & Advanced Analytics


Introducción

Ana Jiménez Castellanos

eae.es
01. Presentación de la Asignatura

eae.es
2
Descripción del programa

Ingente cantidad de datos


Necesitamos:
● tecnologías capaces de almacenar y procesarlas en un tiempo razonable
● técnicas, que nos permitan extraer un conocimiento preciso
El dato, en bruto, no tiene valor

Objetivos
Obtener los conocimientos necesarios para afrontar un problema de explotación de datos en el
contexto del análisis de grandes volúmenes de información.
Distinguir problemas de Datos de los que no lo son
Recuperar datos de distintas fuentes y resolver los conflictos de integración para su posterior
tratamiento.
Realizar un tratamiento de los datos para transformarlos en información.
Conocer varios algoritmos para resolver estos problemas
Descubrir qué hay detrás del humo

3
Calendario
25/03/2019 AJC Introducción a Data Science. Donde encaja el Data
2019-04-10 (II) CJGB Ejemplos prácticos / proyecto
Science en el Big Data. Casos prácticos.
2019-04-24 CBO Introducción al Procesamiento del Lenguaje
25/03/2019 (II) AJC Introducción a Machine Learning. Diferencias entre
Natural
supervisado y no supervisado.
2019-04-24 (II) CBO Text Mining
2019-03-26 CJGB Ajuste de modelos: errores, sobreajuste y técnicas de
ajuste de parámetros (validación cruzada, etc.) 2019-04-29 CBO Clasificadores Bayesianos
2019-03-27 CJGB Repaso del modelo lineal y GLM (ya vistos en otra 2019-04-30 CBO Máquinas de Soporte Vectorial
asignatura). Ridge y lasso (regularización).
2019-05-06 CBO Clustering Jerárquico
2019-03-28 CJGB GAM (modelos aditivos generalizados)
2019-05-06 (II) CBO Clustering Por Particiones
2019-03-28 (II) CJGB Modelos para conteos. Modelos no lineales.
2019-05-07 CBO Clustering Probabilístico
2019-04-01 CJGB Modelos jerárquicos / mixtos
2019-05-08 CBO Clustering Por Densidad
2019-04-02 CJGB kNN y comparación con los modelos rígidos (lineales).
Distancias. 2019-05-08 (II) CBO Sistemas de Recomendación

2019-04-03 CJGB PCA y técnicas de reducción de la dimensionalidad 2019-05-09 CBO Análisis de Redes Sociales

2019-04-04 CJGB Árboles y random forests 2019-05-09 (II) CBO Ejemplos Prácticos / Proyecto

2019-04-04 (II) CJGB Boosting (GBM y XGBoost)

2019-04-08 CJGB Series temporales e impacto causal de efectos.


Introducción a los modelos de atribución.

2019-04-09 CJGB Introducción a las redes neuronales

2019-04-10 CJGB Interpretación de modelos de caja negra (DALEX, etc.)

4
Evaluación

Introducción no cuenta para nota, aquí estamos para divertirnos :)


Carlos Gil y Carlos Badenes.
Cada profesor evaluará su parte por medio de prácticas / trabajos en grupo / examen.

5
02. Presentaciones

eae.es
6
Ana Jiménez Castellanos
@ana_datagirl
[email protected]

Co-fundadora y Chief Data Officer - Leads Origins

Más de 10 años trabajando en IA


(investigación, startups y formación)

Ingeniería informática + Máster en Investigación en


Inteligencia Artificial + Postgrado Dirección de
Proyectos UPM
1982 2000 2007 2014 2015
1982 2000 2007 2014 2015
1982 2000 2007 2014 2015
Creo que la Inteligencia Artificial
unida a la tecnología (Big Data) y
comunicaciones, es el último gran
invento que va a cambiar el mundo
que hemos conocido.

No vendo humo.
● ¿Vosotros por qué estáis aquí?

● ¿Qué sabéis de datos?


¿Alguna experiencia que podáis contarnos?

● ¿Qué aspectos os gustaría conocer hoy?


03. Al lío

eae.es
13
Hoy, esto va de hablar...

eae.es
14
Bid data, big data, big data

eae.es
15
16
17
Para modificar título del PPT, cambiar pie de página

00.Titular en documento

19
¿Cómo hemos llegado hasta aquí?

eae.es
23
Innovación
Conocimiento
Suerte
• •


• •


Todos los inventos han producido cambios… y miedos e incertidumbre...
→ Cambios socioeconómicos
→ Cambios laborales
→ Cambios éticos
→ Cambios de poder
Tecnología: cacharros, comunicaciones y algoritmos

eae.es
30
La ley de Moore expresa que
aproximadamente cada dos años
se duplica el número de
transistores en un
microprocesador.

A pesar de que la ley


originalmente fue formulada para
establecer que la duplicación se
realizaría cada año,​
posteriormente Moore redefinió
su ley y amplió el periodo a dos
años. Se trata de una ley
empírica, formulada por el
cofundador de Intel, Gordon E.
Moore, el 19 de abril de 1965,
cuyo cumplimiento se ha podido
constatar hasta hoy.

¿Estamos preparados para billones de personas,
objetos y sistemas recopilando y analizando datos?

eae.es
40
La revolución
tecnológica pone
en el centro de la
ecuación al ser
humano
¿Estamos preparados para billones de personas,
objetos y sistemas recopilando y analizando datos?

En ello estamos… sentando las bases.

eae.es
43
Hablemos de datos

eae.es
44
¿Es un concepto nuevo?
¿A qué llamamos Big Data?
Almacenamiento de grandes cantidades de datos y a
los procedimientos usados para procesarlos
Source: D. Soubra (2012), The 3 Vs that define Big Data
Big Data: una nueva generación de tecnologías y arquitecturas diseñadas para extraer valor
económico de grandes volúmenes de datos heterogéneos habilitando una captura,
identificación y/o análisis a alta velocidad.
Datos > Información > Conocimiento

eae.es
49






- Categórico:
- Dicotómico
- Ordinal
- Nominales
- De recuento
- Numérico
- Discreto
- Contínuo
• Completitud
porcentaje de datos disponibles respecto a la población total que representan dichos datos.
• Credibilidad:
fiabilidad que se le brinda al organismo que proporciona el conjunto de datos.
• Precisión:
porcentaje de datos correctos respecto al total disponible.
• Consistencia:
nivel con el que los datos son coherentes entre ellos.
• Interpretabilidad:
grado en el que los datos pueden ser entendidos correctamente por una persona.


– Contextualizando: se sabe en qué contexto y para qué propósito se generaron.
– Categorizando: se conocen las unidades de medida que ayudan a interpretarlos.
– Calculando: los datos pueden haber sido procesados matemática o estadísticamente.
– Corrigiendo: se han eliminado errores e inconsistencias de los datos.
– Condensando: los datos se han podido resumir de forma más concisa (agregación).

Información = Datos + Contexto (añadir valor) + Utilidad (disminuir la incertidumbre)


• Mezcla de experiencia, valores, información y know-how que sirve como marco
para la incorporación de nuevas experiencias e información, y es útil para la
acción.
• Se origina y aplica en la mente de los conocedores.
• En las organizaciones con frecuencia no sólo se encuentra dentro de
documentos o almacenes de datos, sino que también está en rutinas
organizativas, procesos, prácticas, y normas.
• El conocimiento se deriva de la información, así como la información se deriva de
los datos. Para que la información se convierta en conocimiento es necesario
realizar acciones como:




→ →
• Todo comienza con los datos, pero debemos interpretar el resultado.
• SIEMPRE. SIEMPRE. SIEMPRE. Contrastar la información

• Es importante conocer si la malinterpretación de un análisis de datos se debe a


un error en la fuente de datos, a un problema al combinar los datos en el proceso
de análisis o a una confusión por parte del usuario final debido a experiencias en
otros contextos.

La interpretación es HUMANA, la ejecución, de la MÁQUINA.


→ →
La interpretación es HUMANA, la ejecución, de la MÁQUINA.

“tenemos que fabricar máquinas que nos permitan seguir fabricando máquinas, porque lo que no va a hacer nunca una máquina es fabricar máquinas"

El que tendrá el poder será aquel que modele el algoritmo


No olvidarse de cerrar el ciclo
Datos
Información
Conocimiento
Acción
Resultado
Valor
Retos

eae.es
67













Ilusiones
Behavioral economist Dan Ariely, the author of Predictably Irrational, uses classic visual illusions and his
own counterintuitive (and sometimes shocking) research findings to show how we're not as rational as we
think when we make decisions.

https://www.ted.com/talks/dan_ariely_asks_are_we_in_control_of_our_own_decisions
Enfoques de análisis
BI vs BD

eae.es
84





• Enfoque a datos estructurados
• Problemas con altos volúmenes de datos
• Problemas para trabajar con datos en
tiempo real
• Foco en la alta dirección
• Fundamentados en el DW / factoría de
información corporativa
• Proceso a largo plazo
• Dominado por soluciones propietarias
» Término de moda

» Mercado emergente

» La innovación está en las nuevas empresas

» Nadie quiere perder posición

» Todos quieren salir bien en la foto

» En Big Data hay múltiples capas tecnológicas y


de servicios y que requieren de
múltiples actores
» +200 nuevas empresas en los últimos meses
Las tecnologías

eae.es
91
La tríada
Batch Processing (Volumen)
Streaming Processing (Velocidad)
NoSQL (Variedad)
Tecnología Procesos Cultura Personas Resultado

Nuevo Igual Igual Igual Igual


Tecnología Procesos Cultura Personas Resultado

Nuevo Igual Igual Igual Igual

Nuevo Nuevo Nuevo Nuevo Nuevo







• •






La analítica

eae.es
105
Definición

Análisis automático o semi-automático de grandes


cantidades de datos para extraer patrones interesantes
hasta ahora desconocidos

106 Internal use


Proceso
CRISP-DM

107 Internal use


Proceso
CRISP-DM

● Comprensión del negocio


Esta fase inicial se centra en la comprensión de los objetivos y requisitos
del proyecto desde una perspectiva empresarial, y luego convertir este
conocimiento en una definición del problema de minería de datos, y un plan
preliminar diseñado para alcanzar los objetivos.

- Determinar objetivos de negocio


- Evaluación de la situación:
- Inventario de recursos
- Riesgos
- Terminología
- Costes y beneficios
- Determinar objetivos del problema de Data Mining
- Plan de proyecto

108 Internal use


Proceso
CRISP-DM

● Comprensión de Datos
Esta fase comienza con una colección inicial de datos y procesos con
actividades con el objetivo de familiarizarse con los datos, identificar la
calidad de los problemas, para descubrir las primeras señales dentro de los
datos y detectar temas interesantes para poder formular hipótesis de
información oculta.

109 Internal use


Proceso
CRISP-DM

● Preparación de datos
Esta fase cubre todas las actividades para construir el conjunto de datos.
Estas tareas son ejecutadas en múltiples oportunidades y sin orden. Las
tareas incluyen selección y transformación de tablas, registros y atributos y
limpieza de datos para las herramientas de modelado.

110 Internal use


Proceso
CRISP-DM

● Modelado
En esta fase se seleccionan y aplican varias técnicas de modelado y se
calibran los parámetros para obtener óptimos resultados. Hay varias
técnicas que tienen requerimientos específicos para la forma de los datos,
por lo que frecuentemente es necesario volver a la fase de preparación de
datos.

111 Internal use


Proceso
CRISP-DM
● Modelado
En esta fase se seleccionan y aplican varias técnicas de modelado y se
calibran los parámetros para obtener óptimos resultados. Hay varias
técnicas que tienen requerimientos específicos para la forma de los datos,
por lo que frecuentemente es necesario volver a la fase de preparación de
datos.

112 Internal use


Proceso
CRISP-DM

● Evaluación
En esta etapa en el proyecto ha construido un modelo (o modelos) que
parece tener gran calidad, desde una perspectiva de análisis de datos.

113 Internal use


Proceso
CRISP-DM

● Despliegue
Esta fase depende de los requerimientos, pudiendo ser simple como la
generación de un reporte o compleja como la implementación de un
proceso de explotación de información que atraviese a toda la organización

114 Internal use


Proceso
La Wikipedia
1. Selección del conjunto de datos, tanto en lo que se refiere a las variables objetivo (aquellas que se quiere predecir, calcular o inferir), como a las variables
independientes (las que sirven para hacer el cálculo o proceso), como posiblemente al muestreo de los registros disponibles.
2. Análisis de las propiedades de los datos, en especial los histogramas, diagramas de dispersión, presencia de valores atípicos y ausencia de datos (valores nulos).
3. Transformación del conjunto de datos de entrada, se realizará de diversas formas en función del análisis previo, con el objetivo de prepararlo para aplicar la técnica de
minería de datos que mejor se adapte a los datos y al problema, a este paso también se le conoce como preprocesamiento de los datos.
4. Seleccionar y aplicar la técnica de minería de datos, se construye el modelo predictivo, de clasificación o segmentación.
5. Extracción de conocimiento, mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento
observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar
distintos modelos, aunque generalmente cada técnica obliga a un preprocesado diferente de los datos.
6. Interpretación y evaluación de datos, una vez obtenido el modelo, se debe proceder a su validación comprobando que las conclusiones que arroja son válidas y
suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que
se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.

116 Internal use


Definición del
problema de
negocio
El proceso
Plan
Limpieza y
Recuperación Modelado de Datos
Normalización Datos
de datos datos preparados
e Integración

Modelado de
algoritmo

Puesta en Modelo
valor Despliegue
Data Science, Inteligencia Artificial, Analítica,
Machine Learning ...

eae.es
118
Data Science
A kind of magic
Technology
Algorithms
Walter Pitts Warren McCulloch Alexey Chervonenkins Vladimir Vapnik Stuart Rusell
(Artificial Neuron) (Artificial Neuron) (SVM) (SVM) (Naïve Bayes Classifier)

Peter Norvig David Cox Robin Sibson James Rohlf Frank Rosenblatt
(Naïve Bayes Classifier) (Logistic Regression) (Hierarchical clustering) (Clustering) (Perceptron)
Machine Learning Fuzzy Logic
Decision Support Systems
Logical AI
Search
Natural Language Processing
Planning
Epistemology
Data Mining Ontologies
Pattern Recognition

Intelligent Agents
Inference Internet of Things
Robotics Cybernetics

Natural Reasoning
Taxonomies
Heuristics
Natural Computation

Thesaurus
Text Mining Knowledge Representation
Machine Learning Fuzzy Logic
Decision Support Systems
Logical AI
Search
Natural Language Processing
Planning
Epistemology
Data Mining Ontologies
Pattern Recognition

Intelligent Agents
Inference Internet of Things
Robotics Cybernetics

Natural Reasoning
Taxonomies
Heuristics
Natural Computation

Thesaurus
Text Mining Knowledge Representation
Algorithms: Supervised Learning
Feature vectors
& labels
Configuration
parameters
Machine
Training text,
documents,
Learning ƔßΦλμΔ
images, ... Algorithm

Feature vector

NEW text,
Predictive
document,
image, ... Model









• …









• …









• …









• …









• …









• …









• …









• …
➔ K-Nearest Neighbors
➔ Decision Trees
➔ Bayesian Classifiers
➔ Logistic Regression
➔ Rule Induction
➔ Support Vector Machines (SVM)
➔ Neural Networks
➔ Deep Learning
GMP
Good Melons Picker
Algorithms: Unsupervised Learning
@ana_datagirl
@ana_datagirl

Feature vectors
Configuration
parameters
Machine
Training text,
documents,
Learning ƔßΦλμΔ
images, ... Algorithm

Feature vector

NEW text, Likelihood, cluster,


Predictive
document, better
image, ... Model representation, ...
● Neural Networks
● Anomaly Detection
● Clustering
Data
Quality

Completeness
percentage of available data regarding the total population
Credibility
reliability of the organism that provides the data set
Precision
percentage of correct data with respect to the total available
Consistency
Are data coherent between them?
Interpretability
Can data be correctly understood by a person?
Data Science
for Products
Data Science implies the
use of data, algorithms
and technology to make
better decisions
Raw data

Discover insights Develop Data Products


Quantitative Data Analysis at granular level to Algorithms deployed in production (E-g.
understand behaviours, trends, correlations Recommendation Engines)
and inferences

Business value
Data Availability
Web and Browsing data
GPS / Location data
Images and Videos
User Generated Content
Devices with sensors
Emails
Financial transactions
Open data
Feature Engineering
Transform “Real Word” Data into
something meaningful (practical and
semantical) for the algorithm.

Steps:
1. Think
2. Program (software)
3. Test

Source: “Hands create art on a pottery wheel” by SwapnIl Dwivedi on Unsplash


Infrastructure & Tools
Availability of on demand cloud based services. Amazon Web Services ,
Google Cloud, Azure
Lot of datasets are now open sourced by Govts and companies around the
world
Open source libraries / frameworks.
Working with Data Science
teams
We make
it happen

Introducción al BI y BD
Ana Jiménez Castellanos

eae.es

También podría gustarte