Quitándole Humo A La IA
Quitándole Humo A La IA
Quitándole Humo A La IA
it happen
eae.es
01. Presentación de la Asignatura
eae.es
2
Descripción del programa
Objetivos
Obtener los conocimientos necesarios para afrontar un problema de explotación de datos en el
contexto del análisis de grandes volúmenes de información.
Distinguir problemas de Datos de los que no lo son
Recuperar datos de distintas fuentes y resolver los conflictos de integración para su posterior
tratamiento.
Realizar un tratamiento de los datos para transformarlos en información.
Conocer varios algoritmos para resolver estos problemas
Descubrir qué hay detrás del humo
3
Calendario
25/03/2019 AJC Introducción a Data Science. Donde encaja el Data
2019-04-10 (II) CJGB Ejemplos prácticos / proyecto
Science en el Big Data. Casos prácticos.
2019-04-24 CBO Introducción al Procesamiento del Lenguaje
25/03/2019 (II) AJC Introducción a Machine Learning. Diferencias entre
Natural
supervisado y no supervisado.
2019-04-24 (II) CBO Text Mining
2019-03-26 CJGB Ajuste de modelos: errores, sobreajuste y técnicas de
ajuste de parámetros (validación cruzada, etc.) 2019-04-29 CBO Clasificadores Bayesianos
2019-03-27 CJGB Repaso del modelo lineal y GLM (ya vistos en otra 2019-04-30 CBO Máquinas de Soporte Vectorial
asignatura). Ridge y lasso (regularización).
2019-05-06 CBO Clustering Jerárquico
2019-03-28 CJGB GAM (modelos aditivos generalizados)
2019-05-06 (II) CBO Clustering Por Particiones
2019-03-28 (II) CJGB Modelos para conteos. Modelos no lineales.
2019-05-07 CBO Clustering Probabilístico
2019-04-01 CJGB Modelos jerárquicos / mixtos
2019-05-08 CBO Clustering Por Densidad
2019-04-02 CJGB kNN y comparación con los modelos rígidos (lineales).
Distancias. 2019-05-08 (II) CBO Sistemas de Recomendación
2019-04-03 CJGB PCA y técnicas de reducción de la dimensionalidad 2019-05-09 CBO Análisis de Redes Sociales
2019-04-04 CJGB Árboles y random forests 2019-05-09 (II) CBO Ejemplos Prácticos / Proyecto
4
Evaluación
5
02. Presentaciones
eae.es
6
Ana Jiménez Castellanos
@ana_datagirl
[email protected]
No vendo humo.
● ¿Vosotros por qué estáis aquí?
eae.es
13
Hoy, esto va de hablar...
eae.es
14
Bid data, big data, big data
eae.es
15
16
17
Para modificar título del PPT, cambiar pie de página
00.Titular en documento
19
¿Cómo hemos llegado hasta aquí?
eae.es
23
Innovación
Conocimiento
Suerte
• •
•
•
•
• •
•
•
Todos los inventos han producido cambios… y miedos e incertidumbre...
→ Cambios socioeconómicos
→ Cambios laborales
→ Cambios éticos
→ Cambios de poder
Tecnología: cacharros, comunicaciones y algoritmos
eae.es
30
La ley de Moore expresa que
aproximadamente cada dos años
se duplica el número de
transistores en un
microprocesador.
eae.es
40
La revolución
tecnológica pone
en el centro de la
ecuación al ser
humano
¿Estamos preparados para billones de personas,
objetos y sistemas recopilando y analizando datos?
eae.es
43
Hablemos de datos
eae.es
44
¿Es un concepto nuevo?
¿A qué llamamos Big Data?
Almacenamiento de grandes cantidades de datos y a
los procedimientos usados para procesarlos
Source: D. Soubra (2012), The 3 Vs that define Big Data
Big Data: una nueva generación de tecnologías y arquitecturas diseñadas para extraer valor
económico de grandes volúmenes de datos heterogéneos habilitando una captura,
identificación y/o análisis a alta velocidad.
Datos > Información > Conocimiento
eae.es
49
•
•
•
–
–
•
•
•
- Categórico:
- Dicotómico
- Ordinal
- Nominales
- De recuento
- Numérico
- Discreto
- Contínuo
• Completitud
porcentaje de datos disponibles respecto a la población total que representan dichos datos.
• Credibilidad:
fiabilidad que se le brinda al organismo que proporciona el conjunto de datos.
• Precisión:
porcentaje de datos correctos respecto al total disponible.
• Consistencia:
nivel con el que los datos son coherentes entre ellos.
• Interpretabilidad:
grado en el que los datos pueden ser entendidos correctamente por una persona.
•
•
– Contextualizando: se sabe en qué contexto y para qué propósito se generaron.
– Categorizando: se conocen las unidades de medida que ayudan a interpretarlos.
– Calculando: los datos pueden haber sido procesados matemática o estadísticamente.
– Corrigiendo: se han eliminado errores e inconsistencias de los datos.
– Condensando: los datos se han podido resumir de forma más concisa (agregación).
“tenemos que fabricar máquinas que nos permitan seguir fabricando máquinas, porque lo que no va a hacer nunca una máquina es fabricar máquinas"
eae.es
67
•
•
•
•
•
•
•
•
•
•
•
•
•
Ilusiones
Behavioral economist Dan Ariely, the author of Predictably Irrational, uses classic visual illusions and his
own counterintuitive (and sometimes shocking) research findings to show how we're not as rational as we
think when we make decisions.
https://www.ted.com/talks/dan_ariely_asks_are_we_in_control_of_our_own_decisions
Enfoques de análisis
BI vs BD
eae.es
84
•
•
–
–
–
• Enfoque a datos estructurados
• Problemas con altos volúmenes de datos
• Problemas para trabajar con datos en
tiempo real
• Foco en la alta dirección
• Fundamentados en el DW / factoría de
información corporativa
• Proceso a largo plazo
• Dominado por soluciones propietarias
» Término de moda
» Mercado emergente
eae.es
91
La tríada
Batch Processing (Volumen)
Streaming Processing (Velocidad)
NoSQL (Variedad)
Tecnología Procesos Cultura Personas Resultado
•
•
•
•
•
•
La analítica
eae.es
105
Definición
● Comprensión de Datos
Esta fase comienza con una colección inicial de datos y procesos con
actividades con el objetivo de familiarizarse con los datos, identificar la
calidad de los problemas, para descubrir las primeras señales dentro de los
datos y detectar temas interesantes para poder formular hipótesis de
información oculta.
● Preparación de datos
Esta fase cubre todas las actividades para construir el conjunto de datos.
Estas tareas son ejecutadas en múltiples oportunidades y sin orden. Las
tareas incluyen selección y transformación de tablas, registros y atributos y
limpieza de datos para las herramientas de modelado.
● Modelado
En esta fase se seleccionan y aplican varias técnicas de modelado y se
calibran los parámetros para obtener óptimos resultados. Hay varias
técnicas que tienen requerimientos específicos para la forma de los datos,
por lo que frecuentemente es necesario volver a la fase de preparación de
datos.
● Evaluación
En esta etapa en el proyecto ha construido un modelo (o modelos) que
parece tener gran calidad, desde una perspectiva de análisis de datos.
● Despliegue
Esta fase depende de los requerimientos, pudiendo ser simple como la
generación de un reporte o compleja como la implementación de un
proceso de explotación de información que atraviese a toda la organización
Modelado de
algoritmo
Puesta en Modelo
valor Despliegue
Data Science, Inteligencia Artificial, Analítica,
Machine Learning ...
eae.es
118
Data Science
A kind of magic
Technology
Algorithms
Walter Pitts Warren McCulloch Alexey Chervonenkins Vladimir Vapnik Stuart Rusell
(Artificial Neuron) (Artificial Neuron) (SVM) (SVM) (Naïve Bayes Classifier)
Peter Norvig David Cox Robin Sibson James Rohlf Frank Rosenblatt
(Naïve Bayes Classifier) (Logistic Regression) (Hierarchical clustering) (Clustering) (Perceptron)
Machine Learning Fuzzy Logic
Decision Support Systems
Logical AI
Search
Natural Language Processing
Planning
Epistemology
Data Mining Ontologies
Pattern Recognition
Intelligent Agents
Inference Internet of Things
Robotics Cybernetics
Natural Reasoning
Taxonomies
Heuristics
Natural Computation
Thesaurus
Text Mining Knowledge Representation
Machine Learning Fuzzy Logic
Decision Support Systems
Logical AI
Search
Natural Language Processing
Planning
Epistemology
Data Mining Ontologies
Pattern Recognition
Intelligent Agents
Inference Internet of Things
Robotics Cybernetics
Natural Reasoning
Taxonomies
Heuristics
Natural Computation
Thesaurus
Text Mining Knowledge Representation
Algorithms: Supervised Learning
Feature vectors
& labels
Configuration
parameters
Machine
Training text,
documents,
Learning ƔßΦλμΔ
images, ... Algorithm
Feature vector
NEW text,
Predictive
document,
image, ... Model
•
•
•
•
•
•
•
•
•
• …
•
•
•
•
•
•
•
•
•
• …
•
•
•
•
•
•
•
•
•
• …
•
•
•
•
•
•
•
•
•
• …
•
•
•
•
•
•
•
•
•
• …
•
•
•
•
•
•
•
•
•
• …
•
•
•
•
•
•
•
•
•
• …
•
•
•
•
•
•
•
•
•
• …
➔ K-Nearest Neighbors
➔ Decision Trees
➔ Bayesian Classifiers
➔ Logistic Regression
➔ Rule Induction
➔ Support Vector Machines (SVM)
➔ Neural Networks
➔ Deep Learning
GMP
Good Melons Picker
Algorithms: Unsupervised Learning
@ana_datagirl
@ana_datagirl
Feature vectors
Configuration
parameters
Machine
Training text,
documents,
Learning ƔßΦλμΔ
images, ... Algorithm
Feature vector
Completeness
percentage of available data regarding the total population
Credibility
reliability of the organism that provides the data set
Precision
percentage of correct data with respect to the total available
Consistency
Are data coherent between them?
Interpretability
Can data be correctly understood by a person?
Data Science
for Products
Data Science implies the
use of data, algorithms
and technology to make
better decisions
Raw data
Business value
Data Availability
Web and Browsing data
GPS / Location data
Images and Videos
User Generated Content
Devices with sensors
Emails
Financial transactions
Open data
Feature Engineering
Transform “Real Word” Data into
something meaningful (practical and
semantical) for the algorithm.
Steps:
1. Think
2. Program (software)
3. Test
Introducción al BI y BD
Ana Jiménez Castellanos
eae.es