Introducción A Data Science (PPT1)
Introducción A Data Science (PPT1)
Introducción A Data Science (PPT1)
2
Contenidos
Unidad 1
• Qué es Data Science
• Big Data, Estadística y Machine Learning
• El trabajo del Data Scientist
• Ética en Data Science
Unidad 2
• Aplicaciones prácticas de Data Science
• Casos de estudio
Unidad 3
• Lenguajes de programación para Data Science (comparación Python y R)
• Data Science con Python
• Conceptos básicos de programación
3
Qué es Data Science, posibles definiciones
• Democratización de la información
7
Estrategias en Data Science
◦ Investigando la realidad. Los datos se pueden recolectar por métodos activos o
pasivos
◦ Reconocimiento de patrones. Los datos se analizan buscando ·estructuras· que
contribuyan a identificar soluciones
◦ Predicción de futuros eventos. Cómo robustecer modelos que son capaces de
establecer modelos de datos
◦
8
Universidad Católica del Norte. Víctor Flores – mayo 2019
Una vista al monitoreo-decisiones, usando datos
Nuevas aplicaciones,
visión
Nuevas estrategias, etc.
aplicaciones
Apps lógicas
9
Universidad Católica del Norte. Víctor Flores – mayo 2019
Data Science no es Machine learning
Volumen
Variedad
Velocidad
13
Data Mining
Data mining es el proceso de
descubrimiento de información en
forma automática
Clustering
Decision trees
(clasificadores)
14
Universidad Católica del Norte. Víctor Flores – mayo 2019
“camino” en el Data Science
Verificación de
Datos crudos
Experimentos,
Testing
https://www.decideo.com/Web-analytics-
Analisis-de-Redes-Sociales_r13.html
16
Data Science workflow
1. Adquisición de datos
80
% 2. Almacenamiento y gestión Librerías de Python y herramientas
especializadas como OpenRefine o
T
I
Herramientas como NoSQL, Basho o Wrangler (Trifacta)
E MapReduec dan soporte a la gran
m cantidad de datos (se espera sea de 40
P
zettabytes en 2020)
o
3. Análisis
Data scientistc, que usa herramientas
4. Visualización como R, Python, MatLab genera reporte,
análisis..
Herramientas como D3.js, Tableau dan
soporte a la visualización/integración de
datos (> 40 zettabytes en 2020)
5. Comunicación
Servicios colaborativos como Hithub o
Bitbucket simplifan el compartir código y
distribuir resultados (incremento en la
productividad) 17
Tópicos de interés en Data Science
Habilidades
Experto en
Machine Learning
fundamentos de Estadística y
Computación probabilidad
21
Universidad Católica del Norte. Víctor Flores – mayo 2019
Big Data, Estadística y Machine Learning
https://www.simplilearn.com/data-science-vs-big-data-vs-data-analytics-article
Universidad Católica del Norte 2019 22
Data Science, Big data, Data análisis
24
Necesidades en Data Science & Data Scientist
IA
Deep L.
Algoritmos,
experimenta_
ción
Análisis, segmentación,
Aprender/optimizar agregación, training-
data
Detección de anomalías,
Agregar/etiquetar limpieza de datos
Almacenamiento de datos
Mover/guardar estructurados/no-estructurados
27
Ética en Data Science
https://elpais.com/elpais/2015/08/11/icon/1439304143_858615.html
https://www.nytimes.com/2012/02/19/magazine/shopping-habits.html?_r=0
29
Ética en Data Science
Posibilidades actuales
• Tenemos acceso a datos sin precedentes
• Tenemos opciones de análisis sin precedentes
• Es casi ilimitado lo que se puede hacer con Data Science
Reglas
• Protección de datos
• Ética
30
Universidad Católica del Norte. Víctor Flores – mayo 2019
Ética en Data Science
Inadecuado
• Incluir/excluir datos en/para un análisis
• Hacer estudios (solo) en ciertos sitios
• Usar los datos para “destacar” un punto de vista
31
Reflexión para el data scientist !
32
Universidad Católica del Norte. Víctor Flores – mayo 2019
Un poco de “context”
33
contexto
Información
“Colón descubrió a América en 1492”
◦ Una entidad que provee respuestas a
preguntas
◦ dato->información->conocimiento
Conocimiento
“todos los lunes hay un vuelo a las 7.00h”
◦ Se refiere a clases o instancias
◦ Describe patrones generales, estructuras
◦ Consiste de pocos estamentos (en lo posible)
◦ Usualmente, es difícil de establecer
◦ Nos permite hacer predicciones
35
Universidad Católica del Norte. Víctor Flores – mayo 2019
contexto
Información
La información (datos) se puede capturar de diversas fuentes: online o offline [3]
Online
◦ Web servers
◦ Sensores (exercise monitors, household electric meters)
◦ inspección profunda de paquetes (usando dispositivos)
◦ Dispositivos móviles
Offline
◦ registros públicos
◦ registros internos
36
Universidad Católica del Norte. Víctor Flores – mayo 2019
contexto
Persistencia de datos
La información (datos) se puede guardar en dispositivos locales o dispositivos de
almacenamiento externo, para luego ser recuperada y tratada [3, 4]
◦ Internal hosting
◦ External hosting
◦ Cloud hosting
37
Universidad Católica del Norte. Víctor Flores – mayo 2019
contexto
Anonimización y creación de metadatos
El proveedor de alojamiento de los datos mantiene información sobre los datos, los
datos en sí mismos y sobre el procesamiento de los datos [3]
Los metadatos proporcionan información sobre los orígenes e historial de los datos, con
suficiente detalle para (1) usar los datos y (2) realizar interpretación correcta de los
datos.
◦ Usando una Ontología
◦ Dentro de un archivo de datos (formatos diversos)
Problemas
42
Data Science is the science which uses computer science,
statistics and machine learning, visualization and human-
computer interactions to collect, clean, integrate, analyze,
visualize, interact with data to create data products.
44
Referencias
[*1] Han J., Kamber M. & Pei J. Data mining:
concepts and techniques, Morgan Kaufmann 2012.
45