Aprendizaje 20autom C3 A1tico 20 28ML 29 20en 20energ C3 ADas 20renovables
Aprendizaje 20autom C3 A1tico 20 28ML 29 20en 20energ C3 ADas 20renovables
Aprendizaje 20autom C3 A1tico 20 28ML 29 20en 20energ C3 ADas 20renovables
en Energías Renovables
Emisiones
Mercado Carbono
Distribución y Smartcities
Motivos fundacionales:
DSC Energy se crea partiendo de la experiencia acumulada del equipo, en los sectores que ha trabajado
durante 25 años, con empresas tanto multinacionales como pymes, en más de 20 países, y
aprovecharlo para usar las nuevas tecnologías que se presentan con la transformación digital que están
teniendo las empresas, especialmente en el mundo de la inteligencia artificial y el big data.
es un concepto que unifica estadística, análisis de datos, aprendizaje automático y sus métodos relacionados
con el fin de "comprender y analizar fenómenos reales" con datos. Emplea técnicas y teorías extraídas de muchos
campos dentro del contexto de las matemáticas, las estadísticas, la informática y las ciencias de la información.
es el estudio científico de algoritmos y modelos estadísticos que utilizan los sistemas informáticos para realizar
una tarea específica sin usar instrucciones explícitas, sino que se basan en patrones e inferencia de los datos. Es
visto como un subconjunto de inteligencia artificial.
Los algoritmos de aprendizaje automático crean un modelo matemático basado en datos de muestra, conocidos
como "datos de entrenamiento", para hacer predicciones o decisiones sin ser programado explícitamente para
realizar la tarea.
Revolución computación
- CPUs cada vez más avanzados (incluso opción de alquilar en la nube). En los últimos 25 años la computación ha
aumentado su velocidad en 1 millón de veces ! Y sigue creciendo
- Evolución espectacular de las GPUs para las redes neuronales, impulsadas por la industria del videojuego y el
minado de bitcoin. Hoy por algo más de 1000 euros se puede tener una GPU con 30 TFlops, algo impensable hace
pocos años (1997: 30000 USD/GFlops -> 2019: 0.03 USD/GFlops)
EDA
Extracción Procesado
Limpieza Datos
Mundo Real Datos Brutos Datos
Modelo
“Machine
Learning”
Comunicación
Visualización
Solución Producto Informe
● El algoritmo aprenderá a partir de los datos, por lo que son muy importantes. De hecho, se estima que en un
proyecto de Machine Learning, el 80% del tiempo es para la preparación de los datos.
● Puede haber datos estructurados y no estructurados, pero al final los algoritmos sólo entienden de datos
estructurados, con un orden generalmente tabular
● Según se disponga de la solución para aprender o no, se puede hablar de aprendizaje supervisado o no
supervisado
● Etapas de procesado de datos:
○ Adquisición y almacenamiento datos brutos
○ Limpieza de datos erróneos
○ Imputación de datos faltantes (“missing”)
○ Incorporación de nueva información procesada (ingeniería de variables o “Feature Engineering”)
● Es una etapa inicial imprescindible, y que en muchas ocasiones aporta mucho valor, para conocer lo que está
pasando en el problema que se está afrontando
● Se trata de analizar los datos siguiendo unos pasos mínimos:
○ Estadísticas principales de las variables independientes continuas: min, max, media, mediana,
desviación estándar, valores nulos, valores faltantes (missing), valores fuera de rango
○ Estadísticas de las variables independientes categóricas: tipos, valores únicos, cardinalidad
○ Estadística de la variable objetivo: min, max, media, desviación estándar
○ Visualización de variables: boxplots (caja y bigotes), distribuciones, scatters (nube de puntos),
heatmaps, ….
○ Visualización de relaciones entre variables independientes y variable objetivo
1 El término EDA fue utilizado por primera vez por John W. Tukey, un reconocido estadístico estadounidense
● Selección del método de validación: validación cruzada (“cross validation”). Partición de datos en
entrenamiento, validación y test.
● Selección de la métrica: RMSE, MAE, AUC, ...
● Selección del algoritmo
● Selección de los parámetros del algoritmo (“hyperparameter tuning”)
● Evaluación del modelo, según la métrica y con el sistema de validación
● Objetivo principal: el modelo debe generalizar y mantener su rendimiento para datos no vistos, evitar el
sobreajuste (“overfitting”)
Problema Planteado:
Parques en funcionamiento
Mejoras puntuales con alto coste económico
Confirmación de dicha mejora
Elección de próximas turbinas a mejorar
Solución Ejecutada:
Captura y preparación de datos alta frecuencia
Análisis, modelado y predicción
Modelo ML de Turbinas Modificadas a partir de
comportamiento de las vecinas
Mejora Conseguida:
Confirmación y cuantificación de la mejora
Reducción del tiempo de evaluación al usar datos
de alta frecuencia
Evaluación en todos los sectores
Problema Planteado:
Fallos muy costosos y no previsibles
Tiempos de reparación largos
Pérdidas de producción
Solución Ejecutada:
Captura y preparación de datos
Identificación momentos de fallos
Modelo ML de predicción de temperaturas
Mejora Conseguida:
Sistema de alerta de anomalías
Posibilitar Mantenimiento Predictivo
Reducción costes mantenimiento
https://opendata-renewables.engie.com/explore/index
Machine Learning
Los “Datos”