MF1 - UD3 - Preparacion y Clasificacion de Datos de Entrenamiento
MF1 - UD3 - Preparacion y Clasificacion de Datos de Entrenamiento
MF1 - UD3 - Preparacion y Clasificacion de Datos de Entrenamiento
Proyecto financiado por el Ministerio de Educación y Formación Profesional - U.E. Next Generation
Dirección de proyecto UGT España:
Fernando Montalvo Martín
Coordinación de proyecto UGT España:
Manuela Jiménez Luna
2
Índice
Índice .................................................................................................................................................................. 3
1 INICIO ......................................................................................................................................................... 5
1.1 Consideraciones previas ........................................................................................................................ 5
1.2 Introducción............................................................................................................................................. 5
1.2.1 ¿Qué vas a aprender en esta unidad? ........................................................................................ 6
1.2.2 ¿Para qué vas a aprender estos contenidos? ........................................................................... 6
1.2.3 ¿Cómo vas a conseguir el gran reto de este módulo formativo? ............................................ 7
2 INTELIGENCIA ARTIFICIAL ....................................................................................................................... 8
2.1 Aprendizaje automático y preparación de los datos ............................................................................ 8
2.2 Definición ............................................................................................................................................... 10
2.3 Muestreo de datos ................................................................................................................................ 12
2.4 Datos etiquetados ................................................................................................................................. 12
2.4.1 ¿Sabes cuál es la gran ventaja de los datos etiquetados? ..................................................... 13
2.5 Datos no etiquetados ............................................................................................................................ 13
2.5.1 Preprocesamiento de datos ..................................................................................................... 14
2.6 Normalización de los datos .................................................................................................................. 14
2.7 Ingeniería de características (feature engineering) ............................................................................. 15
2.8 Remuestreo de datos ............................................................................................................................ 17
2.9 Evaluación de datos .............................................................................................................................. 19
2.9.1 Matriz de confusión .................................................................................................................. 19
2.9.2 Caso de uso ............................................................................................................................... 21
2.9.3 Validación cruzada ................................................................................................................... 21
2.9.4 ¿Cómo se realiza este proceso? .............................................................................................. 23
2.9.5 Caso de uso ............................................................................................................................... 23
2.9.6 Entrenamiento para el reto ....................................................................................................... 24
3 GUIA PARA LA PREPARACIÓN DE DATOS DE ENTRENAMIENTO ....................................................... 25
3.1 Definir el objetivo y comprender los datos .......................................................................................... 26
3.2 Limpieza de datos ................................................................................................................................. 26
3.3 Transformación de datos ..................................................................................................................... 26
3.4 Selección de características ................................................................................................................ 27
3.5 División de conjuntos, validación y prueba .......................................................................................... 27
3.6 Manejo de desequilibrios de clase ....................................................................................................... 27
3.7 Normalización y estandarización ......................................................................................................... 28
3.8 Evaluación y refinamiento .................................................................................................................... 28
4 GUIA PARA LA PREPARACIÓN DE LOS DATOS EN APRENDIZAJE SUPERVISADO ............................ 29
4.1 Definición del problema y recopilación de datos ................................................................................ 30
3
4.2 Análisis Exploratorio de Datos (EDA)................................................................................................... 30
4.3 Limpieza y preprocesamiento de datos .............................................................................................. 30
4.4 División de datos en conjuntos de entrenamiento y prueba .............................................................. 31
4.5 Selección de características y reducción de dimensionalidad .......................................................... 32
4.6 Construcción y entrenamiento del modelo ......................................................................................... 32
4.7 Evaluación y ajuste del modelo ............................................................................................................ 32
4.8 Caso de uso ........................................................................................................................................... 33
5 GUIA PARA LA PREPARACIÓN DE DATOS CON APRENDIZAJE NO SUPERVISADO .......................... 34
5.1 Definir el objetivo y recopilar datos ...................................................................................................... 35
5.2 Análisis exploratorio de datos (EDA) ................................................................................................... 35
5.3 Limpieza y preprocesamiento de datos .............................................................................................. 35
5.4 Selección de características y reducción de dimensionalidad .......................................................... 36
5.5 Normalización de datos ........................................................................................................................ 36
5.6 Selección de algoritmos y ajuste de hiperparámetros ....................................................................... 37
5.7 Evaluación del modelo y análisis de resultados ................................................................................. 37
5.8 Caso de uso ........................................................................................................................................... 38
5.9 Entrenamiento para el reto ................................................................................................................... 39
5.10 ¿Qué has aprendido en esta unidad? ........................................................................................... 40
5.11 Referencias bibliográficas ............................................................................................................ 41
6 ANEXOS ................................................................................................................................................... 42
6.1 Glosario .................................................................................................................................................. 42
6.1.1 Clustering .................................................................................................................................. 42
6.1.2 Coeficiente ................................................................................................................................ 42
6.1.3 Convergencia............................................................................................................................. 42
6.1.4 Descenso de gradiente ............................................................................................................. 42
6.1.5 Desvío estándar ........................................................................................................................ 42
6.1.6 Discretización ............................................................................................................................ 42
6.1.7 Folds .......................................................................................................................................... 42
6.1.8 Insights ...................................................................................................................................... 43
6.1.9 Outliers....................................................................................................................................... 43
4
1 INICIO
A lo largo del documento encontrarás algunas palabras con un enlace que te llevará al glosario del curso
para que puedas consultar su significado si así lo necesitas.
También encontrarás otros enlaces a vídeos o páginas web externas. Te recomendamos que los abras
pulsando el botón derecho del ratón y seleccionando la opción “Abrir hipervínculo” para que se muestren en
una ventana emergente distinta a la actual.
1.2 Introducción
5
1.2.1 ¿Qué vas a aprender en esta unidad?
b. Muestreo de datos
c. Datos etiquetados
d. Datos no etiquetados
g. Remuestreo de datos
h. Evaluación de datos
i. Matriz de confusión
Para realizar operaciones con aplicaciones de inteligencia artificial, alimentándolas con datos específicos
para personalizar los resultados obtenidos y mejorar los resultados.
6
1.2.3 ¿Cómo vas a conseguir el gran reto de este módulo formativo?
7
2 INTELIGENCIA ARTIFICIAL
Veamos un ejemplo de aprendizaje de datos para entender cómo se puede aplicar a la vida real. Piensa en
una plataforma de contenido audiovisual. Utilizando algoritmos de aprendizaje automático, el sistema
analiza las calificaciones y preferencias de las personas usuarias para crear un perfil personalizado y
sugerir películas o series según su gusto, mejorando así su experiencia. Esto es posible gracias a datos que
aportan información de valor. Pero, para llegar aquí, ha sido necesaria una correcta preparación de datos.
¿Sabías que la preparación de los datos es clave para el aprendizaje automático y para obtener buenos
resultados? Descubriremos los motivos en los próximos apartados.
8
• Normalización y estandarización
Los datos pueden estar en diferentes formatos, escalas y unidades. La preparación de datos
permite normalizarlos y estandarizarlos para asegurar que los diferentes atributos o
características tengan una importancia equitativa en el modelo. Además, ayuda a evitar
problemas derivados de la heterogeneidad de los datos; esto podría afectar negativamente el
rendimiento del modelo.
9
• Reducción de la dimensionalidad
En conjuntos de datos con muchas características, puede haber problemas de dimensionalidad
alta; esto puede afectar al rendimiento del modelo y aumentar el tiempo de entrenamiento.
Podemos aplicar técnicas de reducción de la dimensionalidad para reducir la cantidad de
características sin perder información importante:
o Análisis de Componentes Principales (ACP, o en su versión inglesa, Principal Component
Analysis, PCA).
o Selección de características basadas en la importancia.
2.2 Definición
Como hemos visto anteriormente, el aprendizaje automático es un campo que se enfoca en enseñar a los
ordenadores a resolver diferentes tipos de problemas utilizando datos extraídos de casos reales del
pasado. Cada caso tiene características medibles que describen el problema que se está tratando de
resolver. También se le puede asignar una etiqueta a cada caso con información, que es la respuesta que el
algoritmo debe ser capaz de predecir.
10
¡Recuerda! A veces no es posible asignar una etiqueta, por ejemplo, cuando la solución del problema no se
conoce. Son los ejemplos no etiquetados.
11
Queremos crear un sistema que identifique automáticamente si un correo electrónico es spam. Recopilamos
correos etiquetados como "spam" o "no spam" y extraemos características de ellos, como palabras clave,
longitud del mensaje o una dirección extraña.
Si entrenamos al algoritmo utilizando estos datos y características aprenderá patrones y relaciones entre
ellas y las etiquetas (spam o no spam).
Una vez entrenado, el algoritmo sabrá si recibes un correo de spam o no y lo mandará a la bandeja de correo
no deseado.
Esta técnica analiza una muestra representativa de datos dentro de un conjunto más grande. Toma una
fracción de ellos para sacar deducciones y generalizar conclusiones sobre el conjunto de la población total.
La muestra debe reflejar las características y propiedades del conjunto completo de datos, de manera que las
conclusiones obtenidas a partir de ella puedan extrapolarse al total con un margen de error aceptable.
Son aquellos en los que cada ejemplo de datos está asociado con una etiqueta o una clase. Es decir,
conoce la respuesta correcta para cada muestra de datos.
Estas etiquetas pueden ser proporcionadas por humanos o generadas automáticamente y se utilizan para
entrenar modelos predictivos. El objetivo es aprender la relación entre las características de entrada (variables
independientes) y las etiquetas de salida (variable dependiente).
12
Volvamos al ejemplo anterior del correo spam. Recopilaremos algunos casos reales de correos junto con
sus respectivas etiquetas. Mira la tabla, te ayudará a entenderlo.
En este caso, los datos etiquetados consisten en los correos junto con la etiqueta correspondiente que
indica si son o no "spam".
Como has podido observar, usando estos datos etiquetados, podemos entrenar un algoritmo para que
aprenda a distinguir entre correos no deseados y deseados basándose en las características presentes en
los mensajes.
La codificación de variables por categorías es importante en la preparación de datos que se realiza antes de
entrenar un modelo de aprendizaje automático.
Sigamos avanzando para saber más de este tema. Las variables categóricas son características que
representan diferentes categorías o etiquetas, como el estado de ánimo (feliz/triste), el color de los ojos
(azul/marrón) o la marca comercial (Toyota/Ford). Muchos algoritmos de aprendizaje automático no
pueden trabajar directamente con variables categóricas, porque necesitan valores numéricos para
funcionar correctamente. Antes, es necesario efectuar una transformación de estas variables.
Permite entrenar modelos de aprendizaje automático con supervisión, aprendiendo patrones y características
específicas que ayudan a obtener predicciones precisas sobre nuevos datos no vistos.
¿Sabías que la obtención y etiquetado de grandes cantidades de datos puede ser costosa y consumir
mucho tiempo, ya que generalmente requiere la intervención humana para asignar las etiquetas correctas?
No debemos olvidar que las máquinas no son inteligentes y que sólo hacen aquello para lo que están
programadas. Somos las personas las que decimos qué datos se recogen y cómo se procesan.
Son datos que no tienen etiquetas asociadas a información explícita sobre las categorías a las que pertenecen
o sus etiquetas no están disponibles. Únicamente contienen características o atributos de los ejemplos, pero
son útiles en las siguientes situaciones:
13
2.5.1 Preprocesamiento de datos
Los datos no etiquetados pueden ser utilizados para tareas de limpieza, normalización y transformación de
datos antes del entrenamiento.
Pueden incluir:
● Eliminar valores atípicos.
● Imputar valores faltantes.
● Escalar características.
● Otros.
La normalización de datos o escala de datos, transforma los datos originales a una escala común y
consistente. Su objetivo es asegurar que todas las características tengan un rango similar y no dominen el
modelo debido a diferencias en las unidades o magnitudes de los datos.
14
• Evita sesgos en el modelo
Algoritmos de aprendizaje, como las redes neuronales o los algoritmos basados en distancias,
pueden verse afectados por la escala de los datos. Si las variables tienen diferentes escalas, estos
pueden dar más importancia a las variables con valores más grandes, generando sesgos y
afectando al rendimiento del modelo.
• Acelera la convergencia del modelo hacia una solución óptima
Al tener datos en una escala común, los algoritmos pueden encontrar relaciones y patrones de
manera fácil y rápida durante el entrenamiento.
• Mejora la interpretación de los coeficientes
En algoritmos como la regresión lineal (que ya vimos en la unidad anterior), la normalización de
datos puede mejorar la interpretación de los coeficientes. Si las variables están en diferentes
escalas, los coeficientes asociados a ellas pueden ser difíciles de comparar y evaluar su
importancia relativa.
• Estabiliza los algoritmos sensibles a la varianza
La normalización puede estabilizar algoritmos, como el descenso de gradiente, al reducir la
varianza de los datos y asegurar una mejor convergencia.
¡Importante! No todos los algoritmos requieren la normalización de datos. Por ejemplo, los árboles de
decisión o los algoritmos basados en reglas, no están afectados por la escala de los datos. En otros casos,
la normalización puede garantizar resultados más consistentes y mejores rendimientos en el aprendizaje
automático.
En los siguientes puntos trataremos en profundidad la ingeniería de características. Esta técnica selecciona,
crea o modifica características para representar mejor los datos y mejorar la capacidad del modelo. Extrae
información útil de datos y resalta las relaciones o patrones importantes que no son evidentes inicialmente.
15
Las tareas propias de la ingeniería de características son:
● Creación de nuevas características
A partir de las existentes, usa operaciones matemáticas, como las combinaciones, para extraer
información adicional.
● Transformación de características
Aplica transformaciones a las ya existentes para mejorar su distribución o hacerlas más adecuadas
para el modelo, por ejemplo:
● La normalización.
● La discretización.
● La escala logarítmica.
● Selección de características
16
Esta selección se realiza mediante métodos que evalúan la relevancia de cada característica:
1. Pruebas estadísticas.
2. Análisis de correlación.
3. Técnicas de selección basadas en modelos o algoritmos de selección de características específicas.
Esta técnica corrige datos desbalanceados en la clasificación para evitar la distribución desigual de clases
en el conjunto de datos. Significa que una o varias clases tienen una cantidad significativamente mayor o
menor de ejemplos comparado con otras, lo que puede sesgar los resultados en favor de la clase mayoritaria.
Mejorar la precisión: Si una clase tiene una representación mucho mayor en el conjunto de datos, el modelo
puede estar sesgado y no aprender correctamente la clase minoritaria. Al remuestrear equitativamente cada
clase, aumentando la cantidad de ejemplos de la minoritaria o disminuyendo los de la mayoritaria, se mejora
17
la precisión del modelo.
Evitar el sesgo: Los modelos de aprendizaje automático están diseñados para minimizar el error global y, en
presencia de clases desbalanceadas, pueden tender a clasificar la mayoría de los ejemplos como
pertenecientes a la clase mayoritaria. El remuestreo ayuda a evitar este sesgo al proporcionar al modelo más
ejemplos de la clase minoritaria para aprender y ajustar sus parámetros de manera equilibrada.
Aumentar la generalización: Esto ayuda al modelo a realizar predicciones más precisas en nuevos datos y
evitar el sobreajuste a la clase mayoritaria. El remuestreo puede aumentar la generalización del modelo al
proporcionar una cantidad suficiente de ejemplos de la clase minoritaria para capturar su variabilidad y
patrones subyacentes.
Ambos enfoques tienen ventajas y desventajas. La elección depende del contexto y las características
específicas del conjunto de datos.
¡Importante! El remuestreo puede introducir cierto grado de sesgo o información redundante en los datos.
Es fundamental evaluar su impacto en el rendimiento del modelo.
18
2.9 Evaluación de datos
Esta herramienta evalúa el desempeño de un modelo de clasificación. Es una matriz con cuatro celdas que
muestra la cantidad de predicciones realizadas por el modelo en función de las clases reales.
Para ayudarte a entender la estructura general de la matriz, te proponemos que pienses en un caso médico,
como la realización de pruebas de detección temprana de una enfermedad para poder tratar cuanto antes a
aquellas personas que aún no tienen síntomas evidentes.
● Verdadero positivo (TP): El modelo predijo correctamente una instancia como positiva cuando
realmente lo era.
● Falso positivo (FP): El modelo hizo una predicción incorrecta indicando positiva cuando en realidad
era negativa.
● Falso negativo (FN): El modelo predijo incorrectamente considerándola como negativa cuando en
realidad era positiva.
● Verdadero negativo (TN): El modelo predijo correctamente una instancia como negativa cuando
realmente lo era.
19
Si aplicamos lo aprendido, con estos valores, podemos calcular métricas de evaluación del desempeño del
modelo:
● Precisión (precision)
Mide la proporción de instancias clasificadas correctamente como positivas en relación con todas
las instancias clasificadas como positivas (TP / (TP + FP)). A mayor precisión, menor cantidad de
falsos positivos.
● Recall o sensibilidad
Mide la proporción de instancias positivas clasificadas correctamente en relación con todas las
instancias realmente positivas (TP / (TP + FN)).
● Exactitud (accuracy)
Mide la proporción de las instancias clasificadas correctamente, tanto positivas como negativas ((TP
+ TN) / (TP + TN + FP + FN)). La exactitud proporciona una medida general del rendimiento del
modelo.
● F1-Score
Es una métrica que combina la precisión y el recall en un solo valor. Es útil cuando hay un
desequilibrio entre las clases. El F1-Score se calcula como 2 x (precision x recall) / (precision + recall).
20
¿Sabías que la matriz de confusión permite visualizar claramente los resultados de las predicciones del
modelo, facilitando la identificación de posibles problemas, como la tendencia del modelo a clasificar
erróneamente una clase específica?
La matriz de confusión se puede utilizar para diagnosticar si un paciente tiene o no COVID en base a la
información médica. Y como no queremos que se vayan sin diagnosticar pacientes que realmente lo tengan,
maximizaremos la sensibilidad.
Esta técnica evalúa el rendimiento de un modelo estadístico o de aprendizaje automático. Divide el conjunto
de datos disponibles en múltiples subconjuntos o "pliegues" (folds) y realiza varios entrenamientos y
evaluaciones del modelo utilizando diferentes combinaciones de estos pliegues.
¿Cuáles son las razones por las que se utiliza la validación cruzada?
21
● Evaluación más confiable
Al efectuar múltiples evaluaciones del modelo, en diferentes divisiones de los datos, proporciona una
estimación fiable de su rendimiento en comparación con una única división de entrenamiento y
prueba. Esto ayuda a reducir la dependencia del rendimiento del modelo en una sola partición de los
datos.
● Mejor uso de los datos
Usa de manera eficiente el conjunto de datos disponible utilizando todos para entrenar y evaluar el
modelo en diferentes iteraciones. Es útil en conjuntos de datos pequeños, donde cada instancia es
valiosa para el aprendizaje del modelo.
● Detección de sobreajuste
Ayuda a identificar si el modelo está sobre ajustando los datos de entrenamiento al evaluar su
rendimiento en conjuntos de prueba diferentes. Por ejemplo, si el modelo tiene un buen rendimiento
en los datos de entrenamiento, pero un rendimiento deficiente en los de prueba en varias iteraciones,
es una señal de posible sobreajuste.
22
2.9.4 ¿Cómo se realiza este proceso?
La validación cruzada se usa mucho en el campo económico. A medida que pasa el tiempo se va
determinando como una moneda USD o euro o bitcóin se comporta. Cruzando datos de comportamiento de
estas monedas con sucesos históricos se puede determinar el riesgo que hay de inversión.
23
2.9.6 Entrenamiento para el reto
24
3 GUIA PARA LA PREPARACIÓN DE DATOS DE
ENTRENAMIENTO
Esta infografía muestra los pasos con las mejores prácticas para la preparación de datos.
25
3.1 Definir el objetivo y comprender los datos
Es necesario un proceso que identifique y corrija los datos erróneos o valores no válidos que puedan llevarnos
a predicciones de mala calidad.
Esto implica:
● Manejar valores faltantes, aplicando técnicas como el imputado de valores medios o la eliminación
de filas, dependiendo del contexto.
● Identificar y eliminar duplicados para evitar sesgos.
● Corregir errores o inconsistencias.
Es importante verificar y corregir errores, como datos incorrectos o incoherentes que afecten al rendimiento
del modelo.
Los datos pueden requerir transformaciones para adecuarse al modelo, como la normalización de variables
numéricas o la codificación de variables categóricas.
26
También se pueden aplicar técnicas de reducción de dimensionalidad, como Análisis de Componentes
Principales (ACP), para disminuir la cantidad de variables y mejorar la eficiencia del modelo.
Identifica las variables más relevantes y elimina las que no contribuyen significativamente a la predicción.
Los métodos que se utilizan para identificar las variables más informativas serían:
● Correlación.
● Pruebas estadísticas.
● Algoritmos de selección automática de características.
Para obtener una evaluación imparcial y precisa del modelo es esencial dividir los datos en conjuntos
separados de entrenamiento, validación y prueba:
Cuando una clase tiene muchos más ejemplos que otras, es necesario manejar esta circunstancia para evitar
sesgos en el modelo.
27
Las técnicas aplicadas para equilibrar las clases y mejorar la capacidad de predicción son:
● Submuestreo.
● Sobremuestreo.
● Generación de muestras sintéticas.
● Normalización: Ajusta los datos a un rango específico, como [0, 1], asegurando que todas las
variables tengan la misma escala.
● Estandarización: Transforma los datos para que tengan una media de 0 y una desviación estándar
de 1, facilitando la comparación entre variables.
Aplicadas las técnicas anteriores, es crucial evaluar el rendimiento del modelo en los datos de entrenamiento
usando métricas adecuadas, como precisión, recall, F1-score o curvas ROC.
Cuando los resultados no son satisfactorios, se pueden ajustar los pasos anteriores:
● Realizar una limpieza adicional de datos.
● Probar diferentes técnicas de transformación.
● Ajustar los hiperparámetros del modelo.
¡Recuerda! Siguiendo las prácticas descritas, garantizamos que los datos estén limpios, transformados y
seleccionados correctamente para construir modelos efectivos.
Una buena preparación de datos permite obtener información valiosa y tomar decisiones fundamentadas en
el análisis y la predicción.
28
4 GUIA PARA LA PREPARACIÓN DE LOS DATOS EN
APRENDIZAJE SUPERVISADO
El aprendizaje supervisado permite construir modelos capaces de hacer predicciones precisas basadas en
datos de entrenamiento etiquetados. En esta guía, exploraremos los pasos fundamentales para preparar
estos sistemas.
A continuación, te mostramos una infografía que te ayudará a tener una visión más global del concepto:
29
4.1 Definición del problema y recopilación de datos
Primer paso, definir el problema a resolver. Esto implica comprender el objetivo final, identificar las variables
de entrada (características) y la de salida (etiqueta) que se desea predecir. Luego se deben recopilar los datos
relevantes para entrenar y evaluar el modelo supervisado. Estos datos deben estar etiquetados con las
variables de entrada junto con las etiquetas correspondientes.
Incluye:
● Analizar estadísticas descriptivas.
● Detectar valores atípicos.
● Visualizar distribuciones y relaciones entre variables.
● Realizar un muestreo aleatorio de datos para una inspección detallada.
Los datos pueden requerir transformaciones para adecuarse al modelo como la normalización de variables
numéricas o la codificación de variables categóricas.
Esta etapa aborda los problemas de calidad de los datos y realiza acciones de limpieza y preprocesamiento:
30
● Tratar valores faltantes o nulos.
● Eliminar duplicados.
● Corregir errores obvios.
● Manejar valores atípicos.
Además, se deben normalizar o estandarizar las variables de entrada para asegurar que todas tengan una
escala similar y facilitar el proceso de aprendizaje.
Es fundamental dividir los datos en conjuntos de entrenamiento y prueba. El primero ajusta los parámetros
del modelo, el segundo evalúa el rendimiento final del modelo en datos no vistos.
La división adecuada ayuda a evaluar la capacidad de generalización del modelo y evitar el sobreajuste, donde
el modelo se ajusta demasiado a los datos de entrenamiento y no puede generalizar correctamente a nuevos
datos.
31
4.5 Selección de características y reducción de dimensionalidad
Los conjuntos pueden contener características redundantes que afectan negativamente el rendimiento del
modelo. Para ello, identificar las variables más relevantes para la predicción y eliminar las irrelevantes. Esto
puede basarse en técnicas de correlación, pruebas estadísticas o algoritmos de selección de características.
¿Sabías que la reducción de dimensionalidad, como el uso de ACP (Análisis de Componentes Principales),
ayuda a disminuir la cantidad de variables y mejorar la eficiencia del modelo?
Preparados los datos, se puede construir y entrenar el modelo de aprendizaje supervisado, seleccionando el
algoritmo adecuado según el tipo de problema y los datos disponibles. Se deben ajustar los hiperparámetros
del modelo y entrenar el modelo utilizando el conjunto de entrenamiento.
Es esencial evaluar el rendimiento del modelo en el conjunto de prueba utilizando métricas para el tipo de
problema, como las que vimos al principio de la unidad:
● Precision.
● Recall.
● F1-score.
● Curvas ROC.
32
Si no cumple con los requisitos deseados, se pueden realizar otros ajustes:
● Cambiar hiperparámetros.
● Probar diferentes algoritmos.
● Recopilar más datos de entrenamiento.
El primer paso es recopilar los correos electrónicos que se hayan identificado como spam o no spam. (cada
correo se denomina instancia o modelo). Los correos tienen elementos o atributos característicos como
dirección del remitente, asunto, fecha y hora, cuerpo del correo… que deben ser convertidos a una forma
numérica para que el modelo lo pueda entender. Esto se puede llevar a cabo con la técnica Bag of Words que
has visto en la unidad anterior.
Ahora que ya tienes los datos preprocesados se puede empezar el entrenamiento del modelo, utilizando una
de las técnicas de regresión que viste en la unidad anterior, de manera que el modelo aprenderá a diferenciar
lo que es spam de lo que no, asignando más o menos peso a diferentes palabras. Por ejemplo, si aparece la
palabra “sorteo” es más probable que se trate de spam.
Después de que el modelo haya sido entrenado, podemos utilizarlo para predecir si un correo nuevo es spam
o no lo es.
Para los problemas anteriores podemos encontrar diferentes escenarios de entrenamiento en aprendizaje
automático. Estos difieren en los tipos de conjuntos de entrenamiento y en el método para procesar los
datos de entrenamiento, prueba y validación.
¿Recuerdas que hemos visto los tipos de aprendizaje en la unidad anterior? Aquí te dejamos un resumen para
refrescar tu memoria.
33
5 GUIA PARA LA PREPARACIÓN DE DATOS CON
APRENDIZAJE NO SUPERVISADO
Este aprendizaje descubre patrones y estructuras ocultas en los datos sin la necesidad de etiquetas
previas. A diferencia del supervisado, no dispone de información de salida para guiar el proceso de
entrenamiento.
En esta infografía veremos una aproximación a los principales pasos recogidos en la guía para una tener
una visión global.
34
5.1 Definir el objetivo y recopilar datos
El primer paso es definir el objetivo del proyecto determinando qué tipo de información se busca extraer de
los datos como:
● Agrupamientos.
● Estructuras latentes.
● Reducción de dimensionalidad.
● Análisis de asociación.
Explorar y comprender los datos en profundidad para identificar patrones y características importantes.
EDA identifica patrones y características importantes en los datos para explorar y comprenderlos en
profundidad:
● Analizar estadísticas descriptivas.
● Visualizar distribuciones y relaciones entre variables.
● Detectar posibles valores atípicos.
35
Realizar acciones de limpieza y preprocesamiento para garantizar la calidad de los datos.
● Manejo de valores faltantes.
● Eliminación de duplicados.
● Corrección de errores obvios.
Técnicas como ACP o de selección automática de características identifican las variables más informativas
y reducen la dimensionalidad de los datos, mejorando la eficiencia del análisis.
36
Es importante que todas las variables tengan la misma escala y sean comparables entre sí. Esto evita que
algunas dominen el análisis debido a su rango o magnitud. Se puede aplicar normalización para escalar los
datos a un rango específico o para que tengan una media de 0 y una desviación estándar de 1:
● Normalización Min-Max.
● Normalización Z-score.
Elegir los algoritmos adecuados y ajustar sus parámetros para obtener resultados óptimos.
En el aprendizaje no supervisado, se seleccionan los algoritmos adecuados según los objetivos y los datos
disponibles. Existen diversos algoritmos:
● Clustering (agrupamiento).
● Análisis de Componentes Principales (ACP).
● Análisis de Correspondencia Múltiple (ACM).
● Otros.
Aplicado el algoritmo de aprendizaje no supervisado, se evalúan los resultados y se analiza la calidad del
modelo. Esto puede implicar medidas de rendimiento específicas para cada técnica, como la inercia en el
clustering o la varianza explicada en el ACP. Es esencial realizar una interpretación y análisis de los resultados
para extraer conclusiones relevantes y tomar decisiones.
37
5.8 Caso de uso
El departamento de marketing de una empresa quiere ver qué promociones dejará satisfechos a sus
clientes, además de traer a otro cliente nuevos a su supermercado.
En primer lugar, necesitamos recoger datos de los clientes: sexo, edad, ubicación geográfica (por eso en
algunos centros nos preguntan nuestro código postal cuando pasamos por caja), productos que solemos
adquirir y frecuencia, entre otros. Y, aunque estos datos no son etiquetados (no supervisado), sí
necesitamos transformarlos para que sean comprensibles para el algoritmo. Para ello debemos
normalizarlos y así todas las características tendrán la misma escala.
Una vez preparados los datos, aplicamos un algoritmo que nos identifique segmentos de clientes, como el
K-means que has visto con anterioridad. Y una vez que la asignación de los segmentos deja de cambiar
significativamente porque el algoritmo ha terminado, tenemos a cada cliente asignado a un segmento
concreto con una característica específica.
Esta segmentación me puede ayudar a diseñar una campaña dirigida a mujeres jóvenes que compran con
poca frecuencia pero que queremos captar, por ejemplo.
38
5.9 Entrenamiento para el reto
Estas preparando los datos de entrenamiento de Machine Learning (ML) y es necesario que el sistema
identifique los datos inconsistentes que puedan influir en el correcto funcionamiento del modelo. Esto se lleva
a cabo en la fase:
a) Comprensión de datos.
b) Limpieza de datos.
c) Transformación de datos.
Feedback: La limpieza de datos consiste en filtrar todos los datos e identificar y eliminar aquellos erróneos
que pueden provocar que nuestro modelo no haga las predicciones de forma correcta.
Feedback: La respuesta correcta es descubrir patrones y estructuras ocultas en los datos sin necesidad de
etiquetas previas.
39
6 CIERRE
En la próxima unidad veremos en qué consiste el despliegue de aplicativos basados en inteligencia artificial
con el reconocimiento facial y los aspectos clave de utilizar el modelo DLOps en tus procesos. ¿Nos
acompañas? ¡Ya no queda nada!
Recuerda que ponemos a tu disposición el documento Mediateca, donde encontrarás contenido adicional
para ampliar información. Te animamos también a entrar en el foro del Módulo Formativo, donde
encontrarás actividades e información de actualidad para comentar con el resto de participantes.
40
6.2 Referencias bibliográficas
A continuación, puedes ver la relación de recursos (artículos, estudios, investigaciones, páginas web...) que
se han consultado y citado para elaborar el contenido de esta Unidad Didáctica:
• Harrington, P. (2012). Machine learning in action. Simon and Schuster. Manning Press.
• Janiesch, C., Zschech, P., & Heinrich, K. (2021). Machine learning and deep learning. Electronic
Markets, 31(3), 685-695.
• Norman, A. T. (2019). Aprendizaje automático en acción. Litres
41
7 ANEXOS
7.1 Glosario
7.1.1 Clustering
Es una técnica de aprendizaje automático no supervisado que agrupa datos similares en conjuntos
llamados clústeres. Su objetivo es descubrir patrones o estructuras ocultas en los datos sin etiquetas
predefinidas.
Volver al contenido
7.1.2 Coeficiente
Es la relación entre dos variables, es decir, la proporción de la variabilidad de A que puede ser explicada
por B.
Volver al contenido
7.1.3 Convergencia
Coincidencia, concurrencia.
Volver al contenido
Un algoritmo que estima numéricamente dónde una función genera sus valores más bajos y nos
permite encontrar mínimos.
Volver al contenido
Medida de dispersión que nos indican cuanto de dispersos están los datos con respecto de la media.
Volver al contenido
7.1.6 Discretización
Volver al contenido
7.1.7 Folds
42
Se refiere a divisiones del conjunto de datos utilizadas en técnicas como la validación cruzada. Son
conjuntos más pequeños y mutuamente excluyentes que se utilizan para entrenar y evaluar un modelo
de manera iterativa.
Volver al contenido
7.1.8 Insights
Son percepciones o conocimientos valiosos obtenidos del análisis de datos o experiencias, que
proporcionan una comprensión clara de patrones o tendencias subyacentes. Son valiosos para la toma
de decisiones informadas y el desarrollo de estrategias efectivas.
Volver al contenido
7.1.9 Outliers
Conocidos como valores atípicos, son observaciones o puntos de datos que se alejan
significativamente del patrón general o esperado en un conjunto de datos. Estos valores se encuentran
fuera del rango típico y pueden ser el resultado de errores de medición, eventos inusuales o
características únicas. Pueden tener un impacto significativo en el análisis de datos y deben ser
identificados y tratados adecuadamente para evitar distorsiones o conclusiones incorrectas.
Volver al contenido
43