Deber 1
Deber 1
Deber 1
MINERÍA DE DATOS
DEBER N°1
DOCENTE
Quito – Ecuador
2022
Ejercicio 1
Supongamos que tenemos un modelo predictivo para detectar Fraude en Tarjetas de
Crédito, la variable a predecir es Fraude con dos posibles valores Sí (para el caso en que
sí fue fraude) y No (para el caso en que no fue fraude). Supongamos la matriz de
confusión es:
NO SÍ
NO 83254 12
SÍ 889 3
Calcule:
Precisión global
VN +VP
P=
VN + FN + FP+VP
83254 +3
P= =0.989
83254+ 3+12+889
P=98.9 %
Precisión positiva (del Sí)
VP
PP=
VP+ FP
3
PP= =0.0034
889+3
PP=0.34 %
83254
PN = =0.999
83254+12
PN =99.9 %
Falsos positivos
FP
PFP=
FP+VN
12
PFP= =0.0 0 0144
83254+12
PFP=0. 0 144 %
Falsos negativos
FN
PFN =
FN +VP
889
PFN = =0.996
889+3
PFN =99.6 %
Asertividad Positiva
VP
AP=
VP+ FP
3
AP= =0.2
3+12
AP=20 %
Asertividad Negativa
VN
AN =
FN +VN
83254
AN= =0.989
889+83254
AN=98.9 %
¿Es bueno o malo el modelo predictivo? Justifique su respuesta
Es un mal modelo predictivo porque el objetivo consiste en determinar cuál
registro es fraude y en este modelo para dicho caso solo obtuvo un porcentaje de
precisión positiva de 0.34%
Ejercicio 2
En este ejercicio usaremos los datos (recursos humanos.csv) sobre empleados que dejan
una empresa. El objetivo analizar por qué los mejores y más experimentados empleados
deciden irse con la competencia y este podría ser un desafío realmente serio para un
departamento de recursos humanos, desafío que se podría abordar desde nuestro
conocimiento en modelos predictivos.
3312+989
P= =0.9558
3312+989+61+138
P=95.58 %
Precisión Negativa
VN
PN =
VN + FP
3312
PN = =0.96
3312+138
PN =96 %
Precisión Positiva
VP
PN =
VP+ FN
989
PN = =0.9419
989+61
PP=94. 19 %
4. Genere un Modelo Predictivo usando K vecinos más cercanos con los
siguientes núcleos: rectangular, triangular, epanechnikov, biweight,
triweight, cos, inv, gaussian y optimal usando la precisión global determine
cuál modelo produce los mejores resultados.
En función de los resultados de precisión global para los 9 núcleos y los datos
generados para entrenamiento como prueba, la mayor precisión global es para el
núcleo inv con 95.711 de precisión global
En este caso la precisión global decayó a un 87.04% pero esto es mucho más
grave al tener en cuenta que el objetivo es predecir si algún empleado va a
abandonar la empresa y para este caso la precisión es de 71.14% casi 20%
menos que tomando todas las variables juntas. De esta manera se puede concluir
que no se tiene un modelo eficaz al no tomar todas las variables predictoras.
Ejercicio 3
Esta pregunta utiliza los datos sobre la conocida historia y tragedia del Titanic, usando
los datos (titanic.csv) de los pasajeros se trata de predecir la supervivencia o no de un
pasajero.
P=84.1%
Precisión Positiva
VP
PP=
VP+ FN
84
PP= =0.73
84+31
PP=73 %
Precisión Negativa
VN
PN =
VN + FP
192
PN = =0.901
192+21
PN =90.1 %
Falsos Positivos
FP
P FP=
FP+VN
21
PFP= =0.0 986
21+192
PFP=9. 8 6 %
Falsos Negativos
FN
PF N=
FN +VP
31
PFN = =0.269
31+ 84
PFN =2 6.9 %
Asertividad Positiva
VP
AP=
VP+ FP
84
AP= =0.8
84+21
AP=80 %
Asertividad Negativa
VN
AN =
VN+ FN
192
AN = =0.86
192+ 31
AN =86 %
4. Genere la curva ROC para cada modelo, ¿Cuál produce los mejores
resultados según la curva ROC?
De manera general todos los modelos tienen un resultado cercano con respecto a
la convergencia a 1, sin embargo, el núcleo que converge más rápido en la cura
ROC corresponde a rectangular
Ejercicio 4
Esta pregunta utiliza los datos sobre muerte del corazón en Sudáfrica (SAheart.csv). La
variable que queremos predecir es chd que es un indicador de muerte coronaria basado
en algunas variables predictivas (factores de riesgo) como son el fumado, la obesidad,
las bebidas alcohólicas, entre otras.
REAL / PREDICCIÓN NO SÍ
NO 38 11
SÍ 15 6
Precisión Global
VP+ VN
P=
VP+VN + FP+ FN
6+38
P= =0.628
6+38+ 11+ 15
P=62.8 %
Precisión Positiva
VP
PP=
VP+ FN
6
PP= =0.286
6+15
PP=28.6 %
Precisión Negativa
VN
PN =
VN + FP
38
PN = =0.775
11+38
PN =77.5 %
Falsos Positivos
FP
P FP=
FP+VN
11
PFP= =0.224
11+38
PFP=22.4
Falsos Negativos
FN
P FN =
FN +VP
15
PFN = =0.714
15+6
PFN =71.4
Asertividad Positiva
VP
AP=
VP+ FP
6
AP= =0.353
6+11
AP=35.3 %
Asertividad Negativa
VN
AN =
VN+ FN
38
AN = =0.717
38+15
AN =71.7 %
3. Genere un Modelo Predictivo usando K vecinos más cercanos con los
siguientes núcleos: rectangular, triangular, epanechnikov, biweight,
triweight, cos, inv, gaussian y optimal ¿Cuál produce los mejores resultados
en el sentido de que predice mejor las personas sí tendrán muerte del
corazón? ¿Alguno genera resultados aceptables?
Una vez generada la tabla de comparación de modelos se puede determinar que
el provee una mejor precisión en la predicción de que se puede tener una muerte
de corazón corresponde al núcleo biweight.
Hay que tener en cuenta que es el más preciso, sin embargo, no quiere decir que
pueda considerarse como un modelo aceptable ya que se requiere predecir de
manera sistemática esta condición, la cual ningún modelo provee con un
porcentaje aceptable para ser adoptado como eficaz.