Metodos No Jerarquicos PDF
Metodos No Jerarquicos PDF
Metodos No Jerarquicos PDF
ALGORITMO K-MEANS
Lo primero que se hace es escalar o normalizar los datos,para que ninguna variable tenga mas peso que otras
library(readxl)
datos <- read_excel("datos.xlsx")
1. Se debe fijar la semilla, ya que permite reproducir este mismo ejercicio, obteniendo siempre el mismo
resultado;si no se realiza este proceso, nos daria un resultado diferente ya que k-means tiene un componente
aleatorio, que al iniciarlo selecciona aleatoriamente las primeras observaciones, una para cada una de los clusters
que se hayan elegido
2. Luego se aplica k-means al juego de datos una vez escalados y le indicamos que queremos 4 clusters
se puede acceder a informacion como la asignacion de las observaciones a los clusters o a las distintas inercias
## [1] 1 1 2 2 1 2
## [1] 90035
## [1] 37343.34
## [1] 52691.66
No se puede determinar a primera medida un numero de clusters optimo, ya que depende de lo que se este
buscando, pero si hay una medida en la que nos podemos apoyar, la INERCIA INTERGRUPOS, para ello se
puede hacer una exploracion de los distintyos valores de esta inercia probando con un cluster, con dos, con tres y
asi sucesivamente hasta el numero que consideremos
Se va a presentar graficamente las dos variables iniciales antes de escalar como son la antiguedad en la
compañia y la antiguedad del permiso de conducir y le vamos a decir que pinte las observaciones en funcion del
cluster al que han sido asignadas Se introduce una etiqueta para las X “fidelidad de la persona a la compañia”
y una etiqueta para las Y “experiencia” de esta persona como conductor
plot(datos$ant_comp,datos$ant_perm, col=insurance.km$cluster ,xlab = "Fidelidad a la compañía",
ylab = "Experiencia" )
Analisis
Cluster 2: Tienen el indice de siniestralidad mas alto corresponde a personas con una media de 49 años Tienen
la antiguedad del vehiculo en 3.2 años usan los vehiculos mas nuevos con las personas mayores de la muestra
de datos