Técnicas de Clusterización
Técnicas de Clusterización
Técnicas de Clusterización
PFC
Ingeniería Industrial
09/2014
Tutor: Jesús Muñuzuri Sanz
Alumno: Juan de Dios Lara Albín
Técnicas de Clusterización PFC
ÍNDICE
Pag.
1 Clasificar …………………………………………………..….. 2
5 Etapas ………………………………………………..……….. 16
5.1 Medidas de asociación ………………...…….….. 21
5.2 Técnicas …………...…………………….………. 29
5.3 Validación e interpretación ………………..……. 46
8 Conclusiones …………………………………………………. 87
9 Referencias …………………………………………………… 89
1
Técnicas de Clusterización PFC
1 Clasificar
Los atributos básicos de cada categoría son conocidos, aunque haya algunas
incertidumbres a la hora de asignar alguna observación dada.
2
Técnicas de Clusterización PFC
3
Técnicas de Clusterización PFC
Con lo cual la solución que buscamos es una partición de los m objetos, es decir,
un conjunto de grupos en los cuales un objeto pertenezca a un solo grupo y el
conjunto de estos grupos contenga a todos los objetos.
4
Técnicas de clusterización
2 El análisis clúster
5
Técnicas de clusterización
Con esto podemos llegar a la conclusión de que lo más fácil podría ser enumerar
todas las posibilidades y elegir la más atrayente. El número de formas en las que
podemos clasificar m observaciones en k grupos es un número de Stirling de
segunda especie:
6
Técnicas de clusterización
Antes del desarrollo de los ordenadores, aplicar los métodos clúster a conjunto
grandes de datos era una tarea molesta y dificultosa desde el punto de vista
computacional. Por ejemplo, clasificar un conjunto de datos con 200 entidades
requiere buscar una matriz de similaridad con 20.000 valores, tarea que
obviamente es costosa en tiempo, con la difusión de los ordenadores esta tarea es
mucho más factible.
7
Técnicas de clusterización
- La mayor parte de los métodos clúster han sido creados a partir de ciertas ramas
científicas, con lo cual, inevitablemente, están impregnadas de un cierto sesgo
procedente de su disciplina. Esta es una cuestión importante ya que cada
disciplina tiene sus preferencias como son los datos a emplear en la construcción
de la clasificación, con lo cual puede haber métodos válidos en psicología pero
que no lo son en biología, o viceversa.
8
Técnicas de clusterización
9
Técnicas de clusterización
Siendo la i-ésima fila de la matriz los valores de cada variable para el i-ésimo
individuo y la j-ésima columna los valores de la j-ésima variable a lo largo de
todos los individuos de la muestra.
10
Técnicas de clusterización
4 Técnicas Clúster
Los métodos jerárquicos tienen por objetivo agrupar todos los clúster para formar
un clúster nuevo o separar alguno existente para crear otros dos clústeres
distintos, de manera que se minimice alguna función distancia o se maximice
alguna medida de similitud.
11
Técnicas de clusterización
Por otro lado los métodos disociativos o divisivos realizan el proceso inverso al
anterior, es decir, empiezan con un grupo que contiene todos los individuos de la
muestra y a partir de este conglomerado se van formando a través de sucesivas
divisiones grupos cada vez más pequeños. Al final del proceso tenemos tantos
grupos como individuos hay en la muestra, teniendo en cada grupo un solo
individuo.
12
Técnicas de clusterización
1- Reasignación.
a) El método K-Medias.
b) El Quick-Clúster análisis.
c) El método de Forgy.
d) El método de las nubes dinámicas.
2- Búsqueda de la densidad.
13
Técnicas de clusterización
En los métodos que nos proporcionan una aproximación tipológica, los grupos se
forman buscando las zonas en las que se da una mayor concentración de los
individuos, entre estos están:
Los que nos proporcionan una aproximación probabilística siguen una ley de
probabilidad según la cual los parámetros varían de un grupo a otro, tratando en
este caso de encontrar los individuos que pertenecen a la misma distribución.
Entre los métodos de este tipo podemos destacar el método de las combinaciones
de Wolf.
3- Directos
4- Reducción de dimensiones.
Este método se centra en la búsqueda de unos factores en el espacio de los
individuos, correspondiéndose cada factor a un grupo, también se les conoce
como Análisis Factorial tipo Q.
14
Técnicas de clusterización
15
Técnicas de clusterización
5 Etapas
-Elección de variables
16
Técnicas de clusterización
Puede ocurrir que en algunas aplicaciones las variables que describen nuestros
objetos a clasificar no estén medidas todas en las mismas unidades, siendo las
variables de tipos completamente diferentes, algunas categóricas, otras ordinales
e incluso otras que tengan de una escala de tipo intervalo. De esta manera no
sería correcto tratar como equivalente, por ejemplo, la altura medida en metros,
el valor de la valentía en una escala de 10 puntos y el peso medido en kilos.
Cuando tenemos todas las variables de tipos diferentes lo que se suele hacer es
convertir todas las variables en variables binarias antes de calcular las
similaridades. Este procedimiento aunque puede ser muy clarificador tiene la
desventaja de que puede sacrificar parte de información.
- Medida de asociación
Para medir la proximidad entre los objetos del estudio se requiere establecer una
medida de asociación. Esta medida de asociación suele venir expresada en
términos de distancias cuando los objetos de estudio del Análisis Clúster son
17
Técnicas de clusterización
- Técnicas Clúster
Una vez que tenemos la relación entre cada objeto del estudio, podemos pasar a
agruparlos atendiendo a dicha relación. Los métodos clúster propuestos y
desarrollados en los últimos años son bastante numerosos y diversos en cuanto a
su concepción.
Con lo cual en algunos problemas que se nos planteen, la elección del método a
emplear será relativamente natural, atendiendo a la naturaleza de los datos usados
y de los objetivos finales que se persiguen, aunque en otros casos la elección del
método a usar no será tan clara.
18
Técnicas de clusterización
- Validación e interpretación
Para el primero de los problemas, en 1962 Sokal y Rohlf propusieron el uso del
coeficiente de correlación cofenético. Este coeficiente mide la correlación entre
las distancias iniciales, tomadas a partir de los datos originales, y las distancias
19
Técnicas de clusterización
finales con las cuales los individuos se han unido durante el desarrollo del
método.
Con respecto al segundo problema planteado, son muchas las técnicas existentes,
las más importantes las abordaremos más adelante cuando profundizemos en los
métodos jerárquicos.
20
Técnicas de clusterización
Una vez que hemos visto que el objetivo de un análisis Clúster es encontrar
agrupaciones naturales del conjunto de objetos de la muestra, tenemos que
definir que se entiende por agrupación natural y en base a que criterios podemos
decir que dos grupos son más o menos similares.
21
Técnicas de clusterización
En esta matriz la i-ésima fila de la matriz contiene los valores de cada variable
para el i-ésimo individuo, mientras que la j-ésima columna contiene los valores
22
Técnicas de clusterización
23
Técnicas de clusterización
Siendo el coseno del ángulo una medida de similaridad entre xi y xj, con valores
entre -1 y 1. Esta mediad es independiente, salvo signo, de la longitud de los
vectores considerados, es invariante ante homotecias, excepto un eventual
cambio de signo.
- Coeficiente de correlación.
24
Técnicas de clusterización
La diferencia entre este último método y el ángulo del coseno entre variables es
que el anterior método del ángulo del coseno se basa en los datos originales y por
ende emplea las desviaciones al origen, mientras que el coeficiente de correlación
usa los datos centrados y por lo tanto emplea las desviaciones respecto a la
media.
25
Técnicas de clusterización
- Distancia euclídea
26
Técnicas de clusterización
27
Técnicas de clusterización
- Distancia de Minkowski
28
Técnicas de clusterización
Una vez seleccionadas las variables y calculada la matriz de similitud, nos queda
el proceso de seleccionar el algoritmo para formar las agrupaciones o clusters.
Esta no es una tarea sencilla ya que existen diversos algoritmos y además están
en constante desarrollo en la actualidad. Pero el criterio esencial de todos ellos es
que intentan maximizar las diferencias entre los conglomerados y minimizar las
diferencias entre objetos de un mismo clúster.
Los métodos jerárquicos tienen por objetivo agrupar clústeres para formar uno
nuevo o para separar algún cluster ya existente dando origen a otros dos a partir
de este, de manera que si vamos implementando dicho método vamos
minimizando alguna medida de distancia o maximizando alguna medida de
similitud.
29
Técnicas de clusterización
ascendente, hasta que tenemos al final del proceso todos los objetos de la muestra
en un mismo clúster.
30
Técnicas de clusterización
Al final del proceso llegaremos al nivel n-1 donde tenemos un clúster que
contiene a todos los individuos de la muestra. Aunque el proceso puede terminar
antes si lo que queremos obtener es un número de grupos prefijado o se detecta a
través de un contraste de significación, que hay razones estadísticas para no
continuar agrupando clusters, ya que los más similares no son lo suficientemente
homogéneos como para determinar una misma agrupación.
31
Técnicas de clusterización
Dendograma:
Ahora vamos a ver algunos de los procedimientos que podemos emplear a la hora
de crear las aglomeraciones o clusters en las diversas etapas o niveles de un
procedimiento jerárquico. Estos procedimientos no proporcionan una solución
óptima para todos los problemas que en la práctica pudieran plantearse, ya que es
32
Técnicas de clusterización
Este método está basado en la distancia mínima entre individuos de los distintos
conglomerados, también se conoce con el nombre del vecino más cercano. La
distancia entre dos clusters es la distancia más corta que exista entre un punto de
un conglomerado y otro punto del otro conglomerado.
Es decir, con este método se considera que la distancia o similitud entre dos
clusters viene dada por la distancia mínima o similitud máxima entre los
individuos que la componen.
Con este método tenemos el problema de que se pueden producir largas cadenas,
llegándose a conformar una sola cadena cuando los clusters no están bien
definidos.
33
Técnicas de clusterización
34
Técnicas de clusterización
Este método es similar al anterior pero con la diferencia de que las distancias
entre dos clusters las tomamos como la máxima distancia existente entre dos
puntos de los clusters. Esta técnica elimina el problema de las largas cadenas del
método anterior. También es conocido como el método del vecino más lejano.
Es decir, consideramos que la distancia o similitud entre dos clusters hay que
medirla atendiendo a sus componentes más dispares, es decir, la distancia o
similitud entre los dos clusters viene dada respectivamente pos la máxima
distancia o la mínima similitud entre los componentes de estos clusters.
• Solventa el problema del método anterior pero los grupos son más
heterogéneos.
35
Técnicas de clusterización
- Promedio no ponderado
36
Técnicas de clusterización
- Promedio ponderado.
Ahora consideramos que la distancia o similitud entre dos clusters viene definida
por el promedio ponderado de las distancias o similitudes de los componentes de
un clusters respecto a los de otro.
Ahora si, al contrario del método anterior, tenemos en cuenta el tamaño de los
clusters.
37
Técnicas de clusterización
38
Técnicas de clusterización
Una desventaja de esto, es que si dos clusters son muy diferentes en tamaño, se
corre el peligro de que el centroide del clúster resultante este excesivamente
influenciado por el componente de tamaño superior y se pierdan las cualidades
del grupo pequeño o no se tenga en cuenta prácticamente.
39
Técnicas de clusterización
- Método de Ward.
Para este proceso calculamos en primer lugar la media de todas las varianzas en
cada clúster, a continuación, calculamos la distancia entre cada caso y la media
del clúster, sumando después la distancia entre todos los casos.
Ahora vemos cuales son los clusters que generan menos aumentos en la suma de
las distancias dentro de cada clúster y los vamos agrupando, con lo que vamos
creando grupos homogéneos y con tamaños similares, algo característico de este
método.
Para que este procedimiento sea óptimo, en cada paso del proceso consideró la
posibilidad de la unión de cada par de grupos y optar por la fusión de aquellos
dos grupos que menos incrementen la suma de los cuadrados de las desviaciones
al unirse.
40
Técnicas de clusterización
Este método es uno de los más utilizados en la práctica ya que posee casi todas
las ventajas del método de las K-medias (hablaremos más adelante, cuando
hablemos de los métodos no jerárquicos) y suele ser más discriminativo en la
determinación de los niveles de agrupación. Una investigación realizada por
Kuiper y Fisher demostró que este método era capaz de acercarse más a la
clasificación óptima que otros métodos.
- Lance y Williams
Este método busca agrupar todos los métodos vistos anteriormente bajo una
misma fórmula.
41
Técnicas de clusterización
Siendo dos clusters P y Q que se han agrupado, la distancia de estos con otro
clúster R puede calcularse como una función de las distancias entre los 3 clusters
de la forma siguiente:
Esta fórmula se referirá a cada uno de los métodos vistos hasta ahora
dependiendo del valor que tomen sus constantes de ponderación:
42
Técnicas de clusterización
Todos estos métodos vistos hasta ahora son métodos jerárquicos asociativos,
como dijimos anteriormente, dentro de los métodos jerárquicos también se
encuentran los disociativos.
43
Técnicas de clusterización
Estos métodos se basan en la idea de elegir una partición inicial de los individuos
para posteriormente intercambiar los miembros de estos conglomerados para
obtener una partición mejor.
Existen multitud de métodos para asignar los individuos a los diferentes clusters.
Cuando tenemos todos los objetos dentro de las distancias, seleccionamos una
segunda semilla e incluimos de nuevo los individuos dentro de la distancia
especificada. Cuando incluimos un individuo en un conglomerado, no
consideramos este individuo para posteriores semillas.
44
Técnicas de clusterización
45
Técnicas de clusterización
( )
Este coeficiente es simplemente la correlación entre los elementos de la
En los primeros pasos los saltos en las distancias será pequeño, mientras que en
los últimos pasos los saltos serán cada vez mayores.
46
Técnicas de clusterización
47
Técnicas de clusterización
6 Metodología seleccionada
Previamente se han explicado los distintos métodos para medir la similitud entre
objetos, pero ahora detallaremos analíticamente este método en concreto que será
el utilizado en nuestro proyecto.
48
Técnicas de clusterización
49
Técnicas de clusterización
- Distancia mínima
- Distancia máxima
- Promedio
50
Técnicas de clusterización
Con esto obtenemos las distancias entre los clusters que se van formando, que
como hemos visto depende del método que estemos implementando, y tendremos
distancias distintas en función del método implementado.
Para finalizar solo nos queda decidir el número de Clusters, para tomar esta
decisión representamos los distintos pasos del algoritmo y la distancia a la que se
produce la fusión. Cuando observemos que existe un salto brusco (pendiente
elevada), paramos el proceso y nos quedamos con el número de clusters
formados hasta ese paso.
51
Técnicas de clusterización
7 Aplicación y Resultados
Facebook Twitter
Almería 63.200 31.200
Cádiz 110.500 60.100
Córdoba 79.300 43.200
Granada 105.200 57.900
Huelva 49.100 24.700
Jaén 42.300 19.100
Málaga 185.200 93.200
Sevilla 153.500 82.900
63.200 31.200
110.500 60.100
79.300 43.200
105.200 57.900
49.100 24.700
42.300
X=
19.100
185.200 93.200
153.500 82.900
52
Técnicas de clusterización
Siendo las filas cada una de las provincias y las columnas correspondientes al
número de usuarios de Facebook y Twitter respectivamente.
Para el resto:
Almería-Córdoba:
Almería-Granada:
Almería-Huelva:
53
Técnicas de clusterización
Almería-Jaén:
Almería-Málaga:
Almería-Sevilla:
Cádiz-Córdoba:
Cádiz-Granada:
54
Técnicas de clusterización
Cádiz-Huelva:
Cádiz-Jaén:
Cádiz-Málaga:
Cádiz-Sevilla:
Córdoba-Granada:
55
Técnicas de clusterización
Córdoba-Huelva:
Córdoba-Jaén:
Córdoba-Málaga:
Córdoba-Sevilla:
Granada-Huelva:
56
Técnicas de clusterización
Granada-Jaén:
Granada-Málaga:
Granada-Sevilla:
Huelva-Jaén:
Huelva-Málaga:
57
Técnicas de clusterización
Huelva-Sevilla:
Jaén-Málaga:
Jaén-Sevilla:
Málaga-Sevilla:
58
Técnicas de clusterización
Nos queda:
Almería 0,00
Para simplificar etiquetaremos a cada Provincia con sus dos primeras letras:
Almería: al
Cádiz: ca
59
Técnicas de clusterización
Córdoba: co
Granada: gr
Huelva: hu
Jaén: ja
Málaga: ma
Sevilla: se
Para el resto:
60
Técnicas de clusterización
al (ca-gr) co hu ja ma se
al 0,00
61
Técnicas de clusterización
Nos queda:
al (ca-gr) co (hu-ja) ma se
al 0,00
62
Técnicas de clusterización
Matriz de distancias:
(al-(hu-ja)) (ca-gr) co ma se
(al-(hu-ja)) 0,00
63
Técnicas de clusterización
Matriz de distancias:
((al-(hu-ja))-co) (ca-gr) ma se
((al-(hu-ja))-co) 0,00
Matriz de distancias:
64
Técnicas de clusterización
(((al-(hu-ja))-co)-(ca-gr)) ma se
(((al-(hu-ja))-co)-(ca-gr)) 0,00
ma 81.704,96 0,00
Matriz de distancias:
(((al-(hu-ja))-co)-(ca-gr)) (ma-se)
(((al-(hu-ja))-co)-(ca-gr)) 0,00
65
Técnicas de clusterización
Ahora para calcular las distancias del cluster formado con el resto, aplicamos el
criterio de la distancia máxima.
66
Técnicas de clusterización
Matriz de distancias:
al (ca-gr) co hu ja ma se
al 0,00
67
Técnicas de clusterización
Matriz de distancias:
al (ca-gr) co (hu-ja) ma se
al 0,00
68
Técnicas de clusterización
Matriz de distancias:
(al-co) 0,00
69
Técnicas de clusterización
Matriz de distancias:
(al-co) 0,00
70
Técnicas de clusterización
Matriz de distancias:
((al-co)-(hu-ja)) 0,00
Matriz de distancias:
(((al-co)-(hu-ja))-(ca-gr)) (ma-se)
(((al-co)-(hu-ja))-(ca-gr)) 0,00
71
Técnicas de clusterización
72
Técnicas de clusterización
Ahora para calcular las distancias del cluster formado con el resto, aplicamos el
criterio del promedio.
##.$%&, $ ( $).*+,,%+
D [(ca-gr)-al] = = 52.599,25
%#.$,%,&) ( ).*,&,,*
D [(ca-gr)-co] = = 32.631,98
*).#*#,%* ( *%.)&$,%%
D [(ca-gr)-ja] = = 76.739,85
, .*&$,)+ ( ,*.$$ ,)
D [(ca-gr)-ma] = = 84.573,44
$,.+*&,*% ( #$.%,+,$)
D [(ca-gr)-se] = = 51.528,61
Matriz de distancias:
73
Técnicas de clusterización
al (ca-gr) co hu ja ma se
al 0,00
#.# +, ( $. $),)#
D [(hu-ja)-al] = = 19.838,03
+,.&%&,,) ( *+.*%),,#
D [(hu-ja)-(ca-gr)] = = 72.385,37
74
Técnicas de clusterización
Matriz de distancias:
al (ca-gr) co (hu-ja) ma se
al 0,00
# .#)), # ( * .%,#,%*
D [(al-(hu-ja))-(ca-gr)] = = 62.492,31
%).*,+,%& ( &.&,&,&)
D [(al-(hu-ja))-co] = = 29.933,20
%+.,#&, , ( #+.++*,)
D [(al-(hu-ja))-ma] = = 146.759,10
75
Técnicas de clusterización
Matriz de distancias:
(al-(hu-ja)) (ca-gr) co ma se
(al-(hu-ja)) 0,00
76
Técnicas de clusterización
Matriz de distancias:
(co-(al-(hu-ja))) (ca-gr) ma se
(co-(al-(hu-ja))) 0,00
% .)%$,+* ( )).&##,,%
D [(ma-se)- (co-(al-(hu-ja)))] = = 115.495,25
,$.#*%,$$ ( # .# ,,+
D [(ma-se)- (ca-gr)] = = 68.051,02
Matriz de distancias:
(co-(al-(hu-ja))) 0,00
77
Técnicas de clusterización
Matriz de distancias:
((ca-gr)-(co-(al-(hu-ja)))) (ma-se)
((ca-gr)-(co-(al-(hu-ja)))) 0,00
78
Técnicas de clusterización
79
Técnicas de clusterización
( )
Este coeficiente es simplemente la correlación entre los elementos de la
Siendo:
x = X - X*
y = Y – Y*
80
Técnicas de clusterización
El coeficiente cofenético interesa que sea lo más elevado posible, siendo siempre
menor o igual que 1.
Almería 0,00
81
Técnicas de clusterización
- Distancia mínima
Almería 0,00
-./0 = 0,807890649
82
Técnicas de clusterización
- Distancia máxima
Almería 0,00
-.12 = 0,818763797
83
Técnicas de clusterización
- Promedio
Almería 0,00
-345. = 0,82098597
Observamos que el mayor valor del coeficiente cofenético, y por tanto el proceso
que menos distorsiona la matriz de distancias inicial, es el método del promedio.
Por último nos queda la elección del número de clusters. Para esta elección
representaremos mediante un gráfico los pasos seguidos en la agrupación de
clusters y la distancia a la que se unen.
84
Técnicas de clusterización
Representación Gráfica:
85
Técnicas de clusterización
- Sevilla-Málaga
- Granada-Cádiz
- Almería-Huelva-Jaén-Córdoba
86
Técnicas de clusterización
8 Conclusiones
Para llevar a cabo dicho análisis hemos seguido los siguientes pasos:
Esta técnica, es una técnica exploratoria cuya finalidad es sugerir ideas al analista
a la hora de elaborar hipótesis y modelos que expliquen el comportamiento de las
variables analizadas.
87
Técnicas de clusterización
Los distintos métodos vistos en el caso práctico nos confirman que el método de
la distancia mínima conduce a clusters encadenados, el de la distancia máxima a
clusters compactos, siendo este menos sensible a valores atípicos que el de
distancia mínima, y el método del promedio es el menos sensible a valores
atípicos y tiende a formar clusters más compactos y de igual tamaño.
88
Técnicas de clusterización
9 Referencias
“Análisis clúster” [en línea] (n.d.), Estadística aplicada a las ciencias económicas
y sociales, Universidad de Valencia,
http://www.uv.es/ceaces/multivari/cluster/CLUSTER.htm
89
Técnicas de clusterización
90