Analisis Canónico de Poblaciones y Métodos Relacionados.
Analisis Canónico de Poblaciones y Métodos Relacionados.
Analisis Canónico de Poblaciones y Métodos Relacionados.
55
56
MTODOS RELACIONADOS.
Si se pretende usar el ACPO desde el punto de vista descriptivo no se
1.4.1 Introduccin.
grupos de individuos.
Puede decirse que el ACPO es una tcnica que permite estudiar la estructura
57
58
tamao
ng
con
g = 1,2,..., G ,
el
total
de
la
muestra
es
S=
I = n1 + n2 + ... + nG .
Sean x = ( X 1 , X 2 ,..., X J ) el vector que representa el conjunto de variables,
G
T
1
1
XT X " X D X =
! (ng " 1)S g
(I " G)
( I " G ) g =1
(1.4.4)
[ ]
por
s jj ' =
&1
$0
ZT = $
$"
$
%0
!
!
!
!
1
0
"
0
0
1
"
0
!
!
!
!
0
1
"
0
!
!
!
!
0
0
"
1
!
!
!
!
0#
0!
!
"!
!
1"
(1.4.1)
1
= ! ( xij # x gj )( xij # x gj )
(nc # 1) i"n g
(1.4.2)
H=
T
1
X DX
(G ! 1)
j'
(1.4.5)
X = (D) Z X
(1.4.3)
59
60
(H ! " S )v = 0
(1.4.7)
v T Hv = !2 v T Sv
g ( v) =
vT H v
vT S v
(1.4.6)
lo que es lo mismo,
v T Hv = !2
(S
!1
H ! "2 I v = 0
61
62
con q = S1/2 v y qT q = 1 .
!1
es igual r = rango (S H ) .
La expresin anterior significa que q es un vector propio de la matriz
!1
v = S !1/2q .
S !1/2 (H ! "2S) v = 0
Donde adems, v Sv = q S
T
!1/2
S S !1/2 q = q T q = 1
tambin,
(S
!1/2
H ! " S )v = 0
2 1/2
valores propios no nulos, se tienen las ponderaciones para todas las variables
cannicas, (donde r = rango(H ) ), y se cumple que
V T SV = I r
(S
!1/2
HS
!1/2
! " I )S v = 0
2
1/2
(1.4.8)
por:
y = xV
Pero esta igualdad se puede escribir como,
sta da una transformacin del espacio de variables originales en un conjunto
[S
!1/2
HS
!1/2
!" I q =0
63
64
Y = XV
(HS !1 ! "2 I ) v = 0
Y Y = XVV T X = X S !1 X
(1.4.9)
HS
!1/2
!1/2
v es un vector propio de
1/2
reemplazamos
!1
M f por S ,
X por X
!1
!1
D por DG
con
S X DG X S v ! " S v = 0
2
"1
( X DG X)S v = ! v
requieren
algunas
suposiciones
mnimas
para
su
65
66
filas son las medias de los G grupos en las J variables y donde los datos
estn o no solapados.
Suponemos que las G poblaciones de las que se han obtenido las muestras
que constituyen cada uno de los grupos tienen matrices de covarianzas comn,
que se estima como la matriz de covarianzas dentro de los grupos, que hemos
denotado por S y definido en la ecuacin (1.4.4). La distribucin de este
estimador tiene ( I ! G ) grados de libertad
v2
X3
X2
v1
medias, respectivamente.
En un MANOVA las medias de la muestra adems de centradas estn
Y = D1 / 2 XS !1/2 = P QT
(1.4.10)
67
68
forma:
grupos, y para las variables la matriz diagonal con los tamaos de los grupos
2
1
!1
"
r =1
Estos test son vlidos para muestras de poblaciones normales o para muestras
matriz Y con respecto a las mtricas dadas por la matriz identidad es decir, la
1 2
To ~ Fa , b
c
a = smH ,
b = 4 + (a + 2) /( B ! 1) ,
c = a (b ! 2) /((mE ! F ! 1)) ,
F es exacta si s = 1.
Como puede verse en este planteamiento del MANOVA, los test estadsticos
estn relacionados con los valores singulares de la matriz Y dada en la
ecuacin (1.4.10). Por otra parte el Anlisis Cannico de Poblaciones, como
69
Y = ABT
70
2
donde,
donde
A = D !1/2 P
es el
B = S1/2Q
de libertad.
De las ecuaciones anteriores se sigue que:
A = XS !1 / 2Q
= XS !1B
y por tanto,
A( A)T = X S !1 X
Tomando
diferencias
entre
dos
filas
uno de los grupos, teniendo como base una serie de medidas, las cuales se
cualesquiera
g y g' ,
para
a*g
2
! a*g '
!1
= (x g ! x g ' ) S (x g ! x g ' )
T
El test T
1
Med = (x1 ! x 2 )T S !1x ! (x1 ! x 2 )T S !1 (x1 + x 2 )
2
71
72
Med gg '
1
= (x g ! x g ' )T S !1x ! (x g ! x g ' )T S !1 (x g + x g ' )
2
caso son centroides, y de las columnas, las cuales son las variables de la
matriz
X . La matriz X
73
Definimos:
74
Y = D XS
1/2
-1/2
(1.5.1)
Despejando
tenemos:
!1
A = D !1/2 P"
B = S1/2Q
Donde B S B = Q S S S Q = I .
T
Y = P ! QT
(1.5.2)
1/2
1/2
Los marcadores A son los de las medias de los G grupos y los marcadores
en
forma
descendente.
Adems
P T P = QT Q = I !
con
! = rango(Y).
Buscamos construir un RMP-Biplot, por ser ste el que tiene las propiedades
que nos interesan en el contexto del Anlisis Cannico de Poblaciones.
X = A ( s ) (B ( s ) )T
75
76
siguientes:
1.
(GABRIEL, 1995).
3. Se pueden construir crculos de confianza alrededor de las medias,
P = YQ! "1
Q = Y P! "1
x ij = aTi b j
A = D !1/2 P"
=
YQ" "
!1 / 2
D1 / 2 X S !1 / 2Q
= D
!1/2
!1
x ij t j ,!
sj
nk
proy (a i.b j ) s j t j ,!
sj
nk
Por tanto,
A = X S !1 / 2Q
proy (a i.b j )
A = XV
La igualdad anterior permite interpretar los marcadores A como la
proyeccin de X sobre el espacio de mxima separacin de los grupos,
t j ,!
nk
77
78
Los datos que utilizamos nos fueron proporcionados por la Dra. Margarita
Fernndez Alez y el Doctor Eloy Bcares, miembros del proyecto: Shallow
wetland lake function and restoration in a changing European environment
!i =1 "i2
r
!i =1 "i2
s
Los marcadores
propiedades:
1.
grupos, as:
BB = S QQ S
T
1/2
1/2
=S
3.
Vicente-Villardn (2003).
Al realizar para cada una de las variables un ANOVA de dos vas se
encontraron diferencias significativas entre los grupos en todas las variables
excepto para CO2, TSS (slidos suspendidos totales) y CLO (clorofila), (Ver
Tabla 1.1).
79
Variable
F(11, 24)
Nivel de sign.
PH
ALK
CO2
NH4
NO3
SRP
TP
TSS
CON
CLO
2.78
15.65
1.15
3.95
28.34
12.46
10.86
0.97
17.35
1.55
0.02
0.00
0.36
0.01
0.00
0.00
0.00
0.49
0.00
0.17
plano de las variables cannicas, excepto CO2, TSS y CLO, que coinciden
Variable
PH
ALK
CO2
NH4
NO3
SRP
TP
TSS
CON
ClO
Eje
1
2
3
4
80
Inercia del
Eje 1
56.27
29.76
8.06
2.69
Iner. acum.
Ejes 1 y 2
56.27
86.03
94.10
96.80
Corr. con el
Eje1
.0.31
0.48
-0.15
0.58
0.80
0.88
0.74
0.05
0.68
0.01
Corr. con el
eje 2
-0.48
-0.78
0.18
-0.52
-0.57
-0.32
-0.55
-0.01
-0.68
-0.38
Corr. al cuadr.
con el Eje1
0.09
0.23
0.02
0.33
0.64
0.78
0.55
0.01
0.47
0.00
Corr. al cuadr.
con el eje 2
0.23
0.61
0.03
0.27
0.34
0.09
0.30
0.00
0.46
0.15
De la tabla anterior se desprende que todas las variables excepto CO2 tienen
correlacin positiva con el primer eje, con el segundo ocurre exactamente lo
contrario. Las correlaciones al cuadrado son altas con el eje 1 para las
variables NO3, SRP, TP y CON; con el eje 2 para ALK Y CON.
En la Tabla 1.4 tenemos la bondad de ajuste acumulada de las variables en los
dos primeros ejes. sta la podemos usar para explorar las medias de los
Como se puede ver en la tabla anterior, la inercia acumulada por los dos
primeros ejes es de 86.03%. Consideramos este porcentaje de la inercia
explicada aceptablemente alto.
grupos.
Variable
PH
ALK
CO2
NH4
NO3
SRP
TP
TSS
CON
CLO
Bondad de ajuste
con el Eje 1
17.01
25.70
6.18
50.56
66.50
87.59
63.38
0.64
50.66
0.04
81
Bondad de ajuste
acum. Ejes 1 y 2
54.57
89.66
15.19
89.92
99.03
98.42
97.35
0.68
98.21
33.30
Vemos en la Tabla anterior que las variables para las que se obtiene un buen
En la tabla anterior se pueden observar que todas las medias de los grupos
estn bien representadas en el primer plano principal. Los grupos
correspondientes al nutriente 3 (denotados con terminacin N3) estn bien
representados en el primer eje y los dems grupos tienen una representacin
en el plano.
Con el Biplot Cannico se puede representar conjuntamente los grupos de
individuos, las variables y los crculos de confianza alrededor de la media de
cada grupo, que permite comparar grficamente todos los grupos. En la Figura
1.2 tenemos dicha representacin.
F0N0
1
ajuste en el primer plano principal son: ALK, NH4, NO3, SRP, TP y CON.
En la Tabla 1.5 tenemos la calidad de representacin de las medias de los
F2N1
F0N1
F0N1
F1N0
0.5
grupos.
F0N1
F1N0
Grupo
F0N0
F0N1
F0N2
F0N3
F1N0
F1N1
F1N2
F1N3
F2N0
F2N1
F2N2
F2N3
Calidad de repr.
En los Ejes 1 y 2
731
590
646
837
833
721
963
997
385
903
956
918
F1N1
F1N1 F1N1
F2N1
F0N0
F1N1
F2N1
F0N1
F2N0 F0N0
F2N0 F0N0
F2N1
F2N0
F1N0
Calidad de repr.
en el Eje 1
81
362
36
837
765
23
318
997
197
129
368
751
82
F0N3
CO2
F2N0
F1N3
F1N0
F0N3
TSS
F1N3
F0N3
F1N3
F1N3
F2N3
F0N3
F0N2
-0.5
F0N2
SRP
CLOR
F2N2
F2N2
-1
F0N2
pH
F1N2
-1
F2N3
F2N3
F0N2
F2N3
NH4
F2N2
F1N2
TP
F2N2 F1N2
F1N2
-0.5
NO3
CON
ALK
0.5
1.5
83
Las caractersticas de este biplot, dado en la Figura 1.2, nos llevan a sacar las
siguientes conclusiones:
- No existen diferencias entre las medias de los grupos correspondientes
a los nutrientes 1 y 0 (los denotamos con terminaciones N0 y N1). Estos
se comportan como un slo grupo, todos los crculos de confianza se
cortan.
- Entre los grupos del nutriente 2 (N2) no existen diferencias
significativas para los de F2N2 Y F1N2 pero si para F0N2.
- Entre los grupos correspondiente al nutriente 3 (N3), el grupo asociado
a la concentracin de peces 1 (F1) se diferencia de los dems grupos,
pero entre los otros dos grupos no existen diferencias significativas.
- Los tres grandes grupos relacionados con los nutrientes aparecen
grficamente bastante diferenciados.
- Las variables bien representadas, responsables de esta separacin de los
grupos son: ALK, NH4, NO3, TP, SRP y CON (Ver Tabla 1.4 y Figura
1.4).
- Todos los grupos tienen una calidad de representacin alta en el primer
plano principal (Ver Tabla 1.5).