Notas Pruebas No Parametricas
Notas Pruebas No Parametricas
Notas Pruebas No Parametricas
Pruebas no Paramétricas
En este capı́tulo abordaremos las pruebas no parámetricas, estas pruebas tiene una ventaja
muy importante sobre las pruebas tradicionales pues no tienen el supuesto de que la población
de donde se obtiene la muestra sea de una familia paramétrica. Sin embargo, el precio que se
paga por llevar a cabo este tipo de pruebas es que muchas veces los métodos no tendrán el nivel
de significancia deseado y lo más importante, serán menos potentes que su versión paramétrica.
En este curso veremos 2 tipos de pruebas:
1
Se plantea entonces la siguiente hipótesis:
H0 : p = p∗ vs H1 : p 6= p∗
Entonces bajo H0 se sabe que al ser T suma de v.a. Bernoulli, se tiene que T ∼ Bin (n, p∗ ),
entonces si H0 es cierta se espera que T tome valores en la parte densa de la densidad binomial,
luego entonces sabemos que debemos rechazar H0 tanto si T toma valores muy pequeño como
muy grandes, es decir la regla que se plantea es Rechazar H0 a un nivel de significancia α si:
T ≤ w α1 o T > w1−α2
n=10
p=1/3
x=0:10
p=dbinom(x,size=n,prob=p)
plot(x,p,type="h",xlim=c(-1,11),ylim=c(0,0.3),lwd=2,col="blue",ylab="p",
main="Distribucion Binomial B(10,1/3)",cex.axis=0.7)
points(x,p,pch=16,cex=2,col="dark red")
text(x,p,round(p,3),pos=3,cex=0.7)
0.26
0.228
0.195
0.20
0.137
p
0.087
0.10
0.057
0.017 0.016
0.003 0 0
0.00
0 2 4 6 8 10
T ≤0 o T >6
En este caso la prueba tendrá una significancia de α1 + α2 = 0.017 + 0.019 = 0.36. En caso de
que se requiera una prueba exactamente al 5 % existe una forma de llevar a cabo dicho contraste
por medio de una prueba aleatorizada (no se ve en este curso).
Intervalo de Confianza para la proporción
Una de las ventajas de esta prueba es que es posible encontrar intervalos de confianza para
la proporción p, para ello recordemos que hay una relación entre un intervalo de confianza y una
prueba de dos colas, en efecto, si por ejemplo hacemos la prueba paramétrica para la media de
una Normal:
H0 : µ = µ0 vs µ 6= µ0
Entonces una forma de encontrar la región de rechazo es construir un intervalo de confianza para
µ y luego verificar si µ0 se encuentra en dicho intervalo. Visto de forma inversa, ahora se plantea
encontrar un intervalo a partir de la regla de rechazo que genera el contraste de hipótesis.
En nuestro caso, debemos preguntarnos, ¿Para qué valores de p∗ no se rechaza la hipótesis
p = p∗ ?. Para encontrar dichos valores se propone ir barriendo los distintos valores de p∗
(discretizando el intervalo (0,1) ) e ir verificando para cuales valores no se rechaza H0 , los p∗ que
tengan esta propiedad formarán un intervalo de confianza. Observe que en este caso, una vez
observada la muestra T es una valor fijo y lo que va variando es p∗ lo que a su vez va modificando
la distribución asociada.
Veamos un ejemplo, supongamos nuevamente que n = 10 y que observamos una muestra
tal que T = 3, en este caso haremos uso de la función binom.test del paquete R, dicha función
hace la prueba extacta basada en la distribución binomial y construye el intervalo de confianza
correspondiente, en el siguiente código se hace la prueba:
1 1
H0 : p = vs H1 : p 6=
3 3
##
## Exact binomial test
##
## data: 3 and 10
## number of successes = 3, number of trials = 10, p-value = 1
## alternative hypothesis: true probability of success is not equal to 0.3333333
## 95 percent confidence interval:
## 0.06673951 0.65245285
## sample estimates:
## probability of success
## 0.3
En este caso el intervalo al 95 % para la proporción p que construye la función es el siguiente:
(0.06673951, 0.65245285)
H0 : p = p∗ vs H1 : p > p∗
H0 : p ≤ p∗ vs H1 : p > p∗
En este caso ahora nos interesa ver si tenemos evidencia como para afirmar que la verdadera
proporción p es más grande que la que proponemos bajo H0 , resulta natural entonces que debemos
rechazar H0 si en la muestra observamos muchas observaciones de la clase 1, es decir, ahora
estaremos rechazando si: n
X
T = 1(Xi ∈C1 ) > w1−α
i=1
1 1
H0 : p = vs H1 : p >
3 3
1 1
H0 : p ≤ vs H1 : p >
3 3
En este caso, dado que nos interesa que la cola derecha acumule α de probabilidad, ahora
iremos acumulando probabilidades de derecha a izquierda hasta acumular la probabilidad desea-
da, como sabemos no necesariamente seremos capaces de acumular exactamente α, en cuyo caso
debemos detener el proceso de acumulación hasta que sobrepasemos el α deseado y regresar al
paso anterior.
Revisando nuevamente la distribución bajo H0 del estadı́stico de prueba tenemos:
n=10
p=1/3
x=0:10
p=dbinom(x,size=n,prob=p)
plot(x,p,type="h",xlim=c(-1,11),ylim=c(0,0.3),lwd=2,col="blue",ylab="p",
main="Distribucion Binomial B(10,1/3)",cex.axis=0.7)
points(x,p,pch=16,cex=2,col="dark red")
text(x,p,round(p,3),pos=3,cex=0.7)
0.26
0.228
0.195
0.20
0.137
p
0.087
0.10
0.057
0.017 0.016
0.003 0 0
0.00
0 2 4 6 8 10
a<-as.data.frame(cbind(x,round(p,4)))
colnames(a)<-c("T","Pr")
a
## T Pr
## 1 0 0.0173
## 2 1 0.0867
## 3 2 0.1951
## 4 3 0.2601
## 5 4 0.2276
## 6 5 0.1366
## 7 6 0.0569
## 8 7 0.0163
## 9 8 0.0030
## 10 9 0.0003
## 11 10 0.0000
P (T = 10) + P (T = 9) + P (T = 8) + P (T = 7) + P (T = 6) = 0.0765635
Por lo que nos hemos pasado del α deseado, en este caso si sólo acumulamos hasta T = 7
obtenemos:
P (T = 10) + P (T = 9) + P (T = 8) + P (T = 7) = 0.0196616
T >6
La prueba en este caso tendrı́a un nivel de significancia del α = 0.0196616, por lo que el cuantil
w1−α asociado es 6 y por tanto
T > w1−α = 6
H0 : p = p∗ vs H1 : p < p∗
H0 : p ≥ p∗ vs H1 : p < p∗
Resulta de manera natural repetir el proceso anterior pero ahora acumulando probabilidades de
la cola izquierda y por tanto la idea será rechazar H0 si
n
X
T = 1(Xi ∈C1 ) ≤ wα
i=1
Una alternativa adicional a este problema es aproximar la prueba por medio de la distribución
normal y asumir que el estadı́stico bajo H0 tiene la siguiente propiedad:
n
aprox
X
T = 1(Xi ∈C1 ) ∼ N (p∗ , np∗ (1 − p∗ ))
i=1
Y luego utilizar los cuantiles de la distribución normal correpondiente, sin embargo esta aproxi-
mación puede no ser muy buena si p∗ es cercano a 0 o 1, en cuyo caso se requerirá mucho tamaño
de muestra para tener una buena aproximación.
FX (xq ) = P (X ≤ xq ) = q
H0 : xq = x∗q vs H1 : xq 6= x∗q
Observe que en este caso T modela el número de observaciones en muestra que son menores o
iguales al cuantil propuesto bajo la hipótesis nula. En este caso bajo H0 tenemos que:
Por lo tanto bajo H0 el estadı́stico de prueba tiene una distribución completamente conocida:
n
H
X
T = 1(Xi ≤x∗q ) ∼0 Binomial (n, q)
i=1
Enseguida, lo que resulta natural es rechazar H0 si T toma valores atı́picos bajo la distribución
bajo H0 y por tanto rechazaremos H0 si:
T ≤ w α1 o T > w1−α2
Donde α1 + α2 = α. En este caso nuevamente debemos tener las precauciones necesarias debido
al problema de discretización de la distribución del estadı́stico de prueba bajo H0 para tener la
prueba adeacuada para el α deseado.
Intervalo de Confianza
Nuevamente podemos llevar a cabo un proceso para encontrar intervalos de confianza para
el cuantil q de la distribución. En este caso el proceso será nuevamente ir variando el valor x∗q
en la hipótesis nula e ir verificando para qué valores no se rechaza H0 , dichos valores formarán
el intervalo de confianza correspondiente, en este caso debe observarse que conforme se mueve
x∗q lo que varia es el valor que toma T y no la distribución. Una parte interesante es que x∗q sólo
mueve el valor de T cuando x∗q es un valor que está en muestra, esto último facilita mucho la
búsqueda pues sólo tendremos que estar realizando la pruaba de hipótesis para valores x∗q que
estén en muestra.
Veamos un ejemplo:
189, 233, 195, 160, 212, 176, 231, 185, 199, 213, 202, 193, 174, 166, 248
x<-c(189,233,195,160,212,176,231,185,199,213,202,193,174,166,248)
#ordenamos muestra
x<-sort(x)
#tamao de la muestra
n<-length(x)
#En este caso el estad?stico para probar la mediana es
#T \sim Binom(n,0.5)
z<-0:15
p=dbinom(z,size=n,prob=1/2)
plot(z,p,type="h",xlim=c(-1,16),ylim=c(0,0.3),lwd=2,col="blue",ylab="p",
main="Distribuci?n Binomial B(15,1/2)",cex.axis=0.7)
points(z,p,pch=16,cex=2,col="dark red")
text(z,p,round(p,3),pos=3,cex=0.7)
Distribuci?n Binomial B(15,1/2)
0.30
0.1960.196
0.20
0.153 0.153
p
0.092 0.092
0.10
0.042 0.042
0.014 0.0140.003
0 0 0.003 0 0
0.00
0 5 10 15
T ≤ 3 o T > 11
Del gráfico también obtemos que el nivel de significancia alcanzado por esta región de rechazo
es: α= 0.0351563
Ahora basados en la metodologı́a que planteamos, habrá que ver par qué valores xq se rechaza
y no se rechaza la hipótesis nula, afortunadamente si la muestra fue ordenada, entonces se observa
que cuando x∗0.05 = x(i) entonces T es definido como el número de observaciones menores o iguales
a x(i) tomará el valor de i. Por lo tanto el intervalo de confianza se obtiene fácilmente por medio
de los estadı́sticos de orden que hacen cierta la hipótesis nula, es decir:
x(4) , x(11) = (176, 212)
Observemos que estamos interesados en ver si la muestra nos da la suficiente evidencia como para
rechazar H0 y decir que xq > x∗q . La pregunta es entonces, ¿Qué tipo de muestra nos hace pensar
que xq > x∗q ?. Nuevamente la idea será contar el número de observaciones menores a x∗q , si H1
fuera cierta entonces x∗q es un punto en donde la distribucion aún no acumula q de probabilidad,
es decir se esperarı́a que el núumero de observaciones menores a x∗q divido entre n fuera mucho
más pequeño que q y por lo tanto esto se traduce en pedir que el estadı́stico de prueba tenga
pocas observaciones, es decir, la idea ahora es rechazar H0 si:
n
X
T = 1(Xi ≤x∗q ) ≤ wα
i=1
Rechazaremos H0 si
n
X
T = 1(Xi ≤x∗q ) > w1−α
i=1
Estas pruebas deben de tomar las precauciones debidas para encontrar la región más adecuada
en función al nivel de significancia deseado.
Finalmente, en caso de que se tenga una muestra suficientemente grande podremos aplicar la
aproximación a la normal:
n
aprox
X
T = 1(Xi ≤x∗q ) ∼ N (q, nq(1 − q))
i=1
Y por tanto definir la región de rechazo en términos de los cuantiles de la normal apropiada.
Esta prueba pretende comparar la mediana de dos poblaciones. El supuesto principal es que
muestreamos de ellas de forma simulatanea, es decir que al momento de obtener la muestra
extraemos un vector formado por las variables (Xi , Yi ) donde Xi es el valor de la variable en la
primera población, mientras que Yi es el valor de la variable en la segunda población.
Un ejemplo de esta situación de muestreo puede darse en un experimento donde se aplica
mediciones antes y después de un tratamiento especifico a un mismo objeto.
Imaginemos que existe un nuevo método de afinación de un motor y se pretende evaluar si el
tratamiento es efectivo, para ello se toman 10 automóviles, primero se les mide su nivel de con-
taminación (previo a la afinación) y guardamos dichos datos en la variable X, posteriomente se
lleva a cabo el tratamiento (afinación) y al mismo coche se le hace la misma prueba y guardamos
su nivel de contaminación en la variable Y , entonces al final obtendriamos 10 parejas de observa-
ciones formadas por las mediciones de contaminacón de los autos. En este problema estarı́amos
interesados en probar si estadı́sticamente el tratamiento es efectivo, para ello podrı́amos suponer
que X y Y son poblaciones con distribuciones no necesariamente iguales en las que nos interesa
probar si Y tiende a tomar valores más pequeños que X, esto lo podrı́amos plantear enterminos
de una medida de tendencia central como lo es la mediana:
O bien
En la primera prueba hipótesis estamos interesados en verificar si hay efecto (Positivo o Negativo)
del tratamiento en la población mientras que las otras hipótesis sólo nos interesa verificar el efecto
únicamiente positivo o negativo de la prueba, en nuestro ejemplo de autos, nos interesa medir
un efecto negativo es decir que realmente disminuye contaminación del automóvil, en ese caso se
tiene interés en la segunda prueba de hipótesis.
Un supuesto adicional que asume la prueba es que la diferencia entre las medianas de X y
Y es igual a la mediana de la diferencia esto es, suponiendo que Z = Y − X, entonces:
M ed(Z) = M ed(Y − X) = M ed(Y ) − M ed(X)
Este último supuesto es escencial para definir el estadı́stico de prueba para el problema que
se plantea.(Ver The Difference Between the Median of a Difference and the difference of the
Medians de Nigel F. Nettheim)
Se supone entonces que recibimos una muestra bivariada (X1 , Y1 ) , (X2 , Y2 ) , . . . , (Xn , Yn ), luego
contruyamos la v.a Z en función de X y Y como:
Z =Y −X
H
M ed(Z) = med(Y − X) = M ed(Y ) − M ed(X) =0 0
H0 : M ed(Z) = 0 vs H1 : M ed(Z) 6= 0
Este último problema ya fue resuelto pues no es más que la prueba del cuantil para q = 0.5. El
estadı́stico utilizado en esta prueba vimos que es:
n
X
T = 1(Zi ≤0) = # de observaciones menores o iguales a 0
i=1
= # de signos negativos en la resta Yi − Xi
La última igualdad se debe a que suponemos que por continuidad de X y Y se tiene que
P (Z = 0) = 0. Sin emabrgo, en la práctica se estila utilizar otro estadı́stico de prueba simi-
lar: n
X
T = 1(Zi >0) = # de signos positivos en la resta Yi − Xi
i=1
En este caso nuevamente se tendrı́a que bajo H0 se tiene que T ∼ Binom(n, 0.5) y por tanto
resulta de manera natural rechazar H0 a un nivel de significancia α si:
T ≤ w α1 o T > w1−α2
En caso de que se esté interesado en probar una sola cola se plantea entonces la hipótesis:
En este caso se está interesado en verificar si X tiende a tomar valores más pequeños que
Y , en este caso entonces si en la muestra observamos que el signo de la diferencia Z = Y − X
tiende a tomar postivos, es evidencia para inclinarse por H1 , tener muchos positivos en Z implica
entonces tener pocos negativos por lo tanto se propone rechazar H0 si:
n
X
T = 1(Zi >0) = # de signos positivos > w1−α
i=1
En cuyo caso, ahora la muestra indica que se rechace H0 si observa muchos signos negativos en
la variable Z, luego entonces se tiene que analizar la cola izquierda de la distribución.
n
X
T = 1(Zi >0) = # de signos positivos ≤ wα
i=1
Caso Discreto
La prueba del signo puede ser adapatada al caso en que las variables X y Y son discretas, sin
embargo ahora se tiene que tomar en cuenta los posibles empates pues debido a la discretización
se puede dar que P (Xi = Yi ) > 0.
La forma en como se adapta la prueba es sencilla, simplemente se propone eliminar todos los
empates que hayan aparecido en la muestra y se lleva a cabo la prueba como en el caso continuo,
es decir, se procede a contar el número de signos positivos y luego comparar ese resultado con
cuantiles de la binomial respectiva donde ahora n es un tamaño de muestra reducido tras eliminar
los empates encontrados.
Muchos autores plantean que la solución de eliminar los empates no es justo ya que las
observaciones con empate en realidad son a favor de la hipótesis nula. Una posible solución que
se ha planteado en la prueba de dos colas es cambiar los empates por simulaciones de signos
generados de una Bernoulli con probabilidad de exito igual a 0.5 y luego llevar a cabo la prueba
tradicional, la idea del cambio es favorecer entonces a la hipótesis nula con observaciones que son
de esperarse bajo H0 .
X/Y 0 1
Un ejemplo clásico donde se puede aplicar este caso es en el contexto de la polı́tica, suponga-
mos que existen 2 candidatos polı́ticos y definamos a X la v.a. que modela el voto hacia alguno
de los candidatos previo a un debate público (tratamiento), definamos entonces que X = 0 si se
vota por el candidato A y X = 1 si se vota por el candidato B. Despúes del debate (tratamiento),
se lleva a cabo nuevamente la medición en las personas y ahora la v.a. Y modela el voto despúes
de dicho debate. Una pregunta interesante es entonces resolver si el debate logró cambiar de
opinion de los votantes.
Tenemos entonces la necesidad de verificar si existe una diferencia entre las medianas de X
y Y , sin embargo debido su naturaleza de las variables en realidad lo que interesa es verificar si
después de la aplicación de un tratamiento hace que la v.a. X cambie su proporción de 10 s. Ahora
observemos que debido a la dicotomı́a de las variables con las que trabajamos, el hecho de que X
no cambie su proporción de 10 s implica que se espera que P (X = 0, Y = 1) = P (X = 1, Y = 0),
es decir, la probabilidad de que un votante cambie de A a B es la misma de que cambie de B a
A, este supuesto hace que la proporción de votantes no cambie despúes del tratamiento.
En términos de hipótesis planteamos entonces lo siguiente:
H0 : P (X = 0, Y = 1) = P (X = 1, Y = 0) vs H1 : P (X = 0, Y = 1) 6= P (X = 1, Y = 0)
En nuestra notación entonces los casos a=# número de (0,0) y d=# número de (1,1) serán
considerados empates y por tanto serán eliminados de la prueba, entonces la decisión debe de
recaer en los valores observados en b=# número de (0,1) y c=# número de (1,0), observe que en
este caso b modela el número de votantes que cambiaron de opinion del candidato A al candidato
B mientras que c modela el caso en donde el voto cambió del candidato B al candiato A.
En el contexto de la prueba del signo la pareja (0,1) tiene un signo positivo y por tanto se
propondrá utilizar como estadı́stico de prueba a b
Dado que los empates ya fueron eliminados, entonces el tamaño de muestra es n = b + c y luego
si suponemos H0 cierta entonces:
H0 1
T ∼ Binomial b + c,
2
y por tanto se rechazará H0 si T toma valores muy pequeños (Debate a favor del candidato A)
o si T toma valores grandes (Debate a favor del candidato B) donde para la regla de decisión se
tomarán en cuenta los cuantiles de la distribución Binomial respectiva.
Algunos autores suponen muestras grandes en estos estudios y por tanto no utilizan la dis-
tribucón binomial sino que llevan a cabo la aproximación normal es decir:
H0 1 aprox aprox 1 b+c
T ∼ Binomial b + c, ∼ N (np, np(1 − p)) ∼ N (b + c) ,
2 2 4
y por tanto rechazar H0 basado en los cuantiles de la normal asociada. Otros autores deciden
estandarizar la Normal y luego elevarla al cuadrado para obtener la distribución χ2 , es decir, se
propone el estadı́stico de prueba:
2 2
T − (b + c) 12 b − (b + c) 21 aprox H0
T1 = q = q ∼ χ2(1)
b+c b+c
4 4
(b − c)2 aprox H0
T1 = ∼ χ2(1)
b+c
2(1−α)
Y por tanto se propone rechazar H0 si T1 toma un valor más grande que el cuantil χ(1) .
La prueba Cox and Stuart es utilizada para verificar si los valores que obtenemos en la
muestra siguen alguna tendencia conforme se van observando, para ello la prueba supone que
tenenmos X1 , . . . , Xn variables aleatorias independientes pero no necesariamente identicamente
distribuidas, de hecho la idea de la prueba es verificar si las variables tienen alguna tendencia o
bien son identicamente distribuidas con la misma media.
El método que proponen los autores es simple, con la muestra recibida X1 , . . . , Xn , se define
c = n2 si n es par y c = n+1
2
si n es impar, luego generamos las parejas:
Si n es par Si n es impar
(X1 , Xc+1 ) (X1 , Xc+1 )
(X2 , Xc+2 ) (X2 , Xc+2 )
.. ..
. .
(Xc , Xn ) (Xc−1 , Xn )
Lo que se hace entonces es divir la muestra en dos partes y generar las parejas correspondientes
donde en caso de ser n impar se pierde una observación, en este caso Xc
Si los datos tienen tendencia positiva entonces se espera observar signos postivos en la pareja
(Xi , Xc+i ), es decir, Xc+i − Xi > 0, mientras que si no hay tendencia se observarı́a un número
aleatorio de signos positivos y negativos. Por otro lado si los datos tienen tendencia negativa
entonces se espera observar que Xc+i − Xi < 0 (muchos signos negativos).
Bajo H0 se espera ver signos positivos y negativos de forma aleatoria por lo que se tendrı́a:
H0 1
T ∼ Binomial c, n par
2
H0 1
T ∼ Binomial c − 1, n impar
2
Nota: En caso de tener empates en las parejas formadas, estas deben de eliminarse y ajustar el
parámetro de la binomial correspondiente.
Se propone rechazar H0 si T toma valores muy pequeños o muy grandes en función de su
distribución teórica. Es decir, rechazar H0 si:
T ≤ w α1 o T > w1−α2
Al igual que en la prueba de dos colas, se generan las parejas (Xi , Xi+c ) y definimos la
estadı́stica:
T = # de signos positivos en la diferencia (Xi+c − Xi )
Bajo H0 se espera ver signos positivos y negativos de forma aleatoria por lo que se tendrı́a que:
H0 1
T ∼ Binomial c, n par
2
H0 1
T ∼ Binomial c − 1, n impar
2
Nota: En caso de haber empates en las parejas, estas deben de eliminarse en cuyo caso se debe
de ajustar el parámetro c de la Binomial.
Se propone rechazar H0 si T toma valores muy grandes pues eso implica que hubo muchos
signos positivos lo que es a favor de H1 , por lo tanto rechazamos H0 si:
T > w1−α
T ≤ wα
1.1.6. Prueba Cox and Stuart para correlación
Existe una modificación natural de la prueba Cox and Stuart para probar correlación entre
dos variables.
Supongamos que tenemos una muestra bivariada de variables aleatorias continuas
(X1 , Y1 ) , . . . , (Xn , Yn )
Donde X(1) = min {X1 , . . . , Xn } y X(n) = max {X1 , . . . , Xn }. Supongamos que en la muestra no
hay empates, es decir siempre ocurre que X(i) < X(i+1) para toda i. Entonces definimos el rango
de la muestra ordenada como
R(X(i) ) = i
Cuando existan empates en la muestra ordenada, por ejemplo X(i) = X(i+1) = . . . = X(i+k) para
alguna i, en ese caso el rango asociado a todas estas obervaciones será igual al promedio de los
rangos que se les hubiera asignado suponiendo que no habia empate, es decir:
i + (i + 1) + . . . + (i + k)
R(X(i+q) ) = ; q ∈ {0, . . . , k}
k+1
x1 = 3, x2 = 6, x3 = 1, x4 = 7, x5 = 9
Ordenando la muestra:
Notemos que no hay empates por lo tanto la asignación de los rangos es la siguiente:
R(x(1) ) = R(x3 ) = 1
R(x(2) ) = R(x1 ) = 2
R(x(3) ) = R(x2 ) = 3
R(x(4) ) = R(x4 ) = 4
R(x(5) ) = R(x5 ) = 5
Supongamos ahora que tenemos una muestra con empates:
x1 = 3, x2 = 6, x3 = 1, x4 = 6, x5 = 6
Ordenando la muestra:
Los rangos que se asgnarı́an bajo el supuesto de que no hay empates es:
R(x(1) ) = R(x3 ) = 1
R(x(2) ) = R(x1 ) = 2
R(x(3) ) = R(x2 ) = 3
R(x(4) ) = R(x4 ) = 4
R(x(5) ) = R(x5 ) = 5
Como tenemos empates en las observaciones x(3) = x(4) = x(5) entonces los rangos para estos
casos se calcula como el promedio de las rangos que les fueron asignados, es decir:
3+4+5
R(x(3) ) = R(x(4) ) = R(x(5) ) = =4
3
R(x(1) ) = R(x3 ) = 1
R(x(2) ) = R(x1 ) = 2
R(x(3) ) = R(x2 ) = 4
R(x(4) ) = R(x4 ) = 4
R(x(5) ) = R(x5 ) = 4
Las pruebas que veremos a continuación tiene como principal proceso asignar rangos a las
observaciones de una muestra aleatoria recibida. Surgirá entonces la necesidad de saber como se
distribuye la v.a. R(Xi ).
Primero notemos que bajo el supuesto de no haber empates se tiene que R(Xi ) es una v.a.
discreta que toma valores en el conjunto {1, . . . , n}. Surge ahora la pregunta de saber con qué
probabilidad tomará cada uno de estos valores. Para ello recordemos que si la muestra recibida
es aleatoria de una sola población, entonces los n rangos que se asociarán deberan aparecer
también de forma aleatoria de tal manera que se formen n! posibles secuencias todas con la
misma probabilidad, por ejemplo, suponiendo que tenemos 3 observaciones, los 3! = 6 rangos
posibles que podrı́amos obtener son:
x1 x2 x3
1 2 3
1 3 2
2 1 3
2 3 1
3 1 2
3 2 1
Suponemos entonces que todos estos posibles rangos ocurren con la misma probabilidad es
decir 1/6.
Ahora, bajo este supuesto surge entonces la pregunta de conocer P (R(Xi ) = k). Para resolver
este caso simplemente contemos los casos favorables y dividamos entre los casos totales. Ya
sabemos que el total de casos es n!, de estos casos, los que son favorables con el evento R(Xi ) = k
son (n − 1)! posibles secuencias pues estamos dejando fija que en la columna i siempre aparezca
k. Por lo tanto:
(n − 1)! 1
P (R(Xi ) = k) = =
n! n
Es decir, resulta que R(Xi ) bajo el supuesto de que tenemos m.a. de una sola población, tiene
una distribución uniforme discreta en el espacio {1, . . . , n}
A continuación presentamos las 4 principales pruebas basadas en Rangos.
Si existe una diferencia entre las distribuciones FX (x) y GY (y) es sólo de localización y no
de forma es decir FX (x) = GY (x + c) para toda x y alguna c. Algunos autores asumen que
la prueba sigue siendo valida incluso si la forma es distinta.
Asignar Rangos a la muestra unida, sin olvidar de qué población viene cada observación.
De los Rangos obtenidos, sólo nos quedamos con los Rangos de la problación de la v.a. X
n1 (n1 + 1)
T =S−
2
Donde S = ni=1
P 1
R(Xi ), la suma de los rangos asociados a las observaciones de la distri-
bución FX (x).
La idea que hay detras de este estadı́stico es la siguiente, si la población con distribución FX (x)
tiende a tomar valores más pequeños que la población GY (x) entonces los rangos asociados a
las observaciones de X serán pequeños, de hecho el peor caso es cuando todas las observaciones
cayeron por debajo de las observaciones de Y , en ese caso los rangos que se asocian a la población
X son los primeros n1 naturales y por tanto:
n1
X n1 (n1 + 1)
S= R(Xi ) = 1 + 2 + . . . + n1 = ⇒T =0
i=1
2
Es decir, valores de T pequeños son compatibles con la hipótesis de que E(X) < E(Y ). El caso
opuesto a esto es cuando las observaciones de X estan todas por arriba de las observaciones de
Y , en ese caso los rangos asociados a las observaciones de X son los naturales
n2 + 1, n2 + 2, . . . , n2 + n1 = n
y por tanto:
n1
X n1 (n1 + 1)
S= R(Xi ) = (n2 + 1) + (n2 + 2) + . . . + (n2 + n1 ) = n1 n2 +
i=1
2
Luego entonces valores grandes de T (cercanos a n1 n2 ) son a favor de la hipótesis M ed(X) >
M ed(Y ). Todo indica entonces que hay evidencia para rechazar H0 tanto si T es pequeño o
grande, para tomar la decisión es necesario conocer la distribución de T bajo H0 para encontrar
los cuantiles correspondientes.
La distribución de T bajo H0 no es fácil de obtener de forma análitica debido a las distintas
combinaciones que se pueden dar en los rangos de la muestra unida, sin embargo se puede simular
o bien consultar en tablas. (Tabla 8 de Conover). Una ventaja que tiene esta distribución es que
es simétrica y por tanto los cuantiles para el rechazo de la hipótesis se obtienen de forma más
fácil.
La regla entonces es, Rechazar H0 a un nivel de significancia α si:
T ≤ w α2 o T > w1− α2
Donde wα y w1− α2 son los cuantiles de la distribución de T bajo H0 (Se obtienen por simulación
o en tablas)
A continuación se presenta un código para simular la distribución Mann-Whitney
############################################################
#Funcion que calcula la distribucion Mann Whitney Bajo H_0 #
############################################################
#Tamao de muestra de la primer poblacin
n=5
#Tamao de muestra de la segunda poblacin
m=6
#Numero de simulaciones
nSim=500000
#Generamos un arreglo de 10,0000 simulaciones
T=rep(0,nSim)
for (i in 1:nSim){
T[i]=sum(sample(1:N,n))-n*(n+1)/2
}
plot(table(T)/nSim,type="h",lwd=2,col="blue",ylab="Probabilidad",
main="Densidad Mann-Whitney", xlab="T",ylim=c(0,0.12))
points(0:(n*m), table(T)/nSim,pch=16,cex=2,col="dark red")
text(0:(n*m), table(T)/nSim, round(table(T)/nSim,3), pos=3, cex=0.7)
Densidad Mann−Whitney
0.12
Probabilidad
0.069
0.069
0.065 0.069
0.065
0.063 0.063
0.06
0.054
0.05 0.054
0.05
0.041 0.041
0.035 0.035
0.026
0.022 0.026
0.022
0.015
0.011 0.015
0.011
0.002
0.002 0.006
0.004 0.007
0.004
0.002
0.002
0.00
0 2 4 6 8 10 13 16 19 22 25 28
T
Prueba de una cola
En este caso sólo nos interesa ver la cola izquierda de T y por tanto se propone Rechazar
H0 a un nivel de significancia α si:
T ≤ wα
En este caso sólo nos interesa ver la cola derecha de T y por tanto se propone Rechazar H0 a
un nivel de significancia α si:
T > w1−α
Debido a la simetrı́a del estadı́stico de prueba T , existe una aproximación hacia la distribución
normal, para ello se debe calcular primero la esperanza y varianza del estadı́stico de prueba
(TAREA):
n1 (n1 + 1) n1 n2
E(T ) = E S − =
2 2
n1 n2 (n1 + n2 + 1)
Var(T ) = Var(S) =
12
Luego entonces asumiendo que:
aprox n1 n2 n1 n2 (n1 + n2 + 1)
T ∼ N (E(T ) , Var(T )) = N ,
2 12
Por lo tanto si la muestra es suficientemente grande podrı́amos definir el estadı́stico:
n1 n2
T− 2 aprox
Z=q ∼ N (0, 1)
n1 n2 (n1 +n2 +1)
12
Y por lo tanto tomar la decisión del rechazo de H0 en función de los cuantiles de la normal
estándar.
Aunque muchos autores proponen mejor utilizar la versión de medias (asumiendo que las medias
existen)
H0 : E(X1 ) = . . . = E(Xk ) vs H1 : E(Xi ) 6= E(Xj ) p.a. i 6= j
El método de la prueba consiste nuevamente en mezclar todas la muestras y formar una sola
Pk
secuencia de observaciones de tamaño n = i=1 ni , a dicha secuencia le asignamos rangos y
entonces la muestra es transformada obteniendo una tabla como sigue:
1
P (R(Xji ) = q) = j ∈ {1, . . . , k} ; i ∈ {1, . . . , nj } ; q ∈ {1, . . . , n}
n
Es decir bajo H0 el Rango que se le asocia a la observación Xji sigue una distribución uniforme
sobre el espacio {1, . . . , n}. Con lo anterior podemos encontrar la esperanza y varianza de la v.a.
R(Xji ).
n n
X X 1 1 n(n + 1) n+1
E(R(Xji )) = qP (R(Xji ) = q) = q = =
q=1 q=1
n n 2 2
n n
1 21 n(n + 1)(2n + 1) (n + 1)(2n + 1)
X X
2 2
E R(Xji ) = q P (R(Xji ) = q) = q = =
q=1 q=1
n n 6 6
(n + 1)(2n + 1) (n + 1)2
Var(R(Xji )) = E R(Xji )2 − E(R(Xji ))2 =
−
6 4
De igual forma se puede obtener la varianza de Rj salvo que hay que tener mucho cuidado pues
las variables R (Xji ) no son independientes, en ese caso:
nj nj nj nj
!
X X X X
Var(Rj ) = Var R (Xji ) = Var(R (Xji )) + Cov (R(Xjq ), R(Xjp ))
i=1 i=1 q=1 p=1
q6=p
nj (n + 1)(n − nj )
Var(Rj ) =
12
Sabemos entonces que Rj modela la suma de los rangos asociados a la población j y que se espera
n (n+1) n (n+1)(n−nj )
bajo H0 que E(Rj ) = j 2 y que Var(Rj ) = j 12 .
n (n+1)
Rj − E(Rj ) Rj − j 2 aprox
p =q ∼ N (0, 1)
Var(Rj ) nj (n+1)(n−nj )
12
Entonces:
2
nj (n+1)
Rj −
2
2
(Rj − E(Rj )) 2 12 Rj − 21 nj (n + 1) aprox
= nj (n+1)(n−nj ) = ∼ χ2(1)
Var(Rj ) n+1 nj (n − nj )
12
0
Si todas las Rj s fueran independientes habrı́amos terminado el problema pues se propondrı́a
como estadı́stico de prueba a la suma de las χ2 , es decir:
k 2 k 2
X0 12 Rj − 12 nj (n + 1) 12 X Rj − 12 nj (n + 1)
T = =
j=1
n+1 nj (n − nj ) n + 1 j=1 nj (n − nj )
0 aprox 0
Sin embargo es obvio que no podemos asumir que T ∼ χ2(k) , pues sabemos que las Rj s son
dependientes, de hecho kj=1 Rj = n(n+1)
P
2
.
El gran aporte que hizo Kruskal en 1952 fue probar que si a cada sumando se le multiplica por
n−n
el término n j entonces la suma sı́ tiene una distribución χ2 pero pierde un grado de libertad
es decir:
k 2 k 2
12 X n − nj Rj − 21 nj (n + 1) 12 X Rj − 1 nj (n + 1) aprox
T = = 2
∼ χ2(k−1)
n + 1 j=1 n nj (n − nj ) n(n + 1) j=1 nj
k 2
12 X Rj − 1 nj (n + 1)
2
T =
n(n + 1) j=1 nj
2(1−α) 2(1−α)
Y luego entonces se rechaza H0 a un nivel de significancia α si T > χ(k−1) , donde χ(k−1) es el
cuantil 1 − α de la distribución χ2 con (k − 1) grados de libertad.
Se puede probar además que el estadı́stico de prueba puede transformarse en lo siguiente
(TAREA): !
k
12 X Rj2
T = − 3(n + 1)
n(n + 1) j=1 nj
Un problema que tiene la prueba es que supone muestras grandes para poder asumir una
buena aproximación hacia la χ2 , es por eso que existen tablas de la prueba para el caso de que
se tienen muestras pequeñas. (Ver tabla 12 del Conover y sólo ataca el caso k=3).
Lo anterior nos motiva a tener programas que nos ayuden a simular la distribución de T bajo
H0 , a continuación presentamos un código en R que lleva a cabo la simulación de la distirbución
haciendo uso de la funcion sample la cual simula precisamente la obtención de los rangos basado
en un muestreo aleatorio simple:
##############################################################################
#Funcion que calcula los cuantiles de la distribucion KuskalWallis Bajo H_0 #
##############################################################################
#############################################################################
#El programa esta diseniado para cuando se tiene k=3 muestras independientes #
#############################################################################
k=3
#Introduzca el tamanio de las muestras de cada poblacion
n1=5
n2=3
n3=3
#Numero de simulaciones
nSim=50000
n=c(n1,n2,n3)
N=n1+n2+n3
T<-rep(0,nSim)
x=1:N
for (i in 1:nSim){
s=sample(x,N)
R=c(sum(s[1:n1]),sum(s[(n1+1):(n1+n2)]),sum(s[(n1+n2+1):N]) )
T[i]=12/(N*(N+1))*(sum(R^2/n))-3*(N+1)
}
######################################
#Graficamos la distribucion exacta #
######################################
par(mfrow = c(1, 2))
plot(as.numeric(names(table(T))),table(T)/nSim,type="h",lwd=2,
col="blue",ylab="Probabilidad",main="Densidad Kruskall", xlab="T")
points(as.numeric(names(table(T))), table(T)/nSim,pch=16,cex=2,col="dark red")
f<-ecdf(T)
plot(f,main="Exacta vs Aproximacion")
curve(pchisq(x,k-1),add=TRUE,col=2,lwd=3)
Densidad Kruskall Exacta vs Aproximacion
0.8
Probabilidad
Fn(x)
0.4
0.0
0
0 2 4 6 8 0 2 4 6 8
T x
Asignar Rangos a la muestra formada por el valor absoluto de las Di , es decir, obtener
R (|D1 |) . . . , R (|Dn0 |)
Observemos que T suma únicamente los rangos de las parejas con signo positivo, es decir, se
podrı́a decir que pondera el signo obtenido con el rango del valor absoluto. La prueba entonces
no sólo toma en cuenta el signo, sino también la magnitud de la diferencia en valor absoluto en
cada pareja (Xi , Yi ).
Notemos que si todas las diferencias son negativas Yi − Xi < 0 entonces T = 0 lo que irı́a en
contra de la hipótesis nula, mientras que si todos los signos son positivos Yi − Xi > 0 entonces T
0 0
tomarı́a el valor de n (n + 1)/2 lo que contradice H0 . La estadı́stica de prueba tomará valores
0 0
entre 0 y n (n + 1)/2 y se debe de rechazar H0 si:
Donde wα1 y w1−α2 son los cuantiles de la correspondientes de la distribución de T los cuales
pueden ser consultados en la tabla 7 del libro de Conover. Afortundamanete dicha distribución es
simétrica por lo que se puede tomar α1 = α2 = α/2, no obstante hay que tener las consideraciones
pertinentes debido a la discretización de la estadı́stica T y encontrar el α más cercano que permita
la distribución.
La pregunta es, ¿cómo se distribuye T bajo H0 ?. Veamoslo con un ejemplo simple, supongamos
que tenemos un tamaño de muestra bivariada igual a 3, luego bajo el supuesto de que no hay
empates tendriamos 3 posibles rangos a asociar {1, 2, 3}, dichos rangos sabemos que pueden
aparecer en orden aleatorio sin embargo en esta prueba no nos interesa esta parte, de hecho
imaginemos que siempre ordenamos la muestra en función de los rangos, la parte importante
de la estadı́stica de prueba es que el estadı́stico sólo sumará Rangos que tengan una diferencia
positiva, ahora bien, como suponemos H0 cierta, se espera que los signos positivos aparezcan
con probabilidad 1/2, bajo este contexto entonces hay 23 posibles secuencias que pueden ocurrir
(todas con probabilidad 1/23 ) a continuacióon exihibimos todas las posibilidades con su respectivo
valor de la estadı́stica.
1 2 3 T
- - - 0
- - + 3
- + - 2
- + + 5
+ - - 1
+ - + 4
+ + - 3
+ + + 6
##########################################################
#Funcion que calcula la distirbucion Wicoxon bajo H_0 #
##########################################################
#Introduzca el numero de observaciones
n=5
#Numero de Simulaciones
m=100000
t<-rep(0,m)
y=1:n
for( i in 1:m){
s=sample(c(0,1),n,replace=TRUE)
t[i]=y%*%as.matrix(s)
}
0 1 2 3 4 5 6 7 8 9 10 12 14
En la hipótesis alternativa nos interesa saber si X tiene a tomar valores más pequeños que Y ,
como Di = Yi − Xi entonces ver signos positivos son a favor de H1 , lo lógico entonces es rechazar
H0 si vemos un valor muy grande de T es decir, rechazamos H0 si:
T > w1−α
Ahora ver signos negativos Di = Yi − Xi son a favor de H1 y por tanto lo lógico será rechazar
H0 si T toma valores pequeños por tanto rechazaremos H0 si:
T ≤ wα
Aproximación a la normalidad
Debido a la simetrı́a que tiene el estadı́stico de prueba es de esperarse que para muestras gran-
des se tenga una buena aproximación hacia la normalidad. Para llevar a cabo dicha aproximación
es necesario obtener la esperanza y varianza de T .
Se puede probar que (TAREA):
En este caso una observación esta dada por el vector (X1i , X2i , . . . , Xki ).
Estaremos interesados en verificar la hipótesis:
El método propuesto por la prueba será nuevamente asignar Rangos a la muestra observada pero
por cada renglón en tabla. Es decir R(Xji ) será el Rango asociado a la observación j del renglon
i de tal forma que R(Xji ) es una v.a. que sólo puede tomar valores en el conjunto {1, 2, . . . , k}.
(Observe entonces que los rangos son asociados por renglon y en ningun momento se junta toda
la muestra)
Transformada la muestra obtendremos una tabla generada por los rangos asociados:
Ahora notemos que bajo H0 se espera que los rangos asociados por renglón sigan una distri-
bución uniforme discreta, es decir:
1 k+1
P (R(Xji ) = q) = j, q ∈ {1, 2, . . . , k} ⇒ E(R(Xji )) =
k 2
Lo anterior es valido para cada renglón, es decir para i ∈ {1, 2, . . . , n}. Como además suponemos
m.a. del vector multivariado, entonces sabemos que los rangos asociados de renglón a renglón
son independientes también, es decir:
Observemos que si existe un j tal que la población j tienda a tomar valores más grandes
que los demás, entonces se deberá observar que Rj toma valores grandes lo que irı́a en contra
de la hipótesis nula. Se propone entonces una estadı́stica que mida la dicrepancia de Rj con su
respectivo valor esperado.
n
! n n
X X X k+1 n(k + 1)
E(Rj ) = E R(Xji ) = E(R(Xji )) = =
i=1 i=1 i=1
2 2
n(k + 1)(k − 1)
Var(Rj ) =
12
Rj − E(Rj ) Rj − n(k+1)
2 aprox
p =q ∼ N (0, 1)
Var(Rj ) n(k+1)(k−1)
12
Por lo tanto: 2
n(k+1)
R − aprox
qj 2 ∼ χ2(1)
n(k+1)(k−1)
12
Sin embargo, sabemos que R1 , . . . , Rk son dependientes, de hecho algo que tiene que ocurrir es que
Pk nk(k+1)
j=1 Rj = 2
por lo tanto no podemos argumentar independencia y asumir la distribución
χ2(k) .
El aporte que hizo Friedman fue probar que si se multiplica a cada sumando en (1.1) por el
factor k−1
k
entonces si se obtiene una distribución χ2 pero se pierde un grado de libertad, por lo
tanto Friedman define el siguiente estadı́stico de prueba:
2
n(k+1)
k − 1 Rj −
k k 2
X 2 12 X n(k + 1) aprox 2
T = n(k+1)(k−1)
= Rj − ∼ χ(k−1)
j=1
k nk(k + 1) j=1 2
12
Luego entonces la idea para rechazar H0 es fácil, se propone rechazar H0 a un nivel de significancia
α si:
(1−α)
T > χ2(k−1)
(1−α)
Con χ2(k−1) el cuantil 1 − α de una distribución χ2 con k − 1 grados de libertad.
Se puede probar además que una forma más comoda (computacionalmente) del es estadı́stico
de prueba es:
k
12 X
T = R2 − 3n(k + 1)
nk(k + 1) j=1 j
###################################################
#Programa que calcula la distribucion Friedman #
###################################################
#Introduce k el numero de grupos o dimension del vector
par(mfrow = c(1, 2))
k=3
#Introduce el numero de muestras
n=5
#Introduce el numero de simulaciones
nSim=100000
M=matrix(0,n,k)
R=0
T<-rep(0,nSim)
for (i in 1:nSim){
for (j in 1:n){
M[j,]=sample(1:k,k,replace=FALSE)
}
for (l in 1:k){
R[l]=sum(M[,l])
}
T[i]=12/((n*l)*(l+1))*sum(R^2)-3*n*(k+1)
}
plot(as.numeric(names(table(T))),table(T)/nSim,type="h",lwd=2,
col="blue",ylab="Probabilidad",main="Densidad Friedman", xlab="T",ylim=c(0,0.3))
points(as.numeric(names(table(T))), table(T)/nSim,pch=16,cex=2,col="dark red")
text(as.numeric(names(table(T))), table(T)/nSim, round(table(T)/nSim,3), pos=3, cex=0.7)
f<-ecdf(T)
plot(f,main="Exacta vs Aproximacion")
curve(pchisq(x,k-1),add=TRUE,col=2,lwd=3)
0.26
0.8
Probabilidad
0.186
0.172
0.153
Fn(x)
0.4
0.047 0.0590.053
0.031
0.015
0.015
0.0080.001 0.0
0
0 2 4 6 8 10 0 2 4 6 8 10
T x