Notas Pruebas No Parametricas

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 41

Capı́tulo 1

Pruebas no Paramétricas

En este capı́tulo abordaremos las pruebas no parámetricas, estas pruebas tiene una ventaja
muy importante sobre las pruebas tradicionales pues no tienen el supuesto de que la población
de donde se obtiene la muestra sea de una familia paramétrica. Sin embargo, el precio que se
paga por llevar a cabo este tipo de pruebas es que muchas veces los métodos no tendrán el nivel
de significancia deseado y lo más importante, serán menos potentes que su versión paramétrica.
En este curso veremos 2 tipos de pruebas:

Pruebas basadas en la distribución Binomial.

Pruebas basadas en Rango.

1.1. Pruebas basadas en la distribución Binomial


Estas pruebas son llamadas Binomiales porque la distribución del estadı́stico de prueba que
se utiliza para contrastar la hipótesis sigue una distribución Binomial completamente conocida
bajo H0 .

1.1.1. Prueba para proporciones


Imaginemos que tenemos X1 . . . , Xn m.a. de un fenómeno aleatorio que sólo admite dos po-
sibilidades Xi ∈ C1 con probabilidad p o bien Xi ∈ C2 con probabilidad 1 − p, donde p es el
parámetro que nos indica con qué proporción (o probabilidad) observaremos Xi ∈ C1 .

Prueba de dos colas

1
Se plantea entonces la siguiente hipótesis:

H0 : p = p∗ vs H1 : p 6= p∗

Se define el estadı́stico de prueba:


n
X
T = 1(Xi ∈C1 ) = # de observaciones en C1
i=1

Entonces bajo H0 se sabe que al ser T suma de v.a. Bernoulli, se tiene que T ∼ Bin (n, p∗ ),
entonces si H0 es cierta se espera que T tome valores en la parte densa de la densidad binomial,
luego entonces sabemos que debemos rechazar H0 tanto si T toma valores muy pequeño como
muy grandes, es decir la regla que se plantea es Rechazar H0 a un nivel de significancia α si:

T ≤ w α1 o T > w1−α2

Donde α1 + α2 = α. En este caso debido a que la distribución es discreta, difı́cilmente lograremos


que la prueba tenga exactamente significancia igual a α, es por eso que la prueba se ajusta a
encontrar los cuantiles tales que α1 + α2 = α∗ ≤ α donde α∗ es la probabilidad de cometer el
error tipo 1 que más se acerque por abajo de α.
Observe que en este caso no se especifica cómo encontrar α1 y α2 , en caso de que la distribucón
T bajo H0 sea simétrica (p∗ = 1/2) es fácil definir α1 = α2 = α2 , sin embargo esta idea puede no
ser la ideal cuando la distribución es muy asimétrica. Para solucionar esto se propone métodos
que encuentren α1 y α2 tal que el intervalo formado por (wα1 , w1−α2 ) sea de longitud minima
sujeto a α1 + α2 = α.
Consideremos el siguiente ejemplo:
Supongamos que tenemos un X1 , . . . , X10 m.a. de un fenómeno aleatorio que sólo admite dos
valores tal que P (Xi ∈ C1 ) = p.
Se plantea la hipótesis
1 1
H0 : p = vs H1 : p 6=
3 3
Entonces bajo H0 se tiene que T sigue una distribución Binomial de parámetros n = 10 y p = 13 .

n=10
p=1/3
x=0:10
p=dbinom(x,size=n,prob=p)
plot(x,p,type="h",xlim=c(-1,11),ylim=c(0,0.3),lwd=2,col="blue",ylab="p",
main="Distribucion Binomial B(10,1/3)",cex.axis=0.7)
points(x,p,pch=16,cex=2,col="dark red")
text(x,p,round(p,3),pos=3,cex=0.7)

Distribucion Binomial B(10,1/3)


0.30

0.26
0.228
0.195
0.20

0.137
p

0.087
0.10

0.057
0.017 0.016
0.003 0 0
0.00

0 2 4 6 8 10

Supongamos que nos piden rechazar un nivel de significancia α, entonces encontraremos α1


y α2 de la siguiente forma.
La moda la distribución se obtiene con T = 3, al acumular 0.26 de probabilidad, luego el
siguiente más grande quitando a T = 3, es T = 4 al contar con una probabilidad puntual de 0.228
lo cual acumula, junto con el paso anterior, una probabilidad de 0.26+0.228 = 0.488. Continuamos
este proceso hasta que la probabilidad acumulada sobrepase por primera vez a la probabilidad
1 − α, en nuestro ejemplo como α = 0.05, el algoritmo se detiene hasta que acumulemos por
primera vez más de 0.95. En este caso el algoritmo se detiene cuando T ∈ {1, . . . , 6}, en este
caso
P (T ∈ {1, . . . , 6}) = 0.964

Por lo tanto se escoge α1 = P (T ∈ {0}) = 0.017 y α2 = P (T ∈ {7, 8, 9, 10}) = 0.019. Entonces


wα1 = 0 y w1−α2 = 6 Por lo tanto rechazamos H0 si

T ≤0 o T >6

En este caso la prueba tendrá una significancia de α1 + α2 = 0.017 + 0.019 = 0.36. En caso de
que se requiera una prueba exactamente al 5 % existe una forma de llevar a cabo dicho contraste
por medio de una prueba aleatorizada (no se ve en este curso).
Intervalo de Confianza para la proporción
Una de las ventajas de esta prueba es que es posible encontrar intervalos de confianza para
la proporción p, para ello recordemos que hay una relación entre un intervalo de confianza y una
prueba de dos colas, en efecto, si por ejemplo hacemos la prueba paramétrica para la media de
una Normal:
H0 : µ = µ0 vs µ 6= µ0

Entonces una forma de encontrar la región de rechazo es construir un intervalo de confianza para
µ y luego verificar si µ0 se encuentra en dicho intervalo. Visto de forma inversa, ahora se plantea
encontrar un intervalo a partir de la regla de rechazo que genera el contraste de hipótesis.
En nuestro caso, debemos preguntarnos, ¿Para qué valores de p∗ no se rechaza la hipótesis
p = p∗ ?. Para encontrar dichos valores se propone ir barriendo los distintos valores de p∗
(discretizando el intervalo (0,1) ) e ir verificando para cuales valores no se rechaza H0 , los p∗ que
tengan esta propiedad formarán un intervalo de confianza. Observe que en este caso, una vez
observada la muestra T es una valor fijo y lo que va variando es p∗ lo que a su vez va modificando
la distribución asociada.
Veamos un ejemplo, supongamos nuevamente que n = 10 y que observamos una muestra
tal que T = 3, en este caso haremos uso de la función binom.test del paquete R, dicha función
hace la prueba extacta basada en la distribución binomial y construye el intervalo de confianza
correspondiente, en el siguiente código se hace la prueba:

1 1
H0 : p = vs H1 : p 6=
3 3

alpha <- 0.05


binom.test(3,10,1/3,alternative=c("two.sided"),conf.level=1-alpha)

##
## Exact binomial test
##
## data: 3 and 10
## number of successes = 3, number of trials = 10, p-value = 1
## alternative hypothesis: true probability of success is not equal to 0.3333333
## 95 percent confidence interval:
## 0.06673951 0.65245285
## sample estimates:
## probability of success
## 0.3
En este caso el intervalo al 95 % para la proporción p que construye la función es el siguiente:

(0.06673951, 0.65245285)

Prueba de una cola


Supongamos ahora que sólo estamos interesados en pruebas de una cola, es decir nos interesa
probar:

H0 : p = p∗ vs H1 : p > p∗
H0 : p ≤ p∗ vs H1 : p > p∗

En este caso ahora nos interesa ver si tenemos evidencia como para afirmar que la verdadera
proporción p es más grande que la que proponemos bajo H0 , resulta natural entonces que debemos
rechazar H0 si en la muestra observamos muchas observaciones de la clase 1, es decir, ahora
estaremos rechazando si: n
X
T = 1(Xi ∈C1 ) > w1−α
i=1

Donde w1−α es el cuantı́l 1 − α de una distribución Binomial(n, p∗ )


Supongamos el mismo ejemplo anterior pero llevado al caso de una cola, es decir nos interesa
verificar la siguiente prueba de hipótesis:

1 1
H0 : p = vs H1 : p >
3 3
1 1
H0 : p ≤ vs H1 : p >
3 3

En este caso, dado que nos interesa que la cola derecha acumule α de probabilidad, ahora
iremos acumulando probabilidades de derecha a izquierda hasta acumular la probabilidad desea-
da, como sabemos no necesariamente seremos capaces de acumular exactamente α, en cuyo caso
debemos detener el proceso de acumulación hasta que sobrepasemos el α deseado y regresar al
paso anterior.
Revisando nuevamente la distribución bajo H0 del estadı́stico de prueba tenemos:

n=10
p=1/3
x=0:10
p=dbinom(x,size=n,prob=p)
plot(x,p,type="h",xlim=c(-1,11),ylim=c(0,0.3),lwd=2,col="blue",ylab="p",
main="Distribucion Binomial B(10,1/3)",cex.axis=0.7)
points(x,p,pch=16,cex=2,col="dark red")
text(x,p,round(p,3),pos=3,cex=0.7)

Distribucion Binomial B(10,1/3)


0.30

0.26
0.228
0.195
0.20

0.137
p

0.087
0.10

0.057
0.017 0.016
0.003 0 0
0.00

0 2 4 6 8 10

Visto en una tabla

a<-as.data.frame(cbind(x,round(p,4)))
colnames(a)<-c("T","Pr")
a

## T Pr
## 1 0 0.0173
## 2 1 0.0867
## 3 2 0.1951
## 4 3 0.2601
## 5 4 0.2276
## 6 5 0.1366
## 7 6 0.0569
## 8 7 0.0163
## 9 8 0.0030
## 10 9 0.0003
## 11 10 0.0000

En este caso, acumulando de derecha a izquierda obtenemos que cuando llegamos a T = 6 la


probabilidad acumulada es:

P (T = 10) + P (T = 9) + P (T = 8) + P (T = 7) + P (T = 6) = 0.0765635
Por lo que nos hemos pasado del α deseado, en este caso si sólo acumulamos hasta T = 7
obtenemos:
P (T = 10) + P (T = 9) + P (T = 8) + P (T = 7) = 0.0196616

En este caso, tenemos que a un α = 5 % la prueba más adeacuada es rechazar H0 si

T >6

La prueba en este caso tendrı́a un nivel de significancia del α = 0.0196616, por lo que el cuantil
w1−α asociado es 6 y por tanto
T > w1−α = 6

Finalmente, si ahora nos planteamos la hipótesis de la otra cola:

H0 : p = p∗ vs H1 : p < p∗
H0 : p ≥ p∗ vs H1 : p < p∗

Resulta de manera natural repetir el proceso anterior pero ahora acumulando probabilidades de
la cola izquierda y por tanto la idea será rechazar H0 si
n
X
T = 1(Xi ∈C1 ) ≤ wα
i=1

Una alternativa adicional a este problema es aproximar la prueba por medio de la distribución
normal y asumir que el estadı́stico bajo H0 tiene la siguiente propiedad:
n
aprox
X
T = 1(Xi ∈C1 ) ∼ N (p∗ , np∗ (1 − p∗ ))
i=1

Y luego utilizar los cuantiles de la distribución normal correpondiente, sin embargo esta aproxi-
mación puede no ser muy buena si p∗ es cercano a 0 o 1, en cuyo caso se requerirá mucho tamaño
de muestra para tener una buena aproximación.

1.1.2. Prueba del cuantil


En este tipo de pruebas estaremos interesados en hacer inferencia para un cuantil especifico
de la distribución, la prueba se planeteará para distribuciones continuas sin embargo se puede
llevar a cabo para el caso discreto.
Empecemos recordando lo que entendemos por cuantil de una distribución:
Definición 1.1.1 (Cuantil). Sea X una v.a. continua con función de distribución FX (x), decimos
que xq es el cuantil q de la v.a. X si:

FX (xq ) = P (X ≤ xq ) = q

Es decir xq es el punto en el cual la variable aleatoria X acumula exactamente q de probabilidad.

Prueba de dos colas


En este tipo de pruebas estaremos interesados en verificar si el cuantil q de la distribución de
donde proviene la muestra es cierto valor x∗q conocido, en este caso nos interesa plantear la prueba:

H0 : xq = x∗q vs H1 : xq 6= x∗q

Nuevamente supondremos que tenemos como entrada X1 , . . . , Xn una m.a. de la distribución


FX (x) y la idea consiste en proponer un estadı́stico de prueba que nos ayude a verificar la
veracidad de la hipótesis nula. En este caso propondemos el siguiente estadı́stico de prueba:
n
X
T = 1(Xi ≤x∗q )
i=1

Observe que en este caso T modela el número de observaciones en muestra que son menores o
iguales al cuantil propuesto bajo la hipótesis nula. En este caso bajo H0 tenemos que:

1(Xi ≤x∗q ) ∼ Bernoulli(P Xi ≤ x∗q ) = Bernoulli(P (Xi ≤ xq )) = Bernoulli(q)




Por lo tanto bajo H0 el estadı́stico de prueba tiene una distribución completamente conocida:
n
H
X
T = 1(Xi ≤x∗q ) ∼0 Binomial (n, q)
i=1

Enseguida, lo que resulta natural es rechazar H0 si T toma valores atı́picos bajo la distribución
bajo H0 y por tanto rechazaremos H0 si:

T ≤ w α1 o T > w1−α2

Donde α1 + α2 = α. En este caso nuevamente debemos tener las precauciones necesarias debido
al problema de discretización de la distribución del estadı́stico de prueba bajo H0 para tener la
prueba adeacuada para el α deseado.
Intervalo de Confianza

Nuevamente podemos llevar a cabo un proceso para encontrar intervalos de confianza para
el cuantil q de la distribución. En este caso el proceso será nuevamente ir variando el valor x∗q
en la hipótesis nula e ir verificando para qué valores no se rechaza H0 , dichos valores formarán
el intervalo de confianza correspondiente, en este caso debe observarse que conforme se mueve
x∗q lo que varia es el valor que toma T y no la distribución. Una parte interesante es que x∗q sólo
mueve el valor de T cuando x∗q es un valor que está en muestra, esto último facilita mucho la
búsqueda pues sólo tendremos que estar realizando la pruaba de hipótesis para valores x∗q que
estén en muestra.

Veamos un ejemplo:

Supongamos que recibimos la siguiente muestra de tamaño 15

189, 233, 195, 160, 212, 176, 231, 185, 199, 213, 202, 193, 174, 166, 248

Estamos interesados en construir un intervalo para la mediana, entonces lo primeroque procede


es ordenar la muestra, obtener la distribución binomial asociada al cuantil 0.5, luego obtener la
región de rechazo más cercana al α deseado y luego extraer los estadı́sticos de orden donde la
hipótesis no sea rechaza. Veamos el siguiente código:

x<-c(189,233,195,160,212,176,231,185,199,213,202,193,174,166,248)
#ordenamos muestra
x<-sort(x)
#tamao de la muestra
n<-length(x)
#En este caso el estad?stico para probar la mediana es
#T \sim Binom(n,0.5)
z<-0:15
p=dbinom(z,size=n,prob=1/2)
plot(z,p,type="h",xlim=c(-1,16),ylim=c(0,0.3),lwd=2,col="blue",ylab="p",
main="Distribuci?n Binomial B(15,1/2)",cex.axis=0.7)
points(z,p,pch=16,cex=2,col="dark red")
text(z,p,round(p,3),pos=3,cex=0.7)
Distribuci?n Binomial B(15,1/2)
0.30

0.1960.196
0.20

0.153 0.153
p

0.092 0.092
0.10

0.042 0.042
0.014 0.0140.003
0 0 0.003 0 0
0.00

0 5 10 15

Analizando el gráfico observamos que la zona de rechazo es:

T ≤ 3 o T > 11

Del gráfico también obtemos que el nivel de significancia alcanzado por esta región de rechazo
es: α= 0.0351563

Ahora basados en la metodologı́a que planteamos, habrá que ver par qué valores xq se rechaza
y no se rechaza la hipótesis nula, afortunadamente si la muestra fue ordenada, entonces se observa
que cuando x∗0.05 = x(i) entonces T es definido como el número de observaciones menores o iguales
a x(i) tomará el valor de i. Por lo tanto el intervalo de confianza se obtiene fácilmente por medio
de los estadı́sticos de orden que hacen cierta la hipótesis nula, es decir:

x(4) , x(11) = (176, 212)

Con una confianza del 0.9648438

Prueba de una cola


En este caso debemos tener mucho cuidado sobre la cola que tenemos que analizar del estadı́stico
de prueba.
Supongamos entonces que ahora se plantea la hipótesis:

H0 : xq = x∗q vs H1 : xq > x∗q


H0 : xq ≤ x∗q vs H1 : xq > x∗q

Observemos que estamos interesados en ver si la muestra nos da la suficiente evidencia como para
rechazar H0 y decir que xq > x∗q . La pregunta es entonces, ¿Qué tipo de muestra nos hace pensar
que xq > x∗q ?. Nuevamente la idea será contar el número de observaciones menores a x∗q , si H1
fuera cierta entonces x∗q es un punto en donde la distribucion aún no acumula q de probabilidad,
es decir se esperarı́a que el núumero de observaciones menores a x∗q divido entre n fuera mucho
más pequeño que q y por lo tanto esto se traduce en pedir que el estadı́stico de prueba tenga
pocas observaciones, es decir, la idea ahora es rechazar H0 si:
n
X
T = 1(Xi ≤x∗q ) ≤ wα
i=1

Donde wα es el cuantil α de la distribución Binomial(n, q)

De forma análoga, en la prueba para la otra cola es:

H0 : xq = x∗q vs H1 : xq < x∗q


H0 : xq ≥ x∗q vs H1 : xq < x∗q

Rechazaremos H0 si
n
X
T = 1(Xi ≤x∗q ) > w1−α
i=1

Donde, nuevamante w1−α es el cuantil 1 − α de la distribución Binomial(n, q).

Estas pruebas deben de tomar las precauciones debidas para encontrar la región más adecuada
en función al nivel de significancia deseado.

Finalmente, en caso de que se tenga una muestra suficientemente grande podremos aplicar la
aproximación a la normal:
n
aprox
X
T = 1(Xi ≤x∗q ) ∼ N (q, nq(1 − q))
i=1
Y por tanto definir la región de rechazo en términos de los cuantiles de la normal apropiada.

1.1.3. Prueba del Signo

Esta prueba pretende comparar la mediana de dos poblaciones. El supuesto principal es que
muestreamos de ellas de forma simulatanea, es decir que al momento de obtener la muestra
extraemos un vector formado por las variables (Xi , Yi ) donde Xi es el valor de la variable en la
primera población, mientras que Yi es el valor de la variable en la segunda población.
Un ejemplo de esta situación de muestreo puede darse en un experimento donde se aplica
mediciones antes y después de un tratamiento especifico a un mismo objeto.
Imaginemos que existe un nuevo método de afinación de un motor y se pretende evaluar si el
tratamiento es efectivo, para ello se toman 10 automóviles, primero se les mide su nivel de con-
taminación (previo a la afinación) y guardamos dichos datos en la variable X, posteriomente se
lleva a cabo el tratamiento (afinación) y al mismo coche se le hace la misma prueba y guardamos
su nivel de contaminación en la variable Y , entonces al final obtendriamos 10 parejas de observa-
ciones formadas por las mediciones de contaminacón de los autos. En este problema estarı́amos
interesados en probar si estadı́sticamente el tratamiento es efectivo, para ello podrı́amos suponer
que X y Y son poblaciones con distribuciones no necesariamente iguales en las que nos interesa
probar si Y tiende a tomar valores más pequeños que X, esto lo podrı́amos plantear enterminos
de una medida de tendencia central como lo es la mediana:

H0 : M ed(X) = M ed(Y ) vs H1 : M ed(X) 6= M ed(Y )

O bien

H0 : M ed(X) ≤ M ed(Y ) vs H1 : M ed(X) > M ed(Y )


H0 : M ed(X) ≥ M ed(Y ) vs H1 : M ed(X) < M ed(Y )

En la primera prueba hipótesis estamos interesados en verificar si hay efecto (Positivo o Negativo)
del tratamiento en la población mientras que las otras hipótesis sólo nos interesa verificar el efecto
únicamiente positivo o negativo de la prueba, en nuestro ejemplo de autos, nos interesa medir
un efecto negativo es decir que realmente disminuye contaminación del automóvil, en ese caso se
tiene interés en la segunda prueba de hipótesis.
Un supuesto adicional que asume la prueba es que la diferencia entre las medianas de X y
Y es igual a la mediana de la diferencia esto es, suponiendo que Z = Y − X, entonces:
M ed(Z) = M ed(Y − X) = M ed(Y ) − M ed(X)

Este último supuesto es escencial para definir el estadı́stico de prueba para el problema que
se plantea.(Ver The Difference Between the Median of a Difference and the difference of the
Medians de Nigel F. Nettheim)

Pruebas de dos colas

Suponga que se plantea lo siguiente:

H0 : M ed(X) = M ed(Y ) vs H1 : M ed(X) 6= M ed(Y )

Se supone entonces que recibimos una muestra bivariada (X1 , Y1 ) , (X2 , Y2 ) , . . . , (Xn , Yn ), luego
contruyamos la v.a Z en función de X y Y como:

Z =Y −X

Entonces la muestra bivariada es tranformada en una muestra univariada Z1 = Y1 −X1 , . . . , Zn =


Yn − Xn , luego bajo H0 y los supuestos se tiene que:

H
M ed(Z) = med(Y − X) = M ed(Y ) − M ed(X) =0 0

Entonces por lo anterior, la prueba de hipótesis se transforma en:

H0 : M ed(Z) = 0 vs H1 : M ed(Z) 6= 0

Este último problema ya fue resuelto pues no es más que la prueba del cuantil para q = 0.5. El
estadı́stico utilizado en esta prueba vimos que es:
n
X
T = 1(Zi ≤0) = # de observaciones menores o iguales a 0
i=1
= # de signos negativos en la resta Yi − Xi

La última igualdad se debe a que suponemos que por continuidad de X y Y se tiene que
P (Z = 0) = 0. Sin emabrgo, en la práctica se estila utilizar otro estadı́stico de prueba simi-
lar: n
X
T = 1(Zi >0) = # de signos positivos en la resta Yi − Xi
i=1
En este caso nuevamente se tendrı́a que bajo H0 se tiene que T ∼ Binom(n, 0.5) y por tanto
resulta de manera natural rechazar H0 a un nivel de significancia α si:

T ≤ w α1 o T > w1−α2

Donde α1 + α2 = α. Afortunadamente en este caso tenemos que el estadı́stico de prueba tiene


una distribución simétrica lo que nos permite hacer α1 = α2 = α2 . No obstante al prueba se debe
ajustar al α adecuado debido a la discretización de T .

Pruebas de una cola

En caso de que se esté interesado en probar una sola cola se plantea entonces la hipótesis:

H0 : M ed(X) = M ed(Y ) vs H1 : M ed(X) < M ed(Y )


H0 : M ed(X) ≥ M ed(Y ) vs H1 : M ed(X) < M ed(Y )

En este caso se está interesado en verificar si X tiende a tomar valores más pequeños que
Y , en este caso entonces si en la muestra observamos que el signo de la diferencia Z = Y − X
tiende a tomar postivos, es evidencia para inclinarse por H1 , tener muchos positivos en Z implica
entonces tener pocos negativos por lo tanto se propone rechazar H0 si:
n
X
T = 1(Zi >0) = # de signos positivos > w1−α
i=1

Donde w1−α es el cuantil α de la distribución Binomial(n, 0.5)


Por otro lado, ahora estamos interesados en la otra cola entonces la prueba es:

H0 : M ed(X) = M ed(Y ) vs H1 : M ed(X) > M ed(Y )


H0 : M ed(X) ≤ M ed(Y ) vs H1 : M ed(X) > M ed(Y )

En cuyo caso, ahora la muestra indica que se rechace H0 si observa muchos signos negativos en
la variable Z, luego entonces se tiene que analizar la cola izquierda de la distribución.
n
X
T = 1(Zi >0) = # de signos positivos ≤ wα
i=1

Donde wα es el cuantil α de la distribución Binomial(n, 0.5). Donde nuevamente se tiene que


tomar las consideraciones necesarias para tener la prueba de significancia más cercano a α.

Caso Discreto

La prueba del signo puede ser adapatada al caso en que las variables X y Y son discretas, sin
embargo ahora se tiene que tomar en cuenta los posibles empates pues debido a la discretización
se puede dar que P (Xi = Yi ) > 0.
La forma en como se adapta la prueba es sencilla, simplemente se propone eliminar todos los
empates que hayan aparecido en la muestra y se lleva a cabo la prueba como en el caso continuo,
es decir, se procede a contar el número de signos positivos y luego comparar ese resultado con
cuantiles de la binomial respectiva donde ahora n es un tamaño de muestra reducido tras eliminar
los empates encontrados.
Muchos autores plantean que la solución de eliminar los empates no es justo ya que las
observaciones con empate en realidad son a favor de la hipótesis nula. Una posible solución que
se ha planteado en la prueba de dos colas es cambiar los empates por simulaciones de signos
generados de una Bernoulli con probabilidad de exito igual a 0.5 y luego llevar a cabo la prueba
tradicional, la idea del cambio es favorecer entonces a la hipótesis nula con observaciones que son
de esperarse bajo H0 .

1.1.4. Prueba de McNemar


Esta prueba es un caso especial del test del signo trabajado en la sección anterior, la diferencia
radica en que esta prueba supone que tanto X como Y son dicotómicas, es decir, que sólo pueden
tomar dos posibles valores digamos 0 y 1, debido a este supuesto las observaciones serán entonces
parejas de la forma (0, 0), (0, 1), (1, 0), (1, 1) y podrán ser tabuladas de la siguiente forma:

X/Y 0 1

0 a=# número de (0,0) b=# número de (0,1)


1 c=# número de (1,0) d=# número de (1,1)

Un ejemplo clásico donde se puede aplicar este caso es en el contexto de la polı́tica, suponga-
mos que existen 2 candidatos polı́ticos y definamos a X la v.a. que modela el voto hacia alguno
de los candidatos previo a un debate público (tratamiento), definamos entonces que X = 0 si se
vota por el candidato A y X = 1 si se vota por el candidato B. Despúes del debate (tratamiento),
se lleva a cabo nuevamente la medición en las personas y ahora la v.a. Y modela el voto despúes
de dicho debate. Una pregunta interesante es entonces resolver si el debate logró cambiar de
opinion de los votantes.
Tenemos entonces la necesidad de verificar si existe una diferencia entre las medianas de X
y Y , sin embargo debido su naturaleza de las variables en realidad lo que interesa es verificar si
después de la aplicación de un tratamiento hace que la v.a. X cambie su proporción de 10 s. Ahora
observemos que debido a la dicotomı́a de las variables con las que trabajamos, el hecho de que X
no cambie su proporción de 10 s implica que se espera que P (X = 0, Y = 1) = P (X = 1, Y = 0),
es decir, la probabilidad de que un votante cambie de A a B es la misma de que cambie de B a
A, este supuesto hace que la proporción de votantes no cambie despúes del tratamiento.
En términos de hipótesis planteamos entonces lo siguiente:

H0 : P (X = 0, Y = 1) = P (X = 1, Y = 0) vs H1 : P (X = 0, Y = 1) 6= P (X = 1, Y = 0)

En nuestra notación entonces los casos a=# número de (0,0) y d=# número de (1,1) serán
considerados empates y por tanto serán eliminados de la prueba, entonces la decisión debe de
recaer en los valores observados en b=# número de (0,1) y c=# número de (1,0), observe que en
este caso b modela el número de votantes que cambiaron de opinion del candidato A al candidato
B mientras que c modela el caso en donde el voto cambió del candidato B al candiato A.
En el contexto de la prueba del signo la pareja (0,1) tiene un signo positivo y por tanto se
propondrá utilizar como estadı́stico de prueba a b

T = b = número de observaciones de la forma (0,1)

Dado que los empates ya fueron eliminados, entonces el tamaño de muestra es n = b + c y luego
si suponemos H0 cierta entonces:
 
H0 1
T ∼ Binomial b + c,
2

y por tanto se rechazará H0 si T toma valores muy pequeños (Debate a favor del candidato A)
o si T toma valores grandes (Debate a favor del candidato B) donde para la regla de decisión se
tomarán en cuenta los cuantiles de la distribución Binomial respectiva.
Algunos autores suponen muestras grandes en estos estudios y por tanto no utilizan la dis-
tribucón binomial sino que llevan a cabo la aproximación normal es decir:
   
H0 1 aprox aprox 1 b+c
T ∼ Binomial b + c, ∼ N (np, np(1 − p)) ∼ N (b + c) ,
2 2 4

y por tanto rechazar H0 basado en los cuantiles de la normal asociada. Otros autores deciden
estandarizar la Normal y luego elevarla al cuadrado para obtener la distribución χ2 , es decir, se
propone el estadı́stico de prueba:
 2  2
T − (b + c) 12 b − (b + c) 21 aprox H0
T1 =  q  = q  ∼ χ2(1)
b+c b+c
4 4

Simplificando el estadı́stico toma la forma:

(b − c)2 aprox H0
T1 = ∼ χ2(1)
b+c
2(1−α)
Y por tanto se propone rechazar H0 si T1 toma un valor más grande que el cuantil χ(1) .

1.1.5. Prueba Cox and Stuart

La prueba Cox and Stuart es utilizada para verificar si los valores que obtenemos en la
muestra siguen alguna tendencia conforme se van observando, para ello la prueba supone que
tenenmos X1 , . . . , Xn variables aleatorias independientes pero no necesariamente identicamente
distribuidas, de hecho la idea de la prueba es verificar si las variables tienen alguna tendencia o
bien son identicamente distribuidas con la misma media.
El método que proponen los autores es simple, con la muestra recibida X1 , . . . , Xn , se define
c = n2 si n es par y c = n+1
2
si n es impar, luego generamos las parejas:

Si n es par Si n es impar
(X1 , Xc+1 ) (X1 , Xc+1 )
(X2 , Xc+2 ) (X2 , Xc+2 )
.. ..
. .
(Xc , Xn ) (Xc−1 , Xn )
Lo que se hace entonces es divir la muestra en dos partes y generar las parejas correspondientes
donde en caso de ser n impar se pierde una observación, en este caso Xc
Si los datos tienen tendencia positiva entonces se espera observar signos postivos en la pareja
(Xi , Xc+i ), es decir, Xc+i − Xi > 0, mientras que si no hay tendencia se observarı́a un número
aleatorio de signos positivos y negativos. Por otro lado si los datos tienen tendencia negativa
entonces se espera observar que Xc+i − Xi < 0 (muchos signos negativos).

Prueba de dos Colas

Dada X1 , . . . , Xn se pretende contrastar:

H0 : Los datos no tienen tendencia


H1 : Los datos tienen tendencia (positiva o negativa)

Con la muestra generamos las parejas (Xi , Xi+c ), definimos la estadı́stica:

T = # de signos positivos en la diferencia (Xi+c − Xi )

Bajo H0 se espera ver signos positivos y negativos de forma aleatoria por lo que se tendrı́a:
 
H0 1
T ∼ Binomial c, n par
2
 
H0 1
T ∼ Binomial c − 1, n impar
2

Nota: En caso de tener empates en las parejas formadas, estas deben de eliminarse y ajustar el
parámetro de la binomial correspondiente.
Se propone rechazar H0 si T toma valores muy pequeños o muy grandes en función de su
distribución teórica. Es decir, rechazar H0 si:

T ≤ w α1 o T > w1−α2

Donde α1 + α2 = α y wα1 , w1−α2 los cuantiles α1 y 1 − α2 correspondientes de la distribución


binomial, algo interesante de esta prueba es que en este caso bajo H0 se tiene una distribución
binomial simétrica y por tanto en este caso α1 = α2 = α2 . Nuevamente se debe enfatizar que se
debe de ajustar la significancia de la prueba debido a la discretización del estadı́stico de prueba.
Prueba de una cola

Dada X1 , . . . , Xn se pretende contrastar:

H0 : Los datos no tienen tendencia positiva


H1 : Los datos tienen tendencia positiva

Al igual que en la prueba de dos colas, se generan las parejas (Xi , Xi+c ) y definimos la
estadı́stica:
T = # de signos positivos en la diferencia (Xi+c − Xi )

Bajo H0 se espera ver signos positivos y negativos de forma aleatoria por lo que se tendrı́a que:
 
H0 1
T ∼ Binomial c, n par
2
 
H0 1
T ∼ Binomial c − 1, n impar
2

Nota: En caso de haber empates en las parejas, estas deben de eliminarse en cuyo caso se debe
de ajustar el parámetro c de la Binomial.

Se propone rechazar H0 si T toma valores muy grandes pues eso implica que hubo muchos
signos positivos lo que es a favor de H1 , por lo tanto rechazamos H0 si:

T > w1−α

Donde w1−α es el cuantil correspondiente de la distribución binomial.

De igual forma si se pretende probar:

H0 : Los datos no tienen tendencia negativa


H1 : Los datos tienen tendencia negativa

Ahora se rechaza H0 si T toma valores muy pequeños. (Muchos signos negativos)

T ≤ wα
1.1.6. Prueba Cox and Stuart para correlación
Existe una modificación natural de la prueba Cox and Stuart para probar correlación entre
dos variables.
Supongamos que tenemos una muestra bivariada de variables aleatorias continuas

(X1 , Y1 ) , . . . , (Xn , Yn )

Se desea verificar si existe algún tipo de correlación entre las variables X y Y .


La propuesta es la siguiente, con la muestra recibida, se ordenan las parejas respecto la
variable Y generando una muestra ordenada de la forma:

Xi1 , Y(1)

Xi2 , Y(2)
..
.

Xin , Y(n)

De la muestra bivariada extraemos la muestra Xi1 , . . . , Xin y aplicamos la prueba de tenden-


cia a estos datos, si existe una tendencia positiva eso quiere decir que la muestra Xi1 , . . . , Xin
crece respecto al orden de aparición, sin embargo por construcción la muestra fue ordenada en
función de los valores de Y , eso se traduce en que la muestra está correlacionada positivamente.
Por el contrario si se observa una tendencia negativa entonces se concluye que hay una correlación
negativa entre X y Y . Finalmente, si la prueba de tendencia no es rechazada, eso es equivalente
a no encontrar correlación entre las variables.
La prueba Cox and Stuart para correlación no es más que una aplicación de la prueba de
tendencia, sin embargo en la literatura existe más pruebas para detectar correlación que son más
potentes como por ejemplo la prueba τ de Kendall o ρ de Spearman. (Ver Conover Capitulo 5
Sección 5)

1.2. Pruebas basadas Rangos


Las pruebas basadas en rangos como su nombre lo indica se basan fundamentalmente en
asignar Rangos a la muestra recibida, definamos entonces lo que entendemos por rangos de una
muestra.
Definición 1.2.1 (Asignación de Rangos a una Muestra). Supongamos que recibimos X1 , . . . , Xn
una muestra aleatoria de una función de distribución FX (x). Ordenemos la muestra de menor a
mayor es decir:
X(1) , X(2) , . . . , X(n)

Donde X(1) = min {X1 , . . . , Xn } y X(n) = max {X1 , . . . , Xn }. Supongamos que en la muestra no
hay empates, es decir siempre ocurre que X(i) < X(i+1) para toda i. Entonces definimos el rango
de la muestra ordenada como
R(X(i) ) = i

Cuando existan empates en la muestra ordenada, por ejemplo X(i) = X(i+1) = . . . = X(i+k) para
alguna i, en ese caso el rango asociado a todas estas obervaciones será igual al promedio de los
rangos que se les hubiera asignado suponiendo que no habia empate, es decir:

i + (i + 1) + . . . + (i + k)
R(X(i+q) ) = ; q ∈ {0, . . . , k}
k+1

En resumen, entonces podemos decir que R(Xi ) es el rango asociado a la observación i, y no


es más que la posición que tiene Xi en la muestra ordenada.

Veamos un ejemplo, supongamos que observamos la siguiente muestra de tamaño 5:

x1 = 3, x2 = 6, x3 = 1, x4 = 7, x5 = 9

Ordenando la muestra:

x(1) = x3 = 1, x(2) = x1 = 3, x(3) = x2 = 6, x(4) = x4 = 7, x(5) = x5 = 9

Notemos que no hay empates por lo tanto la asignación de los rangos es la siguiente:

R(x(1) ) = R(x3 ) = 1
R(x(2) ) = R(x1 ) = 2
R(x(3) ) = R(x2 ) = 3
R(x(4) ) = R(x4 ) = 4
R(x(5) ) = R(x5 ) = 5
Supongamos ahora que tenemos una muestra con empates:

x1 = 3, x2 = 6, x3 = 1, x4 = 6, x5 = 6

Ordenando la muestra:

x(1) = x3 = 1, x(2) = x1 = 3, x(3) = x2 = 6, x(4) = x4 = 6, x(5) = x5 = 6

Los rangos que se asgnarı́an bajo el supuesto de que no hay empates es:

R(x(1) ) = R(x3 ) = 1
R(x(2) ) = R(x1 ) = 2
R(x(3) ) = R(x2 ) = 3
R(x(4) ) = R(x4 ) = 4
R(x(5) ) = R(x5 ) = 5

Como tenemos empates en las observaciones x(3) = x(4) = x(5) entonces los rangos para estos
casos se calcula como el promedio de las rangos que les fueron asignados, es decir:

3+4+5
R(x(3) ) = R(x(4) ) = R(x(5) ) = =4
3

Finalmente los rangos asignados a esta muestra son:

R(x(1) ) = R(x3 ) = 1
R(x(2) ) = R(x1 ) = 2
R(x(3) ) = R(x2 ) = 4
R(x(4) ) = R(x4 ) = 4
R(x(5) ) = R(x5 ) = 4

Las pruebas que veremos a continuación tiene como principal proceso asignar rangos a las
observaciones de una muestra aleatoria recibida. Surgirá entonces la necesidad de saber como se
distribuye la v.a. R(Xi ).
Primero notemos que bajo el supuesto de no haber empates se tiene que R(Xi ) es una v.a.
discreta que toma valores en el conjunto {1, . . . , n}. Surge ahora la pregunta de saber con qué
probabilidad tomará cada uno de estos valores. Para ello recordemos que si la muestra recibida
es aleatoria de una sola población, entonces los n rangos que se asociarán deberan aparecer
también de forma aleatoria de tal manera que se formen n! posibles secuencias todas con la
misma probabilidad, por ejemplo, suponiendo que tenemos 3 observaciones, los 3! = 6 rangos
posibles que podrı́amos obtener son:

x1 x2 x3

1 2 3
1 3 2
2 1 3
2 3 1
3 1 2
3 2 1

Suponemos entonces que todos estos posibles rangos ocurren con la misma probabilidad es
decir 1/6.
Ahora, bajo este supuesto surge entonces la pregunta de conocer P (R(Xi ) = k). Para resolver
este caso simplemente contemos los casos favorables y dividamos entre los casos totales. Ya
sabemos que el total de casos es n!, de estos casos, los que son favorables con el evento R(Xi ) = k
son (n − 1)! posibles secuencias pues estamos dejando fija que en la columna i siempre aparezca
k. Por lo tanto:
(n − 1)! 1
P (R(Xi ) = k) = =
n! n
Es decir, resulta que R(Xi ) bajo el supuesto de que tenemos m.a. de una sola población, tiene
una distribución uniforme discreta en el espacio {1, . . . , n}
A continuación presentamos las 4 principales pruebas basadas en Rangos.

1.2.1. Prueba Mann-Whitney


Esta prueba tiene por objetivo verificar si existe diferencias entre las medias (medianas) de dos
poblaciones. Los insumos de la prueba entonces serán dos muestras aleatorias de 2 poblaciones de
forma independiente, es decir, supondremos que tenemos X1 , . . . , Xn1 m.a. de FX (x) y Y1 , . . . , Yn2
m.a. de GY (y)
Los supuestos que tiene la prueba son los siguientes:

Las dos muestras recibidas son aleatorias de sus respectivas distribuciones


Hay independencia entre ambas muestras, es decir F (x, y) = F (x)F (y)

Supondremos que muestreamos de distribuciones continuas, sin embargo la prueba se puede


correr para el caso discreto, no obstante en caso de haber muchos empates en la asignación
de rangos para las muestras recibidas, ocasionará que la prueba pierda validez.

Si existe una diferencia entre las distribuciones FX (x) y GY (y) es sólo de localización y no
de forma es decir FX (x) = GY (x + c) para toda x y alguna c. Algunos autores asumen que
la prueba sigue siendo valida incluso si la forma es distinta.

Prueba de dos colas

La prueba Mann-Whitney pretende entonces contrastar la siguientes hipótesis:

H0 : FX (x) = GY (x) vs H1 : FX (x) 6= GY (x)

Sin embargo, la prueba comunmente se presenta en términos de medidas de tendencia central y


se propone:

H0 : E(X) = E(Y ) vs H1 : E(X) 6= E(Y )


H0 : M ed(X) = M ed(Y ) vs H1 : M ed(X) 6= M ed(Y )

El método propuesto en la prueba es el siguiente:

Unir ambas muestras recibidas generando una muestra de tamaño n = n1 + n2

Asignar Rangos a la muestra unida, sin olvidar de qué población viene cada observación.

De los Rangos obtenidos, sólo nos quedamos con los Rangos de la problación de la v.a. X

Calcular el estadı́stico de prueba:

n1 (n1 + 1)
T =S−
2

Donde S = ni=1
P 1
R(Xi ), la suma de los rangos asociados a las observaciones de la distri-
bución FX (x).

La idea que hay detras de este estadı́stico es la siguiente, si la población con distribución FX (x)
tiende a tomar valores más pequeños que la población GY (x) entonces los rangos asociados a
las observaciones de X serán pequeños, de hecho el peor caso es cuando todas las observaciones
cayeron por debajo de las observaciones de Y , en ese caso los rangos que se asocian a la población
X son los primeros n1 naturales y por tanto:
n1
X n1 (n1 + 1)
S= R(Xi ) = 1 + 2 + . . . + n1 = ⇒T =0
i=1
2

Es decir, valores de T pequeños son compatibles con la hipótesis de que E(X) < E(Y ). El caso
opuesto a esto es cuando las observaciones de X estan todas por arriba de las observaciones de
Y , en ese caso los rangos asociados a las observaciones de X son los naturales

n2 + 1, n2 + 2, . . . , n2 + n1 = n

y por tanto:
n1
X n1 (n1 + 1)
S= R(Xi ) = (n2 + 1) + (n2 + 2) + . . . + (n2 + n1 ) = n1 n2 +
i=1
2

Y por tanto, en este caso, el valor de T es:

n1 (n1 + 1) n1 (n1 + 1) n1 (n1 + 1)


T =S− = n1 n2 + − = n1 n2
2 2 2

Luego entonces valores grandes de T (cercanos a n1 n2 ) son a favor de la hipótesis M ed(X) >
M ed(Y ). Todo indica entonces que hay evidencia para rechazar H0 tanto si T es pequeño o
grande, para tomar la decisión es necesario conocer la distribución de T bajo H0 para encontrar
los cuantiles correspondientes.
La distribución de T bajo H0 no es fácil de obtener de forma análitica debido a las distintas
combinaciones que se pueden dar en los rangos de la muestra unida, sin embargo se puede simular
o bien consultar en tablas. (Tabla 8 de Conover). Una ventaja que tiene esta distribución es que
es simétrica y por tanto los cuantiles para el rechazo de la hipótesis se obtienen de forma más
fácil.
La regla entonces es, Rechazar H0 a un nivel de significancia α si:

T ≤ w α2 o T > w1− α2

Donde wα y w1− α2 son los cuantiles de la distribución de T bajo H0 (Se obtienen por simulación
o en tablas)
A continuación se presenta un código para simular la distribución Mann-Whitney
############################################################
#Funcion que calcula la distribucion Mann Whitney Bajo H_0 #
############################################################
#Tamao de muestra de la primer poblacin
n=5
#Tamao de muestra de la segunda poblacin
m=6

#Tamao de muestra combinada


N=n+m

#Numero de simulaciones
nSim=500000
#Generamos un arreglo de 10,0000 simulaciones
T=rep(0,nSim)

for (i in 1:nSim){
T[i]=sum(sample(1:N,n))-n*(n+1)/2
}
plot(table(T)/nSim,type="h",lwd=2,col="blue",ylab="Probabilidad",
main="Densidad Mann-Whitney", xlab="T",ylim=c(0,0.12))
points(0:(n*m), table(T)/nSim,pch=16,cex=2,col="dark red")
text(0:(n*m), table(T)/nSim, round(table(T)/nSim,3), pos=3, cex=0.7)

Densidad Mann−Whitney
0.12
Probabilidad

0.069
0.069
0.065 0.069
0.065
0.063 0.063
0.06

0.054
0.05 0.054
0.05
0.041 0.041
0.035 0.035
0.026
0.022 0.026
0.022
0.015
0.011 0.015
0.011
0.002
0.002 0.006
0.004 0.007
0.004
0.002
0.002
0.00

0 2 4 6 8 10 13 16 19 22 25 28

T
Prueba de una cola

En este caso se propone contrastar alguna de estas hipótesis


Para la cola izquierda:

H0 : E(X) = E(Y ) vs H1 : E(X) < E(Y )


H0 : E(X) ≥ E(Y ) vs H1 : E(X) < E(Y )

En este caso sólo nos interesa ver la cola izquierda de T y por tanto se propone Rechazar
H0 a un nivel de significancia α si:
T ≤ wα

Para la cola derecha:

H0 : E(X) = E(Y ) vs H1 : E(X) > E(Y )


H0 : E(X) ≤ E(Y ) vs H1 : E(X) > E(Y )

En este caso sólo nos interesa ver la cola derecha de T y por tanto se propone Rechazar H0 a
un nivel de significancia α si:
T > w1−α

Aproximación hacia la Normalidad

Debido a la simetrı́a del estadı́stico de prueba T , existe una aproximación hacia la distribución
normal, para ello se debe calcular primero la esperanza y varianza del estadı́stico de prueba
(TAREA):  
n1 (n1 + 1) n1 n2
E(T ) = E S − =
2 2
n1 n2 (n1 + n2 + 1)
Var(T ) = Var(S) =
12
Luego entonces asumiendo que:
 
aprox n1 n2 n1 n2 (n1 + n2 + 1)
T ∼ N (E(T ) , Var(T )) = N ,
2 12
Por lo tanto si la muestra es suficientemente grande podrı́amos definir el estadı́stico:
n1 n2
T− 2 aprox
Z=q ∼ N (0, 1)
n1 n2 (n1 +n2 +1)
12

Y por lo tanto tomar la decisión del rechazo de H0 en función de los cuantiles de la normal
estándar.

1.2.2. Prueba Kruskal-Wallis


La prueba Kruskal-Wallis no es más que la generalización de la prueba Mann-Whitney para
el caso de k poblaciones. En este caso el test pretende verificar si todas las distribuciones son
iguales o si existe al menos una población que tiende a tomar valores distintos a los demás.
En este caso supondremos que recibimos k muestras aleatorias independientes de k poblacio-
nes distintas es decir:

Sample 1 Sample 2 ... Sample k

X11 X21 ... Xk1


X12 X22 ... Xk2
.. ..
. . ... Xk3
X1n1 X2n2 ... Xknk

Donde suponemos entonces que la muestra X i = (Xi1 , . . . , Xi,ni ) proviene de la distribución


Fi (x), además observemos que en este caso, el tamaño de cada muestra es ni por lo que el tamaño
de muetra total es n = ki=1 ni .
P

Los supuestos que tiene la prueba son los siguientes:

Las k muestras recibidas son aleatorias de sus respectivas distribuciones

Hay independencia entre las k muestras, es decir

F (x1 , . . . , xk ) = F1 (x1 ) . . . Fk (xk )

Supondremos que muestreamos de distribuciones continuas aunque la prueba se puede


correr para el caso discreto pero en caso de haber muchos empates en las muestras recibidas
ocasiona que la prueba pierda validez
Si existe una diferencia entre las distribuciones F1 (x), . . . , Fk (x) es sólo de localización y
no de forma es decir para cualesquiera 2 pares de distribuciones Fi (x), Fj (x) se tiene que
existe c tal que Fi (x) = Fj (x + c) para toda x. Algunos autores asumen que la prueba sigue
siendo valida incluso si la forma es distinta entra las distribuciones.

La prueba Kruskal-Wallis pretende contrastar la hipótesis:

H0 : F1 (x) = . . . = Fk (x) vs H1 : Fi (x) 6= Fj (x) p.a. i 6= j

Aunque muchos autores proponen mejor utilizar la versión de medias (asumiendo que las medias
existen)
H0 : E(X1 ) = . . . = E(Xk ) vs H1 : E(Xi ) 6= E(Xj ) p.a. i 6= j

El método de la prueba consiste nuevamente en mezclar todas la muestras y formar una sola
Pk
secuencia de observaciones de tamaño n = i=1 ni , a dicha secuencia le asignamos rangos y
entonces la muestra es transformada obteniendo una tabla como sigue:

Sample 1 Sample 2 ... Sample k

R(X11 ) R(X21 ) ... R(Xk1 )


R(X12 ) R(X22 ) ... R(Xk2 )
.. ..
. . ... R(Xk3 )
R(X1n1 ) R(X2n2 ) ... R(Xknk )

Antes de proponer el estadı́stico de prueba, analicemos la variable aleatoria R(Xji ), primero


notemos que dicha v.a. sólo puede tomar valores en el espacio formado por los primeros n naturales
{1, . . . , n}, la pregunta natural que ahora surge es conocer la probabilidad de que tome cada uno
de estos números.
Bajo el supuesto de H0 , sabamos que toda la muestra viene de una sola población por lo
que los rangos que se asocian deberian seguir un comportamiento aleatorio similar al proceso de
seleccionar muestrar aleatorias sin reemplazo de una población de tamño n, por lo tano utilizando
la teorı́a del muestreo aleatorio simple de una población de tamño n, se puede probar que:

1
P (R(Xji ) = q) = j ∈ {1, . . . , k} ; i ∈ {1, . . . , nj } ; q ∈ {1, . . . , n}
n

Es decir bajo H0 el Rango que se le asocia a la observación Xji sigue una distribución uniforme
sobre el espacio {1, . . . , n}. Con lo anterior podemos encontrar la esperanza y varianza de la v.a.
R(Xji ).
n n  
X X 1 1 n(n + 1) n+1
E(R(Xji )) = qP (R(Xji ) = q) = q = =
q=1 q=1
n n 2 2
n n  
1 21 n(n + 1)(2n + 1) (n + 1)(2n + 1)
X X
2 2

E R(Xji ) = q P (R(Xji ) = q) = q = =
q=1 q=1
n n 6 6

(n + 1)(2n + 1) (n + 1)2
Var(R(Xji )) = E R(Xji )2 − E(R(Xji ))2 =


6 4

Definamos ahora la suma de los rangos asociados a la población j como:


nj
X
Rj = R (Xji )
i=1

Entonces si H0 fuera cierta podrı́amos obtener la esperanza de la v.a. Rj


nj nj nj
!
X X X n+1 nj (n + 1)
E(Rj ) = E R (Xji ) = E(R (Xji )) = =
i=1 i=1 i=1
2 2

De igual forma se puede obtener la varianza de Rj salvo que hay que tener mucho cuidado pues
las variables R (Xji ) no son independientes, en ese caso:
nj nj nj nj
!
X X X X
Var(Rj ) = Var R (Xji ) = Var(R (Xji )) + Cov (R(Xjq ), R(Xjp ))
i=1 i=1 q=1 p=1
q6=p

Se prueba a partir de esto (TAREA) que:

nj (n + 1)(n − nj )
Var(Rj ) =
12

Sabemos entonces que Rj modela la suma de los rangos asociados a la población j y que se espera
n (n+1) n (n+1)(n−nj )
bajo H0 que E(Rj ) = j 2 y que Var(Rj ) = j 12 .

Una forma de verificar la veracidad de H0 , es proponer como estadı́stico de prueba a la


distancia al cuadrado entre el valor observado y esperado de Rj y luego sumarlos sobre todos los
j, es decir
k k  2
X
2
X nj (n + 1)
(Rj − E(Rj )) = Rj −
j=1 j=1
2

Sin embargo la distribución de esta estadı́stica no es facı́l, no obstante si suponemos normalidad


con muestras suficientemente grandes podemos encontrar una solución alternativa:

n (n+1)
Rj − E(Rj ) Rj − j 2 aprox
p =q ∼ N (0, 1)
Var(Rj ) nj (n+1)(n−nj )
12

Entonces:
 2
nj (n+1)
Rj −
2
2
(Rj − E(Rj )) 2 12 Rj − 21 nj (n + 1) aprox
= nj (n+1)(n−nj ) = ∼ χ2(1)
Var(Rj ) n+1 nj (n − nj )
12

0
Si todas las Rj s fueran independientes habrı́amos terminado el problema pues se propondrı́a
como estadı́stico de prueba a la suma de las χ2 , es decir:

k 2 k 2
X0 12 Rj − 12 nj (n + 1) 12 X Rj − 12 nj (n + 1)
T = =
j=1
n+1 nj (n − nj ) n + 1 j=1 nj (n − nj )

0 aprox 0
Sin embargo es obvio que no podemos asumir que T ∼ χ2(k) , pues sabemos que las Rj s son
dependientes, de hecho kj=1 Rj = n(n+1)
P
2
.
El gran aporte que hizo Kruskal en 1952 fue probar que si a cada sumando se le multiplica por
n−n
el término n j entonces la suma sı́ tiene una distribución χ2 pero pierde un grado de libertad
es decir:
k 2 k 2
12 X n − nj Rj − 21 nj (n + 1) 12 X Rj − 1 nj (n + 1) aprox
T = = 2
∼ χ2(k−1)
n + 1 j=1 n nj (n − nj ) n(n + 1) j=1 nj

Finalmente entonces Kruskal en 1952 propone como estadı́stico de prueba:

k 2
12 X Rj − 1 nj (n + 1)
2
T =
n(n + 1) j=1 nj

2(1−α) 2(1−α)
Y luego entonces se rechaza H0 a un nivel de significancia α si T > χ(k−1) , donde χ(k−1) es el
cuantil 1 − α de la distribución χ2 con (k − 1) grados de libertad.
Se puede probar además que el estadı́stico de prueba puede transformarse en lo siguiente
(TAREA): !
k
12 X Rj2
T = − 3(n + 1)
n(n + 1) j=1 nj

Un problema que tiene la prueba es que supone muestras grandes para poder asumir una
buena aproximación hacia la χ2 , es por eso que existen tablas de la prueba para el caso de que
se tienen muestras pequeñas. (Ver tabla 12 del Conover y sólo ataca el caso k=3).
Lo anterior nos motiva a tener programas que nos ayuden a simular la distribución de T bajo
H0 , a continuación presentamos un código en R que lleva a cabo la simulación de la distirbución
haciendo uso de la funcion sample la cual simula precisamente la obtención de los rangos basado
en un muestreo aleatorio simple:

##############################################################################
#Funcion que calcula los cuantiles de la distribucion KuskalWallis Bajo H_0 #
##############################################################################
#############################################################################
#El programa esta diseniado para cuando se tiene k=3 muestras independientes #
#############################################################################
k=3
#Introduzca el tamanio de las muestras de cada poblacion
n1=5
n2=3
n3=3

#Numero de simulaciones
nSim=50000

n=c(n1,n2,n3)
N=n1+n2+n3
T<-rep(0,nSim)
x=1:N
for (i in 1:nSim){
s=sample(x,N)
R=c(sum(s[1:n1]),sum(s[(n1+1):(n1+n2)]),sum(s[(n1+n2+1):N]) )
T[i]=12/(N*(N+1))*(sum(R^2/n))-3*(N+1)
}
######################################
#Graficamos la distribucion exacta #
######################################
par(mfrow = c(1, 2))
plot(as.numeric(names(table(T))),table(T)/nSim,type="h",lwd=2,
col="blue",ylab="Probabilidad",main="Densidad Kruskall", xlab="T")
points(as.numeric(names(table(T))), table(T)/nSim,pch=16,cex=2,col="dark red")
f<-ecdf(T)
plot(f,main="Exacta vs Aproximacion")
curve(pchisq(x,k-1),add=TRUE,col=2,lwd=3)
Densidad Kruskall Exacta vs Aproximacion

0.8
Probabilidad

Fn(x)

0.4
0.0
0

0 2 4 6 8 0 2 4 6 8

T x

1.2.3. Prueba Wilcoxon


La prueba Wilcoxon es un test similar a la prueba del signo pero tiene la ventaja de ser más
potente porque toma en cuenta las magnitudes de las diferencias y no sólo el signo.
Como insumos de la prueba supondremos entonces que recibimos una muestra bivariada de
la forma (Xi , Yi ). La prueba del signo sabemos que ataca el problema analizando los signos de
la diferencia Yi − Xi , la idea que ahora propone Wilcoxon es no sólo fijarnos en el signo sino
también en los rangos de las diferencia.

Prueba de dos colas

Nuevamente estamos interesados en la hipótesis:

H0 : FX (x) = GY (x) vs H1 : FX (x) 6= GY x

O visto en términos de medias (suponiendo que existen)

H0 : E(X) = E(Y ) vs H1 : E(X) 6= E(Y )

Dada (X1 , Y1 ), . . . , (Xn , Yn ) una muestra bivariada, la metodologı́a es la siguiente:

Para cada pareja (Xi , Yi ), definir la diferencia Di = Yi − Xi


En caso de haber empates (Di = 0), eliminarlos de la muestra bivariada quedandonos con
0
n observaciones

Asignar Rangos a la muestra formada por el valor absoluto de las Di , es decir, obtener
R (|D1 |) . . . , R (|Dn0 |)

Se define el estadı́stico de prueba:


0
n
X
T = R (|Di |) 1(Yi >Xi )
i=1

Observemos que T suma únicamente los rangos de las parejas con signo positivo, es decir, se
podrı́a decir que pondera el signo obtenido con el rango del valor absoluto. La prueba entonces
no sólo toma en cuenta el signo, sino también la magnitud de la diferencia en valor absoluto en
cada pareja (Xi , Yi ).
Notemos que si todas las diferencias son negativas Yi − Xi < 0 entonces T = 0 lo que irı́a en
contra de la hipótesis nula, mientras que si todos los signos son positivos Yi − Xi > 0 entonces T
0 0
tomarı́a el valor de n (n + 1)/2 lo que contradice H0 . La estadı́stica de prueba tomará valores
0 0
entre 0 y n (n + 1)/2 y se debe de rechazar H0 si:

T ≤ wα1 T > w1−α2

Donde wα1 y w1−α2 son los cuantiles de la correspondientes de la distribución de T los cuales
pueden ser consultados en la tabla 7 del libro de Conover. Afortundamanete dicha distribución es
simétrica por lo que se puede tomar α1 = α2 = α/2, no obstante hay que tener las consideraciones
pertinentes debido a la discretización de la estadı́stica T y encontrar el α más cercano que permita
la distribución.
La pregunta es, ¿cómo se distribuye T bajo H0 ?. Veamoslo con un ejemplo simple, supongamos
que tenemos un tamaño de muestra bivariada igual a 3, luego bajo el supuesto de que no hay
empates tendriamos 3 posibles rangos a asociar {1, 2, 3}, dichos rangos sabemos que pueden
aparecer en orden aleatorio sin embargo en esta prueba no nos interesa esta parte, de hecho
imaginemos que siempre ordenamos la muestra en función de los rangos, la parte importante
de la estadı́stica de prueba es que el estadı́stico sólo sumará Rangos que tengan una diferencia
positiva, ahora bien, como suponemos H0 cierta, se espera que los signos positivos aparezcan
con probabilidad 1/2, bajo este contexto entonces hay 23 posibles secuencias que pueden ocurrir
(todas con probabilidad 1/23 ) a continuacióon exihibimos todas las posibilidades con su respectivo
valor de la estadı́stica.
1 2 3 T

- - - 0
- - + 3
- + - 2
- + + 5
+ - - 1
+ - + 4
+ + - 3
+ + + 6

Entonces bajo H0 e la distribución de T es la siguiente:



1

 si k ∈ {0, 1, 2, 4, 5, 6}
8
2
P (T = k) = si k ∈ {3}
8

0 e.o.c

Desafortundamente cuando la muestra es grande el número de combinaciones crece de forma


importante lo que hace dificil encontrar la distribución exacta. Sin embargo dicha distribucón
puede ser simulada. A continuación presetamos el código en R para su simulación:

##########################################################
#Funcion que calcula la distirbucion Wicoxon bajo H_0 #
##########################################################
#Introduzca el numero de observaciones
n=5

#Numero de Simulaciones
m=100000
t<-rep(0,m)
y=1:n
for( i in 1:m){
s=sample(c(0,1),n,replace=TRUE)
t[i]=y%*%as.matrix(s)
}

plot(table(t)/m,type="h",lwd=2,col="blue",ylab="Probabilidad",main="Densidad Wilcoxon", xlab="T",ylim=c(0


points(0:(n*(n+1)/2), table(t)/m,pch=16,cex=2,col="dark red")
text(0:(n*(n+1)/2), table(t)/m, round(table(t)/m,3), pos=3, cex=0.7)
Densidad Wilcoxon
0.12

0.093 0.095 0.095 0.094 0.094 0.095


Probabilidad

0.063 0.063 0.062 0.062


0.06

0.03 0.031 0.031 0.031 0.03 0.03


0.00

0 1 2 3 4 5 6 7 8 9 10 12 14

Prueba de una cola

En este caso estamos interesado en probar:

H0 : E(X) = E(Y ) vs H1 : E(X) < E(Y )

H0 : E(X) ≥ E(Y ) vs H1 : E(X) < E(Y )

En la hipótesis alternativa nos interesa saber si X tiene a tomar valores más pequeños que Y ,
como Di = Yi − Xi entonces ver signos positivos son a favor de H1 , lo lógico entonces es rechazar
H0 si vemos un valor muy grande de T es decir, rechazamos H0 si:

T > w1−α

Por otro lado si nos interesa probar:

H0 : E(X) = E(Y ) vs H1 : E(X) > E(Y )

H0 : E(X) ≤ E(Y ) vs H1 : E(X) > E(Y )

Ahora ver signos negativos Di = Yi − Xi son a favor de H1 y por tanto lo lógico será rechazar
H0 si T toma valores pequeños por tanto rechazaremos H0 si:

T ≤ wα
Aproximación a la normalidad

Debido a la simetrı́a que tiene el estadı́stico de prueba es de esperarse que para muestras gran-
des se tenga una buena aproximación hacia la normalidad. Para llevar a cabo dicha aproximación
es necesario obtener la esperanza y varianza de T .
Se puede probar que (TAREA):

n(n + 1) n(n + 1)(2n + 1)


E(T ) = Var(T ) =
4 24

Por lo tanto la aproximación normal de T es:


 
aprox n(n + 1) n(n + 1)(2n + 1)
T ∼ N ,
4 24

Estandarizando se obtiene el estadı́stico:


n(n+1)
T− 4 aprox
Z=q ∼ N (0, 1)
n(n+1)(2n+1)
24

Luego entonces, se calcula el estadı́stico Z y se rechaza en función de los cuantiles de la normal


estandar.

1.2.4. Prueba de Friedman


Esta prueba es una generalización la de la prueba de Wilcoxon, el test se propone verificar
igualdad de medias en una muestra multivariada, es decir supondemos que recibimos una muestra
k-variada de tamaño n.
La muestra en este caso puede escribirse un una tabla de n × k

F1 (x) F2 (x) ... Fk (x)

X11 X21 ... Xk1


X12 X22 ... Xk2
.. .. ..
. . ... .
X1n X2n ... Xkn

En este caso una observación esta dada por el vector (X1i , X2i , . . . , Xki ).
Estaremos interesados en verificar la hipótesis:

H0 = F1 (x) = F2 (x) = . . . = Fk (x) vs H1 : Fi (x) 6= Fj (x) p.a. i 6= j


En donde nuevamente si imponemos la hipótesis de que las medias existen y que dos distribuciones
son distintas sólo por localizacion, entonces la hipótesis se puede plantear en terminos de media
como sigue:

H0 : E(X1 ) = . . . = E(Xn ) vs H1 : E(Xi ) 6= E(Xj ) p.a. i 6= j

El método propuesto por la prueba será nuevamente asignar Rangos a la muestra observada pero
por cada renglón en tabla. Es decir R(Xji ) será el Rango asociado a la observación j del renglon
i de tal forma que R(Xji ) es una v.a. que sólo puede tomar valores en el conjunto {1, 2, . . . , k}.
(Observe entonces que los rangos son asociados por renglon y en ningun momento se junta toda
la muestra)
Transformada la muestra obtendremos una tabla generada por los rangos asociados:

F1 (x) F2 (x) ... Fk (x)

R(X11 ) R(X21 ) ... R(Xk1 )


R(X12 ) R(X22 ) ... R(Xk2 )
.. .. ..
. . ... .
R(X1n ) R(X2n ) ... R(Xkn )

Ahora notemos que bajo H0 se espera que los rangos asociados por renglón sigan una distri-
bución uniforme discreta, es decir:

1 k+1
P (R(Xji ) = q) = j, q ∈ {1, 2, . . . , k} ⇒ E(R(Xji )) =
k 2

Lo anterior es valido para cada renglón, es decir para i ∈ {1, 2, . . . , n}. Como además suponemos
m.a. del vector multivariado, entonces sabemos que los rangos asociados de renglón a renglón
son independientes también, es decir:

R(Xji1 ) ⊥ R(Xji2 ) i1 , i2 ∈ {1, 2, . . . , n}

Una vez tranformada la muestra definamos la suma de rangos por columna:


n
X
Rj = R(Xji )
i=1

Observemos que si existe un j tal que la población j tienda a tomar valores más grandes
que los demás, entonces se deberá observar que Rj toma valores grandes lo que irı́a en contra
de la hipótesis nula. Se propone entonces una estadı́stica que mida la dicrepancia de Rj con su
respectivo valor esperado.

Para definir la estadı́stica de prueba primero calculemos la media y la varianza de Rj

n
! n n
X X X k+1 n(k + 1)
E(Rj ) = E R(Xji ) = E(R(Xji )) = =
i=1 i=1 i=1
2 2

Por otro lado la varianza es (TAREA):

n(k + 1)(k − 1)
Var(Rj ) =
12

Entoneces suponiendo una muestra grande tenemos que:

Rj − E(Rj ) Rj − n(k+1)
2 aprox
p =q ∼ N (0, 1)
Var(Rj ) n(k+1)(k−1)
12

Por lo tanto:  2
n(k+1)
R − aprox
 qj 2  ∼ χ2(1)
n(k+1)(k−1)
12

Si las v.a. R1 , . . . , Rk fueran independientes podrı́amos concluir que:


 2
n(k+1)
k
X Rj − 2 aprox
n(k+1)(k−1)
∼ χ2(k) (1.1)
j=1 12

Sin embargo, sabemos que R1 , . . . , Rk son dependientes, de hecho algo que tiene que ocurrir es que
Pk nk(k+1)
j=1 Rj = 2
por lo tanto no podemos argumentar independencia y asumir la distribución
χ2(k) .

El aporte que hizo Friedman fue probar que si se multiplica a cada sumando en (1.1) por el
factor k−1
k
entonces si se obtiene una distribución χ2 pero se pierde un grado de libertad, por lo
tanto Friedman define el siguiente estadı́stico de prueba:
 2
n(k+1)
k − 1 Rj −
k k  2
X 2 12 X n(k + 1) aprox 2
T = n(k+1)(k−1)
= Rj − ∼ χ(k−1)
j=1
k nk(k + 1) j=1 2
12

Luego entonces la idea para rechazar H0 es fácil, se propone rechazar H0 a un nivel de significancia
α si:
(1−α)
T > χ2(k−1)
(1−α)
Con χ2(k−1) el cuantil 1 − α de una distribución χ2 con k − 1 grados de libertad.
Se puede probar además que una forma más comoda (computacionalmente) del es estadı́stico
de prueba es:
k
12 X
T = R2 − 3n(k + 1)
nk(k + 1) j=1 j

Desafortunamente la distribución es aproximada por lo que resulta necesario tener la distri-


bución exacta para n pequeña.
A continuación se presenta el código en R que simula la distribución del estadı́stico de prueba,
la idea es simular en cada uno de los n renglones un muestreo aleatorio sin reemplazo de una
población de tamaño k.

###################################################
#Programa que calcula la distribucion Friedman #
###################################################
#Introduce k el numero de grupos o dimension del vector
par(mfrow = c(1, 2))
k=3
#Introduce el numero de muestras
n=5
#Introduce el numero de simulaciones
nSim=100000

M=matrix(0,n,k)
R=0

T<-rep(0,nSim)
for (i in 1:nSim){
for (j in 1:n){
M[j,]=sample(1:k,k,replace=FALSE)
}
for (l in 1:k){
R[l]=sum(M[,l])
}
T[i]=12/((n*l)*(l+1))*sum(R^2)-3*n*(k+1)
}

plot(as.numeric(names(table(T))),table(T)/nSim,type="h",lwd=2,
col="blue",ylab="Probabilidad",main="Densidad Friedman", xlab="T",ylim=c(0,0.3))
points(as.numeric(names(table(T))), table(T)/nSim,pch=16,cex=2,col="dark red")
text(as.numeric(names(table(T))), table(T)/nSim, round(table(T)/nSim,3), pos=3, cex=0.7)
f<-ecdf(T)
plot(f,main="Exacta vs Aproximacion")
curve(pchisq(x,k-1),add=TRUE,col=2,lwd=3)

Densidad Friedman Exacta vs Aproximacion

0.26

0.8
Probabilidad

0.186
0.172
0.153

Fn(x)

0.4
0.047 0.0590.053
0.031
0.015
0.015
0.0080.001 0.0
0

0 2 4 6 8 10 0 2 4 6 8 10

T x

También podría gustarte