Notas Pruebas No Parametricas

Capı́tulo 1
Pruebas no Paramétricas
En este capı́tulo abordaremos las pruebas no parámetricas, estas pruebas tiene una ventaja
muy importante sobre las pruebas tradicionales pues no tienen el supuesto de que la población
de donde se obtiene la muestra sea de una familia paramétrica. Sin embargo, el precio que se
paga por llevar a cabo este tipo de pruebas es que muchas veces los métodos no tendrán el nivel
de significancia deseado y lo más importante, serán menos potentes que su versión paramétrica.
En este curso veremos 2 tipos de pruebas:
Pruebas basadas en la distribución Binomial.
Pruebas basadas en Rango.
1.1. Pruebas basadas en la distribución Binomial

Estas pruebas son llamadas Binomiales porque la distribución del estadı́stico de prueba que
se utiliza para contrastar la hipótesis sigue una distribución Binomial completamente conocida
bajo H0 .
1.1.1. Prueba para proporciones

Imaginemos que tenemos X1 . . . , Xn m.a. de un fenómeno aleatorio que sólo admite dos po-
sibilidades Xi ∈ C1 con probabilidad p o bien Xi ∈ C2 con probabilidad 1 − p, donde p es el
parámetro que nos indica con qué proporción (o probabilidad) observaremos Xi ∈ C1 .
Prueba de dos colas
1
Se plantea entonces la siguiente hipótesis:
H0 : p = p∗ vs H1 : p 6= p∗
Se define el estadı́stico de prueba:

n
X
T = 1(Xi ∈C1 ) = # de observaciones en C1
i=1
Entonces bajo H0 se sabe que al ser T suma de v.a. Bernoulli, se tiene que T ∼ Bin (n, p∗ ),
entonces si H0 es cierta se espera que T tome valores en la parte densa de la densidad binomial,
luego entonces sabemos que debemos rechazar H0 tanto si T toma valores muy pequeño como
muy grandes, es decir la regla que se plantea es Rechazar H0 a un nivel de significancia α si:
T ≤ w α1 o T > w1−α2
Donde α1 + α2 = α. En este caso debido a que la distribución es discreta, difı́cilmente lograremos

que la prueba tenga exactamente significancia igual a α, es por eso que la prueba se ajusta a
encontrar los cuantiles tales que α1 + α2 = α∗ ≤ α donde α∗ es la probabilidad de cometer el
error tipo 1 que más se acerque por abajo de α.
Observe que en este caso no se especifica cómo encontrar α1 y α2 , en caso de que la distribucón
T bajo H0 sea simétrica (p∗ = 1/2) es fácil definir α1 = α2 = α2 , sin embargo esta idea puede no
ser la ideal cuando la distribución es muy asimétrica. Para solucionar esto se propone métodos
que encuentren α1 y α2 tal que el intervalo formado por (wα1 , w1−α2 ) sea de longitud minima
sujeto a α1 + α2 = α.
Consideremos el siguiente ejemplo:
Supongamos que tenemos un X1 , . . . , X10 m.a. de un fenómeno aleatorio que sólo admite dos
valores tal que P (Xi ∈ C1 ) = p.
Se plantea la hipótesis
1 1
H0 : p = vs H1 : p 6=
3 3
Entonces bajo H0 se tiene que T sigue una distribución Binomial de parámetros n = 10 y p = 13 .
n=10
p=1/3
x=0:10
p=dbinom(x,size=n,prob=p)
plot(x,p,type="h",xlim=c(-1,11),ylim=c(0,0.3),lwd=2,col="blue",ylab="p",
main="Distribucion Binomial B(10,1/3)",cex.axis=0.7)
points(x,p,pch=16,cex=2,col="dark red")
text(x,p,round(p,3),pos=3,cex=0.7)
Distribucion Binomial B(10,1/3)

0.30
0.26
0.228
0.195
0.20
0.137
p
0.087
0.10
0.057
0.017 0.016
0.003 0 0
0.00
0 2 4 6 8 10
Supongamos que nos piden rechazar un nivel de significancia α, entonces encontraremos α1

y α2 de la siguiente forma.
La moda la distribución se obtiene con T = 3, al acumular 0.26 de probabilidad, luego el
siguiente más grande quitando a T = 3, es T = 4 al contar con una probabilidad puntual de 0.228
lo cual acumula, junto con el paso anterior, una probabilidad de 0.26+0.228 = 0.488. Continuamos
este proceso hasta que la probabilidad acumulada sobrepase por primera vez a la probabilidad
1 − α, en nuestro ejemplo como α = 0.05, el algoritmo se detiene hasta que acumulemos por
primera vez más de 0.95. En este caso el algoritmo se detiene cuando T ∈ {1, . . . , 6}, en este
caso
P (T ∈ {1, . . . , 6}) = 0.964
Por lo tanto se escoge α1 = P (T ∈ {0}) = 0.017 y α2 = P (T ∈ {7, 8, 9, 10}) = 0.019. Entonces

wα1 = 0 y w1−α2 = 6 Por lo tanto rechazamos H0 si
T ≤0 o T >6
En este caso la prueba tendrá una significancia de α1 + α2 = 0.017 + 0.019 = 0.36. En caso de
que se requiera una prueba exactamente al 5 % existe una forma de llevar a cabo dicho contraste
por medio de una prueba aleatorizada (no se ve en este curso).
Intervalo de Confianza para la proporción
Una de las ventajas de esta prueba es que es posible encontrar intervalos de confianza para
la proporción p, para ello recordemos que hay una relación entre un intervalo de confianza y una
prueba de dos colas, en efecto, si por ejemplo hacemos la prueba paramétrica para la media de
una Normal:
H0 : µ = µ0 vs µ 6= µ0
Entonces una forma de encontrar la región de rechazo es construir un intervalo de confianza para
µ y luego verificar si µ0 se encuentra en dicho intervalo. Visto de forma inversa, ahora se plantea
encontrar un intervalo a partir de la regla de rechazo que genera el contraste de hipótesis.
En nuestro caso, debemos preguntarnos, ¿Para qué valores de p∗ no se rechaza la hipótesis
p = p∗ ?. Para encontrar dichos valores se propone ir barriendo los distintos valores de p∗
(discretizando el intervalo (0,1) ) e ir verificando para cuales valores no se rechaza H0 , los p∗ que
tengan esta propiedad formarán un intervalo de confianza. Observe que en este caso, una vez
observada la muestra T es una valor fijo y lo que va variando es p∗ lo que a su vez va modificando
la distribución asociada.
Veamos un ejemplo, supongamos nuevamente que n = 10 y que observamos una muestra
tal que T = 3, en este caso haremos uso de la función binom.test del paquete R, dicha función
hace la prueba extacta basada en la distribución binomial y construye el intervalo de confianza
correspondiente, en el siguiente código se hace la prueba:
1 1
H0 : p = vs H1 : p 6=
3 3
alpha <- 0.05

binom.test(3,10,1/3,alternative=c("two.sided"),conf.level=1-alpha)
##
## Exact binomial test
##
## data: 3 and 10
## number of successes = 3, number of trials = 10, p-value = 1
## alternative hypothesis: true probability of success is not equal to 0.3333333
## 95 percent confidence interval:
## 0.06673951 0.65245285
## sample estimates:
## probability of success
## 0.3
En este caso el intervalo al 95 % para la proporción p que construye la función es el siguiente:
(0.06673951, 0.65245285)
Prueba de una cola

Supongamos ahora que sólo estamos interesados en pruebas de una cola, es decir nos interesa
probar:
H0 : p = p∗ vs H1 : p > p∗
H0 : p ≤ p∗ vs H1 : p > p∗
En este caso ahora nos interesa ver si tenemos evidencia como para afirmar que la verdadera
proporción p es más grande que la que proponemos bajo H0 , resulta natural entonces que debemos
rechazar H0 si en la muestra observamos muchas observaciones de la clase 1, es decir, ahora
estaremos rechazando si: n
X
T = 1(Xi ∈C1 ) > w1−α
i=1
Donde w1−α es el cuantı́l 1 − α de una distribución Binomial(n, p∗ )

Supongamos el mismo ejemplo anterior pero llevado al caso de una cola, es decir nos interesa
verificar la siguiente prueba de hipótesis:
1 1
H0 : p = vs H1 : p >
3 3
1 1
H0 : p ≤ vs H1 : p >
3 3
En este caso, dado que nos interesa que la cola derecha acumule α de probabilidad, ahora
iremos acumulando probabilidades de derecha a izquierda hasta acumular la probabilidad desea-
da, como sabemos no necesariamente seremos capaces de acumular exactamente α, en cuyo caso
debemos detener el proceso de acumulación hasta que sobrepasemos el α deseado y regresar al
paso anterior.
Revisando nuevamente la distribución bajo H0 del estadı́stico de prueba tenemos:
n=10
p=1/3
x=0:10
p=dbinom(x,size=n,prob=p)
plot(x,p,type="h",xlim=c(-1,11),ylim=c(0,0.3),lwd=2,col="blue",ylab="p",
main="Distribucion Binomial B(10,1/3)",cex.axis=0.7)
points(x,p,pch=16,cex=2,col="dark red")
text(x,p,round(p,3),pos=3,cex=0.7)
Distribucion Binomial B(10,1/3)

0.30
0.26
0.228
0.195
0.20
0.137
p
0.087
0.10
0.057
0.017 0.016
0.003 0 0
0.00
0 2 4 6 8 10
Visto en una tabla
a<-as.data.frame(cbind(x,round(p,4)))
colnames(a)<-c("T","Pr")
a
## T Pr
## 1 0 0.0173
## 2 1 0.0867
## 3 2 0.1951
## 4 3 0.2601
## 5 4 0.2276
## 6 5 0.1366
## 7 6 0.0569
## 8 7 0.0163
## 9 8 0.0030
## 10 9 0.0003
## 11 10 0.0000
En este caso, acumulando de derecha a izquierda obtenemos que cuando llegamos a T = 6 la

probabilidad acumulada es:
P (T = 10) + P (T = 9) + P (T = 8) + P (T = 7) + P (T = 6) = 0.0765635
Por lo que nos hemos pasado del α deseado, en este caso si sólo acumulamos hasta T = 7
obtenemos:
P (T = 10) + P (T = 9) + P (T = 8) + P (T = 7) = 0.0196616
En este caso, tenemos que a un α = 5 % la prueba más adeacuada es rechazar H0 si
T >6
La prueba en este caso tendrı́a un nivel de significancia del α = 0.0196616, por lo que el cuantil
w1−α asociado es 6 y por tanto
T > w1−α = 6
Finalmente, si ahora nos planteamos la hipótesis de la otra cola:
H0 : p = p∗ vs H1 : p < p∗
H0 : p ≥ p∗ vs H1 : p < p∗
Resulta de manera natural repetir el proceso anterior pero ahora acumulando probabilidades de
la cola izquierda y por tanto la idea será rechazar H0 si
n
X
T = 1(Xi ∈C1 ) ≤ wα
i=1
Una alternativa adicional a este problema es aproximar la prueba por medio de la distribución
normal y asumir que el estadı́stico bajo H0 tiene la siguiente propiedad:
n
aprox
X
T = 1(Xi ∈C1 ) ∼ N (p∗ , np∗ (1 − p∗ ))
i=1
Y luego utilizar los cuantiles de la distribución normal correpondiente, sin embargo esta aproxi-
mación puede no ser muy buena si p∗ es cercano a 0 o 1, en cuyo caso se requerirá mucho tamaño
de muestra para tener una buena aproximación.
1.1.2. Prueba del cuantil

En este tipo de pruebas estaremos interesados en hacer inferencia para un cuantil especifico
de la distribución, la prueba se planeteará para distribuciones continuas sin embargo se puede
llevar a cabo para el caso discreto.
Empecemos recordando lo que entendemos por cuantil de una distribución:
Definición 1.1.1 (Cuantil). Sea X una v.a. continua con función de distribución FX (x), decimos
que xq es el cuantil q de la v.a. X si:
FX (xq ) = P (X ≤ xq ) = q
Es decir xq es el punto en el cual la variable aleatoria X acumula exactamente q de probabilidad.
Prueba de dos colas

En este tipo de pruebas estaremos interesados en verificar si el cuantil q de la distribución de
donde proviene la muestra es cierto valor x∗q conocido, en este caso nos interesa plantear la prueba:
H0 : xq = x∗q vs H1 : xq 6= x∗q
Nuevamente supondremos que tenemos como entrada X1 , . . . , Xn una m.a. de la distribución

FX (x) y la idea consiste en proponer un estadı́stico de prueba que nos ayude a verificar la
veracidad de la hipótesis nula. En este caso propondemos el siguiente estadı́stico de prueba:
n
X
T = 1(Xi ≤x∗q )
i=1
Observe que en este caso T modela el número de observaciones en muestra que son menores o
iguales al cuantil propuesto bajo la hipótesis nula. En este caso bajo H0 tenemos que:
1(Xi ≤x∗q ) ∼ Bernoulli(P Xi ≤ x∗q ) = Bernoulli(P (Xi ≤ xq )) = Bernoulli(q)

Por lo tanto bajo H0 el estadı́stico de prueba tiene una distribución completamente conocida:
n
H
X
T = 1(Xi ≤x∗q ) ∼0 Binomial (n, q)
i=1
Enseguida, lo que resulta natural es rechazar H0 si T toma valores atı́picos bajo la distribución
bajo H0 y por tanto rechazaremos H0 si:
T ≤ w α1 o T > w1−α2
Donde α1 + α2 = α. En este caso nuevamente debemos tener las precauciones necesarias debido
al problema de discretización de la distribución del estadı́stico de prueba bajo H0 para tener la
prueba adeacuada para el α deseado.
Intervalo de Confianza
Nuevamente podemos llevar a cabo un proceso para encontrar intervalos de confianza para
el cuantil q de la distribución. En este caso el proceso será nuevamente ir variando el valor x∗q
en la hipótesis nula e ir verificando para qué valores no se rechaza H0 , dichos valores formarán
el intervalo de confianza correspondiente, en este caso debe observarse que conforme se mueve
x∗q lo que varia es el valor que toma T y no la distribución. Una parte interesante es que x∗q sólo
mueve el valor de T cuando x∗q es un valor que está en muestra, esto último facilita mucho la
búsqueda pues sólo tendremos que estar realizando la pruaba de hipótesis para valores x∗q que
estén en muestra.
Veamos un ejemplo:
Supongamos que recibimos la siguiente muestra de tamaño 15
189, 233, 195, 160, 212, 176, 231, 185, 199, 213, 202, 193, 174, 166, 248
Estamos interesados en construir un intervalo para la mediana, entonces lo primeroque procede

es ordenar la muestra, obtener la distribución binomial asociada al cuantil 0.5, luego obtener la
región de rechazo más cercana al α deseado y luego extraer los estadı́sticos de orden donde la
hipótesis no sea rechaza. Veamos el siguiente código:
x<-c(189,233,195,160,212,176,231,185,199,213,202,193,174,166,248)
#ordenamos muestra
x<-sort(x)
#tamao de la muestra
n<-length(x)
#En este caso el estad?stico para probar la mediana es
#T \sim Binom(n,0.5)
z<-0:15
p=dbinom(z,size=n,prob=1/2)
plot(z,p,type="h",xlim=c(-1,16),ylim=c(0,0.3),lwd=2,col="blue",ylab="p",
main="Distribuci?n Binomial B(15,1/2)",cex.axis=0.7)
points(z,p,pch=16,cex=2,col="dark red")
text(z,p,round(p,3),pos=3,cex=0.7)
Distribuci?n Binomial B(15,1/2)
0.30
0.1960.196
0.20
0.153 0.153
p
0.092 0.092
0.10
0.042 0.042
0.014 0.0140.003
0 0 0.003 0 0
0.00
0 5 10 15
Analizando el gráfico observamos que la zona de rechazo es:
T ≤ 3 o T > 11
Del gráfico también obtemos que el nivel de significancia alcanzado por esta región de rechazo
es: α= 0.0351563
Ahora basados en la metodologı́a que planteamos, habrá que ver par qué valores xq se rechaza
y no se rechaza la hipótesis nula, afortunadamente si la muestra fue ordenada, entonces se observa
que cuando x∗0.05 = x(i) entonces T es definido como el número de observaciones menores o iguales
a x(i) tomará el valor de i. Por lo tanto el intervalo de confianza se obtiene fácilmente por medio
de los estadı́sticos de orden que hacen cierta la hipótesis nula, es decir:

x(4) , x(11) = (176, 212)
Con una confianza del 0.9648438
Prueba de una cola

En este caso debemos tener mucho cuidado sobre la cola que tenemos que analizar del estadı́stico
de prueba.
Supongamos entonces que ahora se plantea la hipótesis:
H0 : xq = x∗q vs H1 : xq > x∗q

H0 : xq ≤ x∗q vs H1 : xq > x∗q
Observemos que estamos interesados en ver si la muestra nos da la suficiente evidencia como para
rechazar H0 y decir que xq > x∗q . La pregunta es entonces, ¿Qué tipo de muestra nos hace pensar
que xq > x∗q ?. Nuevamente la idea será contar el número de observaciones menores a x∗q , si H1
fuera cierta entonces x∗q es un punto en donde la distribucion aún no acumula q de probabilidad,
es decir se esperarı́a que el núumero de observaciones menores a x∗q divido entre n fuera mucho
más pequeño que q y por lo tanto esto se traduce en pedir que el estadı́stico de prueba tenga
pocas observaciones, es decir, la idea ahora es rechazar H0 si:
n
X
T = 1(Xi ≤x∗q ) ≤ wα
i=1
Donde wα es el cuantil α de la distribución Binomial(n, q)
De forma análoga, en la prueba para la otra cola es:
H0 : xq = x∗q vs H1 : xq < x∗q

H0 : xq ≥ x∗q vs H1 : xq < x∗q
Rechazaremos H0 si
n
X
T = 1(Xi ≤x∗q ) > w1−α
i=1
Donde, nuevamante w1−α es el cuantil 1 − α de la distribución Binomial(n, q).
Estas pruebas deben de tomar las precauciones debidas para encontrar la región más adecuada
en función al nivel de significancia deseado.
Finalmente, en caso de que se tenga una muestra suficientemente grande podremos aplicar la
aproximación a la normal:
n
aprox
X
T = 1(Xi ≤x∗q ) ∼ N (q, nq(1 − q))
i=1
Y por tanto definir la región de rechazo en términos de los cuantiles de la normal apropiada.
1.1.3. Prueba del Signo
Esta prueba pretende comparar la mediana de dos poblaciones. El supuesto principal es que
muestreamos de ellas de forma simulatanea, es decir que al momento de obtener la muestra
extraemos un vector formado por las variables (Xi , Yi ) donde Xi es el valor de la variable en la
primera población, mientras que Yi es el valor de la variable en la segunda población.
Un ejemplo de esta situación de muestreo puede darse en un experimento donde se aplica
mediciones antes y después de un tratamiento especifico a un mismo objeto.
Imaginemos que existe un nuevo método de afinación de un motor y se pretende evaluar si el
tratamiento es efectivo, para ello se toman 10 automóviles, primero se les mide su nivel de con-
taminación (previo a la afinación) y guardamos dichos datos en la variable X, posteriomente se
lleva a cabo el tratamiento (afinación) y al mismo coche se le hace la misma prueba y guardamos
su nivel de contaminación en la variable Y , entonces al final obtendriamos 10 parejas de observa-
ciones formadas por las mediciones de contaminacón de los autos. En este problema estarı́amos
interesados en probar si estadı́sticamente el tratamiento es efectivo, para ello podrı́amos suponer
que X y Y son poblaciones con distribuciones no necesariamente iguales en las que nos interesa
probar si Y tiende a tomar valores más pequeños que X, esto lo podrı́amos plantear enterminos
de una medida de tendencia central como lo es la mediana:
H0 : M ed(X) = M ed(Y ) vs H1 : M ed(X) 6= M ed(Y )
O bien
H0 : M ed(X) ≤ M ed(Y ) vs H1 : M ed(X) > M ed(Y )

H0 : M ed(X) ≥ M ed(Y ) vs H1 : M ed(X) < M ed(Y )
En la primera prueba hipótesis estamos interesados en verificar si hay efecto (Positivo o Negativo)
del tratamiento en la población mientras que las otras hipótesis sólo nos interesa verificar el efecto
únicamiente positivo o negativo de la prueba, en nuestro ejemplo de autos, nos interesa medir
un efecto negativo es decir que realmente disminuye contaminación del automóvil, en ese caso se
tiene interés en la segunda prueba de hipótesis.
Un supuesto adicional que asume la prueba es que la diferencia entre las medianas de X y
Y es igual a la mediana de la diferencia esto es, suponiendo que Z = Y − X, entonces:
M ed(Z) = M ed(Y − X) = M ed(Y ) − M ed(X)
Este último supuesto es escencial para definir el estadı́stico de prueba para el problema que
se plantea.(Ver The Difference Between the Median of a Difference and the difference of the
Medians de Nigel F. Nettheim)
Pruebas de dos colas
Suponga que se plantea lo siguiente:
Se supone entonces que recibimos una muestra bivariada (X1 , Y1 ) , (X2 , Y2 ) , . . . , (Xn , Yn ), luego
contruyamos la v.a Z en función de X y Y como:
Z =Y −X
Entonces la muestra bivariada es tranformada en una muestra univariada Z1 = Y1 −X1 , . . . , Zn =

Yn − Xn , luego bajo H0 y los supuestos se tiene que:
H
M ed(Z) = med(Y − X) = M ed(Y ) − M ed(X) =0 0
Entonces por lo anterior, la prueba de hipótesis se transforma en:
H0 : M ed(Z) = 0 vs H1 : M ed(Z) 6= 0
Este último problema ya fue resuelto pues no es más que la prueba del cuantil para q = 0.5. El
estadı́stico utilizado en esta prueba vimos que es:
n
X
T = 1(Zi ≤0) = # de observaciones menores o iguales a 0
i=1
= # de signos negativos en la resta Yi − Xi
La última igualdad se debe a que suponemos que por continuidad de X y Y se tiene que
P (Z = 0) = 0. Sin emabrgo, en la práctica se estila utilizar otro estadı́stico de prueba simi-
lar: n
X
T = 1(Zi >0) = # de signos positivos en la resta Yi − Xi
i=1
En este caso nuevamente se tendrı́a que bajo H0 se tiene que T ∼ Binom(n, 0.5) y por tanto
resulta de manera natural rechazar H0 a un nivel de significancia α si:
T ≤ w α1 o T > w1−α2
Donde α1 + α2 = α. Afortunadamente en este caso tenemos que el estadı́stico de prueba tiene

una distribución simétrica lo que nos permite hacer α1 = α2 = α2 . No obstante al prueba se debe
ajustar al α adecuado debido a la discretización de T .
Pruebas de una cola
En caso de que se esté interesado en probar una sola cola se plantea entonces la hipótesis:
H0 : M ed(X) = M ed(Y ) vs H1 : M ed(X) < M ed(Y )

H0 : M ed(X) ≥ M ed(Y ) vs H1 : M ed(X) < M ed(Y )
En este caso se está interesado en verificar si X tiende a tomar valores más pequeños que
Y , en este caso entonces si en la muestra observamos que el signo de la diferencia Z = Y − X
tiende a tomar postivos, es evidencia para inclinarse por H1 , tener muchos positivos en Z implica
entonces tener pocos negativos por lo tanto se propone rechazar H0 si:
n
X
T = 1(Zi >0) = # de signos positivos > w1−α
i=1
Donde w1−α es el cuantil α de la distribución Binomial(n, 0.5)

Por otro lado, ahora estamos interesados en la otra cola entonces la prueba es:
H0 : M ed(X) = M ed(Y ) vs H1 : M ed(X) > M ed(Y )

H0 : M ed(X) ≤ M ed(Y ) vs H1 : M ed(X) > M ed(Y )
En cuyo caso, ahora la muestra indica que se rechace H0 si observa muchos signos negativos en
la variable Z, luego entonces se tiene que analizar la cola izquierda de la distribución.
n
X
T = 1(Zi >0) = # de signos positivos ≤ wα
i=1
Donde wα es el cuantil α de la distribución Binomial(n, 0.5). Donde nuevamente se tiene que

tomar las consideraciones necesarias para tener la prueba de significancia más cercano a α.
Caso Discreto
La prueba del signo puede ser adapatada al caso en que las variables X y Y son discretas, sin
embargo ahora se tiene que tomar en cuenta los posibles empates pues debido a la discretización
se puede dar que P (Xi = Yi ) > 0.
La forma en como se adapta la prueba es sencilla, simplemente se propone eliminar todos los
empates que hayan aparecido en la muestra y se lleva a cabo la prueba como en el caso continuo,
es decir, se procede a contar el número de signos positivos y luego comparar ese resultado con
cuantiles de la binomial respectiva donde ahora n es un tamaño de muestra reducido tras eliminar
los empates encontrados.
Muchos autores plantean que la solución de eliminar los empates no es justo ya que las
observaciones con empate en realidad son a favor de la hipótesis nula. Una posible solución que
se ha planteado en la prueba de dos colas es cambiar los empates por simulaciones de signos
generados de una Bernoulli con probabilidad de exito igual a 0.5 y luego llevar a cabo la prueba
tradicional, la idea del cambio es favorecer entonces a la hipótesis nula con observaciones que son
de esperarse bajo H0 .
1.1.4. Prueba de McNemar

Esta prueba es un caso especial del test del signo trabajado en la sección anterior, la diferencia
radica en que esta prueba supone que tanto X como Y son dicotómicas, es decir, que sólo pueden
tomar dos posibles valores digamos 0 y 1, debido a este supuesto las observaciones serán entonces
parejas de la forma (0, 0), (0, 1), (1, 0), (1, 1) y podrán ser tabuladas de la siguiente forma:
X/Y 0 1
0 a=# número de (0,0) b=# número de (0,1)

1 c=# número de (1,0) d=# número de (1,1)
Un ejemplo clásico donde se puede aplicar este caso es en el contexto de la polı́tica, suponga-
mos que existen 2 candidatos polı́ticos y definamos a X la v.a. que modela el voto hacia alguno
de los candidatos previo a un debate público (tratamiento), definamos entonces que X = 0 si se
vota por el candidato A y X = 1 si se vota por el candidato B. Despúes del debate (tratamiento),
se lleva a cabo nuevamente la medición en las personas y ahora la v.a. Y modela el voto despúes
de dicho debate. Una pregunta interesante es entonces resolver si el debate logró cambiar de
opinion de los votantes.
Tenemos entonces la necesidad de verificar si existe una diferencia entre las medianas de X
y Y , sin embargo debido su naturaleza de las variables en realidad lo que interesa es verificar si
después de la aplicación de un tratamiento hace que la v.a. X cambie su proporción de 10 s. Ahora
observemos que debido a la dicotomı́a de las variables con las que trabajamos, el hecho de que X
no cambie su proporción de 10 s implica que se espera que P (X = 0, Y = 1) = P (X = 1, Y = 0),
es decir, la probabilidad de que un votante cambie de A a B es la misma de que cambie de B a
A, este supuesto hace que la proporción de votantes no cambie despúes del tratamiento.
En términos de hipótesis planteamos entonces lo siguiente:
H0 : P (X = 0, Y = 1) = P (X = 1, Y = 0) vs H1 : P (X = 0, Y = 1) 6= P (X = 1, Y = 0)
En nuestra notación entonces los casos a=# número de (0,0) y d=# número de (1,1) serán
considerados empates y por tanto serán eliminados de la prueba, entonces la decisión debe de
recaer en los valores observados en b=# número de (0,1) y c=# número de (1,0), observe que en
este caso b modela el número de votantes que cambiaron de opinion del candidato A al candidato
B mientras que c modela el caso en donde el voto cambió del candidato B al candiato A.
En el contexto de la prueba del signo la pareja (0,1) tiene un signo positivo y por tanto se
propondrá utilizar como estadı́stico de prueba a b
T = b = número de observaciones de la forma (0,1)
Dado que los empates ya fueron eliminados, entonces el tamaño de muestra es n = b + c y luego
si suponemos H0 cierta entonces:

H0 1
T ∼ Binomial b + c,
2
y por tanto se rechazará H0 si T toma valores muy pequeños (Debate a favor del candidato A)
o si T toma valores grandes (Debate a favor del candidato B) donde para la regla de decisión se
tomarán en cuenta los cuantiles de la distribución Binomial respectiva.
Algunos autores suponen muestras grandes en estos estudios y por tanto no utilizan la dis-
tribucón binomial sino que llevan a cabo la aproximación normal es decir:

H0 1 aprox aprox 1 b+c
T ∼ Binomial b + c, ∼ N (np, np(1 − p)) ∼ N (b + c) ,
2 2 4
y por tanto rechazar H0 basado en los cuantiles de la normal asociada. Otros autores deciden
estandarizar la Normal y luego elevarla al cuadrado para obtener la distribución χ2 , es decir, se
propone el estadı́stico de prueba:
 2  2
T − (b + c) 12 b − (b + c) 21 aprox H0
T1 =  q  = q  ∼ χ2(1)
b+c b+c
4 4
Simplificando el estadı́stico toma la forma:
(b − c)2 aprox H0
T1 = ∼ χ2(1)
b+c
2(1−α)
Y por tanto se propone rechazar H0 si T1 toma un valor más grande que el cuantil χ(1) .
1.1.5. Prueba Cox and Stuart
La prueba Cox and Stuart es utilizada para verificar si los valores que obtenemos en la
muestra siguen alguna tendencia conforme se van observando, para ello la prueba supone que
tenenmos X1 , . . . , Xn variables aleatorias independientes pero no necesariamente identicamente
distribuidas, de hecho la idea de la prueba es verificar si las variables tienen alguna tendencia o
bien son identicamente distribuidas con la misma media.
El método que proponen los autores es simple, con la muestra recibida X1 , . . . , Xn , se define
c = n2 si n es par y c = n+1
2
si n es impar, luego generamos las parejas:
Si n es par Si n es impar
(X1 , Xc+1 ) (X1 , Xc+1 )
(X2 , Xc+2 ) (X2 , Xc+2 )
.. ..
. .
(Xc , Xn ) (Xc−1 , Xn )
Lo que se hace entonces es divir la muestra en dos partes y generar las parejas correspondientes
donde en caso de ser n impar se pierde una observación, en este caso Xc
Si los datos tienen tendencia positiva entonces se espera observar signos postivos en la pareja
(Xi , Xc+i ), es decir, Xc+i − Xi > 0, mientras que si no hay tendencia se observarı́a un número
aleatorio de signos positivos y negativos. Por otro lado si los datos tienen tendencia negativa
entonces se espera observar que Xc+i − Xi < 0 (muchos signos negativos).
Prueba de dos Colas
Dada X1 , . . . , Xn se pretende contrastar:
H0 : Los datos no tienen tendencia

H1 : Los datos tienen tendencia (positiva o negativa)
Con la muestra generamos las parejas (Xi , Xi+c ), definimos la estadı́stica:
T = # de signos positivos en la diferencia (Xi+c − Xi )
Bajo H0 se espera ver signos positivos y negativos de forma aleatoria por lo que se tendrı́a:

H0 1
T ∼ Binomial c, n par
2

H0 1
T ∼ Binomial c − 1, n impar
2
Nota: En caso de tener empates en las parejas formadas, estas deben de eliminarse y ajustar el
parámetro de la binomial correspondiente.
Se propone rechazar H0 si T toma valores muy pequeños o muy grandes en función de su
distribución teórica. Es decir, rechazar H0 si:
T ≤ w α1 o T > w1−α2
Donde α1 + α2 = α y wα1 , w1−α2 los cuantiles α1 y 1 − α2 correspondientes de la distribución

binomial, algo interesante de esta prueba es que en este caso bajo H0 se tiene una distribución
binomial simétrica y por tanto en este caso α1 = α2 = α2 . Nuevamente se debe enfatizar que se
debe de ajustar la significancia de la prueba debido a la discretización del estadı́stico de prueba.
Prueba de una cola
Dada X1 , . . . , Xn se pretende contrastar:
H0 : Los datos no tienen tendencia positiva

H1 : Los datos tienen tendencia positiva
Al igual que en la prueba de dos colas, se generan las parejas (Xi , Xi+c ) y definimos la
estadı́stica:
T = # de signos positivos en la diferencia (Xi+c − Xi )
Bajo H0 se espera ver signos positivos y negativos de forma aleatoria por lo que se tendrı́a que:

H0 1
T ∼ Binomial c, n par
2

H0 1
T ∼ Binomial c − 1, n impar
2
Nota: En caso de haber empates en las parejas, estas deben de eliminarse en cuyo caso se debe
de ajustar el parámetro c de la Binomial.
Se propone rechazar H0 si T toma valores muy grandes pues eso implica que hubo muchos
signos positivos lo que es a favor de H1 , por lo tanto rechazamos H0 si:
T > w1−α
Donde w1−α es el cuantil correspondiente de la distribución binomial.
De igual forma si se pretende probar:
H0 : Los datos no tienen tendencia negativa

H1 : Los datos tienen tendencia negativa
Ahora se rechaza H0 si T toma valores muy pequeños. (Muchos signos negativos)
T ≤ wα
1.1.6. Prueba Cox and Stuart para correlación
Existe una modificación natural de la prueba Cox and Stuart para probar correlación entre
dos variables.
Supongamos que tenemos una muestra bivariada de variables aleatorias continuas
(X1 , Y1 ) , . . . , (Xn , Yn )
Se desea verificar si existe algún tipo de correlación entre las variables X y Y .

La propuesta es la siguiente, con la muestra recibida, se ordenan las parejas respecto la
variable Y generando una muestra ordenada de la forma:

Xi1 , Y(1)

Xi2 , Y(2)
..
.

Xin , Y(n)
De la muestra bivariada extraemos la muestra Xi1 , . . . , Xin y aplicamos la prueba de tenden-

cia a estos datos, si existe una tendencia positiva eso quiere decir que la muestra Xi1 , . . . , Xin
crece respecto al orden de aparición, sin embargo por construcción la muestra fue ordenada en
función de los valores de Y , eso se traduce en que la muestra está correlacionada positivamente.
Por el contrario si se observa una tendencia negativa entonces se concluye que hay una correlación
negativa entre X y Y . Finalmente, si la prueba de tendencia no es rechazada, eso es equivalente
a no encontrar correlación entre las variables.
La prueba Cox and Stuart para correlación no es más que una aplicación de la prueba de
tendencia, sin embargo en la literatura existe más pruebas para detectar correlación que son más
potentes como por ejemplo la prueba τ de Kendall o ρ de Spearman. (Ver Conover Capitulo 5
Sección 5)
1.2. Pruebas basadas Rangos

Las pruebas basadas en rangos como su nombre lo indica se basan fundamentalmente en
asignar Rangos a la muestra recibida, definamos entonces lo que entendemos por rangos de una
muestra.
Definición 1.2.1 (Asignación de Rangos a una Muestra). Supongamos que recibimos X1 , . . . , Xn
una muestra aleatoria de una función de distribución FX (x). Ordenemos la muestra de menor a
mayor es decir:
X(1) , X(2) , . . . , X(n)
Donde X(1) = min {X1 , . . . , Xn } y X(n) = max {X1 , . . . , Xn }. Supongamos que en la muestra no
hay empates, es decir siempre ocurre que X(i) < X(i+1) para toda i. Entonces definimos el rango
de la muestra ordenada como
R(X(i) ) = i
Cuando existan empates en la muestra ordenada, por ejemplo X(i) = X(i+1) = . . . = X(i+k) para
alguna i, en ese caso el rango asociado a todas estas obervaciones será igual al promedio de los
rangos que se les hubiera asignado suponiendo que no habia empate, es decir:
i + (i + 1) + . . . + (i + k)
R(X(i+q) ) = ; q ∈ {0, . . . , k}
k+1
En resumen, entonces podemos decir que R(Xi ) es el rango asociado a la observación i, y no

es más que la posición que tiene Xi en la muestra ordenada.
Veamos un ejemplo, supongamos que observamos la siguiente muestra de tamaño 5:
x1 = 3, x2 = 6, x3 = 1, x4 = 7, x5 = 9
Ordenando la muestra:
x(1) = x3 = 1, x(2) = x1 = 3, x(3) = x2 = 6, x(4) = x4 = 7, x(5) = x5 = 9
Notemos que no hay empates por lo tanto la asignación de los rangos es la siguiente:
R(x(1) ) = R(x3 ) = 1
R(x(2) ) = R(x1 ) = 2
R(x(3) ) = R(x2 ) = 3
R(x(4) ) = R(x4 ) = 4
R(x(5) ) = R(x5 ) = 5
Supongamos ahora que tenemos una muestra con empates:
x1 = 3, x2 = 6, x3 = 1, x4 = 6, x5 = 6
Ordenando la muestra:
x(1) = x3 = 1, x(2) = x1 = 3, x(3) = x2 = 6, x(4) = x4 = 6, x(5) = x5 = 6
Los rangos que se asgnarı́an bajo el supuesto de que no hay empates es:
R(x(1) ) = R(x3 ) = 1
R(x(2) ) = R(x1 ) = 2
R(x(3) ) = R(x2 ) = 3
R(x(4) ) = R(x4 ) = 4
R(x(5) ) = R(x5 ) = 5
Como tenemos empates en las observaciones x(3) = x(4) = x(5) entonces los rangos para estos
casos se calcula como el promedio de las rangos que les fueron asignados, es decir:
3+4+5
R(x(3) ) = R(x(4) ) = R(x(5) ) = =4
3
Finalmente los rangos asignados a esta muestra son:
R(x(1) ) = R(x3 ) = 1
R(x(2) ) = R(x1 ) = 2
R(x(3) ) = R(x2 ) = 4
R(x(4) ) = R(x4 ) = 4
R(x(5) ) = R(x5 ) = 4
Las pruebas que veremos a continuación tiene como principal proceso asignar rangos a las
observaciones de una muestra aleatoria recibida. Surgirá entonces la necesidad de saber como se
distribuye la v.a. R(Xi ).
Primero notemos que bajo el supuesto de no haber empates se tiene que R(Xi ) es una v.a.
discreta que toma valores en el conjunto {1, . . . , n}. Surge ahora la pregunta de saber con qué
probabilidad tomará cada uno de estos valores. Para ello recordemos que si la muestra recibida
es aleatoria de una sola población, entonces los n rangos que se asociarán deberan aparecer
también de forma aleatoria de tal manera que se formen n! posibles secuencias todas con la
misma probabilidad, por ejemplo, suponiendo que tenemos 3 observaciones, los 3! = 6 rangos
posibles que podrı́amos obtener son:
x1 x2 x3
1 2 3
1 3 2
2 1 3
2 3 1
3 1 2
3 2 1
Suponemos entonces que todos estos posibles rangos ocurren con la misma probabilidad es
decir 1/6.
Ahora, bajo este supuesto surge entonces la pregunta de conocer P (R(Xi ) = k). Para resolver
este caso simplemente contemos los casos favorables y dividamos entre los casos totales. Ya
sabemos que el total de casos es n!, de estos casos, los que son favorables con el evento R(Xi ) = k
son (n − 1)! posibles secuencias pues estamos dejando fija que en la columna i siempre aparezca
k. Por lo tanto:
(n − 1)! 1
P (R(Xi ) = k) = =
n! n
Es decir, resulta que R(Xi ) bajo el supuesto de que tenemos m.a. de una sola población, tiene
una distribución uniforme discreta en el espacio {1, . . . , n}
A continuación presentamos las 4 principales pruebas basadas en Rangos.
1.2.1. Prueba Mann-Whitney

Esta prueba tiene por objetivo verificar si existe diferencias entre las medias (medianas) de dos
poblaciones. Los insumos de la prueba entonces serán dos muestras aleatorias de 2 poblaciones de
forma independiente, es decir, supondremos que tenemos X1 , . . . , Xn1 m.a. de FX (x) y Y1 , . . . , Yn2
m.a. de GY (y)
Los supuestos que tiene la prueba son los siguientes:
Las dos muestras recibidas son aleatorias de sus respectivas distribuciones

Hay independencia entre ambas muestras, es decir F (x, y) = F (x)F (y)
Supondremos que muestreamos de distribuciones continuas, sin embargo la prueba se puede

correr para el caso discreto, no obstante en caso de haber muchos empates en la asignación
de rangos para las muestras recibidas, ocasionará que la prueba pierda validez.
Si existe una diferencia entre las distribuciones FX (x) y GY (y) es sólo de localización y no
de forma es decir FX (x) = GY (x + c) para toda x y alguna c. Algunos autores asumen que
la prueba sigue siendo valida incluso si la forma es distinta.
Prueba de dos colas
La prueba Mann-Whitney pretende entonces contrastar la siguientes hipótesis:
H0 : FX (x) = GY (x) vs H1 : FX (x) 6= GY (x)
Sin embargo, la prueba comunmente se presenta en términos de medidas de tendencia central y

se propone:
H0 : E(X) = E(Y ) vs H1 : E(X) 6= E(Y )

El método propuesto en la prueba es el siguiente:
Unir ambas muestras recibidas generando una muestra de tamaño n = n1 + n2
Asignar Rangos a la muestra unida, sin olvidar de qué población viene cada observación.
De los Rangos obtenidos, sólo nos quedamos con los Rangos de la problación de la v.a. X
Calcular el estadı́stico de prueba:
n1 (n1 + 1)
T =S−
2
Donde S = ni=1
P 1
R(Xi ), la suma de los rangos asociados a las observaciones de la distri-
bución FX (x).
La idea que hay detras de este estadı́stico es la siguiente, si la población con distribución FX (x)
tiende a tomar valores más pequeños que la población GY (x) entonces los rangos asociados a
las observaciones de X serán pequeños, de hecho el peor caso es cuando todas las observaciones
cayeron por debajo de las observaciones de Y , en ese caso los rangos que se asocian a la población
X son los primeros n1 naturales y por tanto:
n1
X n1 (n1 + 1)
S= R(Xi ) = 1 + 2 + . . . + n1 = ⇒T =0
i=1
2
Es decir, valores de T pequeños son compatibles con la hipótesis de que E(X) < E(Y ). El caso
opuesto a esto es cuando las observaciones de X estan todas por arriba de las observaciones de
Y , en ese caso los rangos asociados a las observaciones de X son los naturales
n2 + 1, n2 + 2, . . . , n2 + n1 = n
y por tanto:
n1
X n1 (n1 + 1)
S= R(Xi ) = (n2 + 1) + (n2 + 2) + . . . + (n2 + n1 ) = n1 n2 +
i=1
2
Y por tanto, en este caso, el valor de T es:
n1 (n1 + 1) n1 (n1 + 1) n1 (n1 + 1)

T =S− = n1 n2 + − = n1 n2
2 2 2
Luego entonces valores grandes de T (cercanos a n1 n2 ) son a favor de la hipótesis M ed(X) >
M ed(Y ). Todo indica entonces que hay evidencia para rechazar H0 tanto si T es pequeño o
grande, para tomar la decisión es necesario conocer la distribución de T bajo H0 para encontrar
los cuantiles correspondientes.
La distribución de T bajo H0 no es fácil de obtener de forma análitica debido a las distintas
combinaciones que se pueden dar en los rangos de la muestra unida, sin embargo se puede simular
o bien consultar en tablas. (Tabla 8 de Conover). Una ventaja que tiene esta distribución es que
es simétrica y por tanto los cuantiles para el rechazo de la hipótesis se obtienen de forma más
fácil.
La regla entonces es, Rechazar H0 a un nivel de significancia α si:
T ≤ w α2 o T > w1− α2
Donde wα y w1− α2 son los cuantiles de la distribución de T bajo H0 (Se obtienen por simulación
o en tablas)
A continuación se presenta un código para simular la distribución Mann-Whitney
############################################################
#Funcion que calcula la distribucion Mann Whitney Bajo H_0 #
############################################################
#Tamao de muestra de la primer poblacin
n=5
#Tamao de muestra de la segunda poblacin
m=6
#Tamao de muestra combinada

N=n+m
#Numero de simulaciones
nSim=500000
#Generamos un arreglo de 10,0000 simulaciones
T=rep(0,nSim)
for (i in 1:nSim){
T[i]=sum(sample(1:N,n))-n*(n+1)/2
}
plot(table(T)/nSim,type="h",lwd=2,col="blue",ylab="Probabilidad",
main="Densidad Mann-Whitney", xlab="T",ylim=c(0,0.12))
points(0:(n*m), table(T)/nSim,pch=16,cex=2,col="dark red")
text(0:(n*m), table(T)/nSim, round(table(T)/nSim,3), pos=3, cex=0.7)
Densidad Mann−Whitney
0.12
Probabilidad
0.069
0.069
0.065 0.069
0.065
0.063 0.063
0.06
0.054
0.05 0.054
0.05
0.041 0.041
0.035 0.035
0.026
0.022 0.026
0.022
0.015
0.011 0.015
0.011
0.002
0.002 0.006
0.004 0.007
0.004
0.002
0.002
0.00
0 2 4 6 8 10 13 16 19 22 25 28
T
Prueba de una cola
En este caso se propone contrastar alguna de estas hipótesis

Para la cola izquierda:
H0 : E(X) = E(Y ) vs H1 : E(X) < E(Y )

H0 : E(X) ≥ E(Y ) vs H1 : E(X) < E(Y )
En este caso sólo nos interesa ver la cola izquierda de T y por tanto se propone Rechazar
H0 a un nivel de significancia α si:
T ≤ wα
Para la cola derecha:
H0 : E(X) = E(Y ) vs H1 : E(X) > E(Y )

H0 : E(X) ≤ E(Y ) vs H1 : E(X) > E(Y )
En este caso sólo nos interesa ver la cola derecha de T y por tanto se propone Rechazar H0 a
un nivel de significancia α si:
T > w1−α
Aproximación hacia la Normalidad
Debido a la simetrı́a del estadı́stico de prueba T , existe una aproximación hacia la distribución
normal, para ello se debe calcular primero la esperanza y varianza del estadı́stico de prueba
(TAREA):
n1 (n1 + 1) n1 n2
E(T ) = E S − =
2 2
n1 n2 (n1 + n2 + 1)
Var(T ) = Var(S) =
12
Luego entonces asumiendo que:

aprox n1 n2 n1 n2 (n1 + n2 + 1)
T ∼ N (E(T ) , Var(T )) = N ,
2 12
Por lo tanto si la muestra es suficientemente grande podrı́amos definir el estadı́stico:
n1 n2
T− 2 aprox
Z=q ∼ N (0, 1)
n1 n2 (n1 +n2 +1)
12
Y por lo tanto tomar la decisión del rechazo de H0 en función de los cuantiles de la normal
estándar.
1.2.2. Prueba Kruskal-Wallis

La prueba Kruskal-Wallis no es más que la generalización de la prueba Mann-Whitney para
el caso de k poblaciones. En este caso el test pretende verificar si todas las distribuciones son
iguales o si existe al menos una población que tiende a tomar valores distintos a los demás.
En este caso supondremos que recibimos k muestras aleatorias independientes de k poblacio-
nes distintas es decir:
Sample 1 Sample 2 ... Sample k
X11 X21 ... Xk1

X12 X22 ... Xk2
.. ..
. . ... Xk3
X1n1 X2n2 ... Xknk
Donde suponemos entonces que la muestra X i = (Xi1 , . . . , Xi,ni ) proviene de la distribución

Fi (x), además observemos que en este caso, el tamaño de cada muestra es ni por lo que el tamaño
de muetra total es n = ki=1 ni .
P
Los supuestos que tiene la prueba son los siguientes:
Las k muestras recibidas son aleatorias de sus respectivas distribuciones
Hay independencia entre las k muestras, es decir
F (x1 , . . . , xk ) = F1 (x1 ) . . . Fk (xk )
Supondremos que muestreamos de distribuciones continuas aunque la prueba se puede

correr para el caso discreto pero en caso de haber muchos empates en las muestras recibidas
ocasiona que la prueba pierda validez
Si existe una diferencia entre las distribuciones F1 (x), . . . , Fk (x) es sólo de localización y
no de forma es decir para cualesquiera 2 pares de distribuciones Fi (x), Fj (x) se tiene que
existe c tal que Fi (x) = Fj (x + c) para toda x. Algunos autores asumen que la prueba sigue
siendo valida incluso si la forma es distinta entra las distribuciones.
La prueba Kruskal-Wallis pretende contrastar la hipótesis:
H0 : F1 (x) = . . . = Fk (x) vs H1 : Fi (x) 6= Fj (x) p.a. i 6= j
Aunque muchos autores proponen mejor utilizar la versión de medias (asumiendo que las medias
existen)
H0 : E(X1 ) = . . . = E(Xk ) vs H1 : E(Xi ) 6= E(Xj ) p.a. i 6= j
El método de la prueba consiste nuevamente en mezclar todas la muestras y formar una sola
Pk
secuencia de observaciones de tamaño n = i=1 ni , a dicha secuencia le asignamos rangos y
entonces la muestra es transformada obteniendo una tabla como sigue:
Sample 1 Sample 2 ... Sample k
R(X11 ) R(X21 ) ... R(Xk1 )

R(X12 ) R(X22 ) ... R(Xk2 )
.. ..
. . ... R(Xk3 )
R(X1n1 ) R(X2n2 ) ... R(Xknk )
Antes de proponer el estadı́stico de prueba, analicemos la variable aleatoria R(Xji ), primero

notemos que dicha v.a. sólo puede tomar valores en el espacio formado por los primeros n naturales
{1, . . . , n}, la pregunta natural que ahora surge es conocer la probabilidad de que tome cada uno
de estos números.
Bajo el supuesto de H0 , sabamos que toda la muestra viene de una sola población por lo
que los rangos que se asocian deberian seguir un comportamiento aleatorio similar al proceso de
seleccionar muestrar aleatorias sin reemplazo de una población de tamño n, por lo tano utilizando
la teorı́a del muestreo aleatorio simple de una población de tamño n, se puede probar que:
1
P (R(Xji ) = q) = j ∈ {1, . . . , k} ; i ∈ {1, . . . , nj } ; q ∈ {1, . . . , n}
n
Es decir bajo H0 el Rango que se le asocia a la observación Xji sigue una distribución uniforme
sobre el espacio {1, . . . , n}. Con lo anterior podemos encontrar la esperanza y varianza de la v.a.
R(Xji ).
n n
X X 1 1 n(n + 1) n+1
E(R(Xji )) = qP (R(Xji ) = q) = q = =
q=1 q=1
n n 2 2
n n
1 21 n(n + 1)(2n + 1) (n + 1)(2n + 1)
X X
2 2

E R(Xji ) = q P (R(Xji ) = q) = q = =
q=1 q=1
n n 6 6
(n + 1)(2n + 1) (n + 1)2
Var(R(Xji )) = E R(Xji )2 − E(R(Xji ))2 =

−
6 4
Definamos ahora la suma de los rangos asociados a la población j como:

nj
X
Rj = R (Xji )
i=1
Entonces si H0 fuera cierta podrı́amos obtener la esperanza de la v.a. Rj

nj nj nj
!
X X X n+1 nj (n + 1)
E(Rj ) = E R (Xji ) = E(R (Xji )) = =
i=1 i=1 i=1
2 2
De igual forma se puede obtener la varianza de Rj salvo que hay que tener mucho cuidado pues
las variables R (Xji ) no son independientes, en ese caso:
nj nj nj nj
!
X X X X
Var(Rj ) = Var R (Xji ) = Var(R (Xji )) + Cov (R(Xjq ), R(Xjp ))
i=1 i=1 q=1 p=1
q6=p
Se prueba a partir de esto (TAREA) que:
nj (n + 1)(n − nj )
Var(Rj ) =
12
Sabemos entonces que Rj modela la suma de los rangos asociados a la población j y que se espera
n (n+1) n (n+1)(n−nj )
bajo H0 que E(Rj ) = j 2 y que Var(Rj ) = j 12 .
Una forma de verificar la veracidad de H0 , es proponer como estadı́stico de prueba a la

distancia al cuadrado entre el valor observado y esperado de Rj y luego sumarlos sobre todos los
j, es decir
k k 2
X
2
X nj (n + 1)
(Rj − E(Rj )) = Rj −
j=1 j=1
2
Sin embargo la distribución de esta estadı́stica no es facı́l, no obstante si suponemos normalidad

con muestras suficientemente grandes podemos encontrar una solución alternativa:
n (n+1)
Rj − E(Rj ) Rj − j 2 aprox
p =q ∼ N (0, 1)
Var(Rj ) nj (n+1)(n−nj )
12
Entonces:
2
nj (n+1)
Rj −
2
2
(Rj − E(Rj )) 2 12 Rj − 21 nj (n + 1) aprox
= nj (n+1)(n−nj ) = ∼ χ2(1)
Var(Rj ) n+1 nj (n − nj )
12
0
Si todas las Rj s fueran independientes habrı́amos terminado el problema pues se propondrı́a
como estadı́stico de prueba a la suma de las χ2 , es decir:
k 2 k 2
X0 12 Rj − 12 nj (n + 1) 12 X Rj − 12 nj (n + 1)
T = =
j=1
n+1 nj (n − nj ) n + 1 j=1 nj (n − nj )
0 aprox 0
Sin embargo es obvio que no podemos asumir que T ∼ χ2(k) , pues sabemos que las Rj s son
dependientes, de hecho kj=1 Rj = n(n+1)
P
2
.
El gran aporte que hizo Kruskal en 1952 fue probar que si a cada sumando se le multiplica por
n−n
el término n j entonces la suma sı́ tiene una distribución χ2 pero pierde un grado de libertad
es decir:
k 2 k 2
12 X n − nj Rj − 21 nj (n + 1) 12 X Rj − 1 nj (n + 1) aprox
T = = 2
∼ χ2(k−1)
n + 1 j=1 n nj (n − nj ) n(n + 1) j=1 nj
Finalmente entonces Kruskal en 1952 propone como estadı́stico de prueba:
k 2
12 X Rj − 1 nj (n + 1)
2
T =
n(n + 1) j=1 nj
2(1−α) 2(1−α)
Y luego entonces se rechaza H0 a un nivel de significancia α si T > χ(k−1) , donde χ(k−1) es el
cuantil 1 − α de la distribución χ2 con (k − 1) grados de libertad.
Se puede probar además que el estadı́stico de prueba puede transformarse en lo siguiente
(TAREA): !
k
12 X Rj2
T = − 3(n + 1)
n(n + 1) j=1 nj
Un problema que tiene la prueba es que supone muestras grandes para poder asumir una
buena aproximación hacia la χ2 , es por eso que existen tablas de la prueba para el caso de que
se tienen muestras pequeñas. (Ver tabla 12 del Conover y sólo ataca el caso k=3).
Lo anterior nos motiva a tener programas que nos ayuden a simular la distribución de T bajo
H0 , a continuación presentamos un código en R que lleva a cabo la simulación de la distirbución
haciendo uso de la funcion sample la cual simula precisamente la obtención de los rangos basado
en un muestreo aleatorio simple:
##############################################################################
#Funcion que calcula los cuantiles de la distribucion KuskalWallis Bajo H_0 #
##############################################################################
#############################################################################
#El programa esta diseniado para cuando se tiene k=3 muestras independientes #
#############################################################################
k=3
#Introduzca el tamanio de las muestras de cada poblacion
n1=5
n2=3
n3=3
#Numero de simulaciones
nSim=50000
n=c(n1,n2,n3)
N=n1+n2+n3
T<-rep(0,nSim)
x=1:N
for (i in 1:nSim){
s=sample(x,N)
R=c(sum(s[1:n1]),sum(s[(n1+1):(n1+n2)]),sum(s[(n1+n2+1):N]) )
T[i]=12/(N*(N+1))*(sum(R^2/n))-3*(N+1)
}
######################################
#Graficamos la distribucion exacta #
######################################
par(mfrow = c(1, 2))
plot(as.numeric(names(table(T))),table(T)/nSim,type="h",lwd=2,
col="blue",ylab="Probabilidad",main="Densidad Kruskall", xlab="T")
points(as.numeric(names(table(T))), table(T)/nSim,pch=16,cex=2,col="dark red")
f<-ecdf(T)
plot(f,main="Exacta vs Aproximacion")
curve(pchisq(x,k-1),add=TRUE,col=2,lwd=3)
Densidad Kruskall Exacta vs Aproximacion
0.8
Probabilidad
Fn(x)
0.4
0.0
0
0 2 4 6 8 0 2 4 6 8
T x
1.2.3. Prueba Wilcoxon

La prueba Wilcoxon es un test similar a la prueba del signo pero tiene la ventaja de ser más
potente porque toma en cuenta las magnitudes de las diferencias y no sólo el signo.
Como insumos de la prueba supondremos entonces que recibimos una muestra bivariada de
la forma (Xi , Yi ). La prueba del signo sabemos que ataca el problema analizando los signos de
la diferencia Yi − Xi , la idea que ahora propone Wilcoxon es no sólo fijarnos en el signo sino
también en los rangos de las diferencia.
Prueba de dos colas
Nuevamente estamos interesados en la hipótesis:
H0 : FX (x) = GY (x) vs H1 : FX (x) 6= GY x
O visto en términos de medias (suponiendo que existen)
H0 : E(X) = E(Y ) vs H1 : E(X) 6= E(Y )
Dada (X1 , Y1 ), . . . , (Xn , Yn ) una muestra bivariada, la metodologı́a es la siguiente:
Para cada pareja (Xi , Yi ), definir la diferencia Di = Yi − Xi

En caso de haber empates (Di = 0), eliminarlos de la muestra bivariada quedandonos con
0
n observaciones
Asignar Rangos a la muestra formada por el valor absoluto de las Di , es decir, obtener
R (|D1 |) . . . , R (|Dn0 |)
Se define el estadı́stico de prueba:

0
n
X
T = R (|Di |) 1(Yi >Xi )
i=1
Observemos que T suma únicamente los rangos de las parejas con signo positivo, es decir, se
podrı́a decir que pondera el signo obtenido con el rango del valor absoluto. La prueba entonces
no sólo toma en cuenta el signo, sino también la magnitud de la diferencia en valor absoluto en
cada pareja (Xi , Yi ).
Notemos que si todas las diferencias son negativas Yi − Xi < 0 entonces T = 0 lo que irı́a en
contra de la hipótesis nula, mientras que si todos los signos son positivos Yi − Xi > 0 entonces T
0 0
tomarı́a el valor de n (n + 1)/2 lo que contradice H0 . La estadı́stica de prueba tomará valores
0 0
entre 0 y n (n + 1)/2 y se debe de rechazar H0 si:
T ≤ wα1 T > w1−α2
Donde wα1 y w1−α2 son los cuantiles de la correspondientes de la distribución de T los cuales
pueden ser consultados en la tabla 7 del libro de Conover. Afortundamanete dicha distribución es
simétrica por lo que se puede tomar α1 = α2 = α/2, no obstante hay que tener las consideraciones
pertinentes debido a la discretización de la estadı́stica T y encontrar el α más cercano que permita
la distribución.
La pregunta es, ¿cómo se distribuye T bajo H0 ?. Veamoslo con un ejemplo simple, supongamos
que tenemos un tamaño de muestra bivariada igual a 3, luego bajo el supuesto de que no hay
empates tendriamos 3 posibles rangos a asociar {1, 2, 3}, dichos rangos sabemos que pueden
aparecer en orden aleatorio sin embargo en esta prueba no nos interesa esta parte, de hecho
imaginemos que siempre ordenamos la muestra en función de los rangos, la parte importante
de la estadı́stica de prueba es que el estadı́stico sólo sumará Rangos que tengan una diferencia
positiva, ahora bien, como suponemos H0 cierta, se espera que los signos positivos aparezcan
con probabilidad 1/2, bajo este contexto entonces hay 23 posibles secuencias que pueden ocurrir
(todas con probabilidad 1/23 ) a continuacióon exihibimos todas las posibilidades con su respectivo
valor de la estadı́stica.
1 2 3 T
- - - 0
- - + 3
- + - 2
- + + 5
+ - - 1
+ - + 4
+ + - 3
+ + + 6
Entonces bajo H0 e la distribución de T es la siguiente:


1

 si k ∈ {0, 1, 2, 4, 5, 6}
8
2
P (T = k) = si k ∈ {3}
8

0 e.o.c

Desafortundamente cuando la muestra es grande el número de combinaciones crece de forma

importante lo que hace dificil encontrar la distribución exacta. Sin embargo dicha distribucón
puede ser simulada. A continuación presetamos el código en R para su simulación:
##########################################################
#Funcion que calcula la distirbucion Wicoxon bajo H_0 #
##########################################################
#Introduzca el numero de observaciones
n=5
#Numero de Simulaciones
m=100000
t<-rep(0,m)
y=1:n
for( i in 1:m){
s=sample(c(0,1),n,replace=TRUE)
t[i]=y%*%as.matrix(s)
}
plot(table(t)/m,type="h",lwd=2,col="blue",ylab="Probabilidad",main="Densidad Wilcoxon", xlab="T",ylim=c(0

points(0:(n*(n+1)/2), table(t)/m,pch=16,cex=2,col="dark red")
text(0:(n*(n+1)/2), table(t)/m, round(table(t)/m,3), pos=3, cex=0.7)
Densidad Wilcoxon
0.12
0.093 0.095 0.095 0.094 0.094 0.095

Probabilidad
0.063 0.063 0.062 0.062

0.06
0.03 0.031 0.031 0.031 0.03 0.03

0.00
0 1 2 3 4 5 6 7 8 9 10 12 14
Prueba de una cola
En este caso estamos interesado en probar:
H0 : E(X) = E(Y ) vs H1 : E(X) < E(Y )
H0 : E(X) ≥ E(Y ) vs H1 : E(X) < E(Y )
En la hipótesis alternativa nos interesa saber si X tiene a tomar valores más pequeños que Y ,
como Di = Yi − Xi entonces ver signos positivos son a favor de H1 , lo lógico entonces es rechazar
H0 si vemos un valor muy grande de T es decir, rechazamos H0 si:
T > w1−α
Por otro lado si nos interesa probar:
H0 : E(X) = E(Y ) vs H1 : E(X) > E(Y )
H0 : E(X) ≤ E(Y ) vs H1 : E(X) > E(Y )
Ahora ver signos negativos Di = Yi − Xi son a favor de H1 y por tanto lo lógico será rechazar
H0 si T toma valores pequeños por tanto rechazaremos H0 si:
T ≤ wα
Aproximación a la normalidad
Debido a la simetrı́a que tiene el estadı́stico de prueba es de esperarse que para muestras gran-
des se tenga una buena aproximación hacia la normalidad. Para llevar a cabo dicha aproximación
es necesario obtener la esperanza y varianza de T .
Se puede probar que (TAREA):
n(n + 1) n(n + 1)(2n + 1)

E(T ) = Var(T ) =
4 24
Por lo tanto la aproximación normal de T es:

aprox n(n + 1) n(n + 1)(2n + 1)
T ∼ N ,
4 24
Estandarizando se obtiene el estadı́stico:

n(n+1)
T− 4 aprox
Z=q ∼ N (0, 1)
n(n+1)(2n+1)
24
Luego entonces, se calcula el estadı́stico Z y se rechaza en función de los cuantiles de la normal

estandar.
1.2.4. Prueba de Friedman

Esta prueba es una generalización la de la prueba de Wilcoxon, el test se propone verificar
igualdad de medias en una muestra multivariada, es decir supondemos que recibimos una muestra
k-variada de tamaño n.
La muestra en este caso puede escribirse un una tabla de n × k
F1 (x) F2 (x) ... Fk (x)
X11 X21 ... Xk1

X12 X22 ... Xk2
.. .. ..
. . ... .
X1n X2n ... Xkn
En este caso una observación esta dada por el vector (X1i , X2i , . . . , Xki ).
Estaremos interesados en verificar la hipótesis:
H0 = F1 (x) = F2 (x) = . . . = Fk (x) vs H1 : Fi (x) 6= Fj (x) p.a. i 6= j

En donde nuevamente si imponemos la hipótesis de que las medias existen y que dos distribuciones
son distintas sólo por localizacion, entonces la hipótesis se puede plantear en terminos de media
como sigue:
H0 : E(X1 ) = . . . = E(Xn ) vs H1 : E(Xi ) 6= E(Xj ) p.a. i 6= j
El método propuesto por la prueba será nuevamente asignar Rangos a la muestra observada pero
por cada renglón en tabla. Es decir R(Xji ) será el Rango asociado a la observación j del renglon
i de tal forma que R(Xji ) es una v.a. que sólo puede tomar valores en el conjunto {1, 2, . . . , k}.
(Observe entonces que los rangos son asociados por renglon y en ningun momento se junta toda
la muestra)
Transformada la muestra obtendremos una tabla generada por los rangos asociados:
F1 (x) F2 (x) ... Fk (x)
R(X11 ) R(X21 ) ... R(Xk1 )

R(X12 ) R(X22 ) ... R(Xk2 )
.. .. ..
. . ... .
R(X1n ) R(X2n ) ... R(Xkn )
Ahora notemos que bajo H0 se espera que los rangos asociados por renglón sigan una distri-
bución uniforme discreta, es decir:
1 k+1
P (R(Xji ) = q) = j, q ∈ {1, 2, . . . , k} ⇒ E(R(Xji )) =
k 2
Lo anterior es valido para cada renglón, es decir para i ∈ {1, 2, . . . , n}. Como además suponemos
m.a. del vector multivariado, entonces sabemos que los rangos asociados de renglón a renglón
son independientes también, es decir:
R(Xji1 ) ⊥ R(Xji2 ) i1 , i2 ∈ {1, 2, . . . , n}
Una vez tranformada la muestra definamos la suma de rangos por columna:

n
X
Rj = R(Xji )
i=1
Observemos que si existe un j tal que la población j tienda a tomar valores más grandes
que los demás, entonces se deberá observar que Rj toma valores grandes lo que irı́a en contra
de la hipótesis nula. Se propone entonces una estadı́stica que mida la dicrepancia de Rj con su
respectivo valor esperado.
Para definir la estadı́stica de prueba primero calculemos la media y la varianza de Rj
n
! n n
X X X k+1 n(k + 1)
E(Rj ) = E R(Xji ) = E(R(Xji )) = =
i=1 i=1 i=1
2 2
Por otro lado la varianza es (TAREA):
n(k + 1)(k − 1)
Var(Rj ) =
12
Entoneces suponiendo una muestra grande tenemos que:
Rj − E(Rj ) Rj − n(k+1)
2 aprox
p =q ∼ N (0, 1)
Var(Rj ) n(k+1)(k−1)
12
Por lo tanto:  2
n(k+1)
R − aprox
 qj 2  ∼ χ2(1)
n(k+1)(k−1)
12
Si las v.a. R1 , . . . , Rk fueran independientes podrı́amos concluir que:

2
n(k+1)
k
X Rj − 2 aprox
n(k+1)(k−1)
∼ χ2(k) (1.1)
j=1 12
Sin embargo, sabemos que R1 , . . . , Rk son dependientes, de hecho algo que tiene que ocurrir es que
Pk nk(k+1)
j=1 Rj = 2
por lo tanto no podemos argumentar independencia y asumir la distribución
χ2(k) .
El aporte que hizo Friedman fue probar que si se multiplica a cada sumando en (1.1) por el
factor k−1
k
entonces si se obtiene una distribución χ2 pero se pierde un grado de libertad, por lo
tanto Friedman define el siguiente estadı́stico de prueba:
2
n(k+1)
k − 1 Rj −
k k 2
X 2 12 X n(k + 1) aprox 2
T = n(k+1)(k−1)
= Rj − ∼ χ(k−1)
j=1
k nk(k + 1) j=1 2
12
Luego entonces la idea para rechazar H0 es fácil, se propone rechazar H0 a un nivel de significancia
α si:
(1−α)
T > χ2(k−1)
(1−α)
Con χ2(k−1) el cuantil 1 − α de una distribución χ2 con k − 1 grados de libertad.
Se puede probar además que una forma más comoda (computacionalmente) del es estadı́stico
de prueba es:
k
12 X
T = R2 − 3n(k + 1)
nk(k + 1) j=1 j
Desafortunamente la distribución es aproximada por lo que resulta necesario tener la distri-

bución exacta para n pequeña.
A continuación se presenta el código en R que simula la distribución del estadı́stico de prueba,
la idea es simular en cada uno de los n renglones un muestreo aleatorio sin reemplazo de una
población de tamaño k.
###################################################
#Programa que calcula la distribucion Friedman #
###################################################
#Introduce k el numero de grupos o dimension del vector
par(mfrow = c(1, 2))
k=3
#Introduce el numero de muestras
n=5
#Introduce el numero de simulaciones
nSim=100000
M=matrix(0,n,k)
R=0
T<-rep(0,nSim)
for (i in 1:nSim){
for (j in 1:n){
M[j,]=sample(1:k,k,replace=FALSE)
}
for (l in 1:k){
R[l]=sum(M[,l])
}
T[i]=12/((n*l)*(l+1))*sum(R^2)-3*n*(k+1)
}
plot(as.numeric(names(table(T))),table(T)/nSim,type="h",lwd=2,
col="blue",ylab="Probabilidad",main="Densidad Friedman", xlab="T",ylim=c(0,0.3))
points(as.numeric(names(table(T))), table(T)/nSim,pch=16,cex=2,col="dark red")
text(as.numeric(names(table(T))), table(T)/nSim, round(table(T)/nSim,3), pos=3, cex=0.7)
f<-ecdf(T)
plot(f,main="Exacta vs Aproximacion")
curve(pchisq(x,k-1),add=TRUE,col=2,lwd=3)
Densidad Friedman Exacta vs Aproximacion
0.26
0.8
Probabilidad
0.186
0.172
0.153
Fn(x)
0.4
0.047 0.0590.053
0.031
0.015
0.015
0.0080.001 0.0
0
0 2 4 6 8 10 0 2 4 6 8 10
T x

Notas Pruebas No Parametricas

Cargado por

Copyright:

Formatos disponibles

Notas Pruebas No Parametricas

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Notas Pruebas No Parametricas

Cargado por

Copyright:

Formatos disponibles

Capı́tulo 1

Pruebas basadas en la distribución Binomial.

Pruebas basadas en Rango.

1.1. Pruebas basadas en la distribución Binomial

1.1.1. Prueba para proporciones

Prueba de dos colas

Se define el estadı́stico de prueba:

Donde α1 + α2 = α. En este caso debido a que la distribución es discreta, difı́cilmente lograremos

Distribucion Binomial B(10,1/3)

Supongamos que nos piden rechazar un nivel de significancia α, entonces encontraremos α1

Por lo tanto se escoge α1 = P (T ∈ {0}) = 0.017 y α2 = P (T ∈ {7, 8, 9, 10}) = 0.019. Entonces

alpha <- 0.05

Prueba de una cola

Donde w1−α es el cuantı́l 1 − α de una distribución Binomial(n, p∗ )

Distribucion Binomial B(10,1/3)

Visto en una tabla

En este caso, acumulando de derecha a izquierda obtenemos que cuando llegamos a T = 6 la

En este caso, tenemos que a un α = 5 % la prueba más adeacuada es rechazar H0 si

Finalmente, si ahora nos planteamos la hipótesis de la otra cola:

1.1.2. Prueba del cuantil

Es decir xq es el punto en el cual la variable aleatoria X acumula exactamente q de probabilidad.

Prueba de dos colas

Nuevamente supondremos que tenemos como entrada X1 , . . . , Xn una m.a. de la distribución

1(Xi ≤x∗q ) ∼ Bernoulli(P Xi ≤ x∗q ) = Bernoulli(P (Xi ≤ xq )) = Bernoulli(q)

Supongamos que recibimos la siguiente muestra de tamaño 15

Estamos interesados en construir un intervalo para la mediana, entonces lo primeroque procede

Analizando el gráfico observamos que la zona de rechazo es:

Con una confianza del 0.9648438

Prueba de una cola

H0 : xq = x∗q vs H1 : xq > x∗q

Donde wα es el cuantil α de la distribución Binomial(n, q)

De forma análoga, en la prueba para la otra cola es:

H0 : xq = x∗q vs H1 : xq < x∗q

Donde, nuevamante w1−α es el cuantil 1 − α de la distribución Binomial(n, q).

1.1.3. Prueba del Signo

H0 : M ed(X) = M ed(Y ) vs H1 : M ed(X) 6= M ed(Y )

H0 : M ed(X) ≤ M ed(Y ) vs H1 : M ed(X) > M ed(Y )

Pruebas de dos colas

Suponga que se plantea lo siguiente:

H0 : M ed(X) = M ed(Y ) vs H1 : M ed(X) 6= M ed(Y )

Entonces la muestra bivariada es tranformada en una muestra univariada Z1 = Y1 −X1 , . . . , Zn =

Entonces por lo anterior, la prueba de hipótesis se transforma en:

Donde α1 + α2 = α. Afortunadamente en este caso tenemos que el estadı́stico de prueba tiene

Pruebas de una cola

H0 : M ed(X) = M ed(Y ) vs H1 : M ed(X) < M ed(Y )

Donde w1−α es el cuantil α de la distribución Binomial(n, 0.5)

H0 : M ed(X) = M ed(Y ) vs H1 : M ed(X) > M ed(Y )

Donde wα es el cuantil α de la distribución Binomial(n, 0.5). Donde nuevamente se tiene que

1.1.4. Prueba de McNemar

0 a=# número de (0,0) b=# número de (0,1)

T = b = número de observaciones de la forma (0,1)

Simplificando el estadı́stico toma la forma:

1.1.5. Prueba Cox and Stuart

Prueba de dos Colas

Dada X1 , . . . , Xn se pretende contrastar:

H0 : Los datos no tienen tendencia

Con la muestra generamos las parejas (Xi , Xi+c ), definimos la estadı́stica:

T = # de signos positivos en la diferencia (Xi+c − Xi )

Donde α1 + α2 = α y wα1 , w1−α2 los cuantiles α1 y 1 − α2 correspondientes de la distribución