Arias Benítez Miguel TFG
Arias Benítez Miguel TFG
Arias Benítez Miguel TFG
aplicaciones
FACULTAD DE MATEMÁTICAS
DEPARTAMENTO DE ESTADÍSTICA E INVESTIGACIÓN OPERATIVA
Junio 2018
“It only ends once. Anything that happens before that is just progress.”
Jacob, Lost.
Índice general
Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v
Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vii
3. Modelado en R 23
3.1. Librerı́a “ordinal” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2. Ejemplo en R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2.1. Datos wine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2.2. Predicciones sobre wine . . . . . . . . . . . . . . . . . . . . . . . . 30
4. Ejemplos Reales 31
4.1. Regresión Logı́stica Ordinal Aplicada a la Identificación de Factores de
Riesgo para Cáncer de Cuello Uterino . . . . . . . . . . . . . . . . . . . . 31
iii
iv
Bibliografı́a 33
Resumen
El objetivo de este trabajo es la construcción de una base teórica con la que formular
y desarrollar la forma general de algunos modelos de regresión ordinal, a su vez que moti-
var el estudio con una serie de ejemplos reales donde se emplearon los métodos descritos.
Por último, en el capı́tulo cuarto, se describen una serie de estudios reales de diversas
ı́ndoles sobre los que se aplicaron métodos de regresión ordinales con el objetivo de
extraer una serie de conclusiones, por ejemplo, para la identificación de factores de
riesgo en el cáncer de cuello uterino.
v
Summary
The main objective of this work is the construction of a theoretical basis with which
to formulate and develop the general form of some models of ordinal regression, at the
same time as motivating the study with some real examples where the described met-
hods were used.
For this, as an introduction, in the first chapter some theoretical concepts on the
statistical idea of regression are exposed; from the definition and some concepts of the
multinomial distribution, to a brief description of the model that we will take as a base,
the Generalized Linear Model.
In the second chapter we present the Proportional Odds Model, also known as the
Accumulated Logit Model. First, the bivariate case is studied and illustrated for its ex-
tension to k variables, where the probability function and its residuals are presented,
while the parameters are estimated and confidence intervals are constructed.
In the third chapter we will work on a set of data in R to illustrate the construc-
tion and the results when applying the regression techniques described. The data used
represent an experiment on certain factors that determine the bitterness in the wine; in
our case, the temperature and the contact between the juice and the skins of the grapes
when it is extracted from them.
Finally, in the fourth chapter, we describe some real studies of various types on which
ordinal regression methods were applied in order to dig out a series of conclusions, for
example, for the identification of risk factors in cancer of the cervix.
vii
Capı́tulo 1
Introducción a la Regresión
Categórica
Mas allá de la regresión clásica binaria, existen otros casos en los que la variable
objetivo cualitativa toma valores en diferentes grupos o modalidades. Cuando estos estén
configurados de forma ordinal surge el problema que se tratará en este trabajo.
Este tipo de variables categóricas las encontraremos en muchos problemas reales; por
ejemplo, los ciudadanos que votan a una serie de partidos polı́ticos y a su vez valoran a
sus lı́deres. En el primer caso no hay orden entre las categorı́as creadas y en el segundo,
en cambio, sı́ lo hay.
n
m! Pn
π1y1 · ... · πnyn (1 −
X
f (y|π) = Pn πi )m− i=1 yi . (1.1)
y1 ! · ... · yn !(m − i=1 yi )!
i=1
Una variable aleatoria N-dimensional Y = (Y1 , ..., Yn ) se dice que sigue una distribu-
ción multinomial de parámetros m y π1 , ..., πn si su función de probabilidad viene dada
por la expresión 1.1 y se denotará por:
y ∼ M(m, π)
De donde se deduce:
1
2 Introducción a la Regresión Categórica
mπ1 π1 (1 − π1 ) · · · −π1 πc
E(y) = mπ = ... , Cov(y) = m .. .. ..
.
. . .
mπc −πc π1 · · · πc (1 − πc )
2. La distribución de todas las Yi0 s son de la misma forma; por ejemplo, todas norma-
les o todas binomiales, es por esto que los subı́ndices en b,c y d no son necesarios.
Entonces tenemos, la función de densidad conjunta de las variables Y1 , ...Yn es:
n
Y
f (y1 , ..., yn ; θ1 , ..., θn ) = exp[yi b(θi ) + c(θi ) + d(yi )]
i=1
n
X n
X n
X
= exp yi b(θi ) + c(θi ) + d(yi ) .
i=1 i=1 i=1
Los parámetros θi no son de interés a menos que sean distintos para cada una de las
observaciones. Para modelar estaremos interesados en un pequeño conjunto de parame-
tros β1 , ..., βp (donde p < n). Suponiendo que E(Yi ) = µi , donde µi es una función de θi .
Para cada modelo lineal generalizado hay una transformación de µi tal que:
g(µi ) = xTi β.
En esta ecuación:
xip
y
4 Introducción a la Regresión Categórica
β1
β es el (p x 1) vector de parámetros β = ... . El vector xTi es la i-ésima fila de
βp
la matriz diseño X.
Entonces, un modelo lineal generalizado tiene 3 componentes:
1. Las variables respuesta Y1 , ..., Yn , sobre las cuales se supone que comparten la
misma distribución de la familia exponencial.
xt1
x11 · · · x1p
X = ... = ... .. .. ;
. .
xTn xn1 · · · xnp
g(µi ) = xTi β,
donde
µi = E(Yi ).
Sea la muestra y1 , ..., yn junto con las covariantes x1 , ..., xn maximizaremos la ve-
rosimilitud para obtener un estimador del vector de parámetros desconocidos β en el
modelo:
donde
µi (β) = h(xti β)
σ 2 (β) = a(φ)v(h(xt β))
i i
V (µ) = ∂ 2 b(θ)/∂σ 2
Di (β) = ∂h(xti β)/∂η con ηi = xti β
Para las funciones de enlace naturales σ(µi ) = xti β, las matrices se simplifican de la
forma:
1 X
s(β) = xi [yi − µi (β)]
a(φ)
i
1 X
F (β) = V (µi (β))xi xti F (β) = Fobs (β)
a(φ)
i
Obteniendo a través de estos métodos las estimaciones de los parámetros del mo-
delo β̂, estas estimaciones máximo-verosı́miles tienen las propiedades de consistencia,
eficiencia asintótica y distribución normal asintótica.
Introducción a la Regresión Categórica 7
1 X [yi − µi (β̂)]2
φ̂ =
n−p v(µi (β̂))
i
Coeficiente de determinación R2 :
La medida R2 se define como la proporción de la varianza total de la variable
explicada por la regresión. El R2 , también llamado coeficiente de determinación,
refleja la bondad del ajuste de un modelo a la variable que pretender explicar.
Este coeficiente viene dado por:
D(y, µ̂)
R2 = 1 −
D(y, µ̂0 )
donde D(y, µ̂) y D(y, µ̂0 ) son las funciones de desviación del modelo ajustado y
nulo respectivamente. Se verifica que 0 ≤ R2 ≤ 1
AIC = k − 2ln(L̂)
Ho : Cβ = ξ
H1 : Cβ 6= ξ
Para este procedimiento se puede usar el Estadı́stico de Wald entre otros. Éste se
basa en la distribución asintótica del vector β̂ y está definido por:
Asintóticamente y bajo hipótesis nula este estadı́stico se distribuye como una distri-
bución Chi-cuadrado con s grados de libertad χ2s
Usando este estadı́stico, una región de confianza para β con un nivel de confianza
del 100(1 − α) % viene dada por:
1.2.4. Residuos
En la práctica podemos encontrar el problema de que aún habiendo escogido cuida-
dosamente un modelo, al ajustarlo a un conjunto de datos el resultado sea insatisfactorio.
Como en la regresión lineal, los residuos son los utilizados para verificar esta adecua-
ción del modelo. Expresan la discrepancia entre una observacción y su valor ajustado y
también pueden indicar la presencia de valores anómalos que puedan requerir un estudio
más concreto. Entre otros residuos los más destacados son:
El residuo básico:
El residuo de Pearson:
yi − µ̂i
rip = q con i = 1, ..., n
φ̂ V ar(µ̂i )
yi − µ̂i
rs pi = q con i = 1, ..., n
φ̂ V ar(µ̂i )(1 − hi )
∂µi 2
1
wi =
V ar(µi ) ∂η
El residuo desviación:
Se define como:
p
riD = sign(yi − µ̂i di i = 1, ..., n
0 riD
rs D
i = q
φ̂(1 − hi )
Se toma una categorı́a como respuesta base, por ejemplo la última categorı́a (C), y
se define un modelo logit con respecto a ella:
πc
log = αc + βc x
πC
donde c = 1, ..., C − 1.
El modelo tiene C − 1 ecuaciones con sus propios parámetros, y los efectos varı́an
con respecto la categorı́a que se ha tomado como base.
Cuando C = 2, el modelo equivale a una única ecuación log(π1 /π2 ) = logit(π1 ) y se
obtiene el modelo de regresión logı́stica estándar.
La ecuación general logit con respecto a la categorı́a base C determina también los logits
para cualquier pareja de categorı́as. Considerando c1 y c2 dos categorı́as cualesquiera
tenemos:
πc1 πc1 /πC πc1 πc2
log = log = log − log
πc2 πc2 /πC πC πC
= (αc1 − βc1 x) − (αc2 − βc2 x)
= (αc1 − αc2 ) + (βc1 − βc2 )x.
En este capı́tulo, la regresión logı́stica estándar será extendida para soportar varia-
bles respuesta que tengan más de dos categorı́as ordenadas. Cuando las categorı́as de la
variable respuesta tengan un orden natural la regresión logı́stica ordinal será la elegida
como forma más óptima de estudiar estos datos.
0 1 2 3 4
0 1 2 3 4
0 1 2 3 4
0 1 2 3 4
13
14 Modelos de regresión ordinal
Suponemos que tenemos una variable respuesta con cinco niveles y una variable expli-
cativa dicotómica (E = 0, E = 1). Entonces, bajo la suposición de odds proporcionales,
el odds ratio que compara categorı́as iguales o mayores que 1 y categorı́as menores que 1
es el mismo que el que compara categorı́as mayores o iguales a 4 con categorı́as menores
que 4. Formalmente:
el ejemplo anterior, para una realización dada de E (e.j. , E = 0), el odds que compara
categorı́as mayores o iguales a 1 con las menores no es igual al odds que compara
categorı́as mayores o iguales a 4 con las menores.
odds (D ≥ 1) 6= odds (D ≥ 4)
donde, para E = 0
P (D ≥ 1)|E = 0) P (D ≥ 4)|E = 0)
odds(D ≥ 1) = 6= = odds(D ≥ 4)
P (D ≥ 1)|E = 0) P (D ≥ 4)|E = 0)
pero
OR (D ≥ 1) = OR (D ≥ 4)
Por tanto, la probabilidad de que la variable respuesta esté en una categorı́a inferior
a g es:
exp[−(αg + β1 X1 )]
P (D < g |X1 ) =
1 + exp[−(αg + β1 X1 )]
El modelo puede ser definido equivalentemente en términos del odds de una desigual-
dad. Si sustituimos la formula P (D ≥ |X1 ) por la expresión para el odds entonces:
P (D ≥ g |X1 ) P (D ≥ g |X1 )
odds(D ≥ g |X1 ) = = =
1 − P (D ≥ g |X1 ) P (D < g |X1 )
= exp(αg + β1 X1 ) = eαg · eβ1 X1
16 Modelos de regresión ordinal
1
P (D ≥ g |X) = Pk , g = 1, 2, 3, ..., G − 1
1 + exp[−(αg + i=1 βi Xi )]
dado que
P odds 1
odds = ⇒ P = = 1 .
1−P odds + 1 1 + ( odds )
P (D = g) = P (D ≥ g) − P (D ≥ (g + 1))
donde:
1 si el i-ésimo individuo muestra Y = yj
δij =
0 en caso contrario
q
asint. −1
θ̂k,M V ∼ N θk , F̂kk
H0 : βk = 0
H1 : βk 6= 0
β̂ H β̂k2 H0
q k ∼0 N (0, 1), ó equivalentemente −1
∼ χ21
−1
F̂kk F̂kk
2.1.6. Residuos
Para el modelo de odds proporcional se puede analizar la contribución individual
de cada sujeto a la primera derivada de la función de log-probabilidad respecto a βm ,
promediándolos por separado según los niveles de Y , la variable objetivo, y examinando
las tendencias en las gráficos de los residuos. Este método es complejo ya que las gráficas
de los residuos no suelen ser fáciles de intepretar.
Yi − P̂i
rim = β̂m Xim + ,
P̂i (1 − P̂i )
donde
1
P̂i =
1 + exp [−(α + Xi β̂)]
Una gráfica más suave3 de Xim y rim proporciona una estimación no paramétrica
de cuanto influye Xm al log-odds relativo, que asume Y = 1 |Xm . Para una Y ordinal,
necesitamos simplemente repetir en cada corte de nivel g,
[Yi ≥ g] − P̂ig
ri m = β̂m Xim +
P̂ig (1 − P̂ig )
después se debe hacer una gráfica para cada m mostrando una curva suave para cada
g y buscar formas o pendientes similares para cada g con una variable predictora fija, cada
3
Más regular en el sentido de diferenciabilidad
20 Modelos de regresión ordinal
curva da una estimación de cuanto influye Xm al log-odds relativo tal que Y ≥ g. Dado
que los residuos parciales permiten el estudio de las transformaciones en las variables
predictoras (linealidad), al mismo tiempo que permiten el estudio sobre el modelo de odds
proporcional (paralelismo), generalmente se prefieren las gráficas de residuos parciales en
lugar de las llamadas gráficas de residuos score, para modelos ordinales.
1
P (Y = g |Y ≥ g, X) =
1 + exp [−(θj + Xγ )]
logit (Y = 0 |Y ≥ 0, X) = logit (Y = 0 |X)
= θ0 + Xγ
logit (Y = 1 |Y ≥ 1, X) = θ1 + Xγ
···
= θk−1 + Xγ
Se suele decir que el modelo CR ajusta las respuestas ordinales cuando los individuos
tienen que ”pasar a través de” una categorı́a para alcanzar la siguiente.4
OR = exp (βi )
Capı́tulo 3
Modelado en R
En este capı́tulo se aborda la aplicación del modelo objeto del presente trabajo desde
dos aspectos distintos:
clm
Ajusta mediante modelos acumulados como el modelo de odds proporcional. El mo-
delo permite varias funciones de enlace y umbrales estructurados que restringen
los puntos de corte equidistante o simetricamente dispuestos alrededor de los um-
brales centrales. Se usa una modificación del algoritmo de Newton para optimizar
la función de máxima verosimilitud.
Se pueden añadir estructuras determinadas para las distribución de los puntos de
corte.
A través de esta función podemos obtener los vectores de los coeficientes de regre-
sión, los vectores de las constantes α, las probabilidades ya ajustadas, etc.
anova.clm
Comparación de modelos acumulados a través de contrastes de razón de verosimi-
litudes.
23
24 Modelado en R
confint
Calcula intervalos de confianza a partir de la función de máxima verosimilitud de
uno o más parámetros.
Obtenemos una matriz donde sus columnas proporcionan los intervalos para cada
parámetro. También tiene la opción de crear la gráfica en el caso de que queramos
estudiarla en busca de problemas de linealidad.
convergence
Verifica la precisión de las estimaciones de los parámetros de los modelos acumula-
dos. El número correcto decimales y número de dı́gitos significativos se da para las
estimaciones de máxima verosimilitud de los parámetros en un modelo de enlace
acumulado creado con la función clm.
Se obtiene información sobre la convergencia, errores de estimación de los paráme-
tros estimados.
predict.clm
Se obtienen los valores esperados para un modelo previamente creado con la orden
clm. Requiere del modelo “clm” y de un “data frame” donde buscar las variables
con las que predecir.
Devuelve una lista con las predicciones o valores ajustados en el caso de que no se
le introduzca un “data frame” con las variables explicativas sobre las que apoyarse.
Ofrece la opción de que se muestren los intervalos de confianza y los errores.
Modelado en R 25
3.2. Ejemplo en R
3.2.1. Datos wine
Vamos a considerar los datos de acidez de ciertos vinos y los procesos seguidos en
Thompson [18], Fahrmeir y otros [7], Christensen [3] y basandonos en el ejemplo expuesto
en Christensen [5] se ilustrará en R el modelaje. Los datos de Randall (1989), disponibles
en el paquete “ordinal” de R, están presentados en el cuadro 3.1, disponible como el
conjunto de datos wine en el paquete ordinal.
library("ordinal")
data(wine)
head(wine)
str(wine)
Juez
Temperatura Contacto Botella 1 2 3 4 5 6 7 8 9
frı́o no 1 2 1 2 3 2 3 1 2 1
frı́o no 2 3 2 3 2 3 2 1 2 2
frı́o sı́ 3 3 1 3 3 4 3 2 2 3
frı́o sı́ 4 4 3 2 2 3 2 2 3 2
templado no 5 4 2 5 3 3 2 2 3 3
templado no 6 4 3 5 2 3 4 3 3 2
templado sı́ 7 5 5 4 5 3 5 2 3 4
templado sı́ 8 5 4 4 3 3 4 3 4 4
Cuadro 3.1: Calificaciones de la amargura de algunos vinos blancos. Los datos han sido
tomados de Randall (1989).
Con el comando clm modelizamos a partir del modelo de odds proporcionales pre-
viamente desarrollado, ajustado mediante el método de máxima verosmilitud
summary(fm1)
clm.control()$gradTol
## [1] 1e-06
Los coeficientes para la temperatura y el contacto son positivos, lo que indica que
una temperatura más alta y más contacto aumenta la amargura del vino, es decir, la
calificación en categorı́as superiores es más probable.
La odds ratio del suceso Y ≥ j es exp(βtratamiento ), por lo que la odds ratio de acidez
que clasifica en la categorı́a j o superior a temperaturas templadas frente a las frı́as es
28 Modelado en R
exp(coef(fm1)[5])
## tempwarm
## 12.22034
Los p-valores para los coeficientes de ubicación dados por el summary se basan en el
estadı́stico de Wald. Las pruebas de razón de verosimilitud proporcionan pruebas más
precisas. Estas se puede obtener con el método anova, por ejemplo, la prueba de ratios
de máxima verosimilitud del contacto es
drop1(fm1,test="Chi")
En este caso, estas últimas pruebas no son tan fuertes como las pruebas que controlan
la otra variable.
Los intervalos de confianza se obtienen a partir del comando confint como sigue
confint(fm1)
## 2.5 % 97.5 %
## tempwarm 1.5097627 3.595225
## contactyes 0.6157925 2.492404
confint(fm1, type="Wald")
## 2.5 % 97.5 %
## 1|2 -2.3578848 -0.330882
## 2|3 0.3925794 2.109038
## 3|4 2.2952980 4.638476
## 4|5 3.5738541 6.438954
## tempwarm 1.4669081 3.539296
## contactyes 0.5936345 2.461961
En resumen, el primer modelo que creamos supone que los {βj } son constantes para
todos los valores de las variables explicativas restantes, en nuestro ejemplo temperatura
y contacto. Esto se conoce como la suposición de odds proporcionales o suposición de
pendientes iguales.
pfm1=predict(fm1,type="class")
pfm1$fit[1:15]
## [1] 2 2 3 3 3 3 4 4 2 2 3 3 3 3 4
## Levels: 1 2 3 4 5
Digamos que solo queremos las predicciones para las cuatro posibles combinaciones
entre temperatura y contacto, entonces serı́a:
## temp contact 1 2 3 4 5
## 1 cold no 0.206790132 0.57064970 0.1922909 0.02361882 0.00665041
## 2 warm no 0.020887709 0.20141572 0.5015755 0.20049402 0.07562701
## 3 cold yes 0.053546010 0.37764614 0.4430599 0.09582084 0.02992711
## 4 warm yes 0.004608274 0.05380128 0.3042099 0.36359581 0.27378469
Los errores estándar y los intervalos de confianza para las predicciones también se
pueden calcular. Por ejemplo, para las primeras cuatro observaciones; las predicciones,
los errores estándar y los intervalos de confianza al 95 % serı́an:
Ejemplos Reales
Según los autores, la identificación de factores de riesgo para cáncer de cuello uterino
es determinante a la hora de establecer diagnósticos efectivos que, en un momento dado,
pueden ser determinantes para salvar vidas. Desde esta perspectiva se realizó este estudio
sobre una muestra constituida por 105 pacientes. En el estudio fue considerada como
variable objetivo el Cáncer de cuello uterino (CCU) y como variables explicativas los
factores relacionados con la paridad (Edad (ED), Número de Hijos Nacidos Vivos (NHV),
Número de Hijos Nacidos Muertos (NHM), tipo de parto (TP) y tipo de embarazo (TE)).
También se incluyeron las caracterı́sticas de la conducta sexual (Enfermedades venéreas
(EV)). De manera general se observa que el riesgo de tener cáncer de cuello uterino es
mayor cuando aumenta el número de hijos en partos por cesárea y se ha perdido un hijo.
31
32 Ejemplos Reales
Según los autores de este trabajo, la creciente preocupación por la calidad de los
alimentos manifestada por los consumidores se relaciona con la percepción de riesgos
reales o potenciales asociados a los métodos y a las tecnologı́as empleados en la produc-
ción y en el procesamiento de los mismos. Dicha preocupación se ve influenciada por la
información a la que acceden los consumidores, constituyendo un factor crı́tico de las
Ejemplos Reales 33
[1] A. Agresti. Categorical data analysis, volume 482. John Wiley & Sons, 2003.
[2] M. Alcaide. Modelo de regresión binominal negativa. 2015.
[3] R. Christensen. Analysis of ordinal data with cumulative link models—estimation
with the ordinal package. R-package version, 13:9–13, 2011.
[4] R. Christensen. ordinal—regression models for ordinal data. R package version,
28:2015–06, 2015.
[5] R. Christensen. A tutorial on fitting cumulative link models with the ordinal pac-
kage, 2015.
[6] A. J. Dobson and A. Barnett. An introduction to generalized linear models. CRC
press, 2008.
[7] L. Fahrmeir, T. Kneib, S. Lang, and B. Marx. Regression: models, methods and
applications. Springer Science & Business Media, 2013.
[8] J.W. Hardin, J.M. Hilbe, and J. Hilbe. Generalized linear models and extensions.
Stata press, 2007.
[9] F. E. Harrell. Ordinal logistic regression. In Regression modeling strategies, pages
331–343. Springer, 2001.
[10] J. Heredia, A. Rodrı́guez, and J. Vilalta. Predicción del rendimiento en una asig-
natura empleando la regresión logı́stica ordinal. Estudios pedagógicos (Valdivia),
40(1):145–162, 2014.
[11] D. Kleinbaum and M. Klein. Survival analysis, volume 3. Springer, 2010.
[12] D. Kleinbaum, M. Klein, and ER. Pryor. Logistic regression: a self-learning text.
2002.
[13] B. Lupı́n, M. Lacaze, and E. Rodrı́guez. Las percepciones de riesgo de los consu-
midores en alimentos lácteos: Aplicación de una regresión logı́stica ordinal. 2007.
[14] J.M. Marı́n. Regresión logı́stica multinomial. http://halweb.uc3m.es/esp/
Personal/personas/jmmarin/esp/Categor/Tema5Cate.pdf.
35
36 Ejemplos Reales
[15] P. McCullagh et al. Generalized linear models. CRC Monographs on Statistics &
Applied Probability, Springer Verlag, New York, 1989.
[16] E. Navarro, A. Verbel, D. Robles, and KR. Hurtado. Regresión logı́stica ordinal
aplicada a la identificación de factores de riesgo para cáncer de cuello uterino.
Ingeniare, 9(17):87–105, 2014.
[17] J.A. Nelder and R. J. Baker. Generalized linear models. Wiley Online Library, 1972.