Arias Benítez Miguel TFG

Regresión ordinal y sus
aplicaciones
FACULTAD DE MATEMÁTICAS
DEPARTAMENTO DE ESTADÍSTICA E INVESTIGACIÓN OPERATIVA
Dirigido por: Juan Manuel Muñoz Pichardo
Miguel Arias Benı́tez
Junio 2018
“It only ends once. Anything that happens before that is just progress.”
Jacob, Lost.
Índice general
Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v
Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vii
1. Introducción a la Regresión Categórica 1

1.1. Distribución Multinomial . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1. Familia exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Modelo lineal generalizado . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1. Estimación de los parámetros . . . . . . . . . . . . . . . . . . . . . 5
1.2.2. Bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.3. Regiones de confianza para β . . . . . . . . . . . . . . . . . . . . . 8
1.2.4. Residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3. Modelos logit para respuestas nominales . . . . . . . . . . . . . . . . . . . 11
2. Modelos de regresión ordinal 13

2.1. Modelo de Odds Proporcionales . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.1. Presentación del modelo . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.2. Odds Ratios e Intervalos de Confianza . . . . . . . . . . . . . . . . 16
2.1.3. Extensión del Modelo Ordinal a k variables . . . . . . . . . . . . . 17
2.1.4. Función de Probabilidad para el Modelo Ordinal . . . . . . . . . . 18
2.1.5. Estimación de parámetros . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.6. Residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2. Otros modelos ordinales de interés . . . . . . . . . . . . . . . . . . . . . . 20
2.2.1. Modelo de Ratios Continuados . . . . . . . . . . . . . . . . . . . . 20
2.2.2. Modelo Logit de Categorı́as Adyacentes . . . . . . . . . . . . . . . 20
3. Modelado en R 23
3.1. Librerı́a “ordinal” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2. Ejemplo en R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2.1. Datos wine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2.2. Predicciones sobre wine . . . . . . . . . . . . . . . . . . . . . . . . 30
4. Ejemplos Reales 31
4.1. Regresión Logı́stica Ordinal Aplicada a la Identificación de Factores de
Riesgo para Cáncer de Cuello Uterino . . . . . . . . . . . . . . . . . . . . 31
iii
iv
4.2. Predicción del rendimiento en una asignatura empleando la regresión

logı́stica ordinal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.3. El impacto de las relaciones interpersonales en la satisfacción laboral general 32
4.4. Las percepciones de riesgo de los consumidores en alimentos lácteos: apli-
cación de una regresión logı́stica ordinal . . . . . . . . . . . . . . . . . . . 32
Bibliografı́a 33
Resumen
El objetivo de este trabajo es la construcción de una base teórica con la que formular
y desarrollar la forma general de algunos modelos de regresión ordinal, a su vez que moti-
var el estudio con una serie de ejemplos reales donde se emplearon los métodos descritos.
Para ello, a modo de introducción en el primer capı́tulo, se exponen una serie de

conceptos teóricos sobre la idea estadı́stica de la regresión; desde la definición y algunos
conceptos de la distribución multinomial, hasta una descripción breve del modelo que
tomaremos como base, el Modelo Lineal Generalizado.
En el capı́tulo segundo se presenta el Modelo de Odds Proporcionales, también cono-

cido como Modelo Logit Acumulado. Primero se estudia e ilustra el caso bivariante para
posteriormente su extensión a k-variables, donde se presenta la función de probabilidad
y sus residuos, a su vez que se estiman los parámetros y se construyen los intervalos de
confianza.
En el tercer capı́tulo se trabajará sobre un conjunto de datos en R para ilustrar la

construcción y los resultados al aplicar las técnicas de regresión descritas en estos. Los
datos empleados representan un experimento sobre ciertos factores que determinan la
acidez en el vino; en nuestro caso, la temperatura y el contacto entre el zumo y las pieles
de las uvas cuando se extrae de ellas.
Por último, en el capı́tulo cuarto, se describen una serie de estudios reales de diversas
ı́ndoles sobre los que se aplicaron métodos de regresión ordinales con el objetivo de
extraer una serie de conclusiones, por ejemplo, para la identificación de factores de
riesgo en el cáncer de cuello uterino.
v
Summary
The main objective of this work is the construction of a theoretical basis with which
to formulate and develop the general form of some models of ordinal regression, at the
same time as motivating the study with some real examples where the described met-
hods were used.
For this, as an introduction, in the first chapter some theoretical concepts on the
statistical idea of regression are exposed; from the definition and some concepts of the
multinomial distribution, to a brief description of the model that we will take as a base,
the Generalized Linear Model.
In the second chapter we present the Proportional Odds Model, also known as the
Accumulated Logit Model. First, the bivariate case is studied and illustrated for its ex-
tension to k variables, where the probability function and its residuals are presented,
while the parameters are estimated and confidence intervals are constructed.
In the third chapter we will work on a set of data in R to illustrate the construc-
tion and the results when applying the regression techniques described. The data used
represent an experiment on certain factors that determine the bitterness in the wine; in
our case, the temperature and the contact between the juice and the skins of the grapes
when it is extracted from them.
Finally, in the fourth chapter, we describe some real studies of various types on which
ordinal regression methods were applied in order to dig out a series of conclusions, for
example, for the identification of risk factors in cancer of the cervix.
vii
Capı́tulo 1
Introducción a la Regresión
Categórica
Mas allá de la regresión clásica binaria, existen otros casos en los que la variable
objetivo cualitativa toma valores en diferentes grupos o modalidades. Cuando estos estén
configurados de forma ordinal surge el problema que se tratará en este trabajo.
Este tipo de variables categóricas las encontraremos en muchos problemas reales; por
ejemplo, los ciudadanos que votan a una serie de partidos polı́ticos y a su vez valoran a
sus lı́deres. En el primer caso no hay orden entre las categorı́as creadas y en el segundo,
en cambio, sı́ lo hay.
1.1. Distribución Multinomial

En cuanto la regresión, en el caso de tener más de dos variables X explicativas y una
variable objetivo no ordinal, nos será de capital importancia el uso de la distribución
multinomial; ya que esta aportará una generalización natural del modelo logı́stico binario
hacia otro donde la variable objetivo sea multicategórica.
Sea y = (y1 , ..., yn )0 un vector de observaciones dado, con yi ∈ {0, 1} variables binarias
y π = (π1 , ..., πn )0 el vector de probabilidades asociadas, la función de probabilidad para
un experimento aleatorio que se repite m veces viene dada por:
n
m! Pn
π1y1 · ... · πnyn (1 −
X
f (y|π) = Pn πi )m− i=1 yi . (1.1)
y1 ! · ... · yn !(m − i=1 yi )!
i=1
Una variable aleatoria N-dimensional Y = (Y1 , ..., Yn ) se dice que sigue una distribu-
ción multinomial de parámetros m y π1 , ..., πn si su función de probabilidad viene dada
por la expresión 1.1 y se denotará por:
y ∼ M(m, π)
De donde se deduce:
1
2 Introducción a la Regresión Categórica
   
mπ1 π1 (1 − π1 ) · · · −π1 πc
E(y) = mπ =  ...  , Cov(y) = m  .. .. ..
.
   
. . .
mπc −πc π1 · · · πc (1 − πc )
1.1.1. Familia exponencial

La distribución de una variable aleatoria Y, caracterizada por los parámetros θ y φ
pertecene a la familia exponencial si presenta la forma:

yθ − b(θ)
f (y; θ, φ) = exp + c(y, φ)
a(φ)
f () denota la función de probabilidad o de densidad en el caso en el que Y sea

discreta o continua respectivamente. θ es el parámetro canónico, φ el parámetro de
escala y a(φ),b(θ) y c(y, φ) son funciones especı́ficas de cada elemento de la familia. La
función a(φ) es comúnmente escrita como a(φ) = φ/ω, donde ω es una ponderación para
cada observación.
Se verifica:
∂b(θ) ∂ 2 b(θ)
E(Y ) = µ = b0 (θ) = ; V ar(Y ) = σ 2 = a(φ) = a(φ)V (µ).
∂θ ∂θ2
b0 (θ) y b00 (θ) son, respectivamente, la primera y segunda derivadas de b(θ) y donde
V (µ) se denomina función de varianza. Esta función relaciona E(y) y V ar(y).
A continuación se mostrará una tabla donde se resumen los elementos principales

que caracterizan a algunas de las distribuciones más usadas de la familia exponencial:
Distribuciones Rango de Y θ a(φ) b(θ) V (µ)

p
Binomial:B(n, p) {0, n} ln 1−p 1 nln(1 + exp(θ)) np(1 − p)
Gamma:G(µ, v) (0, ∞) −1/µ 1/v −ln(−θ) µ2
Normal:N (µ, σ 2 ) (−∞, ∞) µ σ2 θ2 /2 1
Poisson:P (µ) Ent[0, ∞) ln(µ) 1 exp(θ) µ
Introducción a la Regresión Categórica 3
1.2. Modelo lineal generalizado

La unificación de varios modelos estadı́sticos como el lineal, el logı́stico y el de Pois-
son fue realizada por Nelder y Wedderburn (1972) usando la idea de un modelo lineal
generalizado. Como se describe en Dobson y Barnet [6] y en Nelder y Baker [17] este
modelo está definido en términos de un conjunto de variable aleatorias independien-
tes Y1 , ...Yn , cada una de ellas con una distribución de la familia exponencial y con las
siguientes propiedades:
1. La distribución de cada una de las Yi tiene la forma estándar y depende de un

único parámetro θi (los θi0 s no tienen por qué ser iguales); entonces tenemos:
f (yi ; θi ) = exp[yi bi (θi ) + ci (θi ) + di (yi )].
2. La distribución de todas las Yi0 s son de la misma forma; por ejemplo, todas norma-
les o todas binomiales, es por esto que los subı́ndices en b,c y d no son necesarios.
Entonces tenemos, la función de densidad conjunta de las variables Y1 , ...Yn es:
n
Y
f (y1 , ..., yn ; θ1 , ..., θn ) = exp[yi b(θi ) + c(θi ) + d(yi )]
i=1
n
X n
X n
X
= exp yi b(θi ) + c(θi ) + d(yi ) .
i=1 i=1 i=1
Los parámetros θi no son de interés a menos que sean distintos para cada una de las
observaciones. Para modelar estaremos interesados en un pequeño conjunto de parame-
tros β1 , ..., βp (donde p < n). Suponiendo que E(Yi ) = µi , donde µi es una función de θi .
Para cada modelo lineal generalizado hay una transformación de µi tal que:
g(µi ) = xTi β.
En esta ecuación:
g es una función llamada función “enlace” o “link”, que es continua, monótona

en función de los valores de µi .
El vector xi es un (p x 1) vector de variables explicativas (covariables y variables

dummy para distintos niveles),
 
xi1
xi =  ...  entonces xTi = [xi1 · · · xip ]
 
xip
y
 
β1
β es el (p x 1) vector de parámetros β =  ... . El vector xTi es la i-ésima fila de
 
βp
la matriz diseño X.
Entonces, un modelo lineal generalizado tiene 3 componentes:
1. Las variables respuesta Y1 , ..., Yn , sobre las cuales se supone que comparten la
misma distribución de la familia exponencial.
2. Un conjunto de parámetros β y de variables explicativas
xt1
   
x11 · · · x1p
X =  ...  =  ... .. ..  ;
  
. . 
xTn xn1 · · · xnp
3. Una función link monótona g tal que
g(µi ) = xTi β,
donde
µi = E(Yi ).
Si queremos modelar una variable respuesta categórica, Y , de categorı́as y1 , ..., yc con un

conjunto de variables explicativas (factores o covariables) X = (X1 , ..., Xn ), mediante
un modelo lineal general, podemos plantearnos las opciones siguientes:
c ¿Y ordinal? Regresión Modelo

2 No importa Logı́stica f (P (Y = y2 |X)) = α + β 0 X
>3 No Multinomial f (P (Y = yj |Xi )) = αi + βj0 Xi

j = 2, ..., c ; i = 1, ..., n
>3 Sı́ Ordinal f (γj (X)) = f (P (Y ≤ yj |X)) = αj + β 0 X

j = 1, ..., c − 1
donde f () es la función de enlace (usualmente Logit, Log-Log o Probit), αj + β 0 X es el

predictor lineal y αj y β = (β1 , ..., βn )0 parámetros a estimar.
1.2.1. Estimación de los parámetros

Dos de los métodos más comunes en la estimación estadı́stica son el método de Mı́ni-
mos Cuadrados Ordinarios y el Método de Máxima Verosimilitud. Usaremos
este último ya que nos proporcionará las propiedades de consistencia y eficiencia asintóti-
ca (Vasconcellos y otros [19]) y procedemos como se describe en los primeros capı́tulos
de Hardin y otros [8]
Sea la muestra y1 , ..., yn junto con las covariantes x1 , ..., xn maximizaremos la ve-
rosimilitud para obtener un estimador del vector de parámetros desconocidos β en el
modelo:
E[Yi |Xi = xi ] = µi = h(xi , β)

Suponemos que el parámetro de escala φ es conocido y dado que aparece como factor
en la verosimilitud, puede considerarse φ = 1, sin pérdida de generalidad. Posteriormente
obtendremos un estimador de dicho parámetro mediante el método de los momentos.
Asumiendo que las distribuciones de cada componente de Y provienen de la familia

exponencial de la forma denotada anteriormente, escribimos la función de verosimilitud
como:
n
Y
L(θ; y) = f (y; θ) = fi (yi ; θ) con y = (y1 , ..., yn )0
i=1
Dado que las observaciones son independientes, la función log-verosimilitud viene
dada por:
n n
X X yi θi − b(θi )
l(θ, φ, y) = li (θi , φ, yi ) = + c(yi , φ)
a(φ)
i=1 i=1
La función c(yi , φ) que no depende de φi ha sido omitida. Añadiendo la relación
θi = θ(µi ) entre el parámetro natural y la esperanza de la i-ésima observación,
n n
X X yi θi (µi ) − b(βi (µi ))
l(µi , φ, y) = li (β, φ, yi ) =
a(φ)
i=1 i=1
Dada la relación entre la esperanza y el vector de parámetros µi = h(xi β), se tiene:

n n
yi βi (h(xti β)) − b(θi (h(xti β))
X X
l(β, φ, y) = li (β, φ, yi ) =
a(φ)
i=1 i=1
Su primera derivada es la denominada función score o función marcador:

∂l X
s(β) = = si (β)
∂β
i
Las contribuciones individuales a la función marcador son:

si (β) = xi Di (β)σi−2 (β)[yi − µi (β)]
donde
µi (β) = h(xti β)




 σ 2 (β) = a(φ)v(h(xt β))

i i


 V (µ) = ∂ 2 b(θ)/∂σ 2
Di (β) = ∂h(xti β)/∂η con ηi = xti β


Otros conceptos importantes a tener en cuenta en la estimación máximo-verosı́mil

del vector de parámetros son:
Matriz de información de Fisher esperada:

X
F (β) = Cov s(β) = Fi (β)
i
Fi (β) = xi xti wi (β) wi (β) = Di2 (β)σi−2 (β)
Matriz de Fisher observada:

∂ 2 l(β)
Fobs (β) = −
∂β∂β t
verificándose que F (β) = E(Fobs (β))
Para las funciones de enlace naturales σ(µi ) = xti β, las matrices se simplifican de la
forma:
1 X
s(β) = xi [yi − µi (β)]
a(φ)
i
1 X
F (β) = V (µi (β))xi xti F (β) = Fobs (β)
a(φ)
i
La obtención de la estimación de máxima-verosmilitud se plantea generalmente como

las soluciones de la ecuación de verosimiltud s(β̂) = 0 lo que corresponde a un máxi-
mo local, es decir, con la matriz de segundas derivadas Fobs (β̂) definida positiva. Las
ecuaciones resultantes no suelen ser lineales y para resolverlas necesitaremos de métodos
numéricos iterativos como el de Fisher Scoring o el de Mı́nimos Cuadrados Ponderados
Iterativos, cuyas iteraciones se definen a partir de un estimador inicial βˆ0 por:
β̂ (k+1) = β̂ (k) + F −1 (β̂ (k) )s(β̂ (k) ) con : k = 0, 1, 2, ...
Obteniendo a través de estos métodos las estimaciones de los parámetros del mo-
delo β̂, estas estimaciones máximo-verosı́miles tienen las propiedades de consistencia,
eficiencia asintótica y distribución normal asintótica.
En el caso en el que el parámetro de dispersión sea desconocido, se puede considerar

el siguiente estimador consistente:
1 X [yi − µi (β̂)]2
φ̂ =
n−p v(µi (β̂))
i
1.2.2. Bondad de ajuste

Una vez estimados los parámetros debemos valorar cuan bueno es nuestro modelo,
es decir valorar la discrepancia entre los datos observados y los datos esperados.
De esta manera, determinar cuantos términos son necesarios en la estructura lineal

para una descripción óptima de los datos intentando no saturarlo de variables explicativas
que harán un modelo bien ajustado pero de dificil comprensión ni, en caso contrario, un
defecto de variables que harán un modelo de fácil interpretación pero de pobre ajuste es
otro de los problemas que nos plantearemos.
Trataremos de constuir un modelo intermedio entre el modelo saturado y el modelo

nulo, donde el primero se refiere al modelo en el que el número de parámetros es igual
al número de observaciones (ninguna simplificación) y el segundo que es el modelo más
simple en el que solo se usa el parámetro µ, el valor esperado para todas las observaciones
(simplificación total, asume efecto nulo de las variables explicativas)
En el modelo lineal generalizado, la bondad de ajuste se puede evaluar de distintas

formas, entre ellas destacan:
La función o estadı́stico desviación
D(y; µ) = 2{l(y; y) − l(µ̂; y)}
Es la distancia entre el logaritmo de la función verosimilitud del modelo saturado

y el modelo con el que se está trabajando.
Un valor pequeño de la desviación indica que para un número menor de parámetros,
se obtiene un ajuste tan bueno como cuando se ajusta el modelo saturado.
Si el modelo es correcto el estadı́stico se distribuye asintóticamente segun una χ2n−p

con n − p grados de libertad [15].
D(y, µ̂) ∼ χ2n−p

Coeficiente de determinación R2 :
La medida R2 se define como la proporción de la varianza total de la variable
explicada por la regresión. El R2 , también llamado coeficiente de determinación,
refleja la bondad del ajuste de un modelo a la variable que pretender explicar.
Este coeficiente viene dado por:
D(y, µ̂)
R2 = 1 −
D(y, µ̂0 )
donde D(y, µ̂) y D(y, µ̂0 ) son las funciones de desviación del modelo ajustado y
nulo respectivamente. Se verifica que 0 ≤ R2 ≤ 1
Estadı́stico Chi-cuadrado de Pearson:

n
2
X (yi − µ̂i )2
χ =
V (µ̂i
i=1
donde V (µ̂) es la función varianza estimada para la distribución de la variable

objetivo.
En cuanto a lo que a procesos de seleción de modelos se refiere mencionaremos el

Criterio de información Akaike (AIC), en el caso general el AIC es:
AIC = k − 2ln(L̂)
donde k es el número de parámetros y L̂ es el máximo valor de la función de veros-

militud para el modelo estimado. El modelo se optimiza minimizando el valor de AIC,
este modelo recompensa la bondad de ajuste y penaliza el aumento de la cantidad de
parámetros estimados.
1.2.3. Regiones de confianza para β

A continuación construiremos un intervalo de confianza realizando inferencias sobre el
vector de parámetros desconocidos β de dimensión p, la mayoria de cuestiones consiguen
reformularse a traves de una hipótesis lineal de la forma Cβ, siendo C una matriz de
rango total s ≤ p y ξ un vector de constantes conocido de dimensión s
Ho : Cβ = ξ
H1 : Cβ 6= ξ
Para este procedimiento se puede usar el Estadı́stico de Wald entre otros. Éste se
basa en la distribución asintótica del vector β̂ y está definido por:
ξW = [C β̂ − ξ]T [CF −1 β̂(C)0 ][C β̂ − ξ]

determina la distancia ponderada entre el estimador C β̂ y su valor determinado por la

hipótesis nula.
F −1 (β̂) denota la estimación de la matriz de información de Fisher de β̂
Asintóticamente y bajo hipótesis nula este estadı́stico se distribuye como una distri-
bución Chi-cuadrado con s grados de libertad χ2s
Usando este estadı́stico, una región de confianza para β con un nivel de confianza
del 100(1 − α) % viene dada por:
{β ∈ Rp | (β̂ − β)T [V ar(β̂)]−1 (β̂ − β) < χ2p,1−α }
1.2.4. Residuos
En la práctica podemos encontrar el problema de que aún habiendo escogido cuida-
dosamente un modelo, al ajustarlo a un conjunto de datos el resultado sea insatisfactorio.
Las desviaciones sistemáticas se originan por haber escogido inadecuadamente la

función de enlace o las variables explicativas. Las diferencias aisladas pueden darse por
puntos extremos o porque estos realmente sean erróneos, éstos se conocen como outliers.
La comprobación de la adecuación del modelo es un requisito fundamental que se realiza
sobre el conjunto de datos para encontrar posibles fallos en las suposiciones hechas por
el modelo, ası́ como los outliers que puedan interferir desproporcionadamente en los
resultados del ajuste.
Como en la regresión lineal, los residuos son los utilizados para verificar esta adecua-
ción del modelo. Expresan la discrepancia entre una observacción y su valor ajustado y
también pueden indicar la presencia de valores anómalos que puedan requerir un estudio
más concreto. Entre otros residuos los más destacados son:
El residuo básico:
Definido como la diferecnia entre le valor observado, yi , de la variable respuesta y

el valor ajustado, yˆi , por el modelo.
rib = yi − yˆi con i = 1, ..., n

El residuo de Pearson:
Es la contribución individual al estadı́stico χ2 de Pearson, se define como:
yi − µ̂i
rip = q con i = 1, ..., n
φ̂ V ar(µ̂i )
siendo φ̂ un estimador consistente del parámetro escala φ.

Y su versión studentizada viene dada por:
yi − µ̂i
rs pi = q con i = 1, ..., n
φ̂ V ar(µ̂i )(1 − hi )
siendo hi el elemento diagonal de la matriz H, donde:
H = W 1/2 X(X T W X)−1 X T W 1/2
con W una matriz diagonal cuyos elementos de la diagonal principal son:
∂µi 2

1
wi =
V ar(µi ) ∂η
La ventaja de este residuo studentizado frente al anterior reside en que la captación

de la variabilidad de los datos es mejor debido a que usa el valor hi , este es útil
para medir la influencia de cada observación.
El residuo desviación:
Se define como:
p
riD = sign(yi − µ̂i di i = 1, ..., n
di es el llamado componente desviación, di = 2(l(yi , yi ) − l(µiˆ, yi )

Y su versión studentizada:
0 riD
rs D
i = q
φ̂(1 − hi )
donde hi es el i-ésimo elemento de la diagonal de la matriz H y φ̂ es la estimación

del parámetro de escala φ.
1.3. Modelos logit para respuestas nominales

Al igual que se describe en Marı́n [14], se denota C como el número de categorı́as
X de la
variable Y y {π1 , ..., πj } las probabilidades de cada respuesta, satisfaciendo πj = 1.
j
Se parte de n observaciones independientes extraidas. La distribución de probabili-

dad del número de observaciones de las C categorı́as sigue una distribución multinomial
tal y como nombramos anteriormente. Esta modeliza la probabilidad de cada una de las
posibles maneras en que n observaciones pueden repartirse entre C categorı́as.
Al ser la respuesta nominal, el orden entre las categorı́as es irrelevante; este es el proble-
ma central que trataremos más adelante.
Se toma una categorı́a como respuesta base, por ejemplo la última categorı́a (C), y
se define un modelo logit con respecto a ella:

πc
log = αc + βc x
πC
donde c = 1, ..., C − 1.
El modelo tiene C − 1 ecuaciones con sus propios parámetros, y los efectos varı́an
con respecto la categorı́a que se ha tomado como base.
Cuando C = 2, el modelo equivale a una única ecuación log(π1 /π2 ) = logit(π1 ) y se
obtiene el modelo de regresión logı́stica estándar.
La ecuación general logit con respecto a la categorı́a base C determina también los logits
para cualquier pareja de categorı́as. Considerando c1 y c2 dos categorı́as cualesquiera
tenemos:

πc1 πc1 /πC πc1 πc2
log = log = log − log
πc2 πc2 /πC πC πC
= (αc1 − βc1 x) − (αc2 − βc2 x)
= (αc1 − αc2 ) + (βc1 − βc2 )x.
De este modo, la ecuación para las categorı́as c1 y c2 tiene también la forma α + βx

donde α = (α = (αc1 − αc2 ) y β = (βc1 − βc2 )x
Capı́tulo 2
Modelos de regresión ordinal
En este capı́tulo, la regresión logı́stica estándar será extendida para soportar varia-
bles respuesta que tengan más de dos categorı́as ordenadas. Cuando las categorı́as de la
variable respuesta tengan un orden natural la regresión logı́stica ordinal será la elegida
como forma más óptima de estudiar estos datos.
Se estudiará la forma matemática general del modelo de regresión logı́stica ordinal,

ası́ como se desarrollará su interpretación, las fórmulas para la odds ratio, intervalos
de confianza, técnicas para tests de hipótesis y para el estudio de la significación de la
variable objetivo.
Para el desarrollo de este capı́tulo se ha utilizado diversa bibliografı́a recogida al

final de la memoria, especialmente Harrell [9], Kleinbaum y otros [12] y Kleinbaum y
Klein[11]
2.1. Modelo de Odds Proporcionales
El modelo logı́stico ordinal que se va a desarrollar es el llamado de Odds Proporciona-

les o modelo de odds proporcionales, también conocido como el Modelo Logit Acumulado.
Para ilustrar la idea del modelo odds proporcional asumimos que tenemos una variable
respuesta con cinco categorı́as y consideramos las cuatro posibles formas de dividirlas
en sólo dos categorı́as respetando el orden natural. Por ejemplo, todas estas divisiones
serı́an posibles respetando el orden:
0 1 2 3 4
0 1 2 3 4
0 1 2 3 4
0 1 2 3 4
13
14 Modelos de regresión ordinal
Generalmente, si una variable respuesta ordinal D tiene G categorı́as (D = 0, 1, 2, ..., G−

1), entonces hay G − 1 formas de dicotomizar la respuesta: (D ≥ 1 ó D < 1; D ≥ 2
ó D < 2, ..., D ≥ G − 1 ó D < G − 1). Para un suceso aleatorio S, se define su “odds”
o “ventaja” como la razón entre la probabilidad de ocurrencia y la probabilidad de no
ocurrencia.
Con la categorización de D, se puede definir la “odds” o “ventaja” de que D ≥ g
dividida por la probabilidad de que D < g, i.e.
P(D ≥ g)
odds (D ≥ g) = donde g = 1, 2, 3, ..., G − 1
P(D < g)
El modelo odds proporcional hace una importante suposición. Bajo este modelo, el
odds ratio que evalúa el efecto de una variable explicativa para cualquiera de las divisio-
nes o categorizaciones anteriores será el mismo independientemente de donde se realice
el punto de corte sobre las categorias.
Suponemos que tenemos una variable respuesta con cinco niveles y una variable expli-
cativa dicotómica (E = 0, E = 1). Entonces, bajo la suposición de odds proporcionales,
el odds ratio que compara categorı́as iguales o mayores que 1 y categorı́as menores que 1
es el mismo que el que compara categorı́as mayores o iguales a 4 con categorı́as menores
que 4. Formalmente:
odds [(D ≥ 1)|E = 1] odds [(D ≥ 4)|E = 1]

OR(D ≥ 1) = = = OR(D ≥ 4)
odds [(D ≥ 1)|E = 0] odds [(D ≥ 4)|E = 0]
En otras palabras, el odds ratio es invariante al punto utilizado para la dicotomiza-
ción.
Esto implica que si hay G categorı́as en la respuesta, solo hay un parámetro (β) para ca-
da una de las variables predictoras o explicativas. Sin embargo sigue habiendo constantes
separadas (αg ) para cada una de las G − 1 comparaciones.
Esto contrasta con la regresión logı́stica politómica1 , donde hay G − 1 parámetros
para cada variable predictora, ası́ como constantes separadas para cada una de las G − 1
comparaciones. En resumen:
Variable Parámetro Variable Parámetro

Constante α1 , α2 , ..., αG−1 Constante α1 , α2 , ..., αG−1
X1 β1 X1 β11 , β21 , ..., βG−1
Cuadro 2.1: Ordinal Cuadro 2.2: Politómica
La hipótesis de invarianza del odds ratio en cuanto a los puntos de corte no es la

misma que suponer que el odds dado para un patrón de exposición es invariante. Usando
1
No solo dicotómica, multi-categórica
Modelos de regresión ordinal 15
el ejemplo anterior, para una realización dada de E (e.j. , E = 0), el odds que compara
categorı́as mayores o iguales a 1 con las menores no es igual al odds que compara
categorı́as mayores o iguales a 4 con las menores.
odds (D ≥ 1) 6= odds (D ≥ 4)
donde, para E = 0
P (D ≥ 1)|E = 0) P (D ≥ 4)|E = 0)
odds(D ≥ 1) = 6= = odds(D ≥ 4)
P (D ≥ 1)|E = 0) P (D ≥ 4)|E = 0)
pero
OR (D ≥ 1) = OR (D ≥ 4)
2.1.1. Presentación del modelo

Procedemos ahora a presentar la forma del modelo odds proporcional con una res-
puesta D de G niveles (D = 0, 1, 2, ..., G − 1) y una variable explicativa X1 .El modelo
expresa la probabilidad de que la variable respuesta esté es una categorı́a igual o superior
a g en función de la variable explicativa X1 como sigue:
1
P (D ≥ g |X1 ) = , g = 1, 2, ..., G − 1
1 + exp[−(αg + β1 X1 )]
Por tanto, la probabilidad de que la variable respuesta esté en una categorı́a inferior
a g es:
exp[−(αg + β1 X1 )]
P (D < g |X1 ) =
1 + exp[−(αg + β1 X1 )]
El modelo puede ser definido equivalentemente en términos del odds de una desigual-
dad. Si sustituimos la formula P (D ≥ |X1 ) por la expresión para el odds entonces:
P (D ≥ g |X1 ) P (D ≥ g |X1 )
odds(D ≥ g |X1 ) = = =
1 − P (D ≥ g |X1 ) P (D < g |X1 )
= exp(αg + β1 X1 ) = eαg · eβ1 X1
El modelo de odds proporcional está escrito en términos diferentes al modelo logı́stico

estándar. El modelo se formula como la probabilidad de una desigualdad, esto es, que la
variable respuesta D sea mayor o igual a g.
Modelo Odds Proporcional Modelo Logı́stico Estándar

P (D ≥ g |X) P (D = g|X)
2.1.2. Odds Ratios e Intervalos de Confianza

Primero consideraremos el caso especial donde la variable explicativa X1 es la única
variable independiente y es dicotómica (X1 = 0 ó X1 = 1). Según lo recogido en el
apartado anterior, el odds que compara D ≥ g con D < g es exp(αg + β1 X1 ). Para
evaluar el efecto de la variable explicativa sobre la variable respuesta formulamos el
llamado odds ratio de D ≥ g para comparar X1 = 0 y X1 = 1 (i.e., el odds ratio para
X1 = 0 vs. X1 = 1).
odds(D ≥ g |X1 = 1) exp(αg + β1 )

OR(D ≥ g |X1 ) = = = eβ1
odds(D ≥ g |X1 = 0) exp(αg )
Es decir, la odds ratio es constante para cualquier punto de corte g considerado.
Además, el coeficiente β1 es:
β1 = log OR(D ≥ g |X1 ) ∀g
Análogamente, en el caso de X1 variable cuantitativa, la comparación entre dos

valores X1 y X1∗ de la misma:
OR(D ≥ g |X1 , X1∗ ) = exp β1 (X1∗ − X1 )

El cálculo del intervalo de confianza es equivalente al cálculo descrito en el Capı́tulo

1. Ası́, la fórmula general para un intervalo de confianza al 95 % de confianza para dos
cualesquiera niveles de la variable independiente X1 y X1∗ es el siguiente:

∗ ∗
IC 95 % = exp βˆ1 (X − X1 ) ± 1,96(X − X1 )s ˆ
1 1 β1
siento β̂ el estimador de máxima-verosimilitud del modelo y sβ̂ el error de estimación

del mismo.
2.1.3. Extensión del Modelo Ordinal a k variables

Expandir el modelo para añadir más variables explicativas se obtiene de forma di-
recta, basta expandir el predictor lineal.
Reprsentando por X el vector aleatorio de variables explicativas, el modelo se puede
expresar por:
1
P (D ≥ g |X) = Pk , g = 1, 2, 3, ..., G − 1
1 + exp[−(αg + i=1 βi Xi )]
El odds para la respuesta mayor o igual al nivel g serı́a el siguiente:

k
P (D ≥ g |X) X
odds(D ≥ g |X) = = exp (αg + βi Xj )
P (D < g |X)
i=1
Como en la regresión logı́stica estándar, el uso de múltiples variables independientes

permite la estimación del odds ratio para una variable controlando los efectos de las
demás variables explicativas del modelo.
OR = exp (βi ) Xi ∈ {0, 1}
Figura 2.1: Modelo de odds proporcionales sobre escala odds
La figura 2.1 muestra el modelo para G = 3 categorı́as y una variable continua

explicativa X
2.1.4. Función de Probabilidad para el Modelo Ordinal

A continuación, se recoge brevemente la deducción de la función de probabilidad para
el modelo de odds proporcional. Para formularla, necesitamos las probabilidades obser-
vadas en las respuestas para cada individuo. Una expresión para estas probabilidades
en términos de los parámetros que rigen el modelo puede ser obtenida por la relación
siguiente:
P = odds/(odds + 1), o la expresión equivalente P = 1/[1 + (1/odds)]
dado que
P odds 1
odds = ⇒ P = = 1 .
1−P odds + 1 1 + ( odds )
En el modelo de odds proporcional, modelamos la probabilidad de que D ≥ g. Para

obtener una expresión para la probabilidad de que D = g, podemos usar la relación:
P (D = g) = P (D ≥ g) − P (D ≥ (g + 1))
De esta forma, podemos calcular la probabilidad de que un individuo esté es una

categorı́a especı́fica para unas variables explicativas Xi dadas.
La Función de Probabilidad (L) se calcula tomando el producto de las contribu-

ciones individuales como sigue:

n G−1 1 si el j-ésimo sujeto cumple D = g
Y Y yjg =
L= P (D = g |X)yjg 0 c.c.
j=i g=0
2.1.5. Estimación de parámetros

Se puede estimar los parámetros del modelo por máxima verosimilitud, maximizando
la función de verosimilitud:
n g−1
Y δj1 δij
Y 1 1 1
L(α, β|Y, X) = · · · = 0 0 − 0
i=1 j=2
1 + e−(α1 +β Xj ) 1 + e−(αj +β Xj ) 1 + e−(αj−a +β Xj )
donde:

1 si el i-ésimo individuo muestra Y = yj
δij =
0 en caso contrario
De aquı́ por las propiedades de los estimadores de MV,2

2
F es la matriz de información de Fisher
q
asint. −1
θ̂k,M V ∼ N θk , F̂kk
Análogamente al Modelo Lineal Generalizado, se puede realizar la prueba de Wald para

resolver el contraste de hipótesis
H0 : βk = 0
H1 : βk 6= 0
con el estadı́stico de contraste
β̂ H β̂k2 H0
q k ∼0 N (0, 1), ó equivalentemente −1
∼ χ21
−1
F̂kk F̂kk
2.1.6. Residuos
Para el modelo de odds proporcional se puede analizar la contribución individual
de cada sujeto a la primera derivada de la función de log-probabilidad respecto a βm ,
promediándolos por separado según los niveles de Y , la variable objetivo, y examinando
las tendencias en las gráficos de los residuos. Este método es complejo ya que las gráficas
de los residuos no suelen ser fáciles de intepretar.
Los residuos parciales para el i-ésimo sujeto y la m-ésima variable explicativa se

definen como sigue
Yi − P̂i
rim = β̂m Xim + ,
P̂i (1 − P̂i )
donde
1
P̂i =
1 + exp [−(α + Xi β̂)]
Una gráfica más suave3 de Xim y rim proporciona una estimación no paramétrica
de cuanto influye Xm al log-odds relativo, que asume Y = 1 |Xm . Para una Y ordinal,
necesitamos simplemente repetir en cada corte de nivel g,
[Yi ≥ g] − P̂ig
ri m = β̂m Xim +
P̂ig (1 − P̂ig )
después se debe hacer una gráfica para cada m mostrando una curva suave para cada
g y buscar formas o pendientes similares para cada g con una variable predictora fija, cada
3
Más regular en el sentido de diferenciabilidad
curva da una estimación de cuanto influye Xm al log-odds relativo tal que Y ≥ g. Dado
que los residuos parciales permiten el estudio de las transformaciones en las variables
predictoras (linealidad), al mismo tiempo que permiten el estudio sobre el modelo de odds
proporcional (paralelismo), generalmente se prefieren las gráficas de residuos parciales en
lugar de las llamadas gráficas de residuos score, para modelos ordinales.
2.2. Otros modelos ordinales de interés

A continuación se expondrán brevemente otra serie de modelos ordinales a tener en
cuenta y que serán usados en el caso de que las condiciones y los datos sean idóneos para
éstos.
2.2.1. Modelo de Ratios Continuados

Al contrario que el modelo de odds proporcional, el cual está basado en probabilidades
acumuladas, el modelo de Ratios Continuados (CR) está basado en las probabilidades
condicionadas. El modelo CR queda determinado para Y = 0, ..., k de la siguiente forma:
1
P (Y = g |Y ≥ g, X) =
1 + exp [−(θj + Xγ )]
logit (Y = 0 |Y ≥ 0, X) = logit (Y = 0 |X)
= θ0 + Xγ
logit (Y = 1 |Y ≥ 1, X) = θ1 + Xγ
···
= θk−1 + Xγ
donde γ es el vector de coeficientes de regresión
Se suele decir que el modelo CR ajusta las respuestas ordinales cuando los individuos
tienen que ”pasar a través de” una categorı́a para alcanzar la siguiente.4
2.2.2. Modelo Logit de Categorı́as Adyacentes

Una alternativa al modelo de odds acumulado es considerar los ratios de las proba-
bilidades para sucesivas categorı́as, por ejemplo
π1 π2 πG−1
, , ...,
π2 π3 πG
4
El modelo CR es una versión discreta del Modelo de Riesgos Proporcionales de Cox
El modelo de categorı́as adyacentes es

πg
log = xTg βg
πg+1
Si se simplifica como

πg
log = β0g + β1 x1 + ... + βp−1 xp−1
πg+1
donde x = x1 , ..., xp es el vector formado por las variables explicativas que conforman
el modelo y β1 , ..., βp los coeficientes asociados a cada una de ellas.
Se asume que los efectos de cada variable explicativa sobre cada par de categorı́as
adyacentes es el mismo. Los coeficientes βi son usualmente interpretados como odds-
ratios usando la expresión previamente expuesta
OR = exp (βi )
Capı́tulo 3
Modelado en R
En este capı́tulo se aborda la aplicación del modelo objeto del presente trabajo desde
dos aspectos distintos:
La aplicación de los métodos de inferencia a través de la librerı́a “ordinal” de R.
Una ilustración de su aplicación e interpretación de resultados.
3.1. Librerı́a “ordinal”

Para el modelaje se usará la librerı́a “ordinal” [4], su objetivo consiste en la imple-
mentación del modelo de odds proporcionales [2.1] y otros modelos ordinales.
Las funciones máss relevantes para la regresión ordinal son:
clm
Ajusta mediante modelos acumulados como el modelo de odds proporcional. El mo-
delo permite varias funciones de enlace y umbrales estructurados que restringen
los puntos de corte equidistante o simetricamente dispuestos alrededor de los um-
brales centrales. Se usa una modificación del algoritmo de Newton para optimizar
la función de máxima verosimilitud.
Se pueden añadir estructuras determinadas para las distribución de los puntos de
corte.
A través de esta función podemos obtener los vectores de los coeficientes de regre-
sión, los vectores de las constantes α, las probabilidades ya ajustadas, etc.
anova.clm
Comparación de modelos acumulados a través de contrastes de razón de verosimi-
litudes.
23
24 Modelado en R
confint
Calcula intervalos de confianza a partir de la función de máxima verosimilitud de
uno o más parámetros.
Obtenemos una matriz donde sus columnas proporcionan los intervalos para cada
parámetro. También tiene la opción de crear la gráfica en el caso de que queramos
estudiarla en busca de problemas de linealidad.
convergence
Verifica la precisión de las estimaciones de los parámetros de los modelos acumula-
dos. El número correcto decimales y número de dı́gitos significativos se da para las
estimaciones de máxima verosimilitud de los parámetros en un modelo de enlace
acumulado creado con la función clm.
Se obtiene información sobre la convergencia, errores de estimación de los paráme-
tros estimados.
predict.clm
Se obtienen los valores esperados para un modelo previamente creado con la orden
clm. Requiere del modelo “clm” y de un “data frame” donde buscar las variables
con las que predecir.
Devuelve una lista con las predicciones o valores ajustados en el caso de que no se
le introduzca un “data frame” con las variables explicativas sobre las que apoyarse.
Ofrece la opción de que se muestren los intervalos de confianza y los errores.
Modelado en R 25
3.2. Ejemplo en R
3.2.1. Datos wine
Vamos a considerar los datos de acidez de ciertos vinos y los procesos seguidos en
Thompson [18], Fahrmeir y otros [7], Christensen [3] y basandonos en el ejemplo expuesto
en Christensen [5] se ilustrará en R el modelaje. Los datos de Randall (1989), disponibles
en el paquete “ordinal” de R, están presentados en el cuadro 3.1, disponible como el
conjunto de datos wine en el paquete ordinal.
library("ordinal")
data(wine)
head(wine)
## response rating temp contact bottle judge

## 1 36 2 cold no 1 1
## 2 48 3 cold no 2 1
## 3 47 3 cold yes 3 1
## 4 67 4 cold yes 4 1
## 5 77 4 warm no 5 1
## 6 60 4 warm no 6 1
str(wine)
## 'data.frame': 72 obs. of 6 variables:

## $ response: num 36 48 47 67 77 60 83 90 17 22 ...
## $ rating : Ord.factor w/ 5 levels "1"<"2"<"3"<"4"<..: 2 3 3 4 4 4 5 5 1 2 ...
## $ temp : Factor w/ 2 levels "cold","warm": 1 1 1 1 2 2 2 2 1 1 ...
## $ contact : Factor w/ 2 levels "no","yes": 1 1 2 2 1 1 2 2 1 1 ...
## $ bottle : Factor w/ 8 levels "1","2","3","4",..: 1 2 3 4 5 6 7 8 1 2 ...
## $ judge : Factor w/ 9 levels "1","2","3","4",..: 1 1 1 1 1 1 1 1 2 2 ...
El conjunto de datos representa un experimento sobre ciertos factores que determinan

la amargura del vino; donde 1 = “lo menos amargo” y 5 = “lo más amargo”, dos factores
de tratamiento (temperatura y contacto) cada una con dos niveles, la temperatura y
el contacto entre el zumo y las pieles de las uvas cuando se extrae de ellas. Nueve
jueces evaluaron cada vino de dos botellas para cada una de las cuatro condiciones de
tratamiento, por lo tanto, hay 72 observaciones en total. La variable objetivo Y a estudiar
será la variable “rating” ∈ {1, ..., 5} que es una categorización de la variable “response”
la cual califica la acidez de los vinos.
Vamos a ajustar el siguiente modelo acumulado para los datos wine:
logit(P (Yi ≤ j)) = θj − β1 (temperaturai ) − β2 (contactoi )

(3.1)
i = 1, ..., n j = 1, ..., J − 1
26 Modelado en R
Juez
Temperatura Contacto Botella 1 2 3 4 5 6 7 8 9
frı́o no 1 2 1 2 3 2 3 1 2 1
frı́o no 2 3 2 3 2 3 2 1 2 2
frı́o sı́ 3 3 1 3 3 4 3 2 2 3
frı́o sı́ 4 4 3 2 2 3 2 2 3 2
templado no 5 4 2 5 3 3 2 2 3 3
templado no 6 4 3 5 2 3 4 3 3 2
templado sı́ 7 5 5 4 5 3 5 2 3 4
templado sı́ 8 5 4 4 3 3 4 3 4 4
Cuadro 3.1: Calificaciones de la amargura de algunos vinos blancos. Los datos han sido
tomados de Randall (1989).
Este es un modelo para la probabilidad acumulada de que la calificación i-ésima caiga

sobre la categorı́a j-ésima o superior, donde i indica cada observación (n = 72) y los
ı́ndices j = 1, ..., J reflejan la categorı́a respuesta (J = 5).
El parámetro θj es el punto de corte para el j-ésimo modelo acumulado, logit(P (Yi ≤ j)).
Este modelo es el modelo de odds proporcional descrito en la sección 2.1 de este
trabajo.
Con el comando clm modelizamos a partir del modelo de odds proporcionales pre-
viamente desarrollado, ajustado mediante el método de máxima verosmilitud
fm1<-clm(rating ~ temp + contact, data=wine)

fm1
## formula: rating ~ temp + contact

## data: wine
##
## link threshold nobs logLik AIC niter max.grad cond.H
## logit flexible 72 -86.49 184.98 6(0) 4.02e-12 2.7e+01
##
## Coefficients:
## tempwarm contactyes
## 2.503 1.528
##
## Threshold coefficients:
## 1|2 2|3 3|4 4|5
## -1.344 1.251 3.467 5.006
Podemos obtener información adicional mediante summary

Modelado en R 27
summary(fm1)
## formula: rating ~ temp + contact

## data: wine
##
## link threshold nobs logLik AIC niter max.grad cond.H
## logit flexible 72 -86.49 184.98 6(0) 4.02e-12 2.7e+01
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## tempwarm 2.5031 0.5287 4.735 2.19e-06 ***
## contactyes 1.5278 0.4766 3.205 0.00135 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Threshold coefficients:
## Estimate Std. Error z value
## 1|2 -1.3444 0.5171 -2.600
## 2|3 1.2508 0.4379 2.857
## 3|4 3.4669 0.5978 5.800
## 4|5 5.0064 0.7309 6.850
El primer resultado es la tabla de coeficientes con estimaciones de parámetros, errores

estándar y los p-valores basados en el método de Wald. Las estimaciones mediante el
método de máxima verosmilitud para los parámetros son:
β̂1 = 2,50, β̂2 = 1,53, {θ̂j } = {−1,34, 1,25, 3,47, 5,01}

El número de iteraciones Newton-Raphson se da a continuación de niter. Tenemos
max.grad que es el gradiente absoluto máximo de la función de log-verosimilitud con
respecto a los parámetros. Un gradiente absoluto pequeño es una condición necesaria para
la convergencia del modelo. El procedimiento iterativo indicará convergencia siempre que
el gradiente absoluto máximo esté por debajo de
clm.control()$gradTol
## [1] 1e-06
Los coeficientes para la temperatura y el contacto son positivos, lo que indica que
una temperatura más alta y más contacto aumenta la amargura del vino, es decir, la
calificación en categorı́as superiores es más probable.
La odds ratio del suceso Y ≥ j es exp(βtratamiento ), por lo que la odds ratio de acidez
que clasifica en la categorı́a j o superior a temperaturas templadas frente a las frı́as es
28 Modelado en R
exp(coef(fm1)[5])
## tempwarm
## 12.22034
Los p-valores para los coeficientes de ubicación dados por el summary se basan en el
estadı́stico de Wald. Las pruebas de razón de verosimilitud proporcionan pruebas más
precisas. Estas se puede obtener con el método anova, por ejemplo, la prueba de ratios
de máxima verosimilitud del contacto es
fm2 <- clm(rating ~ temp, data=wine)

anova(fm2,fm1)
## Likelihood ratio tests of cumulative link models:

##
## formula: link: threshold:
## fm2 rating ~ temp logit flexible
## fm1 rating ~ temp + contact logit flexible
##
## no.par AIC logLik LR.stat df Pr(>Chisq)
## fm2 5 194.03 -92.013
## fm1 6 184.98 -86.492 11.043 1 0.0008902 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
que en este caso produce un p-valor ligeramente menor. De manera equivalente,

podemos usar Drop1 para obtener pruebas de razón de verosimilitud de las variables
explicativas mientras se controlan el resto variables:
drop1(fm1,test="Chi")
## Single term deletions

##
## Model:
## rating ~ temp + contact
## Df AIC LRT Pr(>Chi)
## <none> 184.98
## temp 1 209.91 26.928 2.112e-07 ***
## contact 1 194.03 11.043 0.0008902 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Las pruebas de razón de verosimilitud de las variables explicativas ignorando el resto

vienen dadas por el método add1 :
Modelado en R 29
fm0 <- clm(rating ~ 1,data=wine)

add1(fm0, scope = ~ temp + contact, test = "Chi")
## Single term additions

##
## Model:
## rating ~ 1
## Df AIC LRT Pr(>Chi)
## <none> 215.44
## temp 1 194.03 23.4113 1.308e-06 ***
## contact 1 209.91 7.5263 0.00608 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
En este caso, estas últimas pruebas no son tan fuertes como las pruebas que controlan
la otra variable.
Los intervalos de confianza se obtienen a partir del comando confint como sigue
confint(fm1)
## 2.5 % 97.5 %
## tempwarm 1.5097627 3.595225
## contactyes 0.6157925 2.492404
Estos se basan en los perfiles de la funcion de verosimilitud y generalmente son

bastante precisos. Menos preciso, pero más simple y con intervalos de confianza simétri-
cos basados en los errores estándar de los parámetros (también llamados, intervalos de
confianza de Wald) se obtienen con:
confint(fm1, type="Wald")
## 2.5 % 97.5 %
## 1|2 -2.3578848 -0.330882
## 2|3 0.3925794 2.109038
## 3|4 2.2952980 4.638476
## 4|5 3.5738541 6.438954
## tempwarm 1.4669081 3.539296
## contactyes 0.5936345 2.461961
Además del enlace logit, que es el predeterminado, el probit, el log-log, el log-log

complementario y el de cauchit también se pusen usar para el ajuste. Por ejemplo, un
modelo de odds proporcionales como el anterior pero con el enlace log-log serı́a:
30 Modelado en R
fm.cll <- clm(rating ~ contact + temp, data=wine, link="cloglog")
En resumen, el primer modelo que creamos supone que los {βj } son constantes para
todos los valores de las variables explicativas restantes, en nuestro ejemplo temperatura
y contacto. Esto se conoce como la suposición de odds proporcionales o suposición de
pendientes iguales.
3.2.2. Predicciones sobre wine

Los valores ajustados se obtienen con la orden fitted(fm1) y producen probabilidades
ajustadas, es decir, la i-ésima probabilidad ajustada serı́a la probabilidad de que la i-
ésima observación caiga sobre la categorı́a prevista. Las predicciones sobre qué categorı́a
respuesta tiene mas probabilidad sobre las que caer la i-ésima observación son:
pfm1=predict(fm1,type="class")
pfm1$fit[1:15]
## [1] 2 2 3 3 3 3 4 4 2 2 3 3 3 3 4
## Levels: 1 2 3 4 5
Digamos que solo queremos las predicciones para las cuatro posibles combinaciones
entre temperatura y contacto, entonces serı́a:
combinaciones <- expand.grid(temp=levels(wine$temp),

contact=levels(wine$contact))
cbind(combinaciones, predict(fm1, newdata=combinaciones)$fit)
## temp contact 1 2 3 4 5
## 1 cold no 0.206790132 0.57064970 0.1922909 0.02361882 0.00665041
## 2 warm no 0.020887709 0.20141572 0.5015755 0.20049402 0.07562701
## 3 cold yes 0.053546010 0.37764614 0.4430599 0.09582084 0.02992711
## 4 warm yes 0.004608274 0.05380128 0.3042099 0.36359581 0.27378469
Los errores estándar y los intervalos de confianza para las predicciones también se
pueden calcular. Por ejemplo, para las primeras cuatro observaciones; las predicciones,
los errores estándar y los intervalos de confianza al 95 % serı́an:
h=head(do.call("cbind", predict(fm1, se.fit=TRUE, interval=TRUE)))

h[1:4,]
## fit se.fit lwr upr

## [1,] 0.57064970 0.08683884 0.39887109 0.7269447
## [2,] 0.19229094 0.06388672 0.09609419 0.3477399
## [3,] 0.44305990 0.07939754 0.29746543 0.5991420
## [4,] 0.09582084 0.04257593 0.03887676 0.2173139
Capı́tulo 4
Ejemplos Reales
En esta sección se nombrarán y describirán brevemente algunas situaciones reales

que fueron estudiadas con modelos ordinales.
4.1. Regresión Logı́stica Ordinal Aplicada a la Identifica-

ción de Factores de Riesgo para Cáncer de Cuello Ute-
rino
Este estudio fue realizado por Evaristo Navarro, Anı́bal Verbel, Delia Robles y Ken-
nedy Hurtado, en Barranquilla, Colombia y publicado el 25 de Agosto de 2014. (Navarro
y otros [16])
Según los autores, la identificación de factores de riesgo para cáncer de cuello uterino
es determinante a la hora de establecer diagnósticos efectivos que, en un momento dado,
pueden ser determinantes para salvar vidas. Desde esta perspectiva se realizó este estudio
sobre una muestra constituida por 105 pacientes. En el estudio fue considerada como
variable objetivo el Cáncer de cuello uterino (CCU) y como variables explicativas los
factores relacionados con la paridad (Edad (ED), Número de Hijos Nacidos Vivos (NHV),
Número de Hijos Nacidos Muertos (NHM), tipo de parto (TP) y tipo de embarazo (TE)).
También se incluyeron las caracterı́sticas de la conducta sexual (Enfermedades venéreas
(EV)). De manera general se observa que el riesgo de tener cáncer de cuello uterino es
mayor cuando aumenta el número de hijos en partos por cesárea y se ha perdido un hijo.
4.2. Predicción del rendimiento en una asignatura emplean-

do la regresión logı́stica ordinal
Este estudio fue realizado por Jobany J. Heredia, Aida G. Rodrı́guez y José A. Vilalta,
llevado por el departamento de Ingenierı́a Industrial, Facultad de Ingenierı́a Industrial
del Instituto Superior Politécnico “José Antonio Echeverrı́a” en La Habana, Cuba. Año
de publicación, 2014. (Heredia y otros [10])
31
32 Ejemplos Reales
En las asignaturas donde el ı́ndice de fracaso es considerable, es fundamental que el

profesor posea información relevante sobre sus alumnos para desarrollar un tratamiento
especı́fico para cada uno de ellos. En el trabajo se emplea la regresión logı́stica ordinal
para construir una ecuación que relacione la puntuación en la asignatura Modelos Pro-
babilı́sticos de los Procesos (MPP), la cual se imparte en segundo año de la carrera de
Ingenierı́a Industrial, con sus resultados en primer año. Con los datos de 274 estudiantes
pertenecientes a dos cursos académicos distintos, se obtuvo como mejor modelo el que
relaciona la evaluación en MPP con la media del alumno en las asignaturas de ciencia
que recibe en primer año. Las probabilidades estimadas de este modelo se usaron co-
mo base para el desarrollo de un método que permitió mejorar la experiencia general y
califcación de los alumnos del curso posterior.
4.3. El impacto de las relaciones interpersonales en la sa-

tisfacción laboral general
Este estudio fue realizado por Rodrigo Yañez, Mallén Arenas y Miguel Ripoll en la
Universidad de Concepción, Concepción, Chile. Publicado en el año 2010. (Yañez y otros
[20])
Los autores evaluaron el impacto de las relaciones interpersonales en el trabajo en la

satisfacción laboral general. Primero, se construyó una escala para evaluar la satisfac-
ción con las relaciones interpersonales en el trabajo y se aplicó a 209 trabajadores de un
hospital. Un análisis factorial obtuvo una solución de dos factores y una adecuada con-
sistencia interna de los ı́tems. Posteriormente, se aplicó la escala a 321 trabajadores de 7
centros de salud. Utilizando una regresión logı́stica ordinal se obtuvo que las relaciones
interpersonales en el trabajo tienen un impacto significativo en la satisfacción laboral
general, especialmente, las relaciones con los jefes.
4.4. Las percepciones de riesgo de los consumidores en ali-

mentos lácteos: aplicación de una regresión logı́stica
ordinal
Este estudio fue realizado por Beatriz Lupı́n, Maria Victoria Lacaze y Elsa Mirta M.
Rodrı́guez, presentado en la XII Reunión Cientı́fica del Grupo Argentino de Biometrı́a
y I Encuentro Argentino-Chileno de Biometrı́a, San Martı́n de los Andes, Argentina en
Octubre de 2007. (Lupı́n y otros [13])
Según los autores de este trabajo, la creciente preocupación por la calidad de los
alimentos manifestada por los consumidores se relaciona con la percepción de riesgos
reales o potenciales asociados a los métodos y a las tecnologı́as empleados en la produc-
ción y en el procesamiento de los mismos. Dicha preocupación se ve influenciada por la
información a la que acceden los consumidores, constituyendo un factor crı́tico de las
Ejemplos Reales 33
decisiones de compra. El objetivo de este trabajo fue aplicar un método estadı́stico de

estimación que incorpora la naturaleza ordinal de la variable objetivo, a fin de analizar
la incidencia de los factores asociados a las percepciones de riesgo de los consumidores
en el caso de los alimentos lácteos. Las percepciones de riesgo para la salud derivadas
del contenido de conservantes en los productos lácteos (variable objetivo con tres niveles
de riesgo: alto, medio y bajo), interviniendo como variables explicativas las relacionadas
con la información sobre la calidad de los alimentos, los sistemas de regulación vigentes
y aspectos socio-demográficos de los consumidores. Los datos provienen de una encuesta
realizada a 301 consumidores, captados en la Ciudad de Buenos Aires, durante abril de
2005.
Bibliografı́a
[1] A. Agresti. Categorical data analysis, volume 482. John Wiley & Sons, 2003.
[2] M. Alcaide. Modelo de regresión binominal negativa. 2015.
[3] R. Christensen. Analysis of ordinal data with cumulative link models—estimation
with the ordinal package. R-package version, 13:9–13, 2011.
[4] R. Christensen. ordinal—regression models for ordinal data. R package version,
28:2015–06, 2015.
[5] R. Christensen. A tutorial on fitting cumulative link models with the ordinal pac-
kage, 2015.
[6] A. J. Dobson and A. Barnett. An introduction to generalized linear models. CRC
press, 2008.
[7] L. Fahrmeir, T. Kneib, S. Lang, and B. Marx. Regression: models, methods and
applications. Springer Science & Business Media, 2013.
[8] J.W. Hardin, J.M. Hilbe, and J. Hilbe. Generalized linear models and extensions.
Stata press, 2007.
[9] F. E. Harrell. Ordinal logistic regression. In Regression modeling strategies, pages
331–343. Springer, 2001.
[10] J. Heredia, A. Rodrı́guez, and J. Vilalta. Predicción del rendimiento en una asig-
natura empleando la regresión logı́stica ordinal. Estudios pedagógicos (Valdivia),
40(1):145–162, 2014.
[11] D. Kleinbaum and M. Klein. Survival analysis, volume 3. Springer, 2010.
[12] D. Kleinbaum, M. Klein, and ER. Pryor. Logistic regression: a self-learning text.
2002.
[13] B. Lupı́n, M. Lacaze, and E. Rodrı́guez. Las percepciones de riesgo de los consu-
midores en alimentos lácteos: Aplicación de una regresión logı́stica ordinal. 2007.
[14] J.M. Marı́n. Regresión logı́stica multinomial. http://halweb.uc3m.es/esp/
Personal/personas/jmmarin/esp/Categor/Tema5Cate.pdf.
35
36 Ejemplos Reales
[15] P. McCullagh et al. Generalized linear models. CRC Monographs on Statistics &
Applied Probability, Springer Verlag, New York, 1989.
[16] E. Navarro, A. Verbel, D. Robles, and KR. Hurtado. Regresión logı́stica ordinal
aplicada a la identificación de factores de riesgo para cáncer de cuello uterino.
Ingeniare, 9(17):87–105, 2014.
[17] J.A. Nelder and R. J. Baker. Generalized linear models. Wiley Online Library, 1972.
[18] L. A Thompson. S-plus (and r) manual to accompany agresti’s categorical data

analysis (2002). 2009.
[19] K. Vasconcellos, G. M. Cordeiro, and L. Barroso. Improved estimation for robust

econometric regression models. Brazilian Journal of Probability and Statistics, pages
141–157, 2000.
[20] R. Yañez, M. Arenas, and M. Ripoll. El impacto de las relaciones interpersonales

en la satisfacción laboral general. Liberabit, 16(2):193–202, 2010.

Arias Benítez Miguel TFG

Cargado por

Copyright:

Formatos disponibles

Arias Benítez Miguel TFG

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Arias Benítez Miguel TFG

Cargado por

Copyright:

Formatos disponibles

Regresión ordinal y sus

Dirigido por: Juan Manuel Muñoz Pichardo

Miguel Arias Benı́tez

1. Introducción a la Regresión Categórica 1

2. Modelos de regresión ordinal 13

4.2. Predicción del rendimiento en una asignatura empleando la regresión

Para ello, a modo de introducción en el primer capı́tulo, se exponen una serie de

En el capı́tulo segundo se presenta el Modelo de Odds Proporcionales, también cono-

En el tercer capı́tulo se trabajará sobre un conjunto de datos en R para ilustrar la

1.1. Distribución Multinomial

1.1.1. Familia exponencial

f () denota la función de probabilidad o de densidad en el caso en el que Y sea

A continuación se mostrará una tabla donde se resumen los elementos principales

Distribuciones Rango de Y θ a(φ) b(θ) V (µ)

1.2. Modelo lineal generalizado

1. La distribución de cada una de las Yi tiene la forma estándar y depende de un

f (yi ; θi ) = exp[yi bi (θi ) + ci (θi ) + di (yi )].

g es una función llamada función “enlace” o “link”, que es continua, monótona

El vector xi es un (p x 1) vector de variables explicativas (covariables y variables

2. Un conjunto de parámetros β y de variables explicativas

3. Una función link monótona g tal que

Si queremos modelar una variable respuesta categórica, Y , de categorı́as y1 , ..., yc con un

c ¿Y ordinal? Regresión Modelo

>3 No Multinomial f (P (Y = yj |Xi )) = αi + βj0 Xi

>3 Sı́ Ordinal f (γj (X)) = f (P (Y ≤ yj |X)) = αj + β 0 X

donde f () es la función de enlace (usualmente Logit, Log-Log o Probit), αj + β 0 X es el

1.2.1. Estimación de los parámetros

E[Yi |Xi = xi ] = µi = h(xi , β)

Asumiendo que las distribuciones de cada componente de Y provienen de la familia

Dada la relación entre la esperanza y el vector de parámetros µi = h(xi β), se tiene:

Su primera derivada es la denominada función score o función marcador:

Las contribuciones individuales a la función marcador son:

Otros conceptos importantes a tener en cuenta en la estimación máximo-verosı́mil

Matriz de información de Fisher esperada:

Fi (β) = xi xti wi (β) wi (β) = Di2 (β)σi−2 (β)

Matriz de Fisher observada:

verificándose que F (β) = E(Fobs (β))

La obtención de la estimación de máxima-verosmilitud se plantea generalmente como

β̂ (k+1) = β̂ (k) + F −1 (β̂ (k) )s(β̂ (k) ) con : k = 0, 1, 2, ...

En el caso en el que el parámetro de dispersión sea desconocido, se puede considerar

1.2.2. Bondad de ajuste

De esta manera, determinar cuantos términos son necesarios en la estructura lineal

Trataremos de constuir un modelo intermedio entre el modelo saturado y el modelo

En el modelo lineal generalizado, la bondad de ajuste se puede evaluar de distintas

La función o estadı́stico desviación

D(y; µ) = 2{l(y; y) − l(µ̂; y)}

Es la distancia entre el logaritmo de la función verosimilitud del modelo saturado

Si el modelo es correcto el estadı́stico se distribuye asintóticamente segun una χ2n−p

D(y, µ̂) ∼ χ2n−p

Estadı́stico Chi-cuadrado de Pearson:

donde V (µ̂) es la función varianza estimada para la distribución de la variable

En cuanto a lo que a procesos de seleción de modelos se refiere mencionaremos el

donde k es el número de parámetros y L̂ es el máximo valor de la función de veros-

1.2.3. Regiones de confianza para β

ξW = [C β̂ − ξ]T [CF −1 β̂(C)0 ][C β̂ − ξ]

determina la distancia ponderada entre el estimador C β̂ y su valor determinado por la

{β ∈ Rp | (β̂ − β)T [V ar(β̂)]−1 (β̂ − β) < χ2p,1−α }

Las desviaciones sistemáticas se originan por haber escogido inadecuadamente la

Definido como la diferecnia entre le valor observado, yi , de la variable respuesta y