Arias Benítez Miguel TFG

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 46

Regresión ordinal y sus

aplicaciones

FACULTAD DE MATEMÁTICAS
DEPARTAMENTO DE ESTADÍSTICA E INVESTIGACIÓN OPERATIVA

Dirigido por: Juan Manuel Muñoz Pichardo

Miguel Arias Benı́tez

Junio 2018
“It only ends once. Anything that happens before that is just progress.”
Jacob, Lost.
Índice general

Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v
Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vii

1. Introducción a la Regresión Categórica 1


1.1. Distribución Multinomial . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1. Familia exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Modelo lineal generalizado . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1. Estimación de los parámetros . . . . . . . . . . . . . . . . . . . . . 5
1.2.2. Bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.3. Regiones de confianza para β . . . . . . . . . . . . . . . . . . . . . 8
1.2.4. Residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3. Modelos logit para respuestas nominales . . . . . . . . . . . . . . . . . . . 11

2. Modelos de regresión ordinal 13


2.1. Modelo de Odds Proporcionales . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.1. Presentación del modelo . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.2. Odds Ratios e Intervalos de Confianza . . . . . . . . . . . . . . . . 16
2.1.3. Extensión del Modelo Ordinal a k variables . . . . . . . . . . . . . 17
2.1.4. Función de Probabilidad para el Modelo Ordinal . . . . . . . . . . 18
2.1.5. Estimación de parámetros . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.6. Residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2. Otros modelos ordinales de interés . . . . . . . . . . . . . . . . . . . . . . 20
2.2.1. Modelo de Ratios Continuados . . . . . . . . . . . . . . . . . . . . 20
2.2.2. Modelo Logit de Categorı́as Adyacentes . . . . . . . . . . . . . . . 20

3. Modelado en R 23
3.1. Librerı́a “ordinal” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2. Ejemplo en R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2.1. Datos wine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2.2. Predicciones sobre wine . . . . . . . . . . . . . . . . . . . . . . . . 30

4. Ejemplos Reales 31
4.1. Regresión Logı́stica Ordinal Aplicada a la Identificación de Factores de
Riesgo para Cáncer de Cuello Uterino . . . . . . . . . . . . . . . . . . . . 31

iii
iv

4.2. Predicción del rendimiento en una asignatura empleando la regresión


logı́stica ordinal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.3. El impacto de las relaciones interpersonales en la satisfacción laboral general 32
4.4. Las percepciones de riesgo de los consumidores en alimentos lácteos: apli-
cación de una regresión logı́stica ordinal . . . . . . . . . . . . . . . . . . . 32

Bibliografı́a 33
Resumen

El objetivo de este trabajo es la construcción de una base teórica con la que formular
y desarrollar la forma general de algunos modelos de regresión ordinal, a su vez que moti-
var el estudio con una serie de ejemplos reales donde se emplearon los métodos descritos.

Para ello, a modo de introducción en el primer capı́tulo, se exponen una serie de


conceptos teóricos sobre la idea estadı́stica de la regresión; desde la definición y algunos
conceptos de la distribución multinomial, hasta una descripción breve del modelo que
tomaremos como base, el Modelo Lineal Generalizado.

En el capı́tulo segundo se presenta el Modelo de Odds Proporcionales, también cono-


cido como Modelo Logit Acumulado. Primero se estudia e ilustra el caso bivariante para
posteriormente su extensión a k-variables, donde se presenta la función de probabilidad
y sus residuos, a su vez que se estiman los parámetros y se construyen los intervalos de
confianza.

En el tercer capı́tulo se trabajará sobre un conjunto de datos en R para ilustrar la


construcción y los resultados al aplicar las técnicas de regresión descritas en estos. Los
datos empleados representan un experimento sobre ciertos factores que determinan la
acidez en el vino; en nuestro caso, la temperatura y el contacto entre el zumo y las pieles
de las uvas cuando se extrae de ellas.

Por último, en el capı́tulo cuarto, se describen una serie de estudios reales de diversas
ı́ndoles sobre los que se aplicaron métodos de regresión ordinales con el objetivo de
extraer una serie de conclusiones, por ejemplo, para la identificación de factores de
riesgo en el cáncer de cuello uterino.

v
Summary

The main objective of this work is the construction of a theoretical basis with which
to formulate and develop the general form of some models of ordinal regression, at the
same time as motivating the study with some real examples where the described met-
hods were used.

For this, as an introduction, in the first chapter some theoretical concepts on the
statistical idea of regression are exposed; from the definition and some concepts of the
multinomial distribution, to a brief description of the model that we will take as a base,
the Generalized Linear Model.

In the second chapter we present the Proportional Odds Model, also known as the
Accumulated Logit Model. First, the bivariate case is studied and illustrated for its ex-
tension to k variables, where the probability function and its residuals are presented,
while the parameters are estimated and confidence intervals are constructed.

In the third chapter we will work on a set of data in R to illustrate the construc-
tion and the results when applying the regression techniques described. The data used
represent an experiment on certain factors that determine the bitterness in the wine; in
our case, the temperature and the contact between the juice and the skins of the grapes
when it is extracted from them.

Finally, in the fourth chapter, we describe some real studies of various types on which
ordinal regression methods were applied in order to dig out a series of conclusions, for
example, for the identification of risk factors in cancer of the cervix.

vii
Capı́tulo 1

Introducción a la Regresión
Categórica

Mas allá de la regresión clásica binaria, existen otros casos en los que la variable
objetivo cualitativa toma valores en diferentes grupos o modalidades. Cuando estos estén
configurados de forma ordinal surge el problema que se tratará en este trabajo.
Este tipo de variables categóricas las encontraremos en muchos problemas reales; por
ejemplo, los ciudadanos que votan a una serie de partidos polı́ticos y a su vez valoran a
sus lı́deres. En el primer caso no hay orden entre las categorı́as creadas y en el segundo,
en cambio, sı́ lo hay.

1.1. Distribución Multinomial


En cuanto la regresión, en el caso de tener más de dos variables X explicativas y una
variable objetivo no ordinal, nos será de capital importancia el uso de la distribución
multinomial; ya que esta aportará una generalización natural del modelo logı́stico binario
hacia otro donde la variable objetivo sea multicategórica.
Sea y = (y1 , ..., yn )0 un vector de observaciones dado, con yi ∈ {0, 1} variables binarias
y π = (π1 , ..., πn )0 el vector de probabilidades asociadas, la función de probabilidad para
un experimento aleatorio que se repite m veces viene dada por:

n
m! Pn
π1y1 · ... · πnyn (1 −
X
f (y|π) = Pn πi )m− i=1 yi . (1.1)
y1 ! · ... · yn !(m − i=1 yi )!
i=1

Una variable aleatoria N-dimensional Y = (Y1 , ..., Yn ) se dice que sigue una distribu-
ción multinomial de parámetros m y π1 , ..., πn si su función de probabilidad viene dada
por la expresión 1.1 y se denotará por:

y ∼ M(m, π)
De donde se deduce:

1
2 Introducción a la Regresión Categórica

   
mπ1 π1 (1 − π1 ) · · · −π1 πc
E(y) = mπ =  ...  , Cov(y) = m  .. .. ..
.
   
. . .
mπc −πc π1 · · · πc (1 − πc )

1.1.1. Familia exponencial


La distribución de una variable aleatoria Y, caracterizada por los parámetros θ y φ
pertecene a la familia exponencial si presenta la forma:
 
yθ − b(θ)
f (y; θ, φ) = exp + c(y, φ)
a(φ)

f () denota la función de probabilidad o de densidad en el caso en el que Y sea


discreta o continua respectivamente. θ es el parámetro canónico, φ el parámetro de
escala y a(φ),b(θ) y c(y, φ) son funciones especı́ficas de cada elemento de la familia. La
función a(φ) es comúnmente escrita como a(φ) = φ/ω, donde ω es una ponderación para
cada observación.
Se verifica:
∂b(θ) ∂ 2 b(θ)
E(Y ) = µ = b0 (θ) = ; V ar(Y ) = σ 2 = a(φ) = a(φ)V (µ).
∂θ ∂θ2
b0 (θ) y b00 (θ) son, respectivamente, la primera y segunda derivadas de b(θ) y donde
V (µ) se denomina función de varianza. Esta función relaciona E(y) y V ar(y).

A continuación se mostrará una tabla donde se resumen los elementos principales


que caracterizan a algunas de las distribuciones más usadas de la familia exponencial:

Distribuciones Rango de Y θ a(φ) b(θ) V (µ)


p 
Binomial:B(n, p) {0, n} ln 1−p 1 nln(1 + exp(θ)) np(1 − p)
Gamma:G(µ, v) (0, ∞) −1/µ 1/v −ln(−θ) µ2
Normal:N (µ, σ 2 ) (−∞, ∞) µ σ2 θ2 /2 1
Poisson:P (µ) Ent[0, ∞) ln(µ) 1 exp(θ) µ
Introducción a la Regresión Categórica 3

1.2. Modelo lineal generalizado


La unificación de varios modelos estadı́sticos como el lineal, el logı́stico y el de Pois-
son fue realizada por Nelder y Wedderburn (1972) usando la idea de un modelo lineal
generalizado. Como se describe en Dobson y Barnet [6] y en Nelder y Baker [17] este
modelo está definido en términos de un conjunto de variable aleatorias independien-
tes Y1 , ...Yn , cada una de ellas con una distribución de la familia exponencial y con las
siguientes propiedades:

1. La distribución de cada una de las Yi tiene la forma estándar y depende de un


único parámetro θi (los θi0 s no tienen por qué ser iguales); entonces tenemos:

f (yi ; θi ) = exp[yi bi (θi ) + ci (θi ) + di (yi )].

2. La distribución de todas las Yi0 s son de la misma forma; por ejemplo, todas norma-
les o todas binomiales, es por esto que los subı́ndices en b,c y d no son necesarios.
Entonces tenemos, la función de densidad conjunta de las variables Y1 , ...Yn es:

n
Y
f (y1 , ..., yn ; θ1 , ..., θn ) = exp[yi b(θi ) + c(θi ) + d(yi )]
i=1
n
X n
X n
X 
= exp yi b(θi ) + c(θi ) + d(yi ) .
i=1 i=1 i=1

Los parámetros θi no son de interés a menos que sean distintos para cada una de las
observaciones. Para modelar estaremos interesados en un pequeño conjunto de parame-
tros β1 , ..., βp (donde p < n). Suponiendo que E(Yi ) = µi , donde µi es una función de θi .
Para cada modelo lineal generalizado hay una transformación de µi tal que:

g(µi ) = xTi β.

En esta ecuación:

g es una función llamada función “enlace” o “link”, que es continua, monótona


en función de los valores de µi .

El vector xi es un (p x 1) vector de variables explicativas (covariables y variables


dummy para distintos niveles),
 
xi1
xi =  ...  entonces xTi = [xi1 · · · xip ]
 

xip
y
4 Introducción a la Regresión Categórica
 
β1
β es el (p x 1) vector de parámetros β =  ... . El vector xTi es la i-ésima fila de
 

βp
la matriz diseño X.
Entonces, un modelo lineal generalizado tiene 3 componentes:

1. Las variables respuesta Y1 , ..., Yn , sobre las cuales se supone que comparten la
misma distribución de la familia exponencial.

2. Un conjunto de parámetros β y de variables explicativas

xt1
   
x11 · · · x1p
X =  ...  =  ... .. ..  ;
  
. . 
xTn xn1 · · · xnp

3. Una función link monótona g tal que

g(µi ) = xTi β,

donde
µi = E(Yi ).

Si queremos modelar una variable respuesta categórica, Y , de categorı́as y1 , ..., yc con un


conjunto de variables explicativas (factores o covariables) X = (X1 , ..., Xn ), mediante
un modelo lineal general, podemos plantearnos las opciones siguientes:

c ¿Y ordinal? Regresión Modelo


2 No importa Logı́stica f (P (Y = y2 |X)) = α + β 0 X

>3 No Multinomial f (P (Y = yj |Xi )) = αi + βj0 Xi


j = 2, ..., c ; i = 1, ..., n

>3 Sı́ Ordinal f (γj (X)) = f (P (Y ≤ yj |X)) = αj + β 0 X


j = 1, ..., c − 1

donde f () es la función de enlace (usualmente Logit, Log-Log o Probit), αj + β 0 X es el


predictor lineal y αj y β = (β1 , ..., βn )0 parámetros a estimar.
Introducción a la Regresión Categórica 5

1.2.1. Estimación de los parámetros


Dos de los métodos más comunes en la estimación estadı́stica son el método de Mı́ni-
mos Cuadrados Ordinarios y el Método de Máxima Verosimilitud. Usaremos
este último ya que nos proporcionará las propiedades de consistencia y eficiencia asintóti-
ca (Vasconcellos y otros [19]) y procedemos como se describe en los primeros capı́tulos
de Hardin y otros [8]

Sea la muestra y1 , ..., yn junto con las covariantes x1 , ..., xn maximizaremos la ve-
rosimilitud para obtener un estimador del vector de parámetros desconocidos β en el
modelo:

E[Yi |Xi = xi ] = µi = h(xi , β)


Suponemos que el parámetro de escala φ es conocido y dado que aparece como factor
en la verosimilitud, puede considerarse φ = 1, sin pérdida de generalidad. Posteriormente
obtendremos un estimador de dicho parámetro mediante el método de los momentos.

Asumiendo que las distribuciones de cada componente de Y provienen de la familia


exponencial de la forma denotada anteriormente, escribimos la función de verosimilitud
como:
n
Y
L(θ; y) = f (y; θ) = fi (yi ; θ) con y = (y1 , ..., yn )0
i=1
Dado que las observaciones son independientes, la función log-verosimilitud viene
dada por:
n n  
X X yi θi − b(θi )
l(θ, φ, y) = li (θi , φ, yi ) = + c(yi , φ)
a(φ)
i=1 i=1
La función c(yi , φ) que no depende de φi ha sido omitida. Añadiendo la relación
θi = θ(µi ) entre el parámetro natural y la esperanza de la i-ésima observación,
n n  
X X yi θi (µi ) − b(βi (µi ))
l(µi , φ, y) = li (β, φ, yi ) =
a(φ)
i=1 i=1

Dada la relación entre la esperanza y el vector de parámetros µi = h(xi β), se tiene:


n n 
yi βi (h(xti β)) − b(θi (h(xti β))
X X 
l(β, φ, y) = li (β, φ, yi ) =
a(φ)
i=1 i=1

Su primera derivada es la denominada función score o función marcador:


∂l X
s(β) = = si (β)
∂β
i

Las contribuciones individuales a la función marcador son:


si (β) = xi Di (β)σi−2 (β)[yi − µi (β)]
6 Introducción a la Regresión Categórica

donde

µi (β) = h(xti β)




 σ 2 (β) = a(φ)v(h(xt β))

i i


 V (µ) = ∂ 2 b(θ)/∂σ 2
Di (β) = ∂h(xti β)/∂η con ηi = xti β

Otros conceptos importantes a tener en cuenta en la estimación máximo-verosı́mil


del vector de parámetros son:

Matriz de información de Fisher esperada:


X
F (β) = Cov s(β) = Fi (β)
i

Fi (β) = xi xti wi (β) wi (β) = Di2 (β)σi−2 (β)

Matriz de Fisher observada:


∂ 2 l(β)
Fobs (β) = −
∂β∂β t

verificándose que F (β) = E(Fobs (β))

Para las funciones de enlace naturales σ(µi ) = xti β, las matrices se simplifican de la
forma:
1 X
s(β) = xi [yi − µi (β)]
a(φ)
i
1 X
F (β) = V (µi (β))xi xti F (β) = Fobs (β)
a(φ)
i

La obtención de la estimación de máxima-verosmilitud se plantea generalmente como


las soluciones de la ecuación de verosimiltud s(β̂) = 0 lo que corresponde a un máxi-
mo local, es decir, con la matriz de segundas derivadas Fobs (β̂) definida positiva. Las
ecuaciones resultantes no suelen ser lineales y para resolverlas necesitaremos de métodos
numéricos iterativos como el de Fisher Scoring o el de Mı́nimos Cuadrados Ponderados
Iterativos, cuyas iteraciones se definen a partir de un estimador inicial βˆ0 por:

β̂ (k+1) = β̂ (k) + F −1 (β̂ (k) )s(β̂ (k) ) con : k = 0, 1, 2, ...

Obteniendo a través de estos métodos las estimaciones de los parámetros del mo-
delo β̂, estas estimaciones máximo-verosı́miles tienen las propiedades de consistencia,
eficiencia asintótica y distribución normal asintótica.
Introducción a la Regresión Categórica 7

En el caso en el que el parámetro de dispersión sea desconocido, se puede considerar


el siguiente estimador consistente:

1 X [yi − µi (β̂)]2
φ̂ =
n−p v(µi (β̂))
i

1.2.2. Bondad de ajuste


Una vez estimados los parámetros debemos valorar cuan bueno es nuestro modelo,
es decir valorar la discrepancia entre los datos observados y los datos esperados.

De esta manera, determinar cuantos términos son necesarios en la estructura lineal


para una descripción óptima de los datos intentando no saturarlo de variables explicativas
que harán un modelo bien ajustado pero de dificil comprensión ni, en caso contrario, un
defecto de variables que harán un modelo de fácil interpretación pero de pobre ajuste es
otro de los problemas que nos plantearemos.

Trataremos de constuir un modelo intermedio entre el modelo saturado y el modelo


nulo, donde el primero se refiere al modelo en el que el número de parámetros es igual
al número de observaciones (ninguna simplificación) y el segundo que es el modelo más
simple en el que solo se usa el parámetro µ, el valor esperado para todas las observaciones
(simplificación total, asume efecto nulo de las variables explicativas)

En el modelo lineal generalizado, la bondad de ajuste se puede evaluar de distintas


formas, entre ellas destacan:

La función o estadı́stico desviación

D(y; µ) = 2{l(y; y) − l(µ̂; y)}

Es la distancia entre el logaritmo de la función verosimilitud del modelo saturado


y el modelo con el que se está trabajando.
Un valor pequeño de la desviación indica que para un número menor de parámetros,
se obtiene un ajuste tan bueno como cuando se ajusta el modelo saturado.

Si el modelo es correcto el estadı́stico se distribuye asintóticamente segun una χ2n−p


con n − p grados de libertad [15].

D(y, µ̂) ∼ χ2n−p


8 Introducción a la Regresión Categórica

Coeficiente de determinación R2 :
La medida R2 se define como la proporción de la varianza total de la variable
explicada por la regresión. El R2 , también llamado coeficiente de determinación,
refleja la bondad del ajuste de un modelo a la variable que pretender explicar.
Este coeficiente viene dado por:
D(y, µ̂)
R2 = 1 −
D(y, µ̂0 )
donde D(y, µ̂) y D(y, µ̂0 ) son las funciones de desviación del modelo ajustado y
nulo respectivamente. Se verifica que 0 ≤ R2 ≤ 1

Estadı́stico Chi-cuadrado de Pearson:


n
2
X (yi − µ̂i )2
χ =
V (µ̂i
i=1

donde V (µ̂) es la función varianza estimada para la distribución de la variable


objetivo.

En cuanto a lo que a procesos de seleción de modelos se refiere mencionaremos el


Criterio de información Akaike (AIC), en el caso general el AIC es:

AIC = k − 2ln(L̂)

donde k es el número de parámetros y L̂ es el máximo valor de la función de veros-


militud para el modelo estimado. El modelo se optimiza minimizando el valor de AIC,
este modelo recompensa la bondad de ajuste y penaliza el aumento de la cantidad de
parámetros estimados.

1.2.3. Regiones de confianza para β


A continuación construiremos un intervalo de confianza realizando inferencias sobre el
vector de parámetros desconocidos β de dimensión p, la mayoria de cuestiones consiguen
reformularse a traves de una hipótesis lineal de la forma Cβ, siendo C una matriz de
rango total s ≤ p y ξ un vector de constantes conocido de dimensión s

Ho : Cβ = ξ
H1 : Cβ 6= ξ

Para este procedimiento se puede usar el Estadı́stico de Wald entre otros. Éste se
basa en la distribución asintótica del vector β̂ y está definido por:

ξW = [C β̂ − ξ]T [CF −1 β̂(C)0 ][C β̂ − ξ]


Introducción a la Regresión Categórica 9

determina la distancia ponderada entre el estimador C β̂ y su valor determinado por la


hipótesis nula.
F −1 (β̂) denota la estimación de la matriz de información de Fisher de β̂

Asintóticamente y bajo hipótesis nula este estadı́stico se distribuye como una distri-
bución Chi-cuadrado con s grados de libertad χ2s

Usando este estadı́stico, una región de confianza para β con un nivel de confianza
del 100(1 − α) % viene dada por:

{β ∈ Rp | (β̂ − β)T [V ar(β̂)]−1 (β̂ − β) < χ2p,1−α }

1.2.4. Residuos
En la práctica podemos encontrar el problema de que aún habiendo escogido cuida-
dosamente un modelo, al ajustarlo a un conjunto de datos el resultado sea insatisfactorio.

Las desviaciones sistemáticas se originan por haber escogido inadecuadamente la


función de enlace o las variables explicativas. Las diferencias aisladas pueden darse por
puntos extremos o porque estos realmente sean erróneos, éstos se conocen como outliers.
La comprobación de la adecuación del modelo es un requisito fundamental que se realiza
sobre el conjunto de datos para encontrar posibles fallos en las suposiciones hechas por
el modelo, ası́ como los outliers que puedan interferir desproporcionadamente en los
resultados del ajuste.

Como en la regresión lineal, los residuos son los utilizados para verificar esta adecua-
ción del modelo. Expresan la discrepancia entre una observacción y su valor ajustado y
también pueden indicar la presencia de valores anómalos que puedan requerir un estudio
más concreto. Entre otros residuos los más destacados son:

El residuo básico:

Definido como la diferecnia entre le valor observado, yi , de la variable respuesta y


el valor ajustado, yˆi , por el modelo.

rib = yi − yˆi con i = 1, ..., n


10 Introducción a la Regresión Categórica

El residuo de Pearson:

Es la contribución individual al estadı́stico χ2 de Pearson, se define como:

yi − µ̂i
rip = q con i = 1, ..., n
φ̂ V ar(µ̂i )

siendo φ̂ un estimador consistente del parámetro escala φ.


Y su versión studentizada viene dada por:

yi − µ̂i
rs pi = q con i = 1, ..., n
φ̂ V ar(µ̂i )(1 − hi )

siendo hi el elemento diagonal de la matriz H, donde:

H = W 1/2 X(X T W X)−1 X T W 1/2

con W una matriz diagonal cuyos elementos de la diagonal principal son:

∂µi 2
 
1
wi =
V ar(µi ) ∂η

La ventaja de este residuo studentizado frente al anterior reside en que la captación


de la variabilidad de los datos es mejor debido a que usa el valor hi , este es útil
para medir la influencia de cada observación.

El residuo desviación:
Se define como:

p
riD = sign(yi − µ̂i di i = 1, ..., n

di es el llamado componente desviación, di = 2(l(yi , yi ) − l(µiˆ, yi )


Y su versión studentizada:

0 riD
rs D
i = q
φ̂(1 − hi )

donde hi es el i-ésimo elemento de la diagonal de la matriz H y φ̂ es la estimación


del parámetro de escala φ.
Introducción a la Regresión Categórica 11

1.3. Modelos logit para respuestas nominales


Al igual que se describe en Marı́n [14], se denota C como el número de categorı́as
X de la
variable Y y {π1 , ..., πj } las probabilidades de cada respuesta, satisfaciendo πj = 1.
j

Se parte de n observaciones independientes extraidas. La distribución de probabili-


dad del número de observaciones de las C categorı́as sigue una distribución multinomial
tal y como nombramos anteriormente. Esta modeliza la probabilidad de cada una de las
posibles maneras en que n observaciones pueden repartirse entre C categorı́as.
Al ser la respuesta nominal, el orden entre las categorı́as es irrelevante; este es el proble-
ma central que trataremos más adelante.

Se toma una categorı́a como respuesta base, por ejemplo la última categorı́a (C), y
se define un modelo logit con respecto a ella:
 
πc
log = αc + βc x
πC
donde c = 1, ..., C − 1.

El modelo tiene C − 1 ecuaciones con sus propios parámetros, y los efectos varı́an
con respecto la categorı́a que se ha tomado como base.
Cuando C = 2, el modelo equivale a una única ecuación log(π1 /π2 ) = logit(π1 ) y se
obtiene el modelo de regresión logı́stica estándar.
La ecuación general logit con respecto a la categorı́a base C determina también los logits
para cualquier pareja de categorı́as. Considerando c1 y c2 dos categorı́as cualesquiera
tenemos:

       
πc1 πc1 /πC πc1 πc2
log = log = log − log
πc2 πc2 /πC πC πC
= (αc1 − βc1 x) − (αc2 − βc2 x)
= (αc1 − αc2 ) + (βc1 − βc2 )x.

De este modo, la ecuación para las categorı́as c1 y c2 tiene también la forma α + βx


donde α = (α = (αc1 − αc2 ) y β = (βc1 − βc2 )x
Capı́tulo 2

Modelos de regresión ordinal

En este capı́tulo, la regresión logı́stica estándar será extendida para soportar varia-
bles respuesta que tengan más de dos categorı́as ordenadas. Cuando las categorı́as de la
variable respuesta tengan un orden natural la regresión logı́stica ordinal será la elegida
como forma más óptima de estudiar estos datos.

Se estudiará la forma matemática general del modelo de regresión logı́stica ordinal,


ası́ como se desarrollará su interpretación, las fórmulas para la odds ratio, intervalos
de confianza, técnicas para tests de hipótesis y para el estudio de la significación de la
variable objetivo.

Para el desarrollo de este capı́tulo se ha utilizado diversa bibliografı́a recogida al


final de la memoria, especialmente Harrell [9], Kleinbaum y otros [12] y Kleinbaum y
Klein[11]

2.1. Modelo de Odds Proporcionales

El modelo logı́stico ordinal que se va a desarrollar es el llamado de Odds Proporciona-


les o modelo de odds proporcionales, también conocido como el Modelo Logit Acumulado.
Para ilustrar la idea del modelo odds proporcional asumimos que tenemos una variable
respuesta con cinco categorı́as y consideramos las cuatro posibles formas de dividirlas
en sólo dos categorı́as respetando el orden natural. Por ejemplo, todas estas divisiones
serı́an posibles respetando el orden:

0 1 2 3 4
0 1 2 3 4
0 1 2 3 4
0 1 2 3 4

13
14 Modelos de regresión ordinal

Generalmente, si una variable respuesta ordinal D tiene G categorı́as (D = 0, 1, 2, ..., G−


1), entonces hay G − 1 formas de dicotomizar la respuesta: (D ≥ 1 ó D < 1; D ≥ 2
ó D < 2, ..., D ≥ G − 1 ó D < G − 1). Para un suceso aleatorio S, se define su “odds”
o “ventaja” como la razón entre la probabilidad de ocurrencia y la probabilidad de no
ocurrencia.
Con la categorización de D, se puede definir la “odds” o “ventaja” de que D ≥ g
dividida por la probabilidad de que D < g, i.e.
P(D ≥ g)
odds (D ≥ g) = donde g = 1, 2, 3, ..., G − 1
P(D < g)
El modelo odds proporcional hace una importante suposición. Bajo este modelo, el
odds ratio que evalúa el efecto de una variable explicativa para cualquiera de las divisio-
nes o categorizaciones anteriores será el mismo independientemente de donde se realice
el punto de corte sobre las categorias.

Suponemos que tenemos una variable respuesta con cinco niveles y una variable expli-
cativa dicotómica (E = 0, E = 1). Entonces, bajo la suposición de odds proporcionales,
el odds ratio que compara categorı́as iguales o mayores que 1 y categorı́as menores que 1
es el mismo que el que compara categorı́as mayores o iguales a 4 con categorı́as menores
que 4. Formalmente:

odds [(D ≥ 1)|E = 1] odds [(D ≥ 4)|E = 1]


OR(D ≥ 1) = = = OR(D ≥ 4)
odds [(D ≥ 1)|E = 0] odds [(D ≥ 4)|E = 0]
En otras palabras, el odds ratio es invariante al punto utilizado para la dicotomiza-
ción.
Esto implica que si hay G categorı́as en la respuesta, solo hay un parámetro (β) para ca-
da una de las variables predictoras o explicativas. Sin embargo sigue habiendo constantes
separadas (αg ) para cada una de las G − 1 comparaciones.
Esto contrasta con la regresión logı́stica politómica1 , donde hay G − 1 parámetros
para cada variable predictora, ası́ como constantes separadas para cada una de las G − 1
comparaciones. En resumen:

Variable Parámetro Variable Parámetro


Constante α1 , α2 , ..., αG−1 Constante α1 , α2 , ..., αG−1
X1 β1 X1 β11 , β21 , ..., βG−1

Cuadro 2.1: Ordinal Cuadro 2.2: Politómica

La hipótesis de invarianza del odds ratio en cuanto a los puntos de corte no es la


misma que suponer que el odds dado para un patrón de exposición es invariante. Usando
1
No solo dicotómica, multi-categórica
Modelos de regresión ordinal 15

el ejemplo anterior, para una realización dada de E (e.j. , E = 0), el odds que compara
categorı́as mayores o iguales a 1 con las menores no es igual al odds que compara
categorı́as mayores o iguales a 4 con las menores.

odds (D ≥ 1) 6= odds (D ≥ 4)
donde, para E = 0

P (D ≥ 1)|E = 0) P (D ≥ 4)|E = 0)
odds(D ≥ 1) = 6= = odds(D ≥ 4)
P (D ≥ 1)|E = 0) P (D ≥ 4)|E = 0)

pero
OR (D ≥ 1) = OR (D ≥ 4)

2.1.1. Presentación del modelo


Procedemos ahora a presentar la forma del modelo odds proporcional con una res-
puesta D de G niveles (D = 0, 1, 2, ..., G − 1) y una variable explicativa X1 .El modelo
expresa la probabilidad de que la variable respuesta esté es una categorı́a igual o superior
a g en función de la variable explicativa X1 como sigue:
1
P (D ≥ g |X1 ) = , g = 1, 2, ..., G − 1
1 + exp[−(αg + β1 X1 )]

Por tanto, la probabilidad de que la variable respuesta esté en una categorı́a inferior
a g es:

exp[−(αg + β1 X1 )]
P (D < g |X1 ) =
1 + exp[−(αg + β1 X1 )]

El modelo puede ser definido equivalentemente en términos del odds de una desigual-
dad. Si sustituimos la formula P (D ≥ |X1 ) por la expresión para el odds entonces:

P (D ≥ g |X1 ) P (D ≥ g |X1 )
odds(D ≥ g |X1 ) = = =
1 − P (D ≥ g |X1 ) P (D < g |X1 )
= exp(αg + β1 X1 ) = eαg · eβ1 X1
16 Modelos de regresión ordinal

El modelo de odds proporcional está escrito en términos diferentes al modelo logı́stico


estándar. El modelo se formula como la probabilidad de una desigualdad, esto es, que la
variable respuesta D sea mayor o igual a g.

Modelo Odds Proporcional Modelo Logı́stico Estándar


P (D ≥ g |X) P (D = g|X)

2.1.2. Odds Ratios e Intervalos de Confianza


Primero consideraremos el caso especial donde la variable explicativa X1 es la única
variable independiente y es dicotómica (X1 = 0 ó X1 = 1). Según lo recogido en el
apartado anterior, el odds que compara D ≥ g con D < g es exp(αg + β1 X1 ). Para
evaluar el efecto de la variable explicativa sobre la variable respuesta formulamos el
llamado odds ratio de D ≥ g para comparar X1 = 0 y X1 = 1 (i.e., el odds ratio para
X1 = 0 vs. X1 = 1).

odds(D ≥ g |X1 = 1) exp(αg + β1 )


OR(D ≥ g |X1 ) = = = eβ1
odds(D ≥ g |X1 = 0) exp(αg )
Es decir, la odds ratio es constante para cualquier punto de corte g considerado.
Además, el coeficiente β1 es:

β1 = log OR(D ≥ g |X1 ) ∀g

Análogamente, en el caso de X1 variable cuantitativa, la comparación entre dos


valores X1 y X1∗ de la misma:

OR(D ≥ g |X1 , X1∗ ) = exp β1 (X1∗ − X1 )




El cálculo del intervalo de confianza es equivalente al cálculo descrito en el Capı́tulo


1. Ası́, la fórmula general para un intervalo de confianza al 95 % de confianza para dos
cualesquiera niveles de la variable independiente X1 y X1∗ es el siguiente:
 
∗ ∗
IC 95 % = exp βˆ1 (X − X1 ) ± 1,96(X − X1 )s ˆ
1 1 β1

siento β̂ el estimador de máxima-verosimilitud del modelo y sβ̂ el error de estimación


del mismo.
Modelos de regresión ordinal 17

2.1.3. Extensión del Modelo Ordinal a k variables


Expandir el modelo para añadir más variables explicativas se obtiene de forma di-
recta, basta expandir el predictor lineal.
Reprsentando por X el vector aleatorio de variables explicativas, el modelo se puede
expresar por:

1
P (D ≥ g |X) = Pk , g = 1, 2, 3, ..., G − 1
1 + exp[−(αg + i=1 βi Xi )]

El odds para la respuesta mayor o igual al nivel g serı́a el siguiente:


k
P (D ≥ g |X) X
odds(D ≥ g |X) = = exp (αg + βi Xj )
P (D < g |X)
i=1

Como en la regresión logı́stica estándar, el uso de múltiples variables independientes


permite la estimación del odds ratio para una variable controlando los efectos de las
demás variables explicativas del modelo.

OR = exp (βi ) Xi ∈ {0, 1}

Figura 2.1: Modelo de odds proporcionales sobre escala odds

La figura 2.1 muestra el modelo para G = 3 categorı́as y una variable continua


explicativa X
18 Modelos de regresión ordinal

2.1.4. Función de Probabilidad para el Modelo Ordinal


A continuación, se recoge brevemente la deducción de la función de probabilidad para
el modelo de odds proporcional. Para formularla, necesitamos las probabilidades obser-
vadas en las respuestas para cada individuo. Una expresión para estas probabilidades
en términos de los parámetros que rigen el modelo puede ser obtenida por la relación
siguiente:

P = odds/(odds + 1), o la expresión equivalente P = 1/[1 + (1/odds)]

dado que
P odds 1
odds = ⇒ P = = 1 .
1−P odds + 1 1 + ( odds )

En el modelo de odds proporcional, modelamos la probabilidad de que D ≥ g. Para


obtener una expresión para la probabilidad de que D = g, podemos usar la relación:

P (D = g) = P (D ≥ g) − P (D ≥ (g + 1))

De esta forma, podemos calcular la probabilidad de que un individuo esté es una


categorı́a especı́fica para unas variables explicativas Xi dadas.

La Función de Probabilidad (L) se calcula tomando el producto de las contribu-


ciones individuales como sigue:

n G−1 1 si el j-ésimo sujeto cumple D = g
Y Y yjg =
L= P (D = g |X)yjg 0 c.c.
j=i g=0

2.1.5. Estimación de parámetros


Se puede estimar los parámetros del modelo por máxima verosimilitud, maximizando
la función de verosimilitud:
n g−1
Y δj1  δij
Y 1 1 1
L(α, β|Y, X) = · · · = 0 0 − 0
i=1 j=2
1 + e−(α1 +β Xj ) 1 + e−(αj +β Xj ) 1 + e−(αj−a +β Xj )

donde:

1 si el i-ésimo individuo muestra Y = yj
δij =
0 en caso contrario

De aquı́ por las propiedades de los estimadores de MV,2


2
F es la matriz de información de Fisher
Modelos de regresión ordinal 19

 q 
asint. −1
θ̂k,M V ∼ N θk , F̂kk

Análogamente al Modelo Lineal Generalizado, se puede realizar la prueba de Wald para


resolver el contraste de hipótesis

H0 : βk = 0
H1 : βk 6= 0

con el estadı́stico de contraste

β̂ H β̂k2 H0
q k ∼0 N (0, 1), ó equivalentemente −1
∼ χ21
−1
F̂kk F̂kk

2.1.6. Residuos
Para el modelo de odds proporcional se puede analizar la contribución individual
de cada sujeto a la primera derivada de la función de log-probabilidad respecto a βm ,
promediándolos por separado según los niveles de Y , la variable objetivo, y examinando
las tendencias en las gráficos de los residuos. Este método es complejo ya que las gráficas
de los residuos no suelen ser fáciles de intepretar.

Los residuos parciales para el i-ésimo sujeto y la m-ésima variable explicativa se


definen como sigue

Yi − P̂i
rim = β̂m Xim + ,
P̂i (1 − P̂i )
donde
1
P̂i =
1 + exp [−(α + Xi β̂)]

Una gráfica más suave3 de Xim y rim proporciona una estimación no paramétrica
de cuanto influye Xm al log-odds relativo, que asume Y = 1 |Xm . Para una Y ordinal,
necesitamos simplemente repetir en cada corte de nivel g,

[Yi ≥ g] − P̂ig
ri m = β̂m Xim +
P̂ig (1 − P̂ig )
después se debe hacer una gráfica para cada m mostrando una curva suave para cada
g y buscar formas o pendientes similares para cada g con una variable predictora fija, cada
3
Más regular en el sentido de diferenciabilidad
20 Modelos de regresión ordinal

curva da una estimación de cuanto influye Xm al log-odds relativo tal que Y ≥ g. Dado
que los residuos parciales permiten el estudio de las transformaciones en las variables
predictoras (linealidad), al mismo tiempo que permiten el estudio sobre el modelo de odds
proporcional (paralelismo), generalmente se prefieren las gráficas de residuos parciales en
lugar de las llamadas gráficas de residuos score, para modelos ordinales.

2.2. Otros modelos ordinales de interés


A continuación se expondrán brevemente otra serie de modelos ordinales a tener en
cuenta y que serán usados en el caso de que las condiciones y los datos sean idóneos para
éstos.

2.2.1. Modelo de Ratios Continuados


Al contrario que el modelo de odds proporcional, el cual está basado en probabilidades
acumuladas, el modelo de Ratios Continuados (CR) está basado en las probabilidades
condicionadas. El modelo CR queda determinado para Y = 0, ..., k de la siguiente forma:

1
P (Y = g |Y ≥ g, X) =
1 + exp [−(θj + Xγ )]
logit (Y = 0 |Y ≥ 0, X) = logit (Y = 0 |X)
= θ0 + Xγ
logit (Y = 1 |Y ≥ 1, X) = θ1 + Xγ
···
= θk−1 + Xγ

donde γ es el vector de coeficientes de regresión

Se suele decir que el modelo CR ajusta las respuestas ordinales cuando los individuos
tienen que ”pasar a través de” una categorı́a para alcanzar la siguiente.4

2.2.2. Modelo Logit de Categorı́as Adyacentes


Una alternativa al modelo de odds acumulado es considerar los ratios de las proba-
bilidades para sucesivas categorı́as, por ejemplo
π1 π2 πG−1
, , ...,
π2 π3 πG
4
El modelo CR es una versión discreta del Modelo de Riesgos Proporcionales de Cox
Modelos de regresión ordinal 21

El modelo de categorı́as adyacentes es


 
πg
log = xTg βg
πg+1
Si se simplifica como
 
πg
log = β0g + β1 x1 + ... + βp−1 xp−1
πg+1
donde x = x1 , ..., xp es el vector formado por las variables explicativas que conforman
el modelo y β1 , ..., βp los coeficientes asociados a cada una de ellas.
Se asume que los efectos de cada variable explicativa sobre cada par de categorı́as
adyacentes es el mismo. Los coeficientes βi son usualmente interpretados como odds-
ratios usando la expresión previamente expuesta

OR = exp (βi )
Capı́tulo 3

Modelado en R

En este capı́tulo se aborda la aplicación del modelo objeto del presente trabajo desde
dos aspectos distintos:

La aplicación de los métodos de inferencia a través de la librerı́a “ordinal” de R.

Una ilustración de su aplicación e interpretación de resultados.

3.1. Librerı́a “ordinal”


Para el modelaje se usará la librerı́a “ordinal” [4], su objetivo consiste en la imple-
mentación del modelo de odds proporcionales [2.1] y otros modelos ordinales.

Las funciones máss relevantes para la regresión ordinal son:

clm
Ajusta mediante modelos acumulados como el modelo de odds proporcional. El mo-
delo permite varias funciones de enlace y umbrales estructurados que restringen
los puntos de corte equidistante o simetricamente dispuestos alrededor de los um-
brales centrales. Se usa una modificación del algoritmo de Newton para optimizar
la función de máxima verosimilitud.
Se pueden añadir estructuras determinadas para las distribución de los puntos de
corte.
A través de esta función podemos obtener los vectores de los coeficientes de regre-
sión, los vectores de las constantes α, las probabilidades ya ajustadas, etc.

anova.clm
Comparación de modelos acumulados a través de contrastes de razón de verosimi-
litudes.

23
24 Modelado en R

confint
Calcula intervalos de confianza a partir de la función de máxima verosimilitud de
uno o más parámetros.
Obtenemos una matriz donde sus columnas proporcionan los intervalos para cada
parámetro. También tiene la opción de crear la gráfica en el caso de que queramos
estudiarla en busca de problemas de linealidad.

convergence
Verifica la precisión de las estimaciones de los parámetros de los modelos acumula-
dos. El número correcto decimales y número de dı́gitos significativos se da para las
estimaciones de máxima verosimilitud de los parámetros en un modelo de enlace
acumulado creado con la función clm.
Se obtiene información sobre la convergencia, errores de estimación de los paráme-
tros estimados.

predict.clm
Se obtienen los valores esperados para un modelo previamente creado con la orden
clm. Requiere del modelo “clm” y de un “data frame” donde buscar las variables
con las que predecir.
Devuelve una lista con las predicciones o valores ajustados en el caso de que no se
le introduzca un “data frame” con las variables explicativas sobre las que apoyarse.
Ofrece la opción de que se muestren los intervalos de confianza y los errores.
Modelado en R 25

3.2. Ejemplo en R
3.2.1. Datos wine
Vamos a considerar los datos de acidez de ciertos vinos y los procesos seguidos en
Thompson [18], Fahrmeir y otros [7], Christensen [3] y basandonos en el ejemplo expuesto
en Christensen [5] se ilustrará en R el modelaje. Los datos de Randall (1989), disponibles
en el paquete “ordinal” de R, están presentados en el cuadro 3.1, disponible como el
conjunto de datos wine en el paquete ordinal.

library("ordinal")
data(wine)
head(wine)

## response rating temp contact bottle judge


## 1 36 2 cold no 1 1
## 2 48 3 cold no 2 1
## 3 47 3 cold yes 3 1
## 4 67 4 cold yes 4 1
## 5 77 4 warm no 5 1
## 6 60 4 warm no 6 1

str(wine)

## 'data.frame': 72 obs. of 6 variables:


## $ response: num 36 48 47 67 77 60 83 90 17 22 ...
## $ rating : Ord.factor w/ 5 levels "1"<"2"<"3"<"4"<..: 2 3 3 4 4 4 5 5 1 2 ...
## $ temp : Factor w/ 2 levels "cold","warm": 1 1 1 1 2 2 2 2 1 1 ...
## $ contact : Factor w/ 2 levels "no","yes": 1 1 2 2 1 1 2 2 1 1 ...
## $ bottle : Factor w/ 8 levels "1","2","3","4",..: 1 2 3 4 5 6 7 8 1 2 ...
## $ judge : Factor w/ 9 levels "1","2","3","4",..: 1 1 1 1 1 1 1 1 2 2 ...

El conjunto de datos representa un experimento sobre ciertos factores que determinan


la amargura del vino; donde 1 = “lo menos amargo” y 5 = “lo más amargo”, dos factores
de tratamiento (temperatura y contacto) cada una con dos niveles, la temperatura y
el contacto entre el zumo y las pieles de las uvas cuando se extrae de ellas. Nueve
jueces evaluaron cada vino de dos botellas para cada una de las cuatro condiciones de
tratamiento, por lo tanto, hay 72 observaciones en total. La variable objetivo Y a estudiar
será la variable “rating” ∈ {1, ..., 5} que es una categorización de la variable “response”
la cual califica la acidez de los vinos.
Vamos a ajustar el siguiente modelo acumulado para los datos wine:

logit(P (Yi ≤ j)) = θj − β1 (temperaturai ) − β2 (contactoi )


(3.1)
i = 1, ..., n j = 1, ..., J − 1
26 Modelado en R

Juez
Temperatura Contacto Botella 1 2 3 4 5 6 7 8 9
frı́o no 1 2 1 2 3 2 3 1 2 1
frı́o no 2 3 2 3 2 3 2 1 2 2
frı́o sı́ 3 3 1 3 3 4 3 2 2 3
frı́o sı́ 4 4 3 2 2 3 2 2 3 2
templado no 5 4 2 5 3 3 2 2 3 3
templado no 6 4 3 5 2 3 4 3 3 2
templado sı́ 7 5 5 4 5 3 5 2 3 4
templado sı́ 8 5 4 4 3 3 4 3 4 4

Cuadro 3.1: Calificaciones de la amargura de algunos vinos blancos. Los datos han sido
tomados de Randall (1989).

Este es un modelo para la probabilidad acumulada de que la calificación i-ésima caiga


sobre la categorı́a j-ésima o superior, donde i indica cada observación (n = 72) y los
ı́ndices j = 1, ..., J reflejan la categorı́a respuesta (J = 5).
El parámetro θj es el punto de corte para el j-ésimo modelo acumulado, logit(P (Yi ≤ j)).
Este modelo es el modelo de odds proporcional descrito en la sección 2.1 de este
trabajo.

Con el comando clm modelizamos a partir del modelo de odds proporcionales pre-
viamente desarrollado, ajustado mediante el método de máxima verosmilitud

fm1<-clm(rating ~ temp + contact, data=wine)


fm1

## formula: rating ~ temp + contact


## data: wine
##
## link threshold nobs logLik AIC niter max.grad cond.H
## logit flexible 72 -86.49 184.98 6(0) 4.02e-12 2.7e+01
##
## Coefficients:
## tempwarm contactyes
## 2.503 1.528
##
## Threshold coefficients:
## 1|2 2|3 3|4 4|5
## -1.344 1.251 3.467 5.006

Podemos obtener información adicional mediante summary


Modelado en R 27

summary(fm1)

## formula: rating ~ temp + contact


## data: wine
##
## link threshold nobs logLik AIC niter max.grad cond.H
## logit flexible 72 -86.49 184.98 6(0) 4.02e-12 2.7e+01
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## tempwarm 2.5031 0.5287 4.735 2.19e-06 ***
## contactyes 1.5278 0.4766 3.205 0.00135 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Threshold coefficients:
## Estimate Std. Error z value
## 1|2 -1.3444 0.5171 -2.600
## 2|3 1.2508 0.4379 2.857
## 3|4 3.4669 0.5978 5.800
## 4|5 5.0064 0.7309 6.850

El primer resultado es la tabla de coeficientes con estimaciones de parámetros, errores


estándar y los p-valores basados en el método de Wald. Las estimaciones mediante el
método de máxima verosmilitud para los parámetros son:

β̂1 = 2,50, β̂2 = 1,53, {θ̂j } = {−1,34, 1,25, 3,47, 5,01}


El número de iteraciones Newton-Raphson se da a continuación de niter. Tenemos
max.grad que es el gradiente absoluto máximo de la función de log-verosimilitud con
respecto a los parámetros. Un gradiente absoluto pequeño es una condición necesaria para
la convergencia del modelo. El procedimiento iterativo indicará convergencia siempre que
el gradiente absoluto máximo esté por debajo de

clm.control()$gradTol

## [1] 1e-06

Los coeficientes para la temperatura y el contacto son positivos, lo que indica que
una temperatura más alta y más contacto aumenta la amargura del vino, es decir, la
calificación en categorı́as superiores es más probable.

La odds ratio del suceso Y ≥ j es exp(βtratamiento ), por lo que la odds ratio de acidez
que clasifica en la categorı́a j o superior a temperaturas templadas frente a las frı́as es
28 Modelado en R

exp(coef(fm1)[5])

## tempwarm
## 12.22034

Los p-valores para los coeficientes de ubicación dados por el summary se basan en el
estadı́stico de Wald. Las pruebas de razón de verosimilitud proporcionan pruebas más
precisas. Estas se puede obtener con el método anova, por ejemplo, la prueba de ratios
de máxima verosimilitud del contacto es

fm2 <- clm(rating ~ temp, data=wine)


anova(fm2,fm1)

## Likelihood ratio tests of cumulative link models:


##
## formula: link: threshold:
## fm2 rating ~ temp logit flexible
## fm1 rating ~ temp + contact logit flexible
##
## no.par AIC logLik LR.stat df Pr(>Chisq)
## fm2 5 194.03 -92.013
## fm1 6 184.98 -86.492 11.043 1 0.0008902 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

que en este caso produce un p-valor ligeramente menor. De manera equivalente,


podemos usar Drop1 para obtener pruebas de razón de verosimilitud de las variables
explicativas mientras se controlan el resto variables:

drop1(fm1,test="Chi")

## Single term deletions


##
## Model:
## rating ~ temp + contact
## Df AIC LRT Pr(>Chi)
## <none> 184.98
## temp 1 209.91 26.928 2.112e-07 ***
## contact 1 194.03 11.043 0.0008902 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Las pruebas de razón de verosimilitud de las variables explicativas ignorando el resto


vienen dadas por el método add1 :
Modelado en R 29

fm0 <- clm(rating ~ 1,data=wine)


add1(fm0, scope = ~ temp + contact, test = "Chi")

## Single term additions


##
## Model:
## rating ~ 1
## Df AIC LRT Pr(>Chi)
## <none> 215.44
## temp 1 194.03 23.4113 1.308e-06 ***
## contact 1 209.91 7.5263 0.00608 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

En este caso, estas últimas pruebas no son tan fuertes como las pruebas que controlan
la otra variable.
Los intervalos de confianza se obtienen a partir del comando confint como sigue

confint(fm1)

## 2.5 % 97.5 %
## tempwarm 1.5097627 3.595225
## contactyes 0.6157925 2.492404

Estos se basan en los perfiles de la funcion de verosimilitud y generalmente son


bastante precisos. Menos preciso, pero más simple y con intervalos de confianza simétri-
cos basados en los errores estándar de los parámetros (también llamados, intervalos de
confianza de Wald) se obtienen con:

confint(fm1, type="Wald")

## 2.5 % 97.5 %
## 1|2 -2.3578848 -0.330882
## 2|3 0.3925794 2.109038
## 3|4 2.2952980 4.638476
## 4|5 3.5738541 6.438954
## tempwarm 1.4669081 3.539296
## contactyes 0.5936345 2.461961

Además del enlace logit, que es el predeterminado, el probit, el log-log, el log-log


complementario y el de cauchit también se pusen usar para el ajuste. Por ejemplo, un
modelo de odds proporcionales como el anterior pero con el enlace log-log serı́a:
30 Modelado en R

fm.cll <- clm(rating ~ contact + temp, data=wine, link="cloglog")

En resumen, el primer modelo que creamos supone que los {βj } son constantes para
todos los valores de las variables explicativas restantes, en nuestro ejemplo temperatura
y contacto. Esto se conoce como la suposición de odds proporcionales o suposición de
pendientes iguales.

3.2.2. Predicciones sobre wine


Los valores ajustados se obtienen con la orden fitted(fm1) y producen probabilidades
ajustadas, es decir, la i-ésima probabilidad ajustada serı́a la probabilidad de que la i-
ésima observación caiga sobre la categorı́a prevista. Las predicciones sobre qué categorı́a
respuesta tiene mas probabilidad sobre las que caer la i-ésima observación son:

pfm1=predict(fm1,type="class")
pfm1$fit[1:15]

## [1] 2 2 3 3 3 3 4 4 2 2 3 3 3 3 4
## Levels: 1 2 3 4 5
Digamos que solo queremos las predicciones para las cuatro posibles combinaciones
entre temperatura y contacto, entonces serı́a:

combinaciones <- expand.grid(temp=levels(wine$temp),


contact=levels(wine$contact))
cbind(combinaciones, predict(fm1, newdata=combinaciones)$fit)

## temp contact 1 2 3 4 5
## 1 cold no 0.206790132 0.57064970 0.1922909 0.02361882 0.00665041
## 2 warm no 0.020887709 0.20141572 0.5015755 0.20049402 0.07562701
## 3 cold yes 0.053546010 0.37764614 0.4430599 0.09582084 0.02992711
## 4 warm yes 0.004608274 0.05380128 0.3042099 0.36359581 0.27378469

Los errores estándar y los intervalos de confianza para las predicciones también se
pueden calcular. Por ejemplo, para las primeras cuatro observaciones; las predicciones,
los errores estándar y los intervalos de confianza al 95 % serı́an:

h=head(do.call("cbind", predict(fm1, se.fit=TRUE, interval=TRUE)))


h[1:4,]

## fit se.fit lwr upr


## [1,] 0.57064970 0.08683884 0.39887109 0.7269447
## [2,] 0.19229094 0.06388672 0.09609419 0.3477399
## [3,] 0.44305990 0.07939754 0.29746543 0.5991420
## [4,] 0.09582084 0.04257593 0.03887676 0.2173139
Capı́tulo 4

Ejemplos Reales

En esta sección se nombrarán y describirán brevemente algunas situaciones reales


que fueron estudiadas con modelos ordinales.

4.1. Regresión Logı́stica Ordinal Aplicada a la Identifica-


ción de Factores de Riesgo para Cáncer de Cuello Ute-
rino
Este estudio fue realizado por Evaristo Navarro, Anı́bal Verbel, Delia Robles y Ken-
nedy Hurtado, en Barranquilla, Colombia y publicado el 25 de Agosto de 2014. (Navarro
y otros [16])

Según los autores, la identificación de factores de riesgo para cáncer de cuello uterino
es determinante a la hora de establecer diagnósticos efectivos que, en un momento dado,
pueden ser determinantes para salvar vidas. Desde esta perspectiva se realizó este estudio
sobre una muestra constituida por 105 pacientes. En el estudio fue considerada como
variable objetivo el Cáncer de cuello uterino (CCU) y como variables explicativas los
factores relacionados con la paridad (Edad (ED), Número de Hijos Nacidos Vivos (NHV),
Número de Hijos Nacidos Muertos (NHM), tipo de parto (TP) y tipo de embarazo (TE)).
También se incluyeron las caracterı́sticas de la conducta sexual (Enfermedades venéreas
(EV)). De manera general se observa que el riesgo de tener cáncer de cuello uterino es
mayor cuando aumenta el número de hijos en partos por cesárea y se ha perdido un hijo.

4.2. Predicción del rendimiento en una asignatura emplean-


do la regresión logı́stica ordinal
Este estudio fue realizado por Jobany J. Heredia, Aida G. Rodrı́guez y José A. Vilalta,
llevado por el departamento de Ingenierı́a Industrial, Facultad de Ingenierı́a Industrial
del Instituto Superior Politécnico “José Antonio Echeverrı́a” en La Habana, Cuba. Año
de publicación, 2014. (Heredia y otros [10])

31
32 Ejemplos Reales

En las asignaturas donde el ı́ndice de fracaso es considerable, es fundamental que el


profesor posea información relevante sobre sus alumnos para desarrollar un tratamiento
especı́fico para cada uno de ellos. En el trabajo se emplea la regresión logı́stica ordinal
para construir una ecuación que relacione la puntuación en la asignatura Modelos Pro-
babilı́sticos de los Procesos (MPP), la cual se imparte en segundo año de la carrera de
Ingenierı́a Industrial, con sus resultados en primer año. Con los datos de 274 estudiantes
pertenecientes a dos cursos académicos distintos, se obtuvo como mejor modelo el que
relaciona la evaluación en MPP con la media del alumno en las asignaturas de ciencia
que recibe en primer año. Las probabilidades estimadas de este modelo se usaron co-
mo base para el desarrollo de un método que permitió mejorar la experiencia general y
califcación de los alumnos del curso posterior.

4.3. El impacto de las relaciones interpersonales en la sa-


tisfacción laboral general
Este estudio fue realizado por Rodrigo Yañez, Mallén Arenas y Miguel Ripoll en la
Universidad de Concepción, Concepción, Chile. Publicado en el año 2010. (Yañez y otros
[20])

Los autores evaluaron el impacto de las relaciones interpersonales en el trabajo en la


satisfacción laboral general. Primero, se construyó una escala para evaluar la satisfac-
ción con las relaciones interpersonales en el trabajo y se aplicó a 209 trabajadores de un
hospital. Un análisis factorial obtuvo una solución de dos factores y una adecuada con-
sistencia interna de los ı́tems. Posteriormente, se aplicó la escala a 321 trabajadores de 7
centros de salud. Utilizando una regresión logı́stica ordinal se obtuvo que las relaciones
interpersonales en el trabajo tienen un impacto significativo en la satisfacción laboral
general, especialmente, las relaciones con los jefes.

4.4. Las percepciones de riesgo de los consumidores en ali-


mentos lácteos: aplicación de una regresión logı́stica
ordinal
Este estudio fue realizado por Beatriz Lupı́n, Maria Victoria Lacaze y Elsa Mirta M.
Rodrı́guez, presentado en la XII Reunión Cientı́fica del Grupo Argentino de Biometrı́a
y I Encuentro Argentino-Chileno de Biometrı́a, San Martı́n de los Andes, Argentina en
Octubre de 2007. (Lupı́n y otros [13])

Según los autores de este trabajo, la creciente preocupación por la calidad de los
alimentos manifestada por los consumidores se relaciona con la percepción de riesgos
reales o potenciales asociados a los métodos y a las tecnologı́as empleados en la produc-
ción y en el procesamiento de los mismos. Dicha preocupación se ve influenciada por la
información a la que acceden los consumidores, constituyendo un factor crı́tico de las
Ejemplos Reales 33

decisiones de compra. El objetivo de este trabajo fue aplicar un método estadı́stico de


estimación que incorpora la naturaleza ordinal de la variable objetivo, a fin de analizar
la incidencia de los factores asociados a las percepciones de riesgo de los consumidores
en el caso de los alimentos lácteos. Las percepciones de riesgo para la salud derivadas
del contenido de conservantes en los productos lácteos (variable objetivo con tres niveles
de riesgo: alto, medio y bajo), interviniendo como variables explicativas las relacionadas
con la información sobre la calidad de los alimentos, los sistemas de regulación vigentes
y aspectos socio-demográficos de los consumidores. Los datos provienen de una encuesta
realizada a 301 consumidores, captados en la Ciudad de Buenos Aires, durante abril de
2005.
Bibliografı́a

[1] A. Agresti. Categorical data analysis, volume 482. John Wiley & Sons, 2003.
[2] M. Alcaide. Modelo de regresión binominal negativa. 2015.
[3] R. Christensen. Analysis of ordinal data with cumulative link models—estimation
with the ordinal package. R-package version, 13:9–13, 2011.
[4] R. Christensen. ordinal—regression models for ordinal data. R package version,
28:2015–06, 2015.
[5] R. Christensen. A tutorial on fitting cumulative link models with the ordinal pac-
kage, 2015.
[6] A. J. Dobson and A. Barnett. An introduction to generalized linear models. CRC
press, 2008.
[7] L. Fahrmeir, T. Kneib, S. Lang, and B. Marx. Regression: models, methods and
applications. Springer Science & Business Media, 2013.
[8] J.W. Hardin, J.M. Hilbe, and J. Hilbe. Generalized linear models and extensions.
Stata press, 2007.
[9] F. E. Harrell. Ordinal logistic regression. In Regression modeling strategies, pages
331–343. Springer, 2001.
[10] J. Heredia, A. Rodrı́guez, and J. Vilalta. Predicción del rendimiento en una asig-
natura empleando la regresión logı́stica ordinal. Estudios pedagógicos (Valdivia),
40(1):145–162, 2014.
[11] D. Kleinbaum and M. Klein. Survival analysis, volume 3. Springer, 2010.
[12] D. Kleinbaum, M. Klein, and ER. Pryor. Logistic regression: a self-learning text.
2002.
[13] B. Lupı́n, M. Lacaze, and E. Rodrı́guez. Las percepciones de riesgo de los consu-
midores en alimentos lácteos: Aplicación de una regresión logı́stica ordinal. 2007.
[14] J.M. Marı́n. Regresión logı́stica multinomial. http://halweb.uc3m.es/esp/
Personal/personas/jmmarin/esp/Categor/Tema5Cate.pdf.

35
36 Ejemplos Reales

[15] P. McCullagh et al. Generalized linear models. CRC Monographs on Statistics &
Applied Probability, Springer Verlag, New York, 1989.

[16] E. Navarro, A. Verbel, D. Robles, and KR. Hurtado. Regresión logı́stica ordinal
aplicada a la identificación de factores de riesgo para cáncer de cuello uterino.
Ingeniare, 9(17):87–105, 2014.

[17] J.A. Nelder and R. J. Baker. Generalized linear models. Wiley Online Library, 1972.

[18] L. A Thompson. S-plus (and r) manual to accompany agresti’s categorical data


analysis (2002). 2009.

[19] K. Vasconcellos, G. M. Cordeiro, and L. Barroso. Improved estimation for robust


econometric regression models. Brazilian Journal of Probability and Statistics, pages
141–157, 2000.

[20] R. Yañez, M. Arenas, and M. Ripoll. El impacto de las relaciones interpersonales


en la satisfacción laboral general. Liberabit, 16(2):193–202, 2010.

También podría gustarte