Taz TFG 2018 4745
Taz TFG 2018 4745
Taz TFG 2018 4745
Los modelos lineales generalizados se definen como una extensión de los modelos lineales clásicos.
Estos, se dieron a conocer debido al estudio de Legendre, quien propuso un método aplicado a datos
astronómicos basándose en un criterio intuitivo, en el que la variabilidad en las observaciones fue, en
gran parte, debido a un error de medida.
Años más tarde, en 1809, Gauss introdujo la distribución Normal de errores como un método para
describir la variabilidad. De esta manera, mostró que muchas de las propiedades de las estimaciones
de mínimos cuadrados no dependen de la normalidad, sino de supuestos de varianza e independencia
constantes. Una propiedad estrechamente relacionada se aplica a los modelos lineales generalizados.
Los modelos lineales generalizados, propuestos por Nelder y Wedderburn en 1972, fueron formula-
dos como una manera de unificar distintos modelos estadísticos bajo un solo marco teórico. La introduc-
ción de estos modelos tuvo un gran impacto en la estadística aplicada y, actualmente, tienen aplicaciones
en diferentes campos como la medicina, la geografía, la psicología o la climatología, entre otros.
Estos modelos son una solución especialmente adecuada para modelos de dependencia con datos
no métricos, los cuales no se ajustan al modelo lineal clásico e incumplen los supuestos de linealidad y
normalidad.
III
Resumen
Throughout this work, generalized linear models, which are a generalization of the linear models,
are studied. Mainly, they are used when it is no possible to verify one or more features of linear models.
For this reason, the first chapter starts remembering the properties of these ones in order to define the
generalized linear models. Once the generalized linear models are defined, their random component,
the systematic component, and the link function are defined explaining in the first one the exponential
family. Moreover, in the link function section the canonical link is studied.
After that, it is shown how to estimate a generalized linear model with the maximum likelihood
method and it is also explained how to calculate the deviance and the scaled deviance in these models
giving a concrete formula for both of them.
Once all these topics have been seen, the three kinds of residuals of the generalized linear models
are studied. They are known as Pearson residual, Anscombe residual and deviance residual.
Finally, the first chapter finishes with the explanation of the dummy covariates and the deviance test
used in the selection of the covariates of the model.
In the second chapter, some particular cases of the generalized linear models are considered. It starts
showing that generalized linear models with Poisson error belong to the exponential family, and giving
an expression of its canonical link and its deviance. Their main characteristic is that its mean and its va-
riance are the same. However, sometimes this assumption is not verified because the variance is bigger
than the mean, thus overdispersion occurs. In order to solve this problem, an error with Binomial Nega-
tive distribution is introduced. In addition, as in models with Poisson error, it is shown the belonging to
this distribution to the exponential family, and an expression of the canonical link is given.
After generalized linear models with Poisson and Binomial Negative error, generalized linear mo-
dels with Gamma error are studied and, again, it is shown that this model belongs to the exponential
family. In addition, a particular expression of its canonical link and deviance are given. In this case,
apart from studying these characteristics, the estimation of the dispersion parameter is also taken into
consideration.
Finally, in the third and last chapter, the theory seen during the work is used to create two models
applied to heat waves using R Commander. It starts defining heat waves and doing a descriptive analysis
of the covariates which are used to create both models.
The first model is applied to the study of the length of heat waves in Zaragoza during May, June,
July, August and September in an interval of time of 65 years, from 1951 to 2016. For that model, both
Poisson distribution or Binomial Negative distribution can be used. The most frequent count data distri-
bution is Poisson distribution, for this reason it is started creating a model with this distribution.
When the model is created, the existence of overdispersion is tested. As it is shown, overdispersion
occurs, so a new model with Binomial Negative distribution must be studied.
V
VI Resumen
Once this model is generated, it is compulsory to check it by the application of different techniques.
The first one is the validity of the model with a goodness-of-fit test, Kolmogorov-Smirnov test, with the
DHARMa package.
Finally, in order to see the obtained result with this model, it is created a plot between the covariates
and the fitted values.
On the other hand, the second model is applied in the study of the maximum intensity of heat waves
under the same features than the first one. In this case, Gamma distribution is used and, as in the first
model, once the model is finished it is necessary to chek it to ensure that it is correct using the same
techniques than in the previous model.
Also, to finish the study of this model, a graphic between the covariates and the fitted values is
created.
Índice general
Prólogo III
Resumen V
Bibliografía 27
VII
Capítulo 1
Los modelos lineales clásicos presentan varias restricciones, las cuales en ocasiones pueden no
verificarse. Para solucionar este problema se estudian los modelos lineales generalizados. A lo largo
de este capítulo se va a dar una definición específica de estos modelos así como de sus componentes.
También se va a estudiar el proceso de estimación y se dará una definición de la desviación de los
modelos lineales generalizados. A continuación se verán tres tipos de residuos: Pearson, Anscombe
y desviación y, por último, se hará un breve estudio de las variables dummy y de un proceso para la
selección de covariables en el modelo.
1.1. Definición
Un modelo lineal generalizado (GLM) es una extensión del modelo lineal clásico; por ello, antes
de definir un modelo lineal generalizado conviene recordar las tres condiciones que debe verificar un
modelo lineal:
1. Los errores se distribuyen normalmente.
2. La varianza es constante.
3. Las variables independientes están relacionadas con la variable dependiente de manera lineal.
De manera analítica se tiene que, dada una muestra (Yi , Xi1 , ..., Xip ) con i=1,...,n, la relación entre las
observaciones Yi y las variables independientes se expresa como:
Yi = β0 + β1 Xi1 + ... + β p Xip + εi con i=1,...,n.
o equivalentemente
µi = E(Yi ) = β0 + β1 Xi1 + ... + β p Xip
suponiendo que el error verifica εi ∼ N(0, σ 2 ), es decir, Yi ∼ N(µ, σ 2 ).
El modelo lineal generalizado se define como una generalización del modelo lineal anterior que
puede ser utilizado cuando una o varias de sus condiciones no se satisfacen. En particular, esta gene-
ralización permite varianzas no constantes y errores con distribuciones no Normales, como Binomial,
Poisson o Gamma entre otras. Además, tampoco requiere una relación lineal entre la respuesta y las
variables independientes.
1
2 Capítulo 1. Introducción a los modelos lineales generalizados
Algunas de estas distribuciones son la distribución Normal, Gamma, Poisson o Binomial, entre
otras. Cada una de ellas tiene una función a, b y c diferente. Por ejemplo, sabiendo que la distribución
Normal viene dada por la función de densidad
1
fY (y; θ , φ ) = √ exp{−(y − µ)2 /2σ 2 } = exp{−(y − µ)2 /2σ 2 + log(2πσ 2 )−1/2 } =
2πσ 2
2 2 1 2 2 2
exp (yµ − µ /2)/σ − (y /σ + log(2πσ ))
2
1 2 2
b(θ ) = θ 2 /2 y /σ + log(2πσ 2 ) .
a(φ ) = φ , , c(y; φ ) = −
2
2
∂ 2l
∂l
E +E =0 (1.3)
∂θ2 ∂θ
De (1.1) se tiene
∂l y − b0 (θ )
= (1.4)
∂θ a(φ )
∂ 2l −b00 (θ )
= (1.5)
∂θ2 a(φ )
y − b0 (θ )
Tomando esperanzas en (1.4) y aplicando (1.2) se tiene que E = 0, de donde se deduce
a(φ )
la media:
E(Y ) = µ = b0 (θ ) (1.6)
−b00 (θ ) y − b0 (θ ) 2
E +E = 0.
a(φ ) a(φ )
Y, con el resultado de (1.6), queda:
−b00 (θ ) y−µ 2
E +E =0
a(φ ) a(φ )
a(φ ) = φ /ω
y, equivalentemente,
η= (η1 , ..., ηn ) = Xβ
g(µ) = Xβ = η.
θ = g(µ)
Cada distribución posee una única función de este tipo, aunque esta puede coincidir para distintas
distribuciones. Algunas de ellas son:
Distribución Normal θ =µ
Distribución Gamma θ = µ −1
4 Capítulo 1. Introducción a los modelos lineales generalizados
Para ello se considera un modelo de regresión donde la variable dependiente no es y sino z, una for-
ma linealizada de la función de enlace aplicada a y, y los pesos son funciones de los valores ajustados µ
b.
dη
g(y) ' g(µ) + (y − µ)g0 (µ) = η + (y − µ) = z.
dµ
El proceso es iterativo ya que tanto la variable dependiente ajustada z como el peso W dependen de
los valores ajustados, los cuales solo están definidos para estimaciones actuales. Dicho procedimiento
es como sigue:
tal que z0 = Xβ .
A continuación, se estima el modelo z0 = Xβ , con peso W0 para obtener nuevos estimadores βb1
de los parámetros, a partir de los cuales se forma un nuevo estimador η b1 del predictor lineal, y se va
repitiendo el proceso hasta que las modificaciones sean suficientemente pequeñas.
1.5. Residuos
Para comprobar la adecuación del ajuste de un modelo, se utilizan los residuos. A continuación se
van a definir tres tipos de residuos: Pearson, Anscombe y residuos de la desviación.
Este residuo tiene la desventaja de que su distribución para datos no Normales es asimétrica, lo que
impide que tengan propiedades similares a las que tienen bajo normalidad.
Residuo Anscombe Anscombe define un residuo utilizando una función A(y) en lugar de y, donde
A(·) se elige para conseguir una distribución tan Normal como sea posible.
Wedderburn (véase [6]) mostró que, para las funciones de verosimilitud de los modelos lineales
generalizados, la función A(·) viene dada por
dµ
Z
b
A(·) = .
V 1/3 (µ
b)
Por lo tanto, los residuos Anscombe varían dependiendo de la distribución con la que se trabaje. Por
ejemplo, en el caso de la distribución Poisson se definen como
3(y2/3 − µb 2/3 )
rA = .
2µb 1/6
Y en el caso de la Gamma como
3(y1/3 − µb 1/3 )
rA = .
b 1/3
µ
Los valores que toma este residuo para distribuciones no Normales suelen ser muy parecidos a los
que toma el residuo en la desviación, definido a continuación.
6 Capítulo 1. Introducción a los modelos lineales generalizados
con i=1,...,n.
De nuevo este residuo varía dependiendo de la distribución con la que se trabaje. Por ejemplo, el
residuo de la desviación para una distribución Poisson es:
1/2
b ) {2(y log(y/µ
rD = sign(y − µ b) − y + µ
b )} .
La introducción de una variable cualitativa con k niveles en el modelo, debe permitir que el valor
medio de la respuesta en cada nivel i de la variable pueda ser distinto, αi . Para ello se debe introducir en
el predictor lineal
α1 u1 + α2 u2 + ... + αk uk
donde u j , j = 1, ..., k, son las variables binarias, las cuales toman el valor 1 si la observación pertenece
al nivel j y cero en otro caso.
Se verifica que u1 + u2 + ... + uk = 1, donde 1 es el vector identidad. Dado que el término inde-
pendiente de un modelo está asociado al vector 1, si en el modelo existe término independiente, se
introducen k − 1 variables dummy para evitar así una combinación lineal entre las variables, mientras
que si no existe dicho término se introducen las k variables.
Este test consiste en la comparación del ajuste de dos modelos anidados, es decir, de dos modelos
con la misma distribución de probabilidad y con la misma función de enlace, pero siendo la componente
lineal del modelo más simple, M0 , un caso particular de la componente lineal del modelo general M1 .
H0 : β = (β0 , β1 , ..., βq )
y la hipótesis correspondiente a M1
con q < p < n. Notar que el modelo M0 se obtiene al imponer en M1 : βq+1 = ... = β p = 0.
El objetivo del test es comparar H0 y H1 mediante la diferencia entre sus desviaciones. Denotando
como D0 a la desviación del modelo M0 y como D1 a la de M1 se tiene
Para un modelo con distribución Gamma, su desviación es (los cálculos se verán en 2.2.2):
2 n
yi − µbi
D(µb ; y) = 2 ∑ − log(yi /µ
bi )) +
σV i=1 µ
bi
bi (0) y µ
Sean µ bi (1) los valores ajustados para M0 y M1 respectivamente. Entonces:
2 n 2 n
yi − µbi (0) yi − µbi (1)
D0 = 2 ∑ − log(yi /µi (0)) +
b ; D1 = 2 ∑ − log(yi /µi (1)) +
b .
σV i=1 bi (0)
µ σV i=1 bi (1)
µ
Si H0 es correcta, F tendrá una distribución central F(p − q, n − p), mientras que si no lo es, el valor
de F será mayor de lo esperado en la distribución F(p − q, n − p).
Capítulo 2
Los modelos lineales clásicos asumen una varianza constante para todos los valores. Esta propiedad
es necesaria para garantizar una estimación de los parámetros correcta. Sin embargo, a menudo se pue-
den dar casos en los que la varianza no es constante sino que aumenta con la media.
En este capítulo se van a tratar los modelos lineales generalizados con error de Poisson y Binomial
Negativo así como sus propiedades principales y los modelos lineales generalizados con coeficiente de
variación constante llegando así a definir la distribución Gamma y sus características.
e−µ µ y
P(Y = y) = y = 0, 1, 2, ... (2.1)
y!
con µ > 0. Su media y varianza coinciden:
E(Y ) = Var(Y ) = µ.
exp{yθ − eθ − log(y!)}.
Considerando
9
10 Capítulo 2. Algunos casos particulares de GLM
Enlace canónico
Para calcular el enlace canónico de la distribución de Poisson, consideramos E(Y ) = µ = eθ . Así
se tiene que log µ = θ .
Desviación
Para n observaciones independientes, la función de log-verosimilitud es
n
l(µ; y) = ∑ (yi log µi − µi − log(yi )!).
i=1
2.1.1. Sobredispersión
La propiedad más destacada de la distribución de Poisson es que la media y la varianza coinciden.
Sin embargo, esta hipótesis puede ser muy restrictiva y, al trabajar con datos reales, con frecuencia la
varianza es mayor que la media. A este hecho se le llama sobredispersión.
Cuando aparece un problema de sobredispersión, existen distintas soluciones posibles. Zeilis, Klei-
ber y Jackman proponen distintas alternativas (véase [4]). Aquí nos vamos a centrar en considerar un
error con distribución Binomial Negativa.
φ
Esta distribución es una Binomial Negativa, con p = y r = µφ :
1+φ
y+r−1
P(Y = y; µ, φ ) = y (1 − p)y pr .
De esta manera, dicha distribución Binomial Negativa se puede considerar como una generalización
de la distribución de Poisson ya que tiene su misma media y varianza, añadiéndole a esta última un
parámetro adicional para la sobredispersión.
Y, con
y+r−1
b(θ ) = −r log(1 − eθ ) , a(φ ) = φ = 1 , c(y, φ ) = log
y
queda demostrado que la distribución Binomial Negativa pertenece a la familia exponencial.
Además,
reθ r(1 − p)
E(Y ) = b0 (θ ) = =
1−e θ p
y
Enlace canónico
Para calcular el enlace canónico de esta distribución, consideramos
reθ r
µ = E(Y ) = = −θ .
1−e θ e −1
Entonces,
12 Capítulo 2. Algunos casos particulares de GLM
e−θ − 1
1
µ −1 = ⇒ rµ −1 + 1 = e−θ ⇒ log(rµ −1 + 1) = −θ ⇒ log =θ .
r rµ −1 + 1
Para σV pequeño, una posibilidad para estabilizar la varianza y obtener una distribución Normal es
transformar la respuesta mediante un logaritmo, esto es suponer que la distribución de Y es log-Normal.
De esta manera se tienen los siguientes momentos:
Y − µ (Y − µ)2
logY ≈ log µ + − . (2.2)
µ 2µ 2
Para demostrar la primera expresión tomamos esperanzas en (2.2):
En otros casos es más conveniente no transformar la variable respuesta Y y utilizar una función de
enlace. Si la parte sistemática del modelo es multiplicativa, se tiene, (véase [1]):
log(E(Y )) = xT β .
Con esta función de enlace, se tiene linealidad sin transformar la escala y una función varianza que
es función cuadrática de la media. Con estas características, se pueden usar iterativamente mínimos cua-
drados no lineales con pesos para obtener estimaciones para β , véase [1]. Este método de estimación
1
es equivalente a asumir que Y sigue una distribución Gamma con ν = 2 constante e independiente de
σV
la media, como se muestra a continuación.
Modelos lineales generalizados - Laura Morte Sarmiento 13
y despejando f (y):
f (y) = exp{− log Γ(ν) + ν log ν + ν log y − ν log µ − νy/µ − log y}.
f (y) = exp{νyθ + ν log(−θ ) − log Γ(1/φ ) + 1/φ log(1/φ ) + 1/φ log y − log y}.
b(θ ) = − log(−θ ) , a(φ ) = φ , c(y, φ ) = − log Γ(1/φ ) + 1/φ log(1/φ ) + 1/φ log y − log y
Enlace canónico
Para calcular el enlace canónico de esta distribución consideramos E(Y ) = µ = −1/θ . Despejando
θ queda
θ = −1/µ.
η = θ = µ −1 .
La transformación recíproca no garantiza una estimación positiva de la media, la cual debe ser
siempre positiva en una distribución Gamma, por lo que en ocasiones puede ser inadecuada esta función
de enlace. Para evitar este problema, se utiliza el enlace logarítmico, es decir
η = log µ.
14 Capítulo 2. Algunos casos particulares de GLM
Desviación
n
νyi
l(µ; y) = ∑ − log Γ(ν) + ν log ν + ν log yi − ν log µi − − log yi .
i=1 µi
n
l(y; y) = ∑ (− log Γ(ν) + ν log ν + ν log yi − ν log yi − ν − log yi )
i=1
n
νyi
b ; y) = ∑ − log Γ(ν) + ν log ν + ν log yi − ν log µ
l(µ bi − − log yi
i=1 µ
bi
podemos calcular la desviación escalada mediante la diferencia entre las expresiones anteriores:
n
n
νyi yi − µbi
b )/φ = 2 ∑ ν log(µ
D(y; µ bi /yi ) + − ν = 2 ∑ ν log(µ
bi /yi ) + .
i=1 µ
bi i=1 µ
bi
donde W = diag{(dµi /dηi )2 /V (µi )} es la matriz n × n diagonal de pesos, véase [1, pág. 40], ya que
los estimadores de máxima verosimilitud de los parámetros β en el predictor lineal η pueden ser obte-
nidos a partir de un método iterativo de mínimos cuadrados con pesos. Si σV2 es conocido, la matriz de
covarianzas de βb puede calcularse directamente. Sin embargo, en la práctica suele ser desconocido pero
puede ser estimado a partir de los residuos.
b ) = 2n{log ν − Γ0 (ν)/Γ(ν)}.
D(y; µ
n
Γ0 (ν)
∂ l(µ, y) yi
= ∑ − − log µi + log yi + 1 + log ν − =0⇒
∂ν i=1 µi Γ(ν)
Γ0 (ν) n
yi − µi
n log ν − = ∑ log(µi /yi ) − .
Γ(ν) i=1 µi
Modelos lineales generalizados - Laura Morte Sarmiento 15
Al multiplicar por dos a ambos lados de la igualdad y aplicar la definición de desviación se tiene el
resultado.
el cual es consistente para σV2 siempre y cuando β haya sido estimado consistentemente. Este estimador
para σV2 se puede usar en la fórmula σV2 (X T W X)−1 para obtener un estimador de cov(βb).
Capítulo 3
Una ola de calor se define como un periodo de varios días consecutivos en el cual la temperatura es
excesivamente alta, es decir, supera un determinado umbral. Este umbral es diferente para cada locali-
dad y se calcula como el percentil 95 de la temperatura máxima diaria de la localidad a estudiar en los
meses de julio y agosto en un periodo de referencia de 1971 a 2000.
En este trabajo nos vamos a centrar en las olas de calor de Zaragoza, donde el umbral es de 37ºC, en
los meses de mayo, junio, julio, agosto y septiembre en un intervalo de tiempo de 65 años, desde 1951
hasta 2016. Durante este tiempo, en Zaragoza se dieron 198 olas de calor.
El objetivo de este trabajo es realizar dos estudios relacionados con las olas de calor, aplicando la
teoría vista en los capítulos anteriores. El primero de ellos va a consistir en el estudio de la duración de
las olas de calor, es decir, en el número de días con observaciones por encima de un umbral, mientras
que en el segundo se va a tratar la intensidad de las mismas, es decir, los grados por encima del umbral.
Los datos que se van a utilizar están proporcionados por AEMET (Agencia Estatal de Meteorolo-
gía), y las variables que van a intervenir en la creación de los modelos anteriores son:
LZ: Duración de las olas de calor. Se define como el número de días por encima del umbral
máximo definido a partir del cual se producen las olas de calor.
IxZ: Intensidad máxima de las olas de calor. Se define como el número de grados por encima de
dicho umbral.
CTxm31Z: Tendencia a corto plazo de la temperatura.
CTTxZ: Tendencia a largo plazo de la temperatura.
cospi y sinpi: Términos estacionales. La estacionalidad, véase [7], se tiene en cuenta consideran-
do como covariables la restricción a los meses de verano de las funciones armónicas que describen el
ciclo anual:
cos(2πi) y sin(2πi)
17
18 Capítulo 3. Aplicación a las olas de calor
En cuanto a la distribución a elegir para la creación de este modelo, de acuerdo a las características
de nuestros datos (son discretos y solo toman valores positivos), se debe seleccionar una distribución
discreta que solo tome valores positivos. La distribución de conteo más frecuente es la de Poisson, por
lo que vamos a empezar a trabajar con ella.
Notar que la distribución Poisson toma valores desde cero, mientras que la variable respuesta LZ
comienza a tomar valores a partir de 1. Para solucionar este problema es necesario trabajar con la dura-
ción desplazada una unidad, es decir con LZ-1 = LZmodif.
Al trabajar con una distribución Poisson, para la elección de las covariables que van a formar parte
del modelo, vamos a estudiar distintos contrastes de hipótesis utilizando el Test de Razón de Verosimi-
litudes mediante la orden lrtest. Con esta orden realizamos un Test de Razón de Verosimilitudes con
una distribución Chi-cuadrado obteniendo un p-valor resultante, si este p-valor es menor que un nivel
de significación 0.05 se rechaza la hipótesis nula.
H0 : β1 = β2 = 0
H1 : β1 6= 0 y/o β2 6= 0
> lrtest(GLM.1,GLM.2)
## Likelihood ratio test
##
## Model 1: LZmodif ~ cospi + sinpi
## Model 2: LZmodif ~ 1
## #Df LogLik Df Chisq Pr(>Chisq)
## 1 3 -280.10
## 2 1 -280.55 -2 0.8961 0.6389
Como el p-valor es 0.6389 > 0.05, no se rechaza la hipótesis nula, es decir, se rechaza la entrada del
armónico en el modelo y, por tanto, no hay un comportamiento estacional en el modelo.
Veamos ahora si entra en el modelo la variable CTxm31Z. Para ello consideramos el modelo:
H0 : β1 = 0
H1 : β1 6= 0
Modelos lineales generalizados - Laura Morte Sarmiento 19
Como el p-valor es 0.00000001036 < 0.05 se rechaza la hipótesis nula, es decir, la variable CTxm31Z
tiene una influencia significativa a un nivel α = 0,05 en la respuesta.
Por otro lado, vamos a analizar si entra en el modelo la variable que muestra la evolución a largo
plazo, es decir, veamos si entra CTTxZ. Para ello consideramos el modelo:
H0 : β1 = 0
H1 : β1 6= 0
Como el p-valor es 0.01839 < 0.05 se rechaza la hipótesis nula, es decir, la variable CTTxZ tiene
una influencia significativa a un nivel α = 0,05 en la respuesta.
Vemos así que tanto la variable CTTxZ como la variable CTxm31Z entran por separado en el mode-
lo, sin embargo el p-valor obtenido con la inclusión de esta última es mucho mayor al p-valor obtenido
incluyendo CTTxZ.
Por último, veamos si, una vez la variable CTxm31Z está en el modelo, CTTxZ entra en este consi-
derando el modelo:
H0 : β2 = 0
H1 : β2 6= 0
Como el p-valor es 0.4487 > 0.05, no se rechaza la hipótesis nula, es decir, se rechaza la entrada de
CTTxZ en el modelo.
Por tanto, el modelo creado con la distribución Poisson para el estudio de la duración de una ola de
calor es:
Como hemos visto en el capítulo 2, en un modelo Poisson la media y varianza coinciden: E(Y ) =
µ = Var(Y ); pero, si la varianza es mayor que la media: Var(Y ) = µ + c f (µ), siendo f (·) una función
monónotona, se da el caso de sobredispersión. Para ver si en el modelo anterior existe sobredispersión
vamos a realizar el siguiente contraste de hipótesis:
H0 : c = 0
H1 : c 6= 0
mediante la orden testDispersion. Esta orden aparece en el paquete DHARMa y realiza un test de
dispersión basado en la simulación de los residuos que compara la dispersión de los residuos simulados
con los residuos observados obteniendo un p-valor resultante. Si dicho p-valor es menor que 0.05, se
rechaza la hipótesis nula aceptando así la existencia de sobredispersión en el modelo, mientras que si el
p-valor es mayor que 0.05, no se rechaza la hipótesis nula y, por lo tanto, no se acepta la existencia de
sobredispersión:
Como el p-valor es 2.2e-16 < 0.05 se rechaza la hipótesis nula, es decir, hay sobredispersión en el
modelo. Para solucionar el problema de la sobredispersión se utiliza, como hemos visto anteriormen-
te, la distribución Binomial Negativa. Vamos entonces a crear un nuevo modelo para el estudio de la
duración de las olas de calor en Zaragoza basado en la Binomial Negativa aplicando un procedimiento
análogo al utilizado para la distribución Poisson.
H0 : β1 = β2 = 0
H1 : β1 6= 0 y/o β2 6= 0
Modelos lineales generalizados - Laura Morte Sarmiento 21
Con el Test de Razón de Verosimilitudes obtenemos el p-valor, que es 0.798. Como dicho p-valor
es mayor que 0.05 no se rechaza la hipótesis nula, es decir, el armónico no entra en el modelo.
H0 : β1 = 0
H1 : β1 6= 0
Con el Test de Razón de Verosimilitudes obtenemos el p-valor, que es 0.00003439. Como dicho
p-valor es menor que 0.05 se rechaza la hipótesis nula, es decir, la variable CTxm31Z tiene influencia
significativa a un nivel α = 0,05 en la respuesta.
A continuación, vamos a analizar si la variable CTTxZ entra en el modelo, para ello consideramos:
H0 : β1 = 0
H1 : β1 6= 0
Con el Test de Razón de Verosimilitudes obtenemos el p-valor, que es 0.08295. Como dicho p-valor
es mayor que 0.05 no se rechaza la hipótesis nula, es decir, la covariable CTTxZ no entra en el modelo.
Por último, veamos si, una vez que CTxm31Z está en el modelo, la covariable CTTxZ entra en este
considerando:
H0 : β2 = 0
H1 : β2 6= 0
Con el Test de Razón de Verosimilitudes obtenemos el p-valor, que es 0.6054. Como dicho p-valor
es mayor que 0.05 no se rechaza la hipótesis nula, es decir, la variable CTTxZ no entra en el modelo.
Por tanto, el modelo creado para el estudio de la duración de una ola de calor viene dado únicamente
por la variable CTxm31Z. Veamos ahora la posible existencia de términos cuadráticos considerando el
modelo:
H0 : β2 = 0
H1 : β2 6= 0
Con el Test de Razón de Verosimilitudes obtenemos el p-valor, que es 0.9168. Como dicho p-valor
es mayor que α = 0,05 no se rechaza la hipótesis nula, es decir, se descarta la inclusión de términos
cuadráticos en el modelo, obteniendo así este modelo para el estudio de la duración de una ola de calor:
Una vez se ha hecho la selección de covariables, se debe comprobar la validez del modelo, para ello
hay varias formas y métodos. Los errores de especificación de un GLM no se pueden evaluar de forma
fiable con las gráficas estándar de residuos. La razón es que la distribución esperada de los residuos es
una función de los valores ajustados.
Por ello, vamos a utilizar el paquete DHARMa. Con este paquete se puede realizar la prueba de
Kolmogorov-Smirnov, que es un procedimiento de bondad de ajuste el cual permite medir el grado de
concordancia que hay entre la distribución de un conjunto de datos y la distribución teórica específica.
El contraste de hipótesis consiste en considerar como hipótesis nula un modelo con error Binomial
Negativo, obteniendo lo siguiente:
Como el p-valor es 0.2639 > 0.05 no se rechaza la hipótesis nula, es decir, la distribución Bino-
mial Negativa es adecuada para este modelo. Además, gracias a este test nos podemos asegurar de que
efectivamente la distribución Poisson no era adecuada para este modelo ya que el p-valor resultante es
0.04495 < 0.05 y la gráfica obtenida está mucho más desajustada:
De esta manera se observa que el modelo creado con una distribución Binomial Negativa para el
estudio de la duración de las olas de calor en Zaragoza está bien construido.
Por último, vamos a hacer una gráfica enfrentando las covariables con los valores ajustados para ver
el resultado obtenido con este modelo:
Modelos lineales generalizados - Laura Morte Sarmiento 23
Como se ve en la gráfica, si la covariable es de 30º, la duración media de la ola de calor será de más
de un día; mientras que si la covariable es de 36º, estará en torno a los tres días de duración.
H0 : β1 = β2 = 0
H1 : β1 6= 0 y/o β2 6= 0
> anova(GLM.1,GLM.2,test="F")
## Analysis of Deviance Table
##
## Model 1: IxZ ~ cospi + sinpi
## Model 2: IxZ ~ 1
## Resid. Df Resid. Dev Df Deviance F Pr(>F)
## 1 195 124.85
## 2 197 125.42 -2 -0.56881 0.4075 0.6659
24 Capítulo 3. Aplicación a las olas de calor
Como el p-valor es 0.6659 > 0.05 no se rechaza la hipótesis nula, es decir, el armónico no entra en
el modelo.
log(IxZ) = β0 + β1CT T xZ
Por último, veamos si, una vez dentro del modelo la covariable CTxm31Z, entra en el mismo CTTxZ
con un razonamiento análogo al anterior, es decir, consideramos el modelo:
H0 : β2 = 0
H1 : β2 6= 0
Con el Test de Desviación obtenemos el p-valor, que es 0.6077 > 0.05, por lo que no se rechaza la
hipótesis nula, es decir, la covariable CTTxZ no entra en el modelo.
Por tanto, el modelo creado para el estudio de la intensidad de una ola de calor viene dado únicamen-
te por la variable CTxm31Z. Veamos ahora la posible existencia de términos cuadráticos considerando
el modelo:
H0 : β2 = 0
H1 : β2 6= 0
Con el Test de Desviación obtenemos el p-valor, que es 0.7455 > 0.05, por lo que no se rechaza la
hipótesis nula, es decir, se descarta la existencia de un término cuadrático en el modelo, obteniendo así
este modelo para el estudio de la intensidad de una ola de calor:
Como el p-valor es 0.62638 > 0.05 no se rechaza la hipótesis nula, es decir, la distribución Gamma
es adecuada para este modelo.
De esta manera se observa que el modelo creado con una distribución Gamma para el estudio de la
intensidad de las olas de calor en Zaragoza está bien construido.
Para terminar con el estudio del modelo, vamos a hacer una gráfica enfrentando las covariables con
los valores ajustados:
[1] P. M C C ULLAGH Y J.A.N ELDER, Generalized Linear Models, 2.a ed., Chapman and Hall, 1983.
[2] A NNETTE J. D OBSON, Introduction to generalized linear models, 2.a ed., Chapman and Hall.
[4] A. Z EILIS , C. K LEIBER Y S. JACKMAN, Regression Models for Count Data in R, 2008.
[7] J.A BAURREA , J.A SÍN , A.C.C EBRIÁN Y A. C ENTELLES, Modeling and forecasting extreme hot
events in the central Ebro valley, a continental-Mediterranean area, Global and Planetary Change,
2007.
27