Taz TFG 2018 4745

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 35

Modelos lineales generalizados:

Modelos con coeficiente de variación


constante y otros.

Laura Morte Sarmiento


Trabajo de fin de grado en Matemáticas
Universidad de Zaragoza

Directora del trabajo: Ana C. Cebrián Guajardo


Diciembre de 2018
Prólogo

Los modelos lineales generalizados se definen como una extensión de los modelos lineales clásicos.
Estos, se dieron a conocer debido al estudio de Legendre, quien propuso un método aplicado a datos
astronómicos basándose en un criterio intuitivo, en el que la variabilidad en las observaciones fue, en
gran parte, debido a un error de medida.

Años más tarde, en 1809, Gauss introdujo la distribución Normal de errores como un método para
describir la variabilidad. De esta manera, mostró que muchas de las propiedades de las estimaciones
de mínimos cuadrados no dependen de la normalidad, sino de supuestos de varianza e independencia
constantes. Una propiedad estrechamente relacionada se aplica a los modelos lineales generalizados.

Los modelos lineales generalizados, propuestos por Nelder y Wedderburn en 1972, fueron formula-
dos como una manera de unificar distintos modelos estadísticos bajo un solo marco teórico. La introduc-
ción de estos modelos tuvo un gran impacto en la estadística aplicada y, actualmente, tienen aplicaciones
en diferentes campos como la medicina, la geografía, la psicología o la climatología, entre otros.

Estos modelos son una solución especialmente adecuada para modelos de dependencia con datos
no métricos, los cuales no se ajustan al modelo lineal clásico e incumplen los supuestos de linealidad y
normalidad.

III
Resumen

Throughout this work, generalized linear models, which are a generalization of the linear models,
are studied. Mainly, they are used when it is no possible to verify one or more features of linear models.
For this reason, the first chapter starts remembering the properties of these ones in order to define the
generalized linear models. Once the generalized linear models are defined, their random component,
the systematic component, and the link function are defined explaining in the first one the exponential
family. Moreover, in the link function section the canonical link is studied.

After that, it is shown how to estimate a generalized linear model with the maximum likelihood
method and it is also explained how to calculate the deviance and the scaled deviance in these models
giving a concrete formula for both of them.

Once all these topics have been seen, the three kinds of residuals of the generalized linear models
are studied. They are known as Pearson residual, Anscombe residual and deviance residual.

Finally, the first chapter finishes with the explanation of the dummy covariates and the deviance test
used in the selection of the covariates of the model.

In the second chapter, some particular cases of the generalized linear models are considered. It starts
showing that generalized linear models with Poisson error belong to the exponential family, and giving
an expression of its canonical link and its deviance. Their main characteristic is that its mean and its va-
riance are the same. However, sometimes this assumption is not verified because the variance is bigger
than the mean, thus overdispersion occurs. In order to solve this problem, an error with Binomial Nega-
tive distribution is introduced. In addition, as in models with Poisson error, it is shown the belonging to
this distribution to the exponential family, and an expression of the canonical link is given.

After generalized linear models with Poisson and Binomial Negative error, generalized linear mo-
dels with Gamma error are studied and, again, it is shown that this model belongs to the exponential
family. In addition, a particular expression of its canonical link and deviance are given. In this case,
apart from studying these characteristics, the estimation of the dispersion parameter is also taken into
consideration.

Finally, in the third and last chapter, the theory seen during the work is used to create two models
applied to heat waves using R Commander. It starts defining heat waves and doing a descriptive analysis
of the covariates which are used to create both models.

The first model is applied to the study of the length of heat waves in Zaragoza during May, June,
July, August and September in an interval of time of 65 years, from 1951 to 2016. For that model, both
Poisson distribution or Binomial Negative distribution can be used. The most frequent count data distri-
bution is Poisson distribution, for this reason it is started creating a model with this distribution.

When the model is created, the existence of overdispersion is tested. As it is shown, overdispersion
occurs, so a new model with Binomial Negative distribution must be studied.

V
VI Resumen

Once this model is generated, it is compulsory to check it by the application of different techniques.
The first one is the validity of the model with a goodness-of-fit test, Kolmogorov-Smirnov test, with the
DHARMa package.

Finally, in order to see the obtained result with this model, it is created a plot between the covariates
and the fitted values.

On the other hand, the second model is applied in the study of the maximum intensity of heat waves
under the same features than the first one. In this case, Gamma distribution is used and, as in the first
model, once the model is finished it is necessary to chek it to ensure that it is correct using the same
techniques than in the previous model.

Also, to finish the study of this model, a graphic between the covariates and the fitted values is
created.
Índice general

Prólogo III

Resumen V

1. Introducción a los modelos lineales generalizados 1


1.1. Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Componentes de un modelo lineal generalizado . . . . . . . . . . . . . . . . . . . . . 1
1.2.1. Componente aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.2. Componente sistemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.3. Función de enlace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3. Estimación del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4. Desviación de un modelo lineal generalizado . . . . . . . . . . . . . . . . . . . . . . 4
1.5. Residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.6. Predictor lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.6.1. Variables cualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.6.2. Selección de las covariables . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2. Algunos casos particulares de GLM 9


2.1. Modelos lineales generalizados para variables de conteo . . . . . . . . . . . . . . . . 9
2.1.1. Sobredispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.2. Modelos lineales generalizados con error Binomial Negativo . . . . . . . . . . 10
2.2. Modelos lineales generalizados con coeficiente de variación constante . . . . . . . . . 12
2.2.1. La distribución gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.2. Definición de modelos lineales generalizados con error Gamma . . . . . . . . 13
2.2.3. Estimación del parámetro de dispersión . . . . . . . . . . . . . . . . . . . . . 14

3. Aplicación a las olas de calor 17


3.1. Descripción del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2. Duración de la ola de calor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2.1. Selección del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2.2. Validación del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3. Intensidad de la ola de calor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.3.1. Selección del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.3.2. Validación del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

Bibliografía 27

VII
Capítulo 1

Introducción a los modelos lineales


generalizados

Los modelos lineales clásicos presentan varias restricciones, las cuales en ocasiones pueden no
verificarse. Para solucionar este problema se estudian los modelos lineales generalizados. A lo largo
de este capítulo se va a dar una definición específica de estos modelos así como de sus componentes.
También se va a estudiar el proceso de estimación y se dará una definición de la desviación de los
modelos lineales generalizados. A continuación se verán tres tipos de residuos: Pearson, Anscombe
y desviación y, por último, se hará un breve estudio de las variables dummy y de un proceso para la
selección de covariables en el modelo.

1.1. Definición
Un modelo lineal generalizado (GLM) es una extensión del modelo lineal clásico; por ello, antes
de definir un modelo lineal generalizado conviene recordar las tres condiciones que debe verificar un
modelo lineal:
1. Los errores se distribuyen normalmente.
2. La varianza es constante.
3. Las variables independientes están relacionadas con la variable dependiente de manera lineal.
De manera analítica se tiene que, dada una muestra (Yi , Xi1 , ..., Xip ) con i=1,...,n, la relación entre las
observaciones Yi y las variables independientes se expresa como:
Yi = β0 + β1 Xi1 + ... + β p Xip + εi con i=1,...,n.
o equivalentemente
µi = E(Yi ) = β0 + β1 Xi1 + ... + β p Xip
suponiendo que el error verifica εi ∼ N(0, σ 2 ), es decir, Yi ∼ N(µ, σ 2 ).

El modelo lineal generalizado se define como una generalización del modelo lineal anterior que
puede ser utilizado cuando una o varias de sus condiciones no se satisfacen. En particular, esta gene-
ralización permite varianzas no constantes y errores con distribuciones no Normales, como Binomial,
Poisson o Gamma entre otras. Además, tampoco requiere una relación lineal entre la respuesta y las
variables independientes.

1.2. Componentes de un modelo lineal generalizado


La definición de un modelo lineal generalizado requiere de tres componentes: la componente alea-
toria, la componente sistemática y la función de enlace, las cuales se explican a continuación.

1
2 Capítulo 1. Introducción a los modelos lineales generalizados

1.2.1. Componente aleatoria


La componente aleatoria es el vector aleatorio Y = (Y1 ,Y2 , ...,Yn ) cuyos elementos son independien-
tes y están idénticamente distribuidos con función de distribución perteneciente a la familia exponencial.
La densidad de la familia exponencial es:

fY (y; θ , φ ) = exp{(yθ − b(θ ))/a(φ ) + c(y, φ )} (1.1)


con a, b y c funciones conocidas, θ el parámetro canónico, que se verá más adelante, y φ un parámetro
de dispersión.

Algunas de estas distribuciones son la distribución Normal, Gamma, Poisson o Binomial, entre
otras. Cada una de ellas tiene una función a, b y c diferente. Por ejemplo, sabiendo que la distribución
Normal viene dada por la función de densidad

1
fY (y; θ , φ ) = √ exp{−(y − µ)2 /2σ 2 } = exp{−(y − µ)2 /2σ 2 + log(2πσ 2 )−1/2 } =
2πσ 2  
2 2 1 2 2 2
exp (yµ − µ /2)/σ − (y /σ + log(2πσ ))
2

se tiene, de acuerdo a (1.1), que θ = µ y φ = σ 2 y, por lo tanto, sus funciones a, b y c son:

1 2 2
b(θ ) = θ 2 /2 y /σ + log(2πσ 2 ) .

a(φ ) = φ , , c(y; φ ) = −
2

Media y varianza de la familia exponencial


Considerando l(θ , φ ; y) = log fY (y; θ , φ ) la función de log-verosimilitud para un y dado, la media y
la varianza de Y se pueden obtener haciendo uso de relaciones conocidas como
 
∂l
E =0 (1.2)
∂θ

2
∂ 2l
  
∂l
E +E =0 (1.3)
∂θ2 ∂θ
De (1.1) se tiene

l(θ , φ ; y) = {yθ − b(θ )}/a(φ ) + c(y, φ )

y haciendo la primera y segunda derivada respecto a θ queda

∂l y − b0 (θ )
= (1.4)
∂θ a(φ )

∂ 2l −b00 (θ )
= (1.5)
∂θ2 a(φ )
y − b0 (θ )
 
Tomando esperanzas en (1.4) y aplicando (1.2) se tiene que E = 0, de donde se deduce
a(φ )
la media:
E(Y ) = µ = b0 (θ ) (1.6)

De la misma manera, tomando esperanzas en (1.4) y (1.5) y aplicando (1.3) se llega a:


Modelos lineales generalizados - Laura Morte Sarmiento 3

−b00 (θ ) y − b0 (θ ) 2
   
E +E = 0.
a(φ ) a(φ )
Y, con el resultado de (1.6), queda:

−b00 (θ ) y−µ 2
   
E +E =0
a(φ ) a(φ )

de donde se obtiene la varianza:

Var(Y ) = b00 (θ )a(φ ). (1.7)


De esta manera se tiene que la varianza de Y es el producto de las funciones b00 (θ ) y a(φ ). La
primera es conocida como función varianza y depende únicamente del parámetro canónico (y, por tanto,
también de la media), mientras que a(φ ) depende solo de φ . A lo largo del trabajo, se va a denotar
V (µ) = b00 (θ ) a la función varianza considerada como una función de µ.
La función a(φ ) suele definirse como

a(φ ) = φ /ω

donde la constante φ es el parámetro de dispersión y ω es un peso conocido.

1.2.2. Componente sistemática


La componente sistemática está formada por variables explicativas, cuya combinación lineal se
denomina predictor lineal. Dicho predictor se puede expresar de la siguiente manera
p
ηi = ∑ β j Xi j , con i=1,...,n
j=1

y, equivalentemente,

η= (η1 , ..., ηn ) = Xβ

siendo X la matriz del modelo (n × p) y β = (β1 , ..., β p ) el vector de parámetros (p × 1).

1.2.3. Función de enlace


Para permitir relaciones no lineales entre la variable respuesta y las variables explicativas, se intro-
duce la función de enlace, g(·), la cual relaciona el predictor lineal y la media de la variable respuesta
como sigue:

g(µ) = Xβ = η.

El enlace canónico de una distribución es aquel que verifica

θ = g(µ)

siendo θ el parámetro canónico.

Cada distribución posee una única función de este tipo, aunque esta puede coincidir para distintas
distribuciones. Algunas de ellas son:

Distribución Normal θ =µ

Distribución Gamma θ = µ −1
4 Capítulo 1. Introducción a los modelos lineales generalizados

Distribución Poisson θ = ln(µ)


 
µ
Distribución Binomial θ = ln
1−µ

1.3. Estimación del modelo


En la estimación de un GLM se busca estimar los parámetros βi que definen el predictor lineal
η = Xβ así como el parámetro φ . El método de estimación más habitual es el método de máxima ve-
rosimilitud. Vamos a ver cómo los estimadores máximos verosímiles de los parámetros β se pueden
obtener por un procedimiento iterativo de mínimos cuadrados con pesos, véase [1].

Para ello se considera un modelo de regresión donde la variable dependiente no es y sino z, una for-
ma linealizada de la función de enlace aplicada a y, y los pesos son funciones de los valores ajustados µ
b.

Notar que z es la forma linealizada de la función de enlace de primer orden, es decir:


g(y) ' g(µ) + (y − µ)g0 (µ) = η + (y − µ) = z.

El proceso es iterativo ya que tanto la variable dependiente ajustada z como el peso W dependen de
los valores ajustados, los cuales solo están definidos para estimaciones actuales. Dicho procedimiento
es como sigue:

Sea ηb0 el estimador actual del predictor lineal, y µ b0 = g−1 (η


b0 su correspondiente valor, µ b0 ). Enton-
ces, se forma la variable dependiente ajustada:
 

z0 = η0 + (y − µ0 )
b b
dµ µb0

tal que z0 = Xβ .

Por su lado, el peso cuadrático se define como:


 2
−1 dη
W0 = V0
dµ µb0

donde V0 es la función varianza evaluada en µ


b0 .

A continuación, se estima el modelo z0 = Xβ , con peso W0 para obtener nuevos estimadores βb1
de los parámetros, a partir de los cuales se forma un nuevo estimador η b1 del predictor lineal, y se va
repitiendo el proceso hasta que las modificaciones sean suficientemente pequeñas.

1.4. Desviación de un modelo lineal generalizado


La desviación de un GLM es una medida de bondad de ajuste formada a partir del logaritmo de
razón de verosimilitudes. Dadas n observaciones, podemos ajustar modelos que contengan hasta n pará-
metros. El modelo más simple es el modelo nulo y, en el otro extremo, está el modelo completo, el cual
tiene n parámetros, uno por observación. Este último modelo da una base de medida de discrepancia
para un modelo intermedio con p parámetros.
Modelos lineales generalizados - Laura Morte Sarmiento 5

Es conveniente expresar la log-verosimilitud en términos de µ en lugar de θ . Sea l(µ b , φ ; y) la log-


verosimilitud maximizada sobre β para un valor fijo del parámetro de dispersión φ . La verosimilitud
del modelo completo con n parámetros es l(y, φ ; y). La discrepancia de un ajuste es proporcional a dos
b , φ ; y). Entonces, denotando θb = θ (µ
veces la diferencia entre l(y, φ ; y) y l(µ b ) el estimador del parámetro
canónico del modelo bajo estudio y θ = θ (y) el del modelo completo, sus correspondientes funciones
e
de log-verosimilitud son:
yθe − b(θe) yθb − b(θb)
l(y, φ ; y) = + c(y, φ ) ; b , φ ; y) =
l(µ + c(y, φ )
a(φ ) a(φ )
Considerando además ai (φ ) = φ /ωi , la diferencia entre las funciones de log-verosimilitud anteriores se
puede escribir como (véase [1]):
" #
n
yi θei − b(θei ) yi θb − b(θbi )
b )/φ = 2 ∑ ωi
D(y; µ + c(y, φ ) − ωi − c(y, φ ) =
i=1 φ φ
n h i
2 ∑ ωi yi (θei − θbi ) − b(θei ) + b(θbi ) /φ
i=1

donde D(y; µb ) se conoce como desviación.


En ocasiones, el valor del parámetro φ puede ser desconocido, para que esto no afecte se puede
escalar la desviación obteniendo así la desviación escalada definida como D(y; µ)/φ .

1.5. Residuos
Para comprobar la adecuación del ajuste de un modelo, se utilizan los residuos. A continuación se
van a definir tres tipos de residuos: Pearson, Anscombe y residuos de la desviación.

Residuo de Pearson Se define como:


yi − µ
q
bi
r p,i = q , siendo Vb (µ
bi ) la raíz cuadrada de la varianza del valor ajustado.
Vb (µ
bi )

Este residuo tiene la desventaja de que su distribución para datos no Normales es asimétrica, lo que
impide que tengan propiedades similares a las que tienen bajo normalidad.

Residuo Anscombe Anscombe define un residuo utilizando una función A(y) en lugar de y, donde
A(·) se elige para conseguir una distribución tan Normal como sea posible.

Wedderburn (véase [6]) mostró que, para las funciones de verosimilitud de los modelos lineales
generalizados, la función A(·) viene dada por

Z
b
A(·) = .
V 1/3 (µ
b)
Por lo tanto, los residuos Anscombe varían dependiendo de la distribución con la que se trabaje. Por
ejemplo, en el caso de la distribución Poisson se definen como
3(y2/3 − µb 2/3 )
rA = .
2µb 1/6
Y en el caso de la Gamma como
3(y1/3 − µb 1/3 )
rA = .
b 1/3
µ
Los valores que toma este residuo para distribuciones no Normales suelen ser muy parecidos a los
que toma el residuo en la desviación, definido a continuación.
6 Capítulo 1. Introducción a los modelos lineales generalizados

Residuo de la desviación Si se usa la desviación como una medida de discrepancia de un modelo


lineal generalizado, cada observación contribuye una cantidad di a la desviación D tal que ∑ di = D.
Así, el residuo en la desviación se define como

rD,i = sign(y − µ
b ) di

con i=1,...,n.
De nuevo este residuo varía dependiendo de la distribución con la que se trabaje. Por ejemplo, el
residuo de la desviación para una distribución Poisson es:
1/2
b ) {2(y log(y/µ
rD = sign(y − µ b) − y + µ
b )} .

Y para una Gamma:


  1/2
yi − µbi
rD = sign(y − µ
b ) 2 log(µ
bi /yi ) + .
µ
bi

1.6. Predictor lineal


1.6.1. Variables cualitativas
Los modelos lineales generalizados, al igual que los modelos lineales clásicos, permiten la introduc-
ción de variables tanto cuantitativas como cualitativas. La introducción de variables cualitativas requiere
el uso de las variables dummy o ficticias, definidas a continuación.

La introducción de una variable cualitativa con k niveles en el modelo, debe permitir que el valor
medio de la respuesta en cada nivel i de la variable pueda ser distinto, αi . Para ello se debe introducir en
el predictor lineal

α1 u1 + α2 u2 + ... + αk uk

donde u j , j = 1, ..., k, son las variables binarias, las cuales toman el valor 1 si la observación pertenece
al nivel j y cero en otro caso.

Se verifica que u1 + u2 + ... + uk = 1, donde 1 es el vector identidad. Dado que el término inde-
pendiente de un modelo está asociado al vector 1, si en el modelo existe término independiente, se
introducen k − 1 variables dummy para evitar así una combinación lineal entre las variables, mientras
que si no existe dicho término se introducen las k variables.

1.6.2. Selección de las covariables


Para la creación de un modelo es necesario saber qué covariables deben estar en este. Estas covaria-
bles se seleccionan contrastando si sus coeficientes pueden ser cero o no mediante inferencia sobre el
vector de parámetros β .
La inferencia sobre el vector de parámetros β puede realizarse mediante distintos métodos, como el
método de Wald o el test Score (véase [2]). En esta sección nos vamos a centrar en el test de la desvia-
ción.

Este test consiste en la comparación del ajuste de dos modelos anidados, es decir, de dos modelos
con la misma distribución de probabilidad y con la misma función de enlace, pero siendo la componente
lineal del modelo más simple, M0 , un caso particular de la componente lineal del modelo general M1 .

Se considera la hipótesis nula correspondiente a M0


Modelos lineales generalizados - Laura Morte Sarmiento 7

H0 : β = (β0 , β1 , ..., βq )

y la hipótesis correspondiente a M1

H1 : β = (β0 , β1 , ..., βq , βq+1 , ..., β p )

con q < p < n. Notar que el modelo M0 se obtiene al imponer en M1 : βq+1 = ... = β p = 0.

El objetivo del test es comparar H0 y H1 mediante la diferencia entre sus desviaciones. Denotando
como D0 a la desviación del modelo M0 y como D1 a la de M1 se tiene

M D = D0 − D1 = [2l(y; y) − 2l(µ0 ; y)] − [2l(y; y) − 2l(µ1 ; y)] = 2 [l(µ1 ; y) − l(µ0 ; y)].

Si ambos modelos son adecuados, entonces D0 ∼ χ 2 (n − q) y D1 ∼ χ 2 (n − p), por lo tanto, M D =


D0 − D1 = χ 2 (p − q), bajo ciertas condiciones generales de independencia, véase [2]. Si el contraste
nos lleva a no rechazar H0 , se elige el modelo M0 ya que es más sencillo.

Si el parámetro de dispersión es conocido, el modelo es adecuado. Sin embargo, en ocasiones este


parámetro no es del todo conocido, esto ocurre en distribuciones como la Normal o la Gamma. Veamos
cómo se puede solucionar el problema para esta última distribución, que será la que utilicemos a lo largo
del trabajo:

Para un modelo con distribución Gamma, su desviación es (los cálculos se verán en 2.2.2):

2 n
 
yi − µbi
D(µb ; y) = 2 ∑ − log(yi /µ
bi )) +
σV i=1 µ
bi

siendo σV2 el coeficiente de variación.

bi (0) y µ
Sean µ bi (1) los valores ajustados para M0 y M1 respectivamente. Entonces:

2 n 2 n
   
yi − µbi (0) yi − µbi (1)
D0 = 2 ∑ − log(yi /µi (0)) +
b ; D1 = 2 ∑ − log(yi /µi (1)) +
b .
σV i=1 bi (0)
µ σV i=1 bi (1)
µ

Se asume que M1 es un modelo adecuado y, por tanto, D1 ∼ χ 2 (n − p). Si M0 también lo es,


D0 ∼ χ 2 (n − q) y, de esta manera se tiene M D = D0 − D1 = χ 2 (p − q).

Se puede definir el siguiente estadístico que no depende del parámetro σV2 :


 n 
yi − µ
bi (0)
∑ − log(yi /µbi (0)) + µbi (0) /(p − q)
(D0 − D1 )/(p − q) i=1
F= = n   .
D1 /(n − p) yi − µ
bi (1)
∑ − log(yi /µbi (1)) + µbi (1) /(n − p)
i=1

Si H0 es correcta, F tendrá una distribución central F(p − q, n − p), mientras que si no lo es, el valor
de F será mayor de lo esperado en la distribución F(p − q, n − p).
Capítulo 2

Algunos casos particulares de GLM

Los modelos lineales clásicos asumen una varianza constante para todos los valores. Esta propiedad
es necesaria para garantizar una estimación de los parámetros correcta. Sin embargo, a menudo se pue-
den dar casos en los que la varianza no es constante sino que aumenta con la media.

En este capítulo se van a tratar los modelos lineales generalizados con error de Poisson y Binomial
Negativo así como sus propiedades principales y los modelos lineales generalizados con coeficiente de
variación constante llegando así a definir la distribución Gamma y sus características.

2.1. Modelos lineales generalizados para variables de conteo


La distribución Poisson se usa generalmente para representar datos de conteo, es decir, la frecuencia
de un determinado suceso. Por lo tanto toma valores enteros positivos, incluido el cero. Si la variable
aleatoria Y sigue una distribución Poisson, su distribución de probabilidad es:

e−µ µ y
P(Y = y) = y = 0, 1, 2, ... (2.1)
y!
con µ > 0. Su media y varianza coinciden:

E(Y ) = Var(Y ) = µ.

Pertenencia a la familia exponencial


Se puede demostrar que esta distribución pertenece a la familia exponencial vista en la Sección
1.2.1. En efecto, escribiendo (2.1) como

exp{y log µ − µ − log(y!)}

y denotando θ = log µ, es decir, µ = eθ , se tiene:

exp{yθ − eθ − log(y!)}.

Considerando

b(θ ) = eθ , a(φ ) = 1 , c(y, φ ) = − log(y!)

queda demostrado que la distribución de Poisson pertenece a la familia exponencial.

Además, la media y varianza de esta distribución verifican (1.6) y (1.7):

E(Y ) = b0 (θ ) = eθ = µ ; Var(Y ) = b00 (θ )a(φ ) = eθ = µ.

9
10 Capítulo 2. Algunos casos particulares de GLM

Enlace canónico
Para calcular el enlace canónico de la distribución de Poisson, consideramos E(Y ) = µ = eθ . Así
se tiene que log µ = θ .

Por tanto, el enlace canónico de esta distribución es:


η = θ = log µ.

Desviación
Para n observaciones independientes, la función de log-verosimilitud es
n
l(µ; y) = ∑ (yi log µi − µi − log(yi )!).
i=1

Con ella, se puede calcular la función de desviación de la siguiente manera:


n n
b ) = 2 ∑ {−yi + yi log yi + µbi − yi log µ
D(y; µ bi } = 2 ∑ {yi log(yi /µ
bi ) − (yi − µ
bi )}.
i=1 i=1

2.1.1. Sobredispersión
La propiedad más destacada de la distribución de Poisson es que la media y la varianza coinciden.
Sin embargo, esta hipótesis puede ser muy restrictiva y, al trabajar con datos reales, con frecuencia la
varianza es mayor que la media. A este hecho se le llama sobredispersión.

Cuando aparece un problema de sobredispersión, existen distintas soluciones posibles. Zeilis, Klei-
ber y Jackman proponen distintas alternativas (véase [4]). Aquí nos vamos a centrar en considerar un
error con distribución Binomial Negativa.

2.1.2. Modelos lineales generalizados con error Binomial Negativo


La distribución Binomial Negativa se puede obtener considerando el número de ensayos Bernoulli
independientes e idénticamente distribuidos hasta conseguir un número determinado de éxitos.

La función de probabilidad de una Binomial Negativa de parámetros r y p es


 
y+r−1
P(Y = y, r, p) = (1 − p)y pr
y
con y ∈ N ∪ {0}, p ∈ [0, 1], r ∈ R+ .

Su media y varianza son


r(1 − p) r(1 − p)
E(Y ) = , Var(Y ) = .
p p2

Binomial Negativa en mixturas


La distribución Binomial Negativa también aparece cuando se considera la mixtura entre las dis-
tribuciones Poisson y Gamma. Consideramos una variable aleatoria Y con distribución Poisson cuya
media no es constante sino que es una variable aleatoria Z con distribución Gamma tal que E(Z) = µ y
Var(Z) = µ/φ . Se puede probar que, véase [3, pág. 6]:
  y  µφ
Γ(y + φ µ)φ φ µ y+φµ −1 φ φ
P(Y = y; µ, φ ) = = 1− , y=0,1,2,...
y!Γ(φ µ)(1 + φ )y+φ µ y 1+φ 1+φ
Modelos lineales generalizados - Laura Morte Sarmiento 11

φ
Esta distribución es una Binomial Negativa, con p = y r = µφ :
1+φ
y+r−1

P(Y = y; µ, φ ) = y (1 − p)y pr .

cuya media y varianza es


 
µ(1 + φ ) µ 1
E(Y ) = µ ; Var(Y ) = = µ + = µ 1+ .
φ φ φ
Observamos que en la varianza, µ está multiplicada por un factor mayor que 1, 1 + 1/φ , el cual es
mayor cuanto menor sea φ , por lo tanto la distribución Binomial Negativa se puede utilizar en los ca-
sos en los que existe sobredispersión, es decir, en los casos en los que la varianza es mayor que la media.

De esta manera, dicha distribución Binomial Negativa se puede considerar como una generalización
de la distribución de Poisson ya que tiene su misma media y varianza, añadiéndole a esta última un
parámetro adicional para la sobredispersión.

Pertenencia a la familia exponencial


Si consideramos r como un valor fijo, la distribución Binomial Negativa pertenece a la familia
exponencial. En efecto:
    
y+r−1 y+r−1
P(Y = y; r, p) = (1 − p)y pr = exp y log(1 − p) + r log p + log .
y y

Considerando θ = log(1 − p), es decir, log p = log(1 − eθ ), se tiene:


  
θ y+r−1
P(Y = y; r, θ ) = exp yθ − (−r log(1 − e )) + log .
y

Y, con
 
y+r−1
b(θ ) = −r log(1 − eθ ) , a(φ ) = φ = 1 , c(y, φ ) = log
y
queda demostrado que la distribución Binomial Negativa pertenece a la familia exponencial.

Además,

reθ r(1 − p)
E(Y ) = b0 (θ ) = =
1−e θ p
y

reθ (1 − eθ ) + reθ eθ r(1 − p)


Var(Y ) = b00 (θ )a(φ ) = 2
= .
(1 − e )
θ p2

Enlace canónico
Para calcular el enlace canónico de esta distribución, consideramos
reθ r
µ = E(Y ) = = −θ .
1−e θ e −1
Entonces,
12 Capítulo 2. Algunos casos particulares de GLM

e−θ − 1
 
1
µ −1 = ⇒ rµ −1 + 1 = e−θ ⇒ log(rµ −1 + 1) = −θ ⇒ log =θ .
r rµ −1 + 1

Y, como µ = E(Y ), el enlace canónico de esta distribución es:


 
µ
η = θ = log .
r+µ

2.2. Modelos lineales generalizados con coeficiente de variación constan-


te
A lo largo de esta sección se va a asumir que Y es una variable aleatoria con coeficiente de variación
σV2 constante. En consecuencia:

Var(Y ) = σV2 (E(Y ))2 = σV2 µ 2 .

Para σV pequeño, una posibilidad para estabilizar la varianza y obtener una distribución Normal es
transformar la respuesta mediante un logaritmo, esto es suponer que la distribución de Y es log-Normal.
De esta manera se tienen los siguientes momentos:

E(log(Y )) = log(µ) − σV2 /2 ; Var(log(Y )) ' σV2

Y así hemos llegado a obtener un modelo con varianza constante.

La demostración de los resultados anteriores se sigue aplicando el desarrollo en serie de Taylor:

Y − µ (Y − µ)2
logY ≈ log µ + − . (2.2)
µ 2µ 2
Para demostrar la primera expresión tomamos esperanzas en (2.2):

(Y − µ)2 E(Y − µ)2


   
Y −µ Var(Y )
E(log(Y )) = E(log µ) + E −E = log µ − = log µ − =
µ 2µ 2 2µ 2 2µ 2
σ 2µ2 σ2
log µ − V 2 = log µ − V .
2µ 2

Por su lado, la demostración de la varianza se obtiene tomando varianzas en (2.2):

(Y − µ)2 Var(Y ) σV2 µ 2


   
Y −µ
Var(log(Y )) = Var(log µ) +Var −Var ' = = σV2 .
µ 2µ 2 µ2 µ2

En otros casos es más conveniente no transformar la variable respuesta Y y utilizar una función de
enlace. Si la parte sistemática del modelo es multiplicativa, se tiene, (véase [1]):

log(E(Y )) = xT β .

Con esta función de enlace, se tiene linealidad sin transformar la escala y una función varianza que
es función cuadrática de la media. Con estas características, se pueden usar iterativamente mínimos cua-
drados no lineales con pesos para obtener estimaciones para β , véase [1]. Este método de estimación
1
es equivalente a asumir que Y sigue una distribución Gamma con ν = 2 constante e independiente de
σV
la media, como se muestra a continuación.
Modelos lineales generalizados - Laura Morte Sarmiento 13

2.2.1. La distribución gamma


Sea Y una variable aleatoria con distribución Gamma, G(µ, ν). Su función de densidad es:
 ν  
1 νy νy 1
f (y) = exp − , y ≥ 0, ν > 0, µ > 0. (2.3)
Γ(ν) µ µ y
La esperanza y varianza son:
E(Y ) = µ ; Var(Y ) = µ 2 /ν.
El valor de ν determina la forma de la distribución. En este capítulo nos vamos a centrar en el caso
en el que ν = σV−2 es constante para todas las observaciones.

2.2.2. Definición de modelos lineales generalizados con error Gamma


Pertenencia a la familia exponencial
La distribución Gamma pertenece a la familia exponencial. En efecto, cogiendo logaritmos a ambos
lados de (2.3):

log f (y) = − log Γ(ν) + ν log ν + ν log y − ν log µ − νy/µ − log y

y despejando f (y):

f (y) = exp{− log Γ(ν) + ν log ν + ν log y − ν log µ − νy/µ − log y}.

Denotando θ = −1/µ y φ = 1/ν queda:

f (y) = exp{νyθ + ν log(−θ ) − log Γ(1/φ ) + 1/φ log(1/φ ) + 1/φ log y − log y}.

Por último, considerando

b(θ ) = − log(−θ ) , a(φ ) = φ , c(y, φ ) = − log Γ(1/φ ) + 1/φ log(1/φ ) + 1/φ log y − log y

queda demostrado que la distribución Gamma pertenece a la familia exponencial.

Además la media y la varianza son


1
E(Y ) = b0 (θ ) = − =µ
θ
1 µ2
Var(Y ) = b00 (θ )a(φ ) = = .
θ 2ν ν

Enlace canónico
Para calcular el enlace canónico de esta distribución consideramos E(Y ) = µ = −1/θ . Despejando
θ queda

θ = −1/µ.

Por lo tanto, el enlace canónico de la distribución Gamma es la función inversa:

η = θ = µ −1 .

La transformación recíproca no garantiza una estimación positiva de la media, la cual debe ser
siempre positiva en una distribución Gamma, por lo que en ocasiones puede ser inadecuada esta función
de enlace. Para evitar este problema, se utiliza el enlace logarítmico, es decir
η = log µ.
14 Capítulo 2. Algunos casos particulares de GLM

Desviación

Para n observaciones independientes, la función de log-verosimilitud es:

n  
νyi
l(µ; y) = ∑ − log Γ(ν) + ν log ν + ν log yi − ν log µi − − log yi .
i=1 µi

A partir de ella, y sabiendo que

n
l(y; y) = ∑ (− log Γ(ν) + ν log ν + ν log yi − ν log yi − ν − log yi )
i=1

n  
νyi
b ; y) = ∑ − log Γ(ν) + ν log ν + ν log yi − ν log µ
l(µ bi − − log yi
i=1 µ
bi

podemos calcular la desviación escalada mediante la diferencia entre las expresiones anteriores:

n
  n  
νyi yi − µbi
b )/φ = 2 ∑ ν log(µ
D(y; µ bi /yi ) + − ν = 2 ∑ ν log(µ
bi /yi ) + .
i=1 µ
bi i=1 µ
bi

Multiplicando la desviación escalada por el parámetro de escala, φ = 1/ν, obtenemos la expresión


de la desviación:
n  
y −µ
bi /yi ) + i
bi
b ) = 2 ∑ log(µ
D(y; µ .
i=1 µ
bi

2.2.3. Estimación del parámetro de dispersión


En un GLM, la matriz de covarianzas del vector de parámetros β es aproximadamente

cov(βb) ' σV2 (X T W X)−1

donde W = diag{(dµi /dηi )2 /V (µi )} es la matriz n × n diagonal de pesos, véase [1, pág. 40], ya que
los estimadores de máxima verosimilitud de los parámetros β en el predictor lineal η pueden ser obte-
nidos a partir de un método iterativo de mínimos cuadrados con pesos. Si σV2 es conocido, la matriz de
covarianzas de βb puede calcularse directamente. Sin embargo, en la práctica suele ser desconocido pero
puede ser estimado a partir de los residuos.

Para un modelo Gamma, la estimación de máxima verosimilitud de ν = σV−2 se obtiene como la


solución de la siguiente ecuación:

b ) = 2n{log ν − Γ0 (ν)/Γ(ν)}.
D(y; µ

Este resultado se puede comprobar igualando a cero la derivada de la función de log-verosimilitud


l(µ, y) respecto a ν:

n 
Γ0 (ν)

∂ l(µ, y) yi
= ∑ − − log µi + log yi + 1 + log ν − =0⇒
∂ν i=1 µi Γ(ν)

Γ0 (ν) n 
  
yi − µi
n log ν − = ∑ log(µi /yi ) − .
Γ(ν) i=1 µi
Modelos lineales generalizados - Laura Morte Sarmiento 15

Al multiplicar por dos a ambos lados de la igualdad y aplicar la definición de desviación se tiene el
resultado.

El principal problema del estimador de máxima verosimilitud es que es extremadamente sensible a


errores de redondeo en observaciones pequeñas. Además, si la suposición de Gamma es falsa, ν −1 no
estima consistentemente el coeficiente de variación. Por ello es preferible el siguiente estimador, véase
[1]:

σeV2 = ∑ {(y − µ b }2 /(n − p)


b )/µ

el cual es consistente para σV2 siempre y cuando β haya sido estimado consistentemente. Este estimador
para σV2 se puede usar en la fórmula σV2 (X T W X)−1 para obtener un estimador de cov(βb).
Capítulo 3

Aplicación a las olas de calor

Una ola de calor se define como un periodo de varios días consecutivos en el cual la temperatura es
excesivamente alta, es decir, supera un determinado umbral. Este umbral es diferente para cada locali-
dad y se calcula como el percentil 95 de la temperatura máxima diaria de la localidad a estudiar en los
meses de julio y agosto en un periodo de referencia de 1971 a 2000.

En este trabajo nos vamos a centrar en las olas de calor de Zaragoza, donde el umbral es de 37ºC, en
los meses de mayo, junio, julio, agosto y septiembre en un intervalo de tiempo de 65 años, desde 1951
hasta 2016. Durante este tiempo, en Zaragoza se dieron 198 olas de calor.

El objetivo de este trabajo es realizar dos estudios relacionados con las olas de calor, aplicando la
teoría vista en los capítulos anteriores. El primero de ellos va a consistir en el estudio de la duración de
las olas de calor, es decir, en el número de días con observaciones por encima de un umbral, mientras
que en el segundo se va a tratar la intensidad de las mismas, es decir, los grados por encima del umbral.

3.1. Descripción del problema

Los datos que se van a utilizar están proporcionados por AEMET (Agencia Estatal de Meteorolo-
gía), y las variables que van a intervenir en la creación de los modelos anteriores son:

LZ: Duración de las olas de calor. Se define como el número de días por encima del umbral
máximo definido a partir del cual se producen las olas de calor.
IxZ: Intensidad máxima de las olas de calor. Se define como el número de grados por encima de
dicho umbral.
CTxm31Z: Tendencia a corto plazo de la temperatura.
CTTxZ: Tendencia a largo plazo de la temperatura.
cospi y sinpi: Términos estacionales. La estacionalidad, véase [7], se tiene en cuenta consideran-
do como covariables la restricción a los meses de verano de las funciones armónicas que describen el
ciclo anual:

cos(2πi) y sin(2πi)

donde i = 152/365, ..., 243/365 señala la posición del día en el año.

17
18 Capítulo 3. Aplicación a las olas de calor

3.2. Duración de la ola de calor


3.2.1. Selección del modelo
Se va a comenzar creando un primer modelo lineal generalizado para estudiar la duración de una
ola de calor de las características nombradas al principio.

En cuanto a la distribución a elegir para la creación de este modelo, de acuerdo a las características
de nuestros datos (son discretos y solo toman valores positivos), se debe seleccionar una distribución
discreta que solo tome valores positivos. La distribución de conteo más frecuente es la de Poisson, por
lo que vamos a empezar a trabajar con ella.

Notar que la distribución Poisson toma valores desde cero, mientras que la variable respuesta LZ
comienza a tomar valores a partir de 1. Para solucionar este problema es necesario trabajar con la dura-
ción desplazada una unidad, es decir con LZ-1 = LZmodif.

Al trabajar con una distribución Poisson, para la elección de las covariables que van a formar parte
del modelo, vamos a estudiar distintos contrastes de hipótesis utilizando el Test de Razón de Verosimi-
litudes mediante la orden lrtest. Con esta orden realizamos un Test de Razón de Verosimilitudes con
una distribución Chi-cuadrado obteniendo un p-valor resultante, si este p-valor es menor que un nivel
de significación 0.05 se rechaza la hipótesis nula.

Empezamos analizando si existe un comportamiento estacional, para ello consideramos la introduc-


ción de un armónico en el modelo, dado por cospi y sinpi. Entonces, con el modelo:

log(LZmodi f ) = β0 + β1 sinpi + β2 cospi

hacemos el siguiente contraste de hipótesis:

H0 : β1 = β2 = 0
H1 : β1 6= 0 y/o β2 6= 0

Con el Test de Razón de Verosimilitudes obtenemos el siguiente resultado:

> lrtest(GLM.1,GLM.2)
## Likelihood ratio test
##
## Model 1: LZmodif ~ cospi + sinpi
## Model 2: LZmodif ~ 1
## #Df LogLik Df Chisq Pr(>Chisq)
## 1 3 -280.10
## 2 1 -280.55 -2 0.8961 0.6389

Como el p-valor es 0.6389 > 0.05, no se rechaza la hipótesis nula, es decir, se rechaza la entrada del
armónico en el modelo y, por tanto, no hay un comportamiento estacional en el modelo.

Veamos ahora si entra en el modelo la variable CTxm31Z. Para ello consideramos el modelo:

log(LZmodi f ) = β0 + β1CT xm31Z.

Y realizamos un contraste de hipótesis:

H0 : β1 = 0
H1 : β1 6= 0
Modelos lineales generalizados - Laura Morte Sarmiento 19

Con el Test de Razón de Verosimilitudes obtenemos el siguiente resultado:

## Likelihood ratio test


##
## Model 1: LZmodif ~ CTxm31Z
## Model 2: LZmodif ~ 1
## #Df LogLik Df Chisq Pr(>Chisq)
## 1 2 -264.16
## 2 1 -280.55 -1 32.772 0.00000001036 ***

Como el p-valor es 0.00000001036 < 0.05 se rechaza la hipótesis nula, es decir, la variable CTxm31Z
tiene una influencia significativa a un nivel α = 0,05 en la respuesta.

Por otro lado, vamos a analizar si entra en el modelo la variable que muestra la evolución a largo
plazo, es decir, veamos si entra CTTxZ. Para ello consideramos el modelo:

log(LZmodi f ) = β0 + β1CT T xZ.

Y realizamos un contraste de hipótesis:

H0 : β1 = 0
H1 : β1 6= 0

Con el Test de Razón de Verosimilitudes obtenemos el siguiente resultado:

## Likelihood ratio test


##
## Model 1: LZmodif ~ CTTxZ
## Model 2: LZmodif ~ 1
## #Df LogLik Df Chisq Pr(>Chisq)
## 1 2 -277.77
## 2 1 -280.55 -1 5.5582 0.01839

Como el p-valor es 0.01839 < 0.05 se rechaza la hipótesis nula, es decir, la variable CTTxZ tiene
una influencia significativa a un nivel α = 0,05 en la respuesta.

Vemos así que tanto la variable CTTxZ como la variable CTxm31Z entran por separado en el mode-
lo, sin embargo el p-valor obtenido con la inclusión de esta última es mucho mayor al p-valor obtenido
incluyendo CTTxZ.

Por último, veamos si, una vez la variable CTxm31Z está en el modelo, CTTxZ entra en este consi-
derando el modelo:

log(LZmodi f ) = β0 + β1CT xm31Z + β2CT T xZ.

Y realizando un contraste de hipótesis:

H0 : β2 = 0
H1 : β2 6= 0

Con el Test de Razón de Verosimilitudes obtenemos el siguiente resultado:


20 Capítulo 3. Aplicación a las olas de calor

## Likelihood ratio test


##
## Model 1: LZmodif ~ CTxm31Z + CTTxZ
## Model 2: LZmodif ~ CTxm31Z
## #Df LogLik Df Chisq Pr(>Chisq)
## 1 3 -263.88
## 2 2 -264.16 -1 0.5739 0.4487

Como el p-valor es 0.4487 > 0.05, no se rechaza la hipótesis nula, es decir, se rechaza la entrada de
CTTxZ en el modelo.

Por tanto, el modelo creado con la distribución Poisson para el estudio de la duración de una ola de
calor es:

log(LZmodi f ) = −9,22 + 0,27CT xm31Z.

Como hemos visto en el capítulo 2, en un modelo Poisson la media y varianza coinciden: E(Y ) =
µ = Var(Y ); pero, si la varianza es mayor que la media: Var(Y ) = µ + c f (µ), siendo f (·) una función
monónotona, se da el caso de sobredispersión. Para ver si en el modelo anterior existe sobredispersión
vamos a realizar el siguiente contraste de hipótesis:

H0 : c = 0
H1 : c 6= 0

mediante la orden testDispersion. Esta orden aparece en el paquete DHARMa y realiza un test de
dispersión basado en la simulación de los residuos que compara la dispersión de los residuos simulados
con los residuos observados obteniendo un p-valor resultante. Si dicho p-valor es menor que 0.05, se
rechaza la hipótesis nula aceptando así la existencia de sobredispersión en el modelo, mientras que si el
p-valor es mayor que 0.05, no se rechaza la hipótesis nula y, por lo tanto, no se acepta la existencia de
sobredispersión:

## DHARMa nonparametric dispersion test


##
## data: simulationOutput
## dispersion = 1.7108, p-value < 2.2e-16
## alternative hypothesis: two.sided

Como el p-valor es 2.2e-16 < 0.05 se rechaza la hipótesis nula, es decir, hay sobredispersión en el
modelo. Para solucionar el problema de la sobredispersión se utiliza, como hemos visto anteriormen-
te, la distribución Binomial Negativa. Vamos entonces a crear un nuevo modelo para el estudio de la
duración de las olas de calor en Zaragoza basado en la Binomial Negativa aplicando un procedimiento
análogo al utilizado para la distribución Poisson.

Empezamos analizando si existe un comportamiento estacional, considerando la introducción de un


armónico en el modelo, dado por cospi y sinpi:

log(LZmodi f ) = β0 + β1 sinpi + β2 cospi.

Realizamos un contraste de hipótesis:

H0 : β1 = β2 = 0
H1 : β1 6= 0 y/o β2 6= 0
Modelos lineales generalizados - Laura Morte Sarmiento 21

Con el Test de Razón de Verosimilitudes obtenemos el p-valor, que es 0.798. Como dicho p-valor
es mayor que 0.05 no se rechaza la hipótesis nula, es decir, el armónico no entra en el modelo.

Veamos ahora si entra en el modelo la variable CTxm31Z considerando el modelo:

log(LZmodi f ) = β0 + β1CT xm31Z.

Y realizando un contraste de hipótesis:

H0 : β1 = 0
H1 : β1 6= 0

Con el Test de Razón de Verosimilitudes obtenemos el p-valor, que es 0.00003439. Como dicho
p-valor es menor que 0.05 se rechaza la hipótesis nula, es decir, la variable CTxm31Z tiene influencia
significativa a un nivel α = 0,05 en la respuesta.

A continuación, vamos a analizar si la variable CTTxZ entra en el modelo, para ello consideramos:

log(LZmodi f ) = β0 + β1CT T xZ.

Y realizamos un contraste de hipótesis:

H0 : β1 = 0
H1 : β1 6= 0

Con el Test de Razón de Verosimilitudes obtenemos el p-valor, que es 0.08295. Como dicho p-valor
es mayor que 0.05 no se rechaza la hipótesis nula, es decir, la covariable CTTxZ no entra en el modelo.

Por último, veamos si, una vez que CTxm31Z está en el modelo, la covariable CTTxZ entra en este
considerando:

log(LZmodi f ) = β0 + β1CT xm31Z + β2CT T xZ.

Y realizando un contraste de hipótesis:

H0 : β2 = 0
H1 : β2 6= 0

Con el Test de Razón de Verosimilitudes obtenemos el p-valor, que es 0.6054. Como dicho p-valor
es mayor que 0.05 no se rechaza la hipótesis nula, es decir, la variable CTTxZ no entra en el modelo.

Por tanto, el modelo creado para el estudio de la duración de una ola de calor viene dado únicamente
por la variable CTxm31Z. Veamos ahora la posible existencia de términos cuadráticos considerando el
modelo:

log(LZmodi f ) = β0 + β1CT T xm31Z + β2 (CT T xm31Z)2 .

Y realizando un contraste de hipótesis:

H0 : β2 = 0
H1 : β2 6= 0

Con el Test de Razón de Verosimilitudes obtenemos el p-valor, que es 0.9168. Como dicho p-valor
es mayor que α = 0,05 no se rechaza la hipótesis nula, es decir, se descarta la inclusión de términos
cuadráticos en el modelo, obteniendo así este modelo para el estudio de la duración de una ola de calor:

log(LZmodi f ) = −9,02 + 0,27CT xm31Z.


22 Capítulo 3. Aplicación a las olas de calor

3.2.2. Validación del modelo

Una vez se ha hecho la selección de covariables, se debe comprobar la validez del modelo, para ello
hay varias formas y métodos. Los errores de especificación de un GLM no se pueden evaluar de forma
fiable con las gráficas estándar de residuos. La razón es que la distribución esperada de los residuos es
una función de los valores ajustados.
Por ello, vamos a utilizar el paquete DHARMa. Con este paquete se puede realizar la prueba de
Kolmogorov-Smirnov, que es un procedimiento de bondad de ajuste el cual permite medir el grado de
concordancia que hay entre la distribución de un conjunto de datos y la distribución teórica específica.

El contraste de hipótesis consiste en considerar como hipótesis nula un modelo con error Binomial
Negativo, obteniendo lo siguiente:

Como el p-valor es 0.2639 > 0.05 no se rechaza la hipótesis nula, es decir, la distribución Bino-
mial Negativa es adecuada para este modelo. Además, gracias a este test nos podemos asegurar de que
efectivamente la distribución Poisson no era adecuada para este modelo ya que el p-valor resultante es
0.04495 < 0.05 y la gráfica obtenida está mucho más desajustada:

De esta manera se observa que el modelo creado con una distribución Binomial Negativa para el
estudio de la duración de las olas de calor en Zaragoza está bien construido.

Por último, vamos a hacer una gráfica enfrentando las covariables con los valores ajustados para ver
el resultado obtenido con este modelo:
Modelos lineales generalizados - Laura Morte Sarmiento 23

Como se ve en la gráfica, si la covariable es de 30º, la duración media de la ola de calor será de más
de un día; mientras que si la covariable es de 36º, estará en torno a los tres días de duración.

3.3. Intensidad de la ola de calor


3.3.1. Selección del modelo
El segundo modelo lineal generalizado que se va a crear nos va a permitir estudiar la intensidad de
las olas de calor en Zaragoza en los meses de mayo a septiembre desde 1951 hasta 2016. La distribución
elegida para tratar con este tipo de datos es la distribución Gamma, con una función de enlace logarít-
mica para, como hemos visto en teoría, evitar una media negativa.

Como en la duración de la ola de calor, vamos a empezar analizando si existe un comportamiento


estacional, para ello consideramos la introducción de un armónico en el modelo, dado por cospi y sinpi,
en el modelo.

Como se vio en la Sección 1.6.2, en el caso de la distribución Gamma el parámetro de dispersión no


es conocido, por lo que para el proceso de selección de covariables en el modelo se debe utilizar la dis-
tribución F. Para ello vamos a estudiar distintos contrastes de hipótesis utilizando el Test de Desviación
mediante la función anova.

Entonces, consideramos el modelo:

log(IxZ) = β0 + β1 sinpi + β2 cospi.

Hacemos el siguiente contraste de hipótesis:

H0 : β1 = β2 = 0
H1 : β1 6= 0 y/o β2 6= 0

Con el Test de Desviación obtenemos el siguiente resultado:

> anova(GLM.1,GLM.2,test="F")
## Analysis of Deviance Table
##
## Model 1: IxZ ~ cospi + sinpi
## Model 2: IxZ ~ 1
## Resid. Df Resid. Dev Df Deviance F Pr(>F)
## 1 195 124.85
## 2 197 125.42 -2 -0.56881 0.4075 0.6659
24 Capítulo 3. Aplicación a las olas de calor

Como el p-valor es 0.6659 > 0.05 no se rechaza la hipótesis nula, es decir, el armónico no entra en
el modelo.

Veamos ahora si entra el término CTxm31Z, para ello consideramos el modelo:

log(IxZ) = β0 + β1CT xm31Z.

y realizamos un contraste de hipótesis:


H0 : β1 = 0
H1 : β1 6= 0
Con el Test de Desviación obtenemos el p-valor, que es 0.005928 < 0.05, por lo que se rechaza la
hipótesis nula, es decir, la variable CTxm31Z tiene una influencia significativa a un nivel α = 0,05 en la
respuesta.

A continuación, veamos si entra en el modelo la variable CTTxZ considerando el modelo:

log(IxZ) = β0 + β1CT T xZ

y realizamos un contraste de hipótesis:


H0 : β1 = 0
H1 : β1 6= 0
Con el Test de Desviación obtenemos el p-valor, que es 0.05228 > 0.05, por lo que no se rechaza la
hipótesis nula, es decir, la covariable CTTxZ no entra en el modelo.

Por último, veamos si, una vez dentro del modelo la covariable CTxm31Z, entra en el mismo CTTxZ
con un razonamiento análogo al anterior, es decir, consideramos el modelo:

log(IxZ) = β0 + β1CT xm31Z + β2CT T xZ

y realizamos el contraste de hipótesis:

H0 : β2 = 0
H1 : β2 6= 0

Con el Test de Desviación obtenemos el p-valor, que es 0.6077 > 0.05, por lo que no se rechaza la
hipótesis nula, es decir, la covariable CTTxZ no entra en el modelo.

Por tanto, el modelo creado para el estudio de la intensidad de una ola de calor viene dado únicamen-
te por la variable CTxm31Z. Veamos ahora la posible existencia de términos cuadráticos considerando
el modelo:

log(IxZ) = β0 + β1CT xm31Z + β2 (CT xm31Z)2

Y realizando el contraste de hipótesis:

H0 : β2 = 0
H1 : β2 6= 0

Con el Test de Desviación obtenemos el p-valor, que es 0.7455 > 0.05, por lo que no se rechaza la
hipótesis nula, es decir, se descarta la existencia de un término cuadrático en el modelo, obteniendo así
este modelo para el estudio de la intensidad de una ola de calor:

log(IxZ) = −2,71584 + 0,09550CT xm31Z.


Modelos lineales generalizados - Laura Morte Sarmiento 25

3.3.2. Validación del modelo


De la misma manera que en el modelo creado para la duración de una ola de calor, vamos a com-
probar la validez del modelo creado para la intensidad con el paquete DHARMa, para ello realizamos
la prueba de Kolmogorov-Smirnov considerando como hipótesis nula un modelo con error Gamma,
obteniendo lo siguiente:

Como el p-valor es 0.62638 > 0.05 no se rechaza la hipótesis nula, es decir, la distribución Gamma
es adecuada para este modelo.

De esta manera se observa que el modelo creado con una distribución Gamma para el estudio de la
intensidad de las olas de calor en Zaragoza está bien construido.

Para terminar con el estudio del modelo, vamos a hacer una gráfica enfrentando las covariables con
los valores ajustados:

Como se aprecia en la gráfica, si la covariable es de 30 grados, la media de la intensidad máxima es


de 1.2; mientras que cuando la temperatura es de 36 grados, la media de dicha intensidad supera los 2
grados.
Bibliografía

[1] P. M C C ULLAGH Y J.A.N ELDER, Generalized Linear Models, 2.a ed., Chapman and Hall, 1983.

[2] A NNETTE J. D OBSON, Introduction to generalized linear models, 2.a ed., Chapman and Hall.

[3] ROBIN L. P LACKETT, The Analysis of Categorical Data, 1981.

[4] A. Z EILIS , C. K LEIBER Y S. JACKMAN, Regression Models for Count Data in R, 2008.

[5] S TEPHEN M. S TIGLER, The history of statistics, Harvard University Press.

[6] BARNDORFF -N IELSEN, 1978.

[7] J.A BAURREA , J.A SÍN , A.C.C EBRIÁN Y A. C ENTELLES, Modeling and forecasting extreme hot
events in the central Ebro valley, a continental-Mediterranean area, Global and Planetary Change,
2007.

27

También podría gustarte