Regresion

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 38

Estadística Aplicada ÍNDICE

Regresión Lineal Simple


Universidad Nacional de San Agustín
Jhon F. Bernedo Gonzales • 2020

Última revisión: 28 de mayo de 2021

Índice

1. Análisis de regresión 2
1.1. Relación entre variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2. Análisis descriptivo 3
2.1. Diagrama de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2. Coeficiente de correlación lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

3. Regresión lineal simple 8


3.1. Estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.2. Estimación de σ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

4. Inferencia: parámetros β0 y β1 16
4.1. Intervalo de Confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.2. Prueba de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

5. ANOVA 24

6. Estimación y predicción 30
6.1. Intervalo de predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

7. Calidad del Ajuste 36


7.1. Coeficiente de Determinación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

1
Estadística Aplicada 1. Análisis de regresión

1 Análisis de regresión
Análisis de regresión es un método para investigar (intentar descubrir) la relación funcional entre dos
variables. Por ejemplo:
Salario y el grado de educación de las personas en una empresa.

La respuesta de un paciente ante un nuevo fármaco.

Consumo de cigarros relacionado con características socio económicas y demográficas de los


usuarios.
Las variables son relacionadas por medio de una ecuación o modelo. Así la variable respuesta (Y) es
relacionada con un conjunto de variables llamadas explicativas.

1.1 Relación entre variables


El interés en análisis de regresión es modelar el efecto de un conjunto de variables explicativas
x1 , x2 , . . . , xp sobre la variable respuesta Y. Pero es importante diferenciar el tipo de relación entre
variables.
1. Relación Funcional: la relación entre Y y x es expresado por medio de una función determinística,
f (x)
y = f (x1 , x2 , . . . , xp ),
 
en que x = x1 , x2 , . . . , xp . Por ejemplo, una relación funcional entre Y y dos variables puede ser
2
Y = 4x1 + 3 sin x2 + e x1 .

En una relación funcional entre Y y x se tiene la característica que el comportamiento entre Y y x es


perfecto.

2. Relación estadística: Diferente de la relación funcional, la relación estadística considera que la


relación entre Y y x no es perfecta, y existe una variación aleatoria del verdadero valor f (x).
En este escenário, análisis de regresión considera un relación estadística entre Y y x, la relación es dada
por

Y = f (x) + ε,

en que ε representa la discrepancia, desvío o error aleatorio de f (x) en la aproximación. Notación:


Y: Variable respuesta, dependiente o output
 
x = x1 , x2 , . . . , xp : variables explicativas, predictores, covariables, independientes o input’s.

ε: error, desvio, discrepancia aleatorio. En ingeniería es también denominado ruido.

2
Estadística Aplicada 2. Análisis descriptivo

Existen muchos modelos de regresión, por ejemplo si la variable respuesta es discreta tanto dicotomica o
de conteo, se tiene varios modelo propuestos para analizar ese tipo de datos. Por ejemplo:
Si Y = 0 o Y = 1 entonces podemos utilizar una regresión logística.

En el caso de Y = 0, 1, 2, 3, . . . i.e. datos de conteo, se puede usar el modelo de regresión Poisson.

2 Análisis descriptivo
A fin de descubrir (o explorar) la relación entre dos variables se utiliza generalmente:
el diagrama de dispersión entre las dos variables y

el coeficiente de correlación, r
En el diagrama de dispersión, el comportamiento de los puntos indica si la relación es lineal positiva,
negativa o no hay una relación lineal.
Nótese que, que si no se observa una relación lineal, puede existir una relación no lineal entre la variables,
por ejemplo una relación cuadrática.
A fin de cuantificar (medir) el grado de relación lineal en una muestra de tamaño n, en que ahora los
datos son pares ordenados
{(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )} ,
se usa el coeficiente de correlación muestral (r).

2.1 Diagrama de dispersión


El gráfico de puntos de una variable cuantitativa (x) en relación a otra variable cuantitativa (y) es
denominada diagrama de dispersión.
El diagrama de dispersión muestra:
patrones

tendencias

relaciones

algunos puntos inusuales que están alejados de los otros


En resumen, el diagrama de dispersión ayuda a describir la relación (asociación) entre 2 variables
cuantitativas.

2.2 Coeficiente de correlación lineal


El coeficiente de correlación (r) mide el grado (fuerza) de asociación lineal entre dos variables
cuantitativas. Algunas condiciones deben de ser consideradas antes de usar el r.
1. El coeficiente de correlación se aplica unicamente para variables cuantitativas variables. De esta
forma, el r no se utiliza para variables categóricas.

3
Estadística Aplicada 2. Análisis descriptivo

2. El coeficiente solo indica el grado de asociación lineal entre dos variables

3. Observaciones inusuales conllevan a que el coeficiente de correlación lineal sea perturbado.

Dado un conjunto de n pares observados {(x1 , y1 ), . . . , (xn , yn )} de una muestra aleatoria. El coeficiente
de correlación muestral, r, es dado por
n
P
(xi − x) (yi − y)
i=1
r=r r , −1 ≤ r ≤ 1
n n
P 2 P 2
(xi − x) (yi − y)
i=1 i=1

El coeficiente de correlación, r puede ser reescrito de la siguiente forma

Sxy
P P P
n xi yi − xi yi
r=√ p =q q
Sxx Syy n xi − ( xi ) n yi2 − ( yi )2
P 2 P 2 P P

en que
n
P n
P
n
X xi yi
i=1 i=1
Sxy = xi yi −
n
i=1
!2
n
P
n
X xi
i=1
Sxx = xi2 −
n
i=1
!2
n
P
n
X yi
i=1
Syy = yi2 −
n
i=1

Algunas de las propiedades asociadas con r son:

1. El valor de r es independiente de las unidades de xi y yi .

2. −1 ≤ r ≤ 1

3. Si r = 1 entonces todos los pares (xi , yi ) tienen una relación positiva perfecta (pendiente positiva).

4. Si r = −1 entonces todos los pares (xi , yi ) tienen una relación negativa perfecta (pendiente negativa).

5. Si r ≈ 0 entonces todos los pares (xi , yi ) no tienen una relación lineal, sin embargo pueden tener
una relación no lineal, como por ejemplo, cuadrática.

Dependiendo del valor de r se tiene algunas interpretaciones para ver que tan fuerte es la relación lineal
entre x y y. En este sentido, se puede utilizar la siguiente regla empírica

4
Estadística Aplicada 2. Análisis descriptivo

Tabla 1: Interpretaciones del coeficiente de correlación


valor de r (+ o -) Interpretación
0.00 a 0.19 correlación muy débil
0.20 a 0.39 correlación débil
0.40 a 0.69 correlación moderada
0.70 a 0.89 correlación fuerte
0.90 a 1.00 correlación muy fuerte

Diagrama de Dispersión Diagrama de Dispersión

● ● ●
●● ●● ● ● ● ●●
● ●
● ● ●

● ● ● ●
● ● ● ● ●
●●
5 ● ●
● ●● ● ● 5 ●




●●● ●

●● ● ●●
● ● ●
● ● ● ●
● ●
●● ● ●
● ●
● ● ● ●
● ● ● ●
●● ●
● ● ●●
● ●●
● ●
● ●
0 ●
● ●
● 0



● ●
● ●
● ● ● ●●
● ●
y

y

● ● ●
● ●● ●
● ●
● ●
● ● ●
● ● ●●
● ● ●

−5 ● ●
●● ●

●●
●●

● ●●

−5 ●

● ●●

●● ● ● ● ● ● ● ●
● ●● ●
● ●
●● ●●●

● ●●● ●
● ● ●
● ● ●●
● ●● ●

●●● ●
−10 ● ●


−10 ●
● ●

−6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6
x x

(a) r > 0 (b) r < 0

Diagrama de Dispersión Diagrama de Dispersión

● ●

●●

●●

60 ● 4

● ●




● ●
● ●



● ● ● ●
●●
● ● 3 ● ●
● ● ●


● ●
40 ●



● ● ●

●●
● ●



●● ●
● ●● ● ● ● ● ●

y

● ● ● ●
● ●● ●

●● ●● ● ●
●●● ● ●● ● ●
●● ●

2 ●

●●
● ● ● ● ● ●●

● ●


● ●
● ● ●
● ● ● ● ●


● ●● ● ●
● ● ●
● ● ●
20 ●●





●● ● ●
● ●
● ●

● ● ●
● ● ● ●
● ●
●● ●●

●●
● 1 ● ●

● ● ●

●●●

● ● ● ● ●


●●● ● ● ● ●
● ● ●
●● ●
●●●●

●●●● ● ● ● ●

●● ● ●
● ●● ●● ●●
● ●

●● ●●
● ● ●●● ● ●
●●● ●
0 ●●
●● ●●
●●● 0 ●

−6 −4 −2 0 2 4 6 0 50 100 150
x x

(c) r ≈ 0, relación es cuadrática (d) r ≈ 0 no se observa ningún patrón

5
Estadística Aplicada 2. Análisis descriptivo

Ejemplo 2.1.
Un gerente de ventas recolectó los datos siguientes sobre ventas anuales y años de experiencia

años de experiencia 1 3 4 4 6 8 10 10 11 13
ventas (miles de $) 80 97 92 102 103 111 119 123 117 136

a) Construya el diagrama de dispersión de los datos.

b) Encuentre el coeficiente de correlación e interprete

Solución:

a) El diagrama de dispersión de los datos es mostrado abajo. Como puede observarse los datos
describen una tendencia lineal positiva

130
ventas (miles de $)

120

110

100

90

80
2 4 6 8 10 12
años de experiencia

Figura 2.1: Gráfica de dispersión para los datos

b) Para obtener el coeficiente de correlación se obtiene las cantidades

6
Estadística Aplicada 2. Análisis descriptivo

id años (x) ventas (y) x2 y2 xy


1 1 80 1 6400 80
2 3 97 9 9409 291
3 4 92 16 8464 368
4 4 102 16 10404 408
5 6 103 36 10609 618
6 8 111 64 12321 888
7 10 119 100 14161 1190
8 10 123 100 15129 1230
9 11 117 121 13689 1287
10 13 136 169 18496 1768
total 70 1080 632 119082 8128

n
P n
P
n xi yi
X
i=1 i=1 70 × 1080
Sxy = xi yi − = 8128 − = 568
n 10
i=1
!2
n
P
n xi
X
i=1 702
Sxx = xi2 − = 632 − = 142
n 10
i=1
!2
n
P
n yi
X
i=1 10802
Syy = yi2 − = 119082 − = 2442
n 10
i=1
70
x= =7
10
1080
y= = 108
10
El coeficiente de correlación es dado por

Sxy 568
r=√ p =√ √ = 0.964564
Sxx Syy 142 2442

Luego hay una correlación positiva muy fuerte entre los años de experiencia y las ventas.

7
Estadística Aplicada 3. Regresión lineal simple

3 Regresión lineal simple


El modelo de regresion lineal simple es un caso particular entre los modelos de regresión existentes. En
este modelo se considera solamente una variable independiente x.
La relación entre Y y x es dada por

Y = β0 + β1 x + ε,

en que β0 y β1 son los parámetros de la regresión (denominados también coeficientes)

β0 es el intercepto y

β1 es la pendiente (en ingles slope).

El parámetro β1 mide el impacto o efecto de la variable explicativa x en la variable respuesta Y.


Suposición:
Generalmente se supone que el error aleatorio debe de satisfacer:

E[ε] = 0 y Var[ε] = σ2

Nótese que Y es una variable aleatoria debido al hecho que ε es una variable aleatoria con una función
de probabilidad. Generalmente, en el modelo de regresión lineal simple la variable respuesta es de
naturaleza contínua y por tanto se considera un distribución de probabilidad continua para el error
aleatorio ε. Por ejemplo, se puede considerar que ε siga una distribución de probabilidad normal.
Notación:
Un valor observado de Y es denotado por Y = y o simplemente y. Sin embargo, en libros y textos
especializados cuando se hace la presentación de modelos de regresión se tiene que la variable aleatoria
Y el valor observado son denotados por y.

3.1 Estimación
Considerando una muestra aleatoria de tamaño n, esto es, de n pares ordenados (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ),
el modelo de regresión lineal simple para estos datos es dado por

yi = β0 + β1 xi + εi , i = 1, 2, . . . , n.

En este modelo se considera los siguientes supuestos en relación a los errores aleatórios ε.

i) Los errores tienen media 0, E[εi ] = 0.

ii) Los errores son independientes entre ellos, esto es, Cov[εi , εj ] = 0

iii) Todos los errores tienen la misma varianza, Var[εi ] = σ2 . Esta propiedad es conocida como homo-
cedasticidad.

iv) Con finalidad de hacer inferencias en relación a los parametros del modelo, se asume que los
errores siguen una distribución normal con media 0 y varianza σ2 , εi ∼ N(0, σ2 ).

8
Estadística Aplicada 3. Regresión lineal simple

Basados en los datos disponibles

D = {(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )}


se debe estimar los parametros del modelo de regresión simple. Esto significa obtener la mejor recta
que ajuste a los datos D.
Usualmente, el método utilizado para estimar los parametros del modelo es el método de mínimos
cuadrados (LSQ). Para tal fin, el método de LSQ utiliza los desvios

εi = yi − (β0 + β1 xi ) , i = 1, . . . , n

y considera la función que depende de (β0 , β1 )


n
X n
X
LS(β0 , β1 ) = ε2i = (yi − β0 − β1 xi )2
i=1 i=1

A fin de encontrar los estimadores de β0 y β1 se debe de minimizar la función LS(β0 , β1 ), esto implica
obtener las derivadas parciales e igualar a 0

∂LS(β0 , β1 )
=0
∂β0
∂LS(β0 , β1 )
=0
∂β1
 
y encontrar los valores b β 1 que que satisfagan las ecuaciones anteriores y minimicen la función
β 0, b
LS(β0 , β1 ). Resolviendo el sistema de ecuaciones se tiene que los estimadores para β1 y β0 son respectiva-
mente:
Sxy
β1 =
b
Sxx
β0 = y − b
b β 1 x,

en que
n
P n
P
n
X xi yi
i=1 i=1
Sxy = xi yi −
n
i=1
!2
n
P
n
X xi
i=1
Sxx = xi2 −
n
i=1

9
Estadística Aplicada 3. Regresión lineal simple

Así, la mejor recta que ajusta a los D que es proporcionada por el método de mínimos cuadrados es dada
por:
yi = b
b β0 + b
β 1 xi ,
que es conocida también recta de regresión, recta de mínimos cuadrados, ecuación de predicción,...

Ejemplo 3.1.
Un gerente de ventas recolectó los datos siguientes sobre ventas anuales y años de experiencia

años de experiencia 1 3 4 4 6 8 10 10 11 13
ventas (miles de $) 80 97 92 102 103 111 119 123 117 136

Estimar la ecuación de predicción.

Solución:
Se sabe que
n
P n
P
n xi yi
X
i=1 i=1 70 × 1080
Sxy = xi yi − = 8128 − = 568
n 10
i=1
!2
n
P
n xi
X
i=1 702
Sxx = xi2 − = 632 − = 142
n 10
i=1
!2
n
P
n yi
X
i=1 10802
Syy = yi2 − = 119082 − = 2442
n 10
i=1
70
x= =7
10
1080
y= = 108
10
Los coeficientes de regresión estimados son

Sxy568
β1 =
b =4=
Sxx 142
β0 = y − b
b β 1 x = 108 − 4 × 7 = 80

La ecuación de predicción es dado por


y i = 80 + 4xi ,
b

10
Estadística Aplicada 3. Regresión lineal simple

Ejemplo 3.2.
Hsuie, Ma y Tsai ("Separación y caracterización de copoliésteres termotrópicos del ácido p-hidroxibenzoico,
ácido sebácico e hidroquinona", Joumal of Applied Polymer Science, 56,471-476, 1995) estudian el efecto
de la relación molar del ácido sebácico (regresor) sobre la viscosidad intrínseca de los copoliésteres
(respuesta). La siguiente tabla muestra los datos.

Radio 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3


Viscosidad 0.45 0.2 0.34 0.58 0.7 0.57 0.55 0.44

a) Trazar un diagrama de dispersión de los datos.

b) Estimar la ecuación de predicción.

11
Estadística Aplicada 3. Regresión lineal simple

Ejemplo 3.3.
Byers y Williams ("Viscosities of Binary and Ternary Mixtures of Polynomatic Hydrocarbons", Journal of
Chemical and Engineering Data, 32,349-354,1987) estudiaron el impacto de la temperatura (T) sobre la
viscosidad (V) de mezclas de tolueno y tetralina. La tabla siguiente muestra los datos para mezclas con
fracción molar de tolueno igual a 0.4.

T (o C) 24.9 35 44.9 55.1 65.2 75.2 85.2 95.2


V (M·Pas) 1.133 0.9772 0.8532 0.755 0.6723 0.6021 0.542 0.5074

Estimar la ecuación de mínimos cuadrados

12
Estadística Aplicada 3. Regresión lineal simple

3.2 Estimación de σ2
A fin de estimar el valor de la varianza σ2 , se debe calcular el valor ajustado para c/u de los observaciones.
Un valor ajustado (o pronosticado) b y i es definido por

yi = b
b β0 + b
β 1 xi , i = 1, . . . , n

Por ejemplo, si por el método LSQ se obtuvo b β1 = 2 y b


β 0 = 3.4 y si se desea calcular el valor ajustado
para la i = 4 observación en que su respectiva variable explicativa es x4 = 10 se tiene

y4 = b
b β0 + bβ 1 x4
y 4 = 3.4 + 2(10)
b
y 4 = 23.4
b

y i es también denominado de valor predecido.


b
Observación: Cuando la variable respuesta yi depende del tiempo, se dice que b
y i es un pronóstico, una
proyección.
El residuo para la i-ésima observación es dada por la diferencia del valor observado (yi ) y el valor
ajustado (b
y i ),

ei = yi − b
yi i = 1, . . . , n (3.1)

La suma de cuadrados del error (SCE) es dado por


n
X n
X
SCE = ei2 = y i )2 .
(yi − b (3.2)
i=1 i=1

Luego, la estimación de σ2 es dada por


n
y i )2
P
(yi − b
SCE i=1
σ 2 = s2 =
b = (3.3)
n−2 n−2
A la suma de cuadrado del error (SCE) también se le denomina suma de cuadrados de los residuos. El
cálculo de SCE requiere de bastantes cálculos, sin embargo existe una manera mas rápida de obtener
SCE
n
X n
X n
X
SCE = yi2 −b
β0 yi − b
β1 xi yi (3.4)
i=1 i=1 i=1

13
Estadística Aplicada 3. Regresión lineal simple

Ejemplo 3.4.
Un gerente de ventas recolectó los datos siguientes sobre ventas anuales y años de experiencia

años de experiencia 1 3 4 4 6 8 10 10 11 13
ventas (miles de $) 80 97 92 102 103 111 119 123 117 136

a) Encuentre los valores ajustados para x = 4, x = 8 y x = 11

b) Estimar la varianza para los errores aleatorios de los datos presentados

Solución:
La recta de regresion para este conjunto de datos es dada por

y i = 80 + 4xi ,
b

a) Encuentre los valores ajustados para x = 4, x = 8 y x = 11

x = 4, y (4) = 80 + 4(4) = 96
b
x = 8, y (8) = 80 + 4(8) = 112
b
x = 11, y (11) = 80 + 4(11) = 124
b

b) Estimar la varianza para los errores aleatorios de los datos presentados

años (x) ventas (y) yi


b y−b
yi y i )2
(y − b
1 1 80 84 -4 16
2 3 97 92 5 25
3 4 92 96 -4 16
4 4 102 96 6 36
5 6 103 104 -1 1
6 8 111 112 -1 1
7 10 119 120 -1 1
8 10 123 120 3 9
9 11 117 124 -7 49
10 13 136 132 4 16
total 70 1080 1080 0 170

10
y i )2
P
(yi − b
SCE i=1 170
σ 2 = s2 =
b = = = 21.25
10 − 2 10 − 2 8

Luego, b
σ = s = 21.25 = 4.6098

14
Estadística Aplicada 3. Regresión lineal simple

Ejemplo 3.5.
Byers y Williams ("Viscosities of Binary and Ternary Mixtures of Polynomatic Hydrocarbons", Journal of
Chemical and Engineering Data, 32,349-354,1987) estudiaron el impacto de la temperatura (T) sobre la
viscosidad (V) de mezclas de tolueno y tetralina. La tabla siguiente muestra los datos para mezclas con
fracción molar de tolueno igual a 0.4.

T (o C) (x) 24.9 35 44.9 55.1 65.2 75.2 85.2 95.2


V (M·Pas) (y) 1.133 0.9772 0.8532 0.755 0.6723 0.6021 0.542 0.5074

a) Encuentre la recta de regresión

b) Encuentre los valores ajustados para x = 24.9, x = 55.1 y x = 85.2

c) Estimar la varianza para los errores aleatorios de los datos presentados

Solución:

a) La recta de regresión es dada por b


y = 1.28151 − 0.0087578xi

b) Los valores ajustados

x = 24.9, b
y (24.9) = 1.28151 − 0.0087578(24.9) = 1.06344078
x = 55.1, b
y (55.1) = 1.28151 − 0.0087578(55.1) = 0.79895522
x = 85.2, b
y (85.2) = 1.28151 − 0.0087578(85.2) = 0.53534544

c) Para estimar la varianza para los errores aleatorios se debe de calcular SCE

i x y yi
b y−b
yi y i )2
(y − b
1 24.9 1.133 1.0634408 0.06955922 0.004838485
2 35 0.9772 0.974987 0.002213 0.000004897
3 44.9 0.8532 0.8882848 -0.03508478 0.001230942
4 55.1 0.755 0.7989552 -0.04395522 0.001932061
5 65.2 0.6723 0.7105014 -0.03820144 0.001459350
6 75.2 0.6021 0.6229234 -0.02082344 0.000433616
7 85.2 0.542 0.5353454 0.00665456 0.000044283
8 95.2 0.5074 0.4477674 0.05963256 0.003556042
total 480.7 6.0422 6.0422055 -5.54E-06 0.013499677

8
y i )2
P
(yi − b
SCE i=1 0.013499677
σ 2 = s2 =
b = = = 0.002249946
8−2
8−2 6

Luego, b
σ = s = 0.002249946 = 0.047433597

15
Estadística Aplicada 4. Inferencia: parámetros β0 y β1

4 Inferencia: parámetros β0 y β1
Con la finalidad de realizar inferencias en relación a los parametros del modelo de regresión lineal
simple, se debe de asumir una distribución de probabilidad para el error aleatorio εi .
En este sentido, frecuentemente se asume que los errores εi siguen un distribución normal estándar con
media µ = 0 y varianza σ2 ,
εi ∼ N(0, σ2 ), i = 1, . . . , n
Los inferencias para los parametros del modelo lineal que se estudiaran son:
Intervalo de confianza
Prueba de hipótesis
Los estimadores de mínimos cuadrados para los parametros β0 y β1 es dado por

Sxy
β1 =
b y b
β0 = y − b
β1x
Sxx

Considerando la suposición que los errores aleatorios tienen una distribución de probabilidad normal,
entonces el estimador β1 tiene una distribución muestral dada por

σ2
!
β 1 ∼ N β1 ,
b (4.1)
Sxx

Nótese que la media del estimador es E[b β 1 ] = σ2 / Sxx . En este sentido, la


β 1 ] = β1 y la varianza es Var[b
varianza σ2 es desconocida, por este motivo se utiliza un estimador de σ2
n
y i )2
P
(yi − b
SCE i=1
σ 2 = s2 =
b =
n−2 n−2

4.1 Intervalo de Confianza


Así, considerando s2 se tiene que la variable

β 1 − β1 b
β − β1
= 1
b
T= √ ∼ tν ν = n − 2, (4.2)
s/ Sxx SE(b
β 1)

en que SE(b
β 1 ) es el error estándar del estimador b
β1
p
SE(b
β 1 ) = sbβ 1 = s/ Sxx (4.3)

De manera similar se tiene que

β 0 − β0
b
T= ∼ tν , ν = n − 2, (4.4)
SE(b β 0)

16
Estadística Aplicada 4. Inferencia: parámetros β0 y β1

en que
s s
2
x2
! !
1 x 1
SE(b
β 0 ) = sbβ 0 = s2 + =s + (4.5)
n Sxx n Sxx

Con los resultados anteriores se construye un intervalo de confianza (IC) para para β0 y β1 con un nivel
de confianza 100(1 − α) %

IC(β0 ) : β 0 ± tν,α/2 × SE(b


β0 ∈ b β 0)
IC(β1 ) : β ± tν,α/2 × SE(b
β1 ∈ b 1 β 1)

Ejemplo 4.1.
Un gerente de ventas recolectó los datos siguientes sobre ventas anuales y años de experiencia

años de experiencia 1 3 4 4 6 8 10 10 11 13
ventas (miles de $) 80 97 92 102 103 111 119 123 117 136

Calcule un IC de 95 % para β0 y β1

Solución:
La recta de regresion para este conjunto de datos es dada por

y i = 80 + 4xi ,
b

El error estándar para el estimador de la pendiente β1 es igual a


p √
β 1 ) = sbβ 1 = s/ Sxx = 4.6098/ 142 = 0.3868
SE(b

Se tiene n =10 datos y por tanto se tiene ν=10-2=8, luego el cuantil respectivo es igual

tν,α/2 = 2.228

luego, el intervalo de confianza de 95 % para β1

β 1 ± tν,α/2 × SE(b
β1 ∈ b β 1)
β1 ∈ 4 ± 2.228 × 0.3868
β1 ∈ (3.1382, 4.8618)

17
Estadística Aplicada 4. Inferencia: parámetros β0 y β1

4.2 Prueba de Hipótesis


Para realizar una prueba de hipótesis para β1 también se considera el estadístico

β − β1
β 1 − β1 b
= 1
b
T= √ ∼ tν , ν= n−2
s/ Sxx sbβ 1

El efecto de la variable x es medida en β1 . En este sentido, si existe una relación lineal entre y y x se debe
observar que β1 , 0.
Nótese que si β1 = 0 entonces no existe una relación lineal entre yi y xi . Sin embargo, puede existir
una relación cuadrática, exponencial, logarítmica entre otros.
El procedimiento de PH para β1 es similar a los otros procedimientos hechos anteriormente para otros
parámetros

1. H0 : β1 = β01 | H0 : β1 ≥ β01 | H0 : β1 ≤ β01


H1 : β1 , β01 | H1 : β1 < β01 | H1 : β1 > β01

2. Nivel de significancia: α

3. Estadístico de prueba:
β 1 − β01 b
b β 1 − β01
T= √ = ∼ tν , ν= n−2
s/ Sxx SE(b β 1)

4. Región Crítica
H1 : β1 , β01 ,
 
RC : −∞, −tν,α/2 ∪ tν,α/2 , ∞
H1 : β1 < β01 ,

RC : −∞, −tν,α
H1 : β1 > β01 ,

RC : tν,α, +∞

5. Calcular el valor del estadístico de prueba: Tc

6. Decisión: Se rechaza H0 si Tc está en la región crítica caso contrario se acepta H0

18
Estadística Aplicada 4. Inferencia: parámetros β0 y β1

Ejemplo 4.2.
Un gerente de ventas recolectó los datos siguientes sobre ventas anuales y años de experiencia

años de experiencia 1 3 4 4 6 8 10 10 11 13
ventas (miles de $) 80 97 92 102 103 111 119 123 117 136

¿Los años de experiencia tiene efecto las ventas anuales?. Use α = 0.05

Solución:
Prueba de Hipótesis

1) H0 : β1 = 0
H1 : β1 , 0

2) Nivel de significancia: α =0.05

3) Estadístico de prueba:

β1 − 0 β −0
= 1
b b
T= √ ∼ tν , ν = 10 − 2 = 8
s/ Sxx SE(b β 1)

4) Región Crítica
H1 : β1 , 0, RC = (−∞, −2.228) ∪ (2.228, ∞)

5) Calcular el valor del estadístico de prueba:

β1 − 0
b 4−0
tc = = = 10.3413
β 1 ) 0.3868
SE(b

6) Decisión: El valor calculado tc = 10.3413 esta en la región critica, se rechaza la H0 . Los años de
experiencia si tiene un efecto las ventas anuales.

19
Estadística Aplicada 4. Inferencia: parámetros β0 y β1

Ejemplo 4.3.
Byers y Williams ("Viscosities of Binary and Ternary Mixtures of Polynomatic Hydrocarbons", Journal of
Chemical and Engineering Data, 32,349-354,1987) estudiaron el impacto de la temperatura (T) sobre la
viscosidad (V) de mezclas de tolueno y tetralina. La tabla siguiente muestra los datos para mezclas con
fracción molar de tolueno igual a 0.4.

T (o C) (x) 24.9 35 44.9 55.1 65.2 75.2 85.2 95.2


V (M·Pas) (y) 1.133 0.9772 0.8532 0.755 0.6723 0.6021 0.542 0.5074

a) Calcule un IC de 95 % para β0 y β1

b) ¿La temperatura tiene un efecto la viscosidad de mezclas de tolueno y tretalina?. Use α = 0.05

Solución
De los datos se tiene
n
X n
X
xi2 = 33125.19, xi = 480.7, x = 60.0875
i=1 i=1

!2
n
P
n xi
X
i=1 480.72
Sxx = xi2 − = 33125.19 − = 4241.12875
n 8
i=1

Luego, se tiene que la recta de regresión es dada por b


y = 1.28151 − 0.0087578xi .
Los grados de libertad es dado por ν = n − 2 = 8 − 2 = 6 → tν,α/2 = 2.447
El error estándar es dado por

s 0.047433597
SE(b
β 1 ) = sbβ 1 = √ =√ = 0.000728358
Sxx 4241.12875
a) IC para β1

β1 ∈ b β 1 ± tν,α/2 × SE(b
β 1)
β1 ∈ − 0.0087578 ± 2.447 × 0.000728358
β1 ∈ (−0.010540, −0.006975)

20
Estadística Aplicada 4. Inferencia: parámetros β0 y β1

b) Prueba de Hipótesis

1) H0 : β1 = 0
H1 : β1 , 0
2) Nivel de significancia: α =0.05
3) Estadístico de prueba:

β1 − 0 β −0
= 1
b b
T= √ ∼ tν , ν=8−2=6
s/ Sxx SE(b β 1)

4) Región Crítica
H1 : β1 , 0, RC = (−∞, −2.447) ∪ (2.447, ∞)
5) Calcular el valor del estadístico de prueba:
0.0087578 − 0
Tc = = 12.0240
0.000728358

6) Decisión: El valor calculado Tc = 12.0240 esta en la RC, se rechaza la H0 . La temperatura si


tiene un efecto la viscosidad de mezclas de tolueno y tretalina.

21
Estadística Aplicada 4. Inferencia: parámetros β0 y β1

Ejemplo 4.4.
Wageweb realiza estudios sobre salarios y presenta resúmenes de éstos en su sitio de la Red. Basándose
en datos salariales desde el 1 de octubre de 2002 Wageweb publicó que el salario anual promedio de los
vicepresidentes de ventas era $142111 con una gratificación anual promedio de $15432 (Wageweb.com,
13 de mazo de 2003). Suponga que los datos siguientes sean una muestra de salarios y bonos anuales de
10 vicepresidentes de ventas (en miles de dólares)

Salario 135 115 146 167 165 176 98 136 163 119
Gratificación 12 14 16 19 22 24 7 17 18 11

a) Calcule la recta de mínimos cuadrados para predecir la gratificación a partir del salario

b) Calcule el valor estimado de σ

c) Calcule un IC de 95 % para β0 y β1

d) ¿Puede concluir que el salario tiene un efecto en la cantidad de gratificación?

22
Estadística Aplicada 4. Inferencia: parámetros β0 y β1

Ejemplo 4.5.
Un estudio sobre la cantidad de lluvia y la de contaminación del aire eliminada produjo los siguientes
datos, en que x=Cantidad de lluvia diaria (cm) y y = partículas eliminadas (µg/m3 )

x 4.3 4.5 5.9 5.6 6.1 5.2 3.8 2.1 7.5


y 126 121 116 118 114 118 132 141 108

a) Calcule la recta de mínimos cuadrados para predecir la fuerza a partir del diámetro.

b) Calcule el valor estimado de σ

c) Calcule un IC de 95 % para β0 y β1

d) ¿Puede concluir que la cantidad de lluvia tiene un efecto en la cantidad de partículas eliminadas

23
Estadística Aplicada 5. ANOVA

5 ANOVA
Una forma equivalente de probar que el predictor x tiene una influencia en la variable respuesta y es
utilizar el análisis de varianza. En este caso, la idea es descomponer la variabilidad (variación) total dada
por
n
X n
X n
X
2 2
Syy = (yi − ȳ) = (b
y i − ȳ) + y )2
(yi − b
i=1 i=1 i=1
SCT = SCReg + SCE

en que:

1. SCT: variación total

2. SCReg: mide la variación explicada por el modelo de regresión lineal simple

3. SCE: mide la variación no explicada por el modelo de regresión, nótese que SCE=RSS.

La suma de cuadrados de la regresión puede ser expresado como

SCReg = b
β 1 Sxy ,

la suma de cuadrados del error (resíduos) es dado por

SCE = Syy − b
β 1 Sxy
= Syy − SCReg

Nótese que:
SCT = Syy
El ANOVA para el modelo de regresión simple considera la hipótesis relacionada con la significancia del
modelo esto es
H0 : β1 = 0,
H1 : β1 , 0,
Dado que H0 es verdadera entonces el estadístico siguiente

SCReg/1
F= ∼ Fν1 ,ν2
SCE/n − 2
en que ν1 = 1 y ν2 = n − 2. El ANOVA para probar la significancia del modelo es presentado en la tabla.

24
Estadística Aplicada 5. ANOVA

Fuente de Grados de Suma de Cuadrado de


F
variación libertad cuadrados la media
CMReg
Regresión 1 SCReg CMReg = SCReg CME
Error n−2 SCE CME = SCE/n − 2
Total n−1 SCT

en que
CMReg
F= ∼ Fν1 ,ν2
CME
donde ν1 = 1 y ν2 = n − 2.
Se rechaza H0 si el valor calculado Fc > Fα,1,n−2

25
Estadística Aplicada 5. ANOVA

Ejemplo 5.1.
Un gerente de ventas recolectó los datos siguientes sobre ventas anuales y años de experiencia

años de experiencia (x) 1 3 4 4 6 8 10 10 11 13


ventas (y) (miles de $) 80 97 92 102 103 111 119 123 117 136

Por medio del ANOVA, verifique si los años de experiencia tienen un efecto las ventas anuales?. Use
α = 0.05

Solución:
Se sabe de ejemplos anteriores que

Sxy = 568, Sxx = 142 y Syy = 2442

Los coeficientes de regresión estimados son

β1 = 4 b
b β 0 = 80

La ecuación de predicción es dado por


y i = 80 + 4xi ,
b
Luego, la suma de cuadrados de la regresión

SCReg = b
β 1 Sxy = 4 ∗ 568 = 2272,

la suma de cuadrados del error SCE es dado por

SCE = Syy − b
β 1 Sxy = Syy − SCReg = 2442 − 2272 = 170

También se sabe que


SCT = Syy = 2442
En el procedimiento ANOVA para el modelo de regresión simple se tiene las hipótesis relacionada con el
efecto de los años de experiencia en las ventas
H0 : β1 = 0,
H1 : β1 , 0,
A fin de rechazar o no rechazar la hipótesis nula se construye la tabla ANOVA, en que el estadístico de
prueba es dado por

SCReg/1
F= ∼ Fν1 ,ν2
SCE/n − 2
en que ν1 = 1 y ν2 = n − 2 = 10 − 2 = 8.

26
Estadística Aplicada 5. ANOVA

Fuente de Grados de Suma de Cuadrado de


F
variación libertad cuadrados la media
2272
Regresión 1 SCReg=2272 CMReg = 2272 Fc = 170 =106.9176
8
Error n − 2=10-2=8 SCE=170 CME = 170/8
Total n − 1=10-1=9 2442

El cuantil o valor critico Fν1 ,ν2 considerando α=0.05 se obtiene por buscar en la tabla F así

Fν1 ,ν2 = F1,8 = 5.32

Se puede indicar la región crítica que es dada por

RC = (5.32, +∞)

Luego, el valor calculado Fc esta en la region critica de esta forma se rechaza la hipótesis nula. Así, los
años de experiencia del gerente si tiene efecto en las ventas.

27
Estadística Aplicada 5. ANOVA

Ejemplo 5.2.
El artículo “Withdrawal Strength of Threaded Nails” (D. Rammer, S. Winistorfer y D. Bender, en Journal
of Structural Engineering 2001:442-449) describe un experimento para investigar la relación entre el
diámetro de un clavo (x) y su fuerza retirada final (y). Se colocaron clavos de forma anular enhebrados
en madera de abeto de Douglas, y después se midieron sus fuerzas de retirada en N/mm. Se obtuvieron
los resultados siguientes para diez diámetros diferentes (en mm).

x 2.52 2.87 3.05 3.43 3.68 3.76 3.76 4.5 4.5 5.26
y 54.74 59.01 72.92 50.85 54.99 60.56 69.08 77.03 69.97 90.7

Por medio del ANOVA, se tiene que x tiene una influencia en y (la fuerza de retirada normal). Use
α = 0.05

28
Estadística Aplicada 5. ANOVA

Ejemplo 5.3.
Un estudio sobre la cantidad de lluvia y la de contaminación del aire eliminada produjo los siguientes
datos, en que x=Cantidad de lluvia diaria (cm) y y = partículas eliminadas (µg/m3 )

x 4.3 4.5 5.9 5.6 6.1 5.2 3.8 2.1 7.5


y 126 121 116 118 114 118 132 141 108

Realize el ANOVA respectivo.

29
Estadística Aplicada 6. Estimación y predicción

6 Estimación y predicción
Dado un valor para la variable explicativa x∗ se debe de tener su respectivo valor en y. Así, el valor
esperado (valor medio) para ese valor x∗ es dado por

E[Y|X = x∗ ] = µY|x∗ = β0 + β1 x∗

Nótese que µY|x∗ es un parámetro lo cual tiene una valor fijo pero desconocido.
Un estimador puntual de µY|x∗ es dado por

y∗ = b
b β 1 x∗
β0 + b

Un intervalo de confianza al 100(1 − α) % para la respuesta media (valor medio) en x = x∗ , E[Y|X = x∗ ],


es dado por

s
  1 (x∗ − x)2
y ∗ ± tν,α/2 × s
IC µY|x∗ : µY|x∗ ∈ b + ,
n Sxx

en que ν = n − 2.

30
Estadística Aplicada 6. Estimación y predicción

Ejemplo 6.1.
Un gerente de ventas recolectó los datos siguientes sobre ventas anuales y años de experiencia

años de experiencia (x) 1 3 4 4 6 8 10 10 11 13


ventas (y) (miles de $) 80 97 92 102 103 111 119 123 117 136

Calcule el intervalo de confianza para las ventas anuales si un gerente tiene x =12 años de experiencia.
Use 1 − α = 0.95

Solución:
Se sabe de ejemplos anteriores que

Sxy = 568, Sxx = 142, Syy = 2442, x = 7, s = 4.6098

La ecuación de predicción es dado por


y i = 80 + 4xi ,
b
Luego, el valor dado para la variable explicativa es x∗ =12, luego la estimación puntual para la respuesta
media es igual a
y∗ = b
b β 1 x∗ = 80 + 4 ∗ 12 = 128
β0 + b
El cuantil para construir el intervalo de confianza tν,α/2 posee ν=10-2=8 grados de libertad y consideran-
do un nivel de confianza de 1 − α = 0.95 es dado por

tν,α/2 = t8,α/2 = 2.306

Finalmente el intervalo de confianza


s
1 (12 − 7)2
µY|x∗ ∈ 128 ± 2.306 × 4.6098 +
10 142
∈ 128 ± 5.5852
∈ (122.4148, 133.5852)

31
Estadística Aplicada 6. Estimación y predicción

6.1 Intervalo de predicción


De forma similar al IC para µY|x∗ , se desea obtener un intervalo de posibles valores para Y relacionado
con una observación futura cuando x = x∗ . Se debe tener en cuenta que:

1. Un intervalo de confianza se relaciona con un parametro o alguna característica de la población


cuyo valor es fijo pero desconocido.

2. Un valor futuro de Y es una variable aleatoria y no un parámetro y por tal razón el intervalo de
posibles valores es denominado intervalo de predicción

Un intervalo de predicción de 100(1 − α) % para una observación Y futura cuando x = x∗ es dado por
s
∗ 1 (x∗ − x)2
β 0 + β 1 x ± tν,α/2 · s · 1 + +
b b
n Sxx

en que ν = n − 2.

32
Estadística Aplicada 6. Estimación y predicción

Ejemplo 6.2.
Un gerente de ventas recolectó los datos siguientes sobre ventas anuales y años de experiencia

años de experiencia (x) 1 3 4 4 6 8 10 10 11 13


ventas (y) (miles de $) 80 97 92 102 103 111 119 123 117 136

Calcule el intervalo de predicción para las ventas anuales si un gerente tiene x =12 años de experiencia.
Use 1 − α = 0.95

Solución:
Se sabe de ejemplos anteriores que

Sxy = 568, Sxx = 142, Syy = 2442, x = 7, s = 4.6098

La ecuación de predicción es dado por


y i = 80 + 4xi ,
b
Luego, el valor dado para la variable explicativa es x∗ =12, luego la estimación puntual para la respuesta
media es igual a
y∗ = b
b β 1 x∗ = 80 + 4 ∗ 12 = 128
β0 + b
El cuantil para construir el intervalo de confianza tν,α/2 posee ν=10-2=8 grados de libertad y consideran-
do un nivel de confianza de 1 − α = 0.95 es dado por

tν,α/2 = t8,α/2 = 2.306

Finalmente el intervalo de predicción para y en x∗ = 12 es


s
1 (12 − 7)2
128 ± 2.306 × 4.6098 1 + +
10 142
128 ± 12.0082

33
Estadística Aplicada 6. Estimación y predicción

Ejemplo 6.3.
El artículo “The Incorporation of Uranium and Silver by Hydrothermally Synthesized Galena” (Econ.
Geology, 1964: 1003-1024) reporta sobre la determinación de contenido de plata de cristales de galena de-
sarrollados en un sistema hidrotérmico cerrado dentro de un rango de temperatura. Con x =temperatura
de cristalización en o C y y =Ag2 S en mol %, los datos son los siguientes:

x 398 292 352 575 568 450 550 408 484 350 503 600 600
y 0.15 0.05 0.23 0.43 0.23 0.4 0.44 0.44 0.45 0.09 0.59 0.63 0.6

Encuentre un IC de 95 % para el contenido de plata promedio verdadero cuando x = 500o C

Encuentre un intervalo de predicción de 95 % para un valor futuro de Y si x = 400o C .

34
Estadística Aplicada 6. Estimación y predicción

Ejemplo 6.4.
Un estudio sobre la cantidad de lluvia y la de contaminación del aire eliminada produjo los siguientes
datos, en que x=Cantidad de lluvia diaria (cm) y y = partículas eliminadas (µg/m3 )

x 4.3 4.5 5.9 5.6 6.1 5.2 3.8 2.1 7.5


y 126 121 116 118 114 118 132 141 108

Encuentre un IC de 95 % para si x = 8

Encuentre un intervalo de predicción de 95 % para un valor futuro de Y si x = 8.

35
Estadística Aplicada 7. Calidad del Ajuste

7 Calidad del Ajuste


A fin de evaluar el ajuste del modelo de regresión lineal simple a los datos existen varios critérios para
tal fin. En este sentido, las medidas de calidad de ajuste en análisis de regresión están basados en

el ajuste del modelo de regresión a los datos

la capacidad predictiva del modelo de regresión

Una medida que es utilizada ampliamente usada para medir la calidad del ajuste del modelo es el
coeficiente de determinación, R2 .

7.1 Coeficiente de Determinación


El coeficiente de determinación, R2 es una medida global del ajuste del modelo a los datos.
El R2 mide la proporción de la variabilidad explicada por el modelo de regresión ajustado y es definida
por
SCE
R2 = 1 − ,
SCT
en que 0 ≤ R2 ≤ 1.
En el modelo de regresión lineal simple se tiene la propiedad que

R2 = r 2 ,

en que r es el coeficiente de correlación entre x y y.


Ejemplo:
Si el coeficiente de correlación entre x y y es r = 0.88, entonces el coeficiente de determinación del
modelo de regresión lineal simple ajustado es dado por

R2 = r 2 = 0.882 = 0.7744 = 77.44 %

Interpretación: el 77.44 % de la variación de y (variable respuesta) puede ser explicada por el modelo
de regresión lineal simple.

36
Estadística Aplicada 7. Calidad del Ajuste

Ejemplo 7.1.
El artículo “The Incorporation of Uranium and Silver by Hydrothermally Synthesized Galena” (Econ.
Geology, 1964: 1003-1024) reporta sobre la determinación de contenido de plata de cristales de galena de-
sarrollados en un sistema hidrotérmico cerrado dentro de un rango de temperatura. Con x =temperatura
de cristalización en o C y y =Ag2 S en mol %, los datos son los siguientes:

x 398 292 352 575 568 450 550 408 484 350 503 600 600
y 0.15 0.05 0.23 0.43 0.23 0.4 0.44 0.44 0.45 0.09 0.59 0.63 0.6

Que porcentaje de la variabilidad es explicada por el modelo de regresión ajustado?

37
Estadística Aplicada 7. Calidad del Ajuste

Es importante algunas observaciones en relación R2

Si R2 es próximo de 1 entonces se dice que existe un alto grado de asociación (lineal) entre x y y

Si R2 es próximo de 0 entonces se dice que no existe asociación entre x y y.

Si R2 ' 1 no necesariamente implica que el modelo de regresión tenga una buena capacidad
predictiva.

En el caso que R2 ' 1 no implica que el modelo de regresión lineal simple tenga un buen ajuste a
los datos.

Si R2 ' 0, sólo indica que x y y no tienen una relación lineal, la relación entre x y y puede ser una
relación cuadrática o cúbica.

38

También podría gustarte