Regresion
Regresion
Regresion
Índice
1. Análisis de regresión 2
1.1. Relación entre variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2. Análisis descriptivo 3
2.1. Diagrama de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2. Coeficiente de correlación lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
4. Inferencia: parámetros β0 y β1 16
4.1. Intervalo de Confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.2. Prueba de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5. ANOVA 24
6. Estimación y predicción 30
6.1. Intervalo de predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1
Estadística Aplicada 1. Análisis de regresión
1 Análisis de regresión
Análisis de regresión es un método para investigar (intentar descubrir) la relación funcional entre dos
variables. Por ejemplo:
Salario y el grado de educación de las personas en una empresa.
Y = f (x) + ε,
2
Estadística Aplicada 2. Análisis descriptivo
Existen muchos modelos de regresión, por ejemplo si la variable respuesta es discreta tanto dicotomica o
de conteo, se tiene varios modelo propuestos para analizar ese tipo de datos. Por ejemplo:
Si Y = 0 o Y = 1 entonces podemos utilizar una regresión logística.
2 Análisis descriptivo
A fin de descubrir (o explorar) la relación entre dos variables se utiliza generalmente:
el diagrama de dispersión entre las dos variables y
el coeficiente de correlación, r
En el diagrama de dispersión, el comportamiento de los puntos indica si la relación es lineal positiva,
negativa o no hay una relación lineal.
Nótese que, que si no se observa una relación lineal, puede existir una relación no lineal entre la variables,
por ejemplo una relación cuadrática.
A fin de cuantificar (medir) el grado de relación lineal en una muestra de tamaño n, en que ahora los
datos son pares ordenados
{(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )} ,
se usa el coeficiente de correlación muestral (r).
tendencias
relaciones
3
Estadística Aplicada 2. Análisis descriptivo
Dado un conjunto de n pares observados {(x1 , y1 ), . . . , (xn , yn )} de una muestra aleatoria. El coeficiente
de correlación muestral, r, es dado por
n
P
(xi − x) (yi − y)
i=1
r=r r , −1 ≤ r ≤ 1
n n
P 2 P 2
(xi − x) (yi − y)
i=1 i=1
Sxy
P P P
n xi yi − xi yi
r=√ p =q q
Sxx Syy n xi − ( xi ) n yi2 − ( yi )2
P 2 P 2 P P
en que
n
P n
P
n
X xi yi
i=1 i=1
Sxy = xi yi −
n
i=1
!2
n
P
n
X xi
i=1
Sxx = xi2 −
n
i=1
!2
n
P
n
X yi
i=1
Syy = yi2 −
n
i=1
2. −1 ≤ r ≤ 1
3. Si r = 1 entonces todos los pares (xi , yi ) tienen una relación positiva perfecta (pendiente positiva).
4. Si r = −1 entonces todos los pares (xi , yi ) tienen una relación negativa perfecta (pendiente negativa).
5. Si r ≈ 0 entonces todos los pares (xi , yi ) no tienen una relación lineal, sin embargo pueden tener
una relación no lineal, como por ejemplo, cuadrática.
Dependiendo del valor de r se tiene algunas interpretaciones para ver que tan fuerte es la relación lineal
entre x y y. En este sentido, se puede utilizar la siguiente regla empírica
4
Estadística Aplicada 2. Análisis descriptivo
● ● ●
●● ●● ● ● ● ●●
● ●
● ● ●
●
● ● ● ●
● ● ● ● ●
●●
5 ● ●
● ●● ● ● 5 ●
●
●
●
●
●●● ●
●
●● ● ●●
● ● ●
● ● ● ●
● ●
●● ● ●
● ●
● ● ● ●
● ● ● ●
●● ●
● ● ●●
● ●●
● ●
● ●
0 ●
● ●
● 0
●
●
●
● ●
● ●
● ● ● ●●
● ●
y
y
●
● ● ●
● ●● ●
● ●
● ●
● ● ●
● ● ●●
● ● ●
●
−5 ● ●
●● ●
●
●●
●●
● ●●
●
−5 ●
●
● ●●
●
●● ● ● ● ● ● ● ●
● ●● ●
● ●
●● ●●●
●
● ●●● ●
● ● ●
● ● ●●
● ●● ●
●
●●● ●
−10 ● ●
●
●
−10 ●
● ●
−6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6
x x
● ●
●●
●
●●
●
60 ● 4
●
● ●
●
●
●
●
● ●
● ●
●
●
●
● ● ● ●
●●
● ● 3 ● ●
● ● ●
●
●
● ●
40 ●
●
●
●
● ● ●
●
●●
● ●
●
●
●
●● ●
● ●● ● ● ● ● ●
●
y
● ● ● ●
● ●● ●
●
●● ●● ● ●
●●● ● ●● ● ●
●● ●
●
2 ●
●
●●
● ● ● ● ● ●●
●
● ●
●
●
● ●
● ● ●
● ● ● ● ●
●
●
● ●● ● ●
● ● ●
● ● ●
20 ●●
●
●
●
●
●
●● ● ●
● ●
● ●
●
● ● ●
● ● ● ●
● ●
●● ●●
●
●●
● 1 ● ●
●
● ● ●
●
●●●
●
● ● ● ● ●
●
●
●●● ● ● ● ●
● ● ●
●● ●
●●●●
●
●●●● ● ● ● ●
●
●● ● ●
● ●● ●● ●●
● ●
●
●● ●●
● ● ●●● ● ●
●●● ●
0 ●●
●● ●●
●●● 0 ●
−6 −4 −2 0 2 4 6 0 50 100 150
x x
5
Estadística Aplicada 2. Análisis descriptivo
Ejemplo 2.1.
Un gerente de ventas recolectó los datos siguientes sobre ventas anuales y años de experiencia
años de experiencia 1 3 4 4 6 8 10 10 11 13
ventas (miles de $) 80 97 92 102 103 111 119 123 117 136
Solución:
a) El diagrama de dispersión de los datos es mostrado abajo. Como puede observarse los datos
describen una tendencia lineal positiva
130
ventas (miles de $)
120
110
100
90
80
2 4 6 8 10 12
años de experiencia
6
Estadística Aplicada 2. Análisis descriptivo
n
P n
P
n xi yi
X
i=1 i=1 70 × 1080
Sxy = xi yi − = 8128 − = 568
n 10
i=1
!2
n
P
n xi
X
i=1 702
Sxx = xi2 − = 632 − = 142
n 10
i=1
!2
n
P
n yi
X
i=1 10802
Syy = yi2 − = 119082 − = 2442
n 10
i=1
70
x= =7
10
1080
y= = 108
10
El coeficiente de correlación es dado por
Sxy 568
r=√ p =√ √ = 0.964564
Sxx Syy 142 2442
Luego hay una correlación positiva muy fuerte entre los años de experiencia y las ventas.
7
Estadística Aplicada 3. Regresión lineal simple
Y = β0 + β1 x + ε,
β0 es el intercepto y
E[ε] = 0 y Var[ε] = σ2
Nótese que Y es una variable aleatoria debido al hecho que ε es una variable aleatoria con una función
de probabilidad. Generalmente, en el modelo de regresión lineal simple la variable respuesta es de
naturaleza contínua y por tanto se considera un distribución de probabilidad continua para el error
aleatorio ε. Por ejemplo, se puede considerar que ε siga una distribución de probabilidad normal.
Notación:
Un valor observado de Y es denotado por Y = y o simplemente y. Sin embargo, en libros y textos
especializados cuando se hace la presentación de modelos de regresión se tiene que la variable aleatoria
Y el valor observado son denotados por y.
3.1 Estimación
Considerando una muestra aleatoria de tamaño n, esto es, de n pares ordenados (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ),
el modelo de regresión lineal simple para estos datos es dado por
yi = β0 + β1 xi + εi , i = 1, 2, . . . , n.
En este modelo se considera los siguientes supuestos en relación a los errores aleatórios ε.
ii) Los errores son independientes entre ellos, esto es, Cov[εi , εj ] = 0
iii) Todos los errores tienen la misma varianza, Var[εi ] = σ2 . Esta propiedad es conocida como homo-
cedasticidad.
iv) Con finalidad de hacer inferencias en relación a los parametros del modelo, se asume que los
errores siguen una distribución normal con media 0 y varianza σ2 , εi ∼ N(0, σ2 ).
8
Estadística Aplicada 3. Regresión lineal simple
εi = yi − (β0 + β1 xi ) , i = 1, . . . , n
A fin de encontrar los estimadores de β0 y β1 se debe de minimizar la función LS(β0 , β1 ), esto implica
obtener las derivadas parciales e igualar a 0
∂LS(β0 , β1 )
=0
∂β0
∂LS(β0 , β1 )
=0
∂β1
y encontrar los valores b β 1 que que satisfagan las ecuaciones anteriores y minimicen la función
β 0, b
LS(β0 , β1 ). Resolviendo el sistema de ecuaciones se tiene que los estimadores para β1 y β0 son respectiva-
mente:
Sxy
β1 =
b
Sxx
β0 = y − b
b β 1 x,
en que
n
P n
P
n
X xi yi
i=1 i=1
Sxy = xi yi −
n
i=1
!2
n
P
n
X xi
i=1
Sxx = xi2 −
n
i=1
9
Estadística Aplicada 3. Regresión lineal simple
Así, la mejor recta que ajusta a los D que es proporcionada por el método de mínimos cuadrados es dada
por:
yi = b
b β0 + b
β 1 xi ,
que es conocida también recta de regresión, recta de mínimos cuadrados, ecuación de predicción,...
Ejemplo 3.1.
Un gerente de ventas recolectó los datos siguientes sobre ventas anuales y años de experiencia
años de experiencia 1 3 4 4 6 8 10 10 11 13
ventas (miles de $) 80 97 92 102 103 111 119 123 117 136
Solución:
Se sabe que
n
P n
P
n xi yi
X
i=1 i=1 70 × 1080
Sxy = xi yi − = 8128 − = 568
n 10
i=1
!2
n
P
n xi
X
i=1 702
Sxx = xi2 − = 632 − = 142
n 10
i=1
!2
n
P
n yi
X
i=1 10802
Syy = yi2 − = 119082 − = 2442
n 10
i=1
70
x= =7
10
1080
y= = 108
10
Los coeficientes de regresión estimados son
Sxy568
β1 =
b =4=
Sxx 142
β0 = y − b
b β 1 x = 108 − 4 × 7 = 80
10
Estadística Aplicada 3. Regresión lineal simple
Ejemplo 3.2.
Hsuie, Ma y Tsai ("Separación y caracterización de copoliésteres termotrópicos del ácido p-hidroxibenzoico,
ácido sebácico e hidroquinona", Joumal of Applied Polymer Science, 56,471-476, 1995) estudian el efecto
de la relación molar del ácido sebácico (regresor) sobre la viscosidad intrínseca de los copoliésteres
(respuesta). La siguiente tabla muestra los datos.
11
Estadística Aplicada 3. Regresión lineal simple
Ejemplo 3.3.
Byers y Williams ("Viscosities of Binary and Ternary Mixtures of Polynomatic Hydrocarbons", Journal of
Chemical and Engineering Data, 32,349-354,1987) estudiaron el impacto de la temperatura (T) sobre la
viscosidad (V) de mezclas de tolueno y tetralina. La tabla siguiente muestra los datos para mezclas con
fracción molar de tolueno igual a 0.4.
12
Estadística Aplicada 3. Regresión lineal simple
3.2 Estimación de σ2
A fin de estimar el valor de la varianza σ2 , se debe calcular el valor ajustado para c/u de los observaciones.
Un valor ajustado (o pronosticado) b y i es definido por
yi = b
b β0 + b
β 1 xi , i = 1, . . . , n
y4 = b
b β0 + bβ 1 x4
y 4 = 3.4 + 2(10)
b
y 4 = 23.4
b
ei = yi − b
yi i = 1, . . . , n (3.1)
13
Estadística Aplicada 3. Regresión lineal simple
Ejemplo 3.4.
Un gerente de ventas recolectó los datos siguientes sobre ventas anuales y años de experiencia
años de experiencia 1 3 4 4 6 8 10 10 11 13
ventas (miles de $) 80 97 92 102 103 111 119 123 117 136
Solución:
La recta de regresion para este conjunto de datos es dada por
y i = 80 + 4xi ,
b
x = 4, y (4) = 80 + 4(4) = 96
b
x = 8, y (8) = 80 + 4(8) = 112
b
x = 11, y (11) = 80 + 4(11) = 124
b
10
y i )2
P
(yi − b
SCE i=1 170
σ 2 = s2 =
b = = = 21.25
10 − 2 10 − 2 8
√
Luego, b
σ = s = 21.25 = 4.6098
14
Estadística Aplicada 3. Regresión lineal simple
Ejemplo 3.5.
Byers y Williams ("Viscosities of Binary and Ternary Mixtures of Polynomatic Hydrocarbons", Journal of
Chemical and Engineering Data, 32,349-354,1987) estudiaron el impacto de la temperatura (T) sobre la
viscosidad (V) de mezclas de tolueno y tetralina. La tabla siguiente muestra los datos para mezclas con
fracción molar de tolueno igual a 0.4.
Solución:
x = 24.9, b
y (24.9) = 1.28151 − 0.0087578(24.9) = 1.06344078
x = 55.1, b
y (55.1) = 1.28151 − 0.0087578(55.1) = 0.79895522
x = 85.2, b
y (85.2) = 1.28151 − 0.0087578(85.2) = 0.53534544
c) Para estimar la varianza para los errores aleatorios se debe de calcular SCE
i x y yi
b y−b
yi y i )2
(y − b
1 24.9 1.133 1.0634408 0.06955922 0.004838485
2 35 0.9772 0.974987 0.002213 0.000004897
3 44.9 0.8532 0.8882848 -0.03508478 0.001230942
4 55.1 0.755 0.7989552 -0.04395522 0.001932061
5 65.2 0.6723 0.7105014 -0.03820144 0.001459350
6 75.2 0.6021 0.6229234 -0.02082344 0.000433616
7 85.2 0.542 0.5353454 0.00665456 0.000044283
8 95.2 0.5074 0.4477674 0.05963256 0.003556042
total 480.7 6.0422 6.0422055 -5.54E-06 0.013499677
8
y i )2
P
(yi − b
SCE i=1 0.013499677
σ 2 = s2 =
b = = = 0.002249946
8−2
8−2 6
√
Luego, b
σ = s = 0.002249946 = 0.047433597
15
Estadística Aplicada 4. Inferencia: parámetros β0 y β1
4 Inferencia: parámetros β0 y β1
Con la finalidad de realizar inferencias en relación a los parametros del modelo de regresión lineal
simple, se debe de asumir una distribución de probabilidad para el error aleatorio εi .
En este sentido, frecuentemente se asume que los errores εi siguen un distribución normal estándar con
media µ = 0 y varianza σ2 ,
εi ∼ N(0, σ2 ), i = 1, . . . , n
Los inferencias para los parametros del modelo lineal que se estudiaran son:
Intervalo de confianza
Prueba de hipótesis
Los estimadores de mínimos cuadrados para los parametros β0 y β1 es dado por
Sxy
β1 =
b y b
β0 = y − b
β1x
Sxx
Considerando la suposición que los errores aleatorios tienen una distribución de probabilidad normal,
entonces el estimador β1 tiene una distribución muestral dada por
σ2
!
β 1 ∼ N β1 ,
b (4.1)
Sxx
β 1 − β1 b
β − β1
= 1
b
T= √ ∼ tν ν = n − 2, (4.2)
s/ Sxx SE(b
β 1)
en que SE(b
β 1 ) es el error estándar del estimador b
β1
p
SE(b
β 1 ) = sbβ 1 = s/ Sxx (4.3)
β 0 − β0
b
T= ∼ tν , ν = n − 2, (4.4)
SE(b β 0)
16
Estadística Aplicada 4. Inferencia: parámetros β0 y β1
en que
s s
2
x2
! !
1 x 1
SE(b
β 0 ) = sbβ 0 = s2 + =s + (4.5)
n Sxx n Sxx
Con los resultados anteriores se construye un intervalo de confianza (IC) para para β0 y β1 con un nivel
de confianza 100(1 − α) %
Ejemplo 4.1.
Un gerente de ventas recolectó los datos siguientes sobre ventas anuales y años de experiencia
años de experiencia 1 3 4 4 6 8 10 10 11 13
ventas (miles de $) 80 97 92 102 103 111 119 123 117 136
Calcule un IC de 95 % para β0 y β1
Solución:
La recta de regresion para este conjunto de datos es dada por
y i = 80 + 4xi ,
b
Se tiene n =10 datos y por tanto se tiene ν=10-2=8, luego el cuantil respectivo es igual
tν,α/2 = 2.228
β 1 ± tν,α/2 × SE(b
β1 ∈ b β 1)
β1 ∈ 4 ± 2.228 × 0.3868
β1 ∈ (3.1382, 4.8618)
17
Estadística Aplicada 4. Inferencia: parámetros β0 y β1
β − β1
β 1 − β1 b
= 1
b
T= √ ∼ tν , ν= n−2
s/ Sxx sbβ 1
El efecto de la variable x es medida en β1 . En este sentido, si existe una relación lineal entre y y x se debe
observar que β1 , 0.
Nótese que si β1 = 0 entonces no existe una relación lineal entre yi y xi . Sin embargo, puede existir
una relación cuadrática, exponencial, logarítmica entre otros.
El procedimiento de PH para β1 es similar a los otros procedimientos hechos anteriormente para otros
parámetros
2. Nivel de significancia: α
3. Estadístico de prueba:
β 1 − β01 b
b β 1 − β01
T= √ = ∼ tν , ν= n−2
s/ Sxx SE(b β 1)
4. Región Crítica
H1 : β1 , β01 ,
RC : −∞, −tν,α/2 ∪ tν,α/2 , ∞
H1 : β1 < β01 ,
RC : −∞, −tν,α
H1 : β1 > β01 ,
RC : tν,α, +∞
18
Estadística Aplicada 4. Inferencia: parámetros β0 y β1
Ejemplo 4.2.
Un gerente de ventas recolectó los datos siguientes sobre ventas anuales y años de experiencia
años de experiencia 1 3 4 4 6 8 10 10 11 13
ventas (miles de $) 80 97 92 102 103 111 119 123 117 136
¿Los años de experiencia tiene efecto las ventas anuales?. Use α = 0.05
Solución:
Prueba de Hipótesis
1) H0 : β1 = 0
H1 : β1 , 0
3) Estadístico de prueba:
β1 − 0 β −0
= 1
b b
T= √ ∼ tν , ν = 10 − 2 = 8
s/ Sxx SE(b β 1)
4) Región Crítica
H1 : β1 , 0, RC = (−∞, −2.228) ∪ (2.228, ∞)
β1 − 0
b 4−0
tc = = = 10.3413
β 1 ) 0.3868
SE(b
6) Decisión: El valor calculado tc = 10.3413 esta en la región critica, se rechaza la H0 . Los años de
experiencia si tiene un efecto las ventas anuales.
19
Estadística Aplicada 4. Inferencia: parámetros β0 y β1
Ejemplo 4.3.
Byers y Williams ("Viscosities of Binary and Ternary Mixtures of Polynomatic Hydrocarbons", Journal of
Chemical and Engineering Data, 32,349-354,1987) estudiaron el impacto de la temperatura (T) sobre la
viscosidad (V) de mezclas de tolueno y tetralina. La tabla siguiente muestra los datos para mezclas con
fracción molar de tolueno igual a 0.4.
a) Calcule un IC de 95 % para β0 y β1
b) ¿La temperatura tiene un efecto la viscosidad de mezclas de tolueno y tretalina?. Use α = 0.05
Solución
De los datos se tiene
n
X n
X
xi2 = 33125.19, xi = 480.7, x = 60.0875
i=1 i=1
!2
n
P
n xi
X
i=1 480.72
Sxx = xi2 − = 33125.19 − = 4241.12875
n 8
i=1
s 0.047433597
SE(b
β 1 ) = sbβ 1 = √ =√ = 0.000728358
Sxx 4241.12875
a) IC para β1
β1 ∈ b β 1 ± tν,α/2 × SE(b
β 1)
β1 ∈ − 0.0087578 ± 2.447 × 0.000728358
β1 ∈ (−0.010540, −0.006975)
20
Estadística Aplicada 4. Inferencia: parámetros β0 y β1
b) Prueba de Hipótesis
1) H0 : β1 = 0
H1 : β1 , 0
2) Nivel de significancia: α =0.05
3) Estadístico de prueba:
β1 − 0 β −0
= 1
b b
T= √ ∼ tν , ν=8−2=6
s/ Sxx SE(b β 1)
4) Región Crítica
H1 : β1 , 0, RC = (−∞, −2.447) ∪ (2.447, ∞)
5) Calcular el valor del estadístico de prueba:
0.0087578 − 0
Tc = = 12.0240
0.000728358
21
Estadística Aplicada 4. Inferencia: parámetros β0 y β1
Ejemplo 4.4.
Wageweb realiza estudios sobre salarios y presenta resúmenes de éstos en su sitio de la Red. Basándose
en datos salariales desde el 1 de octubre de 2002 Wageweb publicó que el salario anual promedio de los
vicepresidentes de ventas era $142111 con una gratificación anual promedio de $15432 (Wageweb.com,
13 de mazo de 2003). Suponga que los datos siguientes sean una muestra de salarios y bonos anuales de
10 vicepresidentes de ventas (en miles de dólares)
Salario 135 115 146 167 165 176 98 136 163 119
Gratificación 12 14 16 19 22 24 7 17 18 11
a) Calcule la recta de mínimos cuadrados para predecir la gratificación a partir del salario
c) Calcule un IC de 95 % para β0 y β1
22
Estadística Aplicada 4. Inferencia: parámetros β0 y β1
Ejemplo 4.5.
Un estudio sobre la cantidad de lluvia y la de contaminación del aire eliminada produjo los siguientes
datos, en que x=Cantidad de lluvia diaria (cm) y y = partículas eliminadas (µg/m3 )
a) Calcule la recta de mínimos cuadrados para predecir la fuerza a partir del diámetro.
c) Calcule un IC de 95 % para β0 y β1
d) ¿Puede concluir que la cantidad de lluvia tiene un efecto en la cantidad de partículas eliminadas
23
Estadística Aplicada 5. ANOVA
5 ANOVA
Una forma equivalente de probar que el predictor x tiene una influencia en la variable respuesta y es
utilizar el análisis de varianza. En este caso, la idea es descomponer la variabilidad (variación) total dada
por
n
X n
X n
X
2 2
Syy = (yi − ȳ) = (b
y i − ȳ) + y )2
(yi − b
i=1 i=1 i=1
SCT = SCReg + SCE
en que:
3. SCE: mide la variación no explicada por el modelo de regresión, nótese que SCE=RSS.
SCReg = b
β 1 Sxy ,
SCE = Syy − b
β 1 Sxy
= Syy − SCReg
Nótese que:
SCT = Syy
El ANOVA para el modelo de regresión simple considera la hipótesis relacionada con la significancia del
modelo esto es
H0 : β1 = 0,
H1 : β1 , 0,
Dado que H0 es verdadera entonces el estadístico siguiente
SCReg/1
F= ∼ Fν1 ,ν2
SCE/n − 2
en que ν1 = 1 y ν2 = n − 2. El ANOVA para probar la significancia del modelo es presentado en la tabla.
24
Estadística Aplicada 5. ANOVA
en que
CMReg
F= ∼ Fν1 ,ν2
CME
donde ν1 = 1 y ν2 = n − 2.
Se rechaza H0 si el valor calculado Fc > Fα,1,n−2
25
Estadística Aplicada 5. ANOVA
Ejemplo 5.1.
Un gerente de ventas recolectó los datos siguientes sobre ventas anuales y años de experiencia
Por medio del ANOVA, verifique si los años de experiencia tienen un efecto las ventas anuales?. Use
α = 0.05
Solución:
Se sabe de ejemplos anteriores que
β1 = 4 b
b β 0 = 80
SCReg = b
β 1 Sxy = 4 ∗ 568 = 2272,
SCE = Syy − b
β 1 Sxy = Syy − SCReg = 2442 − 2272 = 170
SCReg/1
F= ∼ Fν1 ,ν2
SCE/n − 2
en que ν1 = 1 y ν2 = n − 2 = 10 − 2 = 8.
26
Estadística Aplicada 5. ANOVA
El cuantil o valor critico Fν1 ,ν2 considerando α=0.05 se obtiene por buscar en la tabla F así
RC = (5.32, +∞)
Luego, el valor calculado Fc esta en la region critica de esta forma se rechaza la hipótesis nula. Así, los
años de experiencia del gerente si tiene efecto en las ventas.
27
Estadística Aplicada 5. ANOVA
Ejemplo 5.2.
El artículo “Withdrawal Strength of Threaded Nails” (D. Rammer, S. Winistorfer y D. Bender, en Journal
of Structural Engineering 2001:442-449) describe un experimento para investigar la relación entre el
diámetro de un clavo (x) y su fuerza retirada final (y). Se colocaron clavos de forma anular enhebrados
en madera de abeto de Douglas, y después se midieron sus fuerzas de retirada en N/mm. Se obtuvieron
los resultados siguientes para diez diámetros diferentes (en mm).
x 2.52 2.87 3.05 3.43 3.68 3.76 3.76 4.5 4.5 5.26
y 54.74 59.01 72.92 50.85 54.99 60.56 69.08 77.03 69.97 90.7
Por medio del ANOVA, se tiene que x tiene una influencia en y (la fuerza de retirada normal). Use
α = 0.05
28
Estadística Aplicada 5. ANOVA
Ejemplo 5.3.
Un estudio sobre la cantidad de lluvia y la de contaminación del aire eliminada produjo los siguientes
datos, en que x=Cantidad de lluvia diaria (cm) y y = partículas eliminadas (µg/m3 )
29
Estadística Aplicada 6. Estimación y predicción
6 Estimación y predicción
Dado un valor para la variable explicativa x∗ se debe de tener su respectivo valor en y. Así, el valor
esperado (valor medio) para ese valor x∗ es dado por
E[Y|X = x∗ ] = µY|x∗ = β0 + β1 x∗
Nótese que µY|x∗ es un parámetro lo cual tiene una valor fijo pero desconocido.
Un estimador puntual de µY|x∗ es dado por
y∗ = b
b β 1 x∗
β0 + b
s
1 (x∗ − x)2
y ∗ ± tν,α/2 × s
IC µY|x∗ : µY|x∗ ∈ b + ,
n Sxx
en que ν = n − 2.
30
Estadística Aplicada 6. Estimación y predicción
Ejemplo 6.1.
Un gerente de ventas recolectó los datos siguientes sobre ventas anuales y años de experiencia
Calcule el intervalo de confianza para las ventas anuales si un gerente tiene x =12 años de experiencia.
Use 1 − α = 0.95
Solución:
Se sabe de ejemplos anteriores que
31
Estadística Aplicada 6. Estimación y predicción
2. Un valor futuro de Y es una variable aleatoria y no un parámetro y por tal razón el intervalo de
posibles valores es denominado intervalo de predicción
Un intervalo de predicción de 100(1 − α) % para una observación Y futura cuando x = x∗ es dado por
s
∗ 1 (x∗ − x)2
β 0 + β 1 x ± tν,α/2 · s · 1 + +
b b
n Sxx
en que ν = n − 2.
32
Estadística Aplicada 6. Estimación y predicción
Ejemplo 6.2.
Un gerente de ventas recolectó los datos siguientes sobre ventas anuales y años de experiencia
Calcule el intervalo de predicción para las ventas anuales si un gerente tiene x =12 años de experiencia.
Use 1 − α = 0.95
Solución:
Se sabe de ejemplos anteriores que
33
Estadística Aplicada 6. Estimación y predicción
Ejemplo 6.3.
El artículo “The Incorporation of Uranium and Silver by Hydrothermally Synthesized Galena” (Econ.
Geology, 1964: 1003-1024) reporta sobre la determinación de contenido de plata de cristales de galena de-
sarrollados en un sistema hidrotérmico cerrado dentro de un rango de temperatura. Con x =temperatura
de cristalización en o C y y =Ag2 S en mol %, los datos son los siguientes:
x 398 292 352 575 568 450 550 408 484 350 503 600 600
y 0.15 0.05 0.23 0.43 0.23 0.4 0.44 0.44 0.45 0.09 0.59 0.63 0.6
34
Estadística Aplicada 6. Estimación y predicción
Ejemplo 6.4.
Un estudio sobre la cantidad de lluvia y la de contaminación del aire eliminada produjo los siguientes
datos, en que x=Cantidad de lluvia diaria (cm) y y = partículas eliminadas (µg/m3 )
Encuentre un IC de 95 % para si x = 8
35
Estadística Aplicada 7. Calidad del Ajuste
Una medida que es utilizada ampliamente usada para medir la calidad del ajuste del modelo es el
coeficiente de determinación, R2 .
R2 = r 2 ,
Interpretación: el 77.44 % de la variación de y (variable respuesta) puede ser explicada por el modelo
de regresión lineal simple.
36
Estadística Aplicada 7. Calidad del Ajuste
Ejemplo 7.1.
El artículo “The Incorporation of Uranium and Silver by Hydrothermally Synthesized Galena” (Econ.
Geology, 1964: 1003-1024) reporta sobre la determinación de contenido de plata de cristales de galena de-
sarrollados en un sistema hidrotérmico cerrado dentro de un rango de temperatura. Con x =temperatura
de cristalización en o C y y =Ag2 S en mol %, los datos son los siguientes:
x 398 292 352 575 568 450 550 408 484 350 503 600 600
y 0.15 0.05 0.23 0.43 0.23 0.4 0.44 0.44 0.45 0.09 0.59 0.63 0.6
37
Estadística Aplicada 7. Calidad del Ajuste
Si R2 es próximo de 1 entonces se dice que existe un alto grado de asociación (lineal) entre x y y
Si R2 ' 1 no necesariamente implica que el modelo de regresión tenga una buena capacidad
predictiva.
En el caso que R2 ' 1 no implica que el modelo de regresión lineal simple tenga un buen ajuste a
los datos.
Si R2 ' 0, sólo indica que x y y no tienen una relación lineal, la relación entre x y y puede ser una
relación cuadrática o cúbica.
38