Regresión y Correlación

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 5

ESTADÍSTICA I

ANÁLISIS DE REGRESIÓN Y CORRELACIÓN

El análisis de regresión lineal consiste en emplear métodos que permitan determinar la mejor relación funcional
entre dos o más variables concomitantes (o relacionados). El análisis de correlación estudia el grado de asociación
de dos o más variables.

Análisis de regresión.- Una relación funcional matemáticamente hablando está dado por:
𝑌 = 𝑓(𝑥1 , ⋯ , 𝑥𝑛 ; 𝜃1 , ⋯ , 𝜃𝑚 )
Donde:
Y: variable respuesta (o dependiente)
𝑥𝑖 : La i-ésima variable independiente (i= 1,…, n)
𝜃𝑗 : El j-ésimo parámetro en la función (j= 1,…, m)
f: La función
REGRESIÓN LINEAL SIMPLE.- Cuando la relación funcional entre las variables dependientes (y) e independiente (x)
es una línea recta, se tiene una regresión lineal simple fig. 2.3 y 2.4, dada por la ecuación.
𝒚 = 𝜶 + 𝜷𝒙 + 𝜺 Donde:

𝛼: El valor de la ordenada donde la línea de regresión se intercepta al eje y.


𝛽: El coeficiente de regresión poblacional (pendiente de la línea recta)
𝜀: El error.

Suma de cuadrados y productos de x e y


𝑆𝐶𝑌 = ∑(𝑦𝑖 − 𝑦̅)2 suma de cuadrados de y
𝑆𝐶𝑋 = ∑(𝑥𝑖 − 𝑥̅ )2 suma de cuadrados de x
𝑆𝑃𝑋𝑌 = ∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) suma de productos de x e y
𝑆𝐶𝑌 también corresponde a la suma de cuadrados total = SCT
ESTADÍSTICA I

La estimación de parámetros consiste en determinar los parámetros α y β a partir de los datos muestrales
observados, es decir; deben hallarse valores como 𝛼̂ 𝑦 𝛽̂ de la muestra que represente a α y β respectivamente.
Empleando el método de los mínimos cuadrados, es decir minimizando la suma de cuadrados de los errores, se
determinan los valores de α y β, así.
𝑆𝐶𝐸 = ∑𝑛𝑖=1 𝜀𝑖2 = ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂)
𝑖
2 = ∑𝑛 (𝑦 − 𝛼 − 𝛽𝑥 )2 al diferenciar o derivar SCE con respecto a α y β, aplicar
𝑖=1 𝑖 𝑖
propiedades de sumatoria y haciendo operaciones básicas se obtiene.
̂=𝒚
𝜶 ̂𝒙
̅−𝜷 ̅

𝒏 ∑ 𝒙𝒊 𝒚𝒊 − ∑ 𝒙𝒊 ∑ 𝒚𝒊 𝑺𝑷𝑿𝒀
̂=
𝜷 =
𝒏 ∑ 𝒙𝟐𝒊 − (∑ 𝒙𝒊 )𝟐 𝑺𝑪𝑿
Donde:
∑ 𝑦𝑖 ∑ 𝑥𝑖
𝑦̅ = , 𝑥̅ = : Son los promedios.
𝑛 𝑛

𝛼̂: Es el valor (estimador) que representa a 𝛼 que constituye el intercepto cuando x=0.
𝛽̂ : Es el valor (estimador) que representa a 𝛽.

El Coeficiente de Regresión (β).- Es la pendiente de la recta de regresión, representa la tasa de cambio de la


respuesta “y” al cambio de una unidad en “x”. si β=0 se dice que no existe relación lineal entre las dos variables
fig. 2.7, si β> 0 se dice que hay relación lineal positiva (pendiente positiva) fig. 2.5 y si β< 0 se dice que hay
relación lineal negativa (pendiente negativa) fig. 2.6.

• El residuo o error es: 𝜀𝑖 = 𝑦𝑖 − 𝑦̂𝑖 + 𝑦̂𝑖 − 𝑦̅ = 𝑦𝑖 − 𝑦̅

Ejemplos:
1. Los siguientes datos corresponden a la cantidad de fertilizantes en libras (𝑥𝑖 ) y la cantidad de trigo
producida en toneladas al sembrar parcelas de 2 hectáreas cada una.
Fertilizante (𝑥𝑖 ) Producción (𝑦𝑖 )
2 8
4 9
5 11
7 11
10 12
11 14
12 15
15 16
ESTADÍSTICA I

a) Grafique el diagrama de dispersión conjuntamente con la línea de regresión estimada


b) Obtenga la ecuación de la línea de regresión e interpreta 𝛽̂ .
c) Estime la producción de trigo cuando se utilizan 13 libras de fertilizante.
d) Para una producción de 18 toneladas, ¿Cuántas libras de fertilizante se necesita?

2. Un grupo de estudio tiene asignado obtener un modelo de regresión lineal para predecir las ventas
semanales de un producto en función de la publicidad por la radio, ha recopilado al azar los tiempos de
duración en minutos de la publicidad de 10 semanas y el respectivo número de unidades vendidas del
producto, los datos son los siguientes.

N° Publicidad X Ventas Y
1 20 50
2 30 73
3 30 69
4 40 87
5 50 108
6 60 128
7 60 135
8 60 132
9 70 148
10 80 140

a) Grafique el diagrama de dispersión conjuntamente con la línea de regresión estimada.


b) Obtenga la ecuación de la línea de regresión e interpreta 𝛽̂ .
c) Predice la venta de una semana donde se harían 100 minutos de propaganda.

3. Salaberry vende casas en la costa este de Estados Unidos. Una de las preguntas más frecuentes de los
compradores potenciales es: Si compramos esta casa, ¿Cuánto gastaremos en calefacción durante el
invierno?
Al departamento de investigación de Salaberry se le pidió desarrollar algunas directrices respecto de los
costos de calefacción de casas unifamiliares. Se considera que tres variables se relacionan con los costos de
calefacción:
➢ La temperatura externa diaria media,
➢ El número de pulgadas de aislamiento en el ático y
➢ La antigüedad en años del calentador.
Para el estudio, el departamento de investigación de Salaberry seleccionó una muestra aleatoria de 20 casas
de venta reciente. Determino el costo de calefacción de cada casa en enero pasado, así como la
temperatura externa en enero en la región, el número de pulgadas de aislamiento en el ático y la edad del
calentador. La información muestral se reporta en la tabla

Costo de calefacción Temperatura externa media Aislamiento del ático Antigüedad del calentador
($) (°F) (pulgadas) (años)
250 35 3 6
360 29 4 10
165 36 7 3
43 60 6 9
92 65 5 6
200 30 5 5
ESTADÍSTICA I

355 10 6 7
290 7 10 10
230 21 9 11
120 55 2 5
73 54 12 4
205 48 5 1
400 20 5 15
320 39 4 7
72 60 8 6
272 20 5 8
94 58 7 3
190 40 8 11
235 27 9 8
139 30 7 5
a) Grafique el diagrama de dispersión conjuntamente con la línea de regresión estimada, para cada par
de datos, siendo costo calefacción la V.D.
b) Obtenga la ecuación de la línea de regresión e interpreta 𝛽̂ .
c) ¿Cuál es el costo de calefacción cuando la temperatura es 30 °F?
d) ¿Cuál es el costo de calefacción cuando aislamiento es 5 pulgadas?
e) ¿Cuál es el costo de calefacción cuando la antigüedad es de 5 años?

4. Los siguientes datos muestran las edades (X i) y la Presión Sanguínea Sistólica (Yi) de un grupo de mujeres.
N° Edad (Xi) Presión
Sanguínea
Sistólica (Yi)
1 56 147
2 42 125
3 72 160
4 36 118
5 63 149
6 47 128
7 55 150
8 49 145
9 38 115
10 42 140
11 68 152
12 60 155

a) Grafique el diagrama de dispersión conjuntamente con la línea de regresión estimada.


b) Obtenga la ecuación de la línea de regresión e interpreta 𝛽̂ .
c) Predice la presión sanguínea para una edad de 75 años.

5. Los porcentajes en gastos de publicidad y los porcentajes de beneficios netos de ventas es una muestra
de 9 negocios de pequeños comerciantes es como sigue:
ESTADÍSTICA I

N° GASTOS BENEFICIOS
x y
1 2.3 4.0
2 1.9 3.8
3 3.5 6.2
4 1.0 2.9
5 1.5 3.4
6 4.0 6.8
7 2.6 4.5
8 3.0 5.0
9 2.4 4.2
Total

a) Grafique el diagrama de dispersión conjuntamente con la línea de regresión estimada.


b) Obtenga la ecuación de la línea de regresión e interpreta 𝛽̂ .
c) Predice los porcentajes de beneficios netos de ventas para 4.8 de porcentaje en gastos de publicidad.

6. Una empresa de reparto de encomiendas a domicilio estudia la relación entre la distancia de las entregas
(x) y el tiempo empleado (y) con el fin de obtener un modelo de pronósticos del tiempo de entrega. Los
datos de la muestra se dan en la taba y es como sigue:
N° X (Km) Y (min)
1 28 60
2 14 19
3 12 12
4 31 75
5 30 70
6 19 40
7 24 55
8 15 25
9 16 25
Total

a) Grafique el diagrama de dispersión conjuntamente con la línea de regresión estimada.


b) Obtenga la ecuación de la línea de regresión e interpreta 𝛽̂ .
c) Predice el tiempo empleado, para 35 km. de distancia en las entregas.

También podría gustarte