Correlacion y Regresion Lineal Simple
Correlacion y Regresion Lineal Simple
Correlacion y Regresion Lineal Simple
DE HONDURAS
MM-241 BIOESTADÍSTICA
INTRODUCCIÓN A LA CORRELACIÓN Y
REGRESIÓN LINEAL SIMPLE
Ramón A. Enamorado
2
Ramón Enamorado
CORRELACIÓN LINEAL
Ramón Enamorado
Ramón Enamorado
5
Ramón Enamorado
EJEMPLO 1
Considere los siguientes datos sobre la edad en años (X) y
la talla en centímetros (Y) de doce niños o adolecentes en
un centro de salud:
Edad Talla
(años) (cm)
19 178
6 110
5 110
11 150
7 120
10 133
18 175
9 130
13 145
7 115
15 170
17 165
6
Ramón Enamorado
EJEMPLO 1
Al ordenar los valores de la edad, trayendo consigo los
valores correspondientes de la talla, se tiene:
Edad Talla
(años) (cm)
5 110
6 110
7 115
7 120
9 130
10 133
11 150
13 145
15 170
17 165
18 175
19 178
Notar que, en general, cuando crecen los valores de la edad, también crecen
los valores de la talla (correlación positiva)
7
Ramón Enamorado
EJEMPLO 1
Diagrama de dispersión para los datos de
edad y talla de niños o adolescentes
Edad Talla 190
(años) (cm) 180
19 178 170
6 110 160
150
5 110
Talla (Cm)
140
11 150
130
7 120
120
10 133 110
18 175 100
9 130 90
13 145 80
7 115 70
15 170 0 2 4 6 8 10 12 14 16 18 20
17 165 Edad (Años)
Ramón Enamorado
EJEMPLO 2
Los siguientes datos corresponden al tiempo (X) que
tardaron 10 niños para desarrollar una prueba psicológica
sencilla, y el número de errores cometidos por cada
alumno en la prueba (Y):
Tiempo en No. de errores
minutos ( X ) cometidos ( Y )
7 3
12 1
5 4
5 3
6 4
9 4
13 1
9 2
4 5
10 3
Fuente: Análisis de datos en Psicología, Botella Ausina et.al. Larousse-Ediciones Pirámide, Enero, 2012, Pág.. 142
9
Ramón Enamorado
EJEMPLO 2
Al ordenar los valores del tiempo, trayendo consigo los
valores correspondientes del número de errores, se tiene:
Tiempo en No. de errores
minutos ( X ) cometidos ( Y )
4 5
5 4
5 3
6 4
7 3
9 4
9 2
10 3
12 1
13 1
Notar que, en general, cuando crecen los valores del tiempo de realización de
la prueba, decrecen los valores del número de errores cometidos (correlación
negativa)
10
Ramón Enamorado
EJEMPLO 2
Diagrama de dispersión para el tiempo y número de errores
cometidos por los niños en la prueba
5
Tiempo No. de
(min) errores
7 3 Número de errores 4
12 1
5 4 3
5 3
6 4 2
9 4
13 1 1
9 2
4 5
0
10 3 0 1 2 3 4 5 6 7 8 9 10 11 12 13
Tiempo (Min)
Ramón Enamorado
EJEMPLO 3
Ejemplos de parejas de variables que no guardan relación
lineal:
X Y Z W
20 14 3 2
30 4.5 3 1
45 13 4 3
51 5.5 4 2
62 9 4 4
75 4 5 3
75 7 10 5
89 2 11 3
90 3 12 3
90 15 12 2
13 1
14 2
Ramón Enamorado
EJEMPLO 3
Diagrama de dispersión para las variables X e Y
15
X Y 14
13
20 14 12
30 4.5 11
10
45 13 9
51 5.5 8
62 9 7
Y
6
75 4 5
75 7 4
3
89 2
2
90 3 1
90 15 0
0 10 20 30 40 50 60 70 80 90
Notar que, en general, el gráfico no muestra una tendencia lineal (no hay
correlación lineal)
13
Ramón Enamorado
EJEMPLO 3
Diagrama de dispersión para las variables Z y W
5
Z W
3 2 4
3 1
4 3 3
4 2
4 4
W
2
5 3
10 5
1
11 3
12 3
12 2 0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
13 1
14 2 Z
Notar que, en general, el gráfico no muestra una tendencia lineal (no hay
correlación lineal)
14
Ramón Enamorado
Ramón Enamorado
Alta Alta
Moderada Moderada
Baja o no correlación
16
Ramón Enamorado
𝑛 σ 𝑥𝑦−σ 𝑥 σ 𝑦
𝑟=
𝑛 σ 𝑥2− σ 𝑥 2 𝑛 σ 𝑦2− σ 𝑦 2
Ramón Enamorado
EJEMPLO 4
Considere los datos del ejemplo 1, sobre la edad en años
(X) y la talla en centímetros (Y) de doce niños o
adolescentes en un centro de salud:
Edad Talla XY
(años, X) (cm, Y) Los valores de las sumatorias,
19 178 3,382 según la calculadora son:
6 110 660
5 110 550
σ 𝑥 = 137 𝑦 = 1,701
11 150 1,650
7 120 840 𝑦 2 = 248,373
σ 𝑥 2 = 1829
10 133 1,330
18 175 3,150
σ 𝑥𝑦 = 20,777
9 130 1,170
13 145 1,885
7 115 805
15 170 2,550
17 165 2,805
Se calcula una tercera columna que contiene los productos de los valores de X y Y
18
Ramón Enamorado
EJEMPLO 4
A continuación se sustituyen los valores de las sumatorias
en la fórmula:
𝑛 σ 𝑥𝑦−σ 𝑥 σ 𝑦
𝑟=
𝑛 σ 𝑥2− σ 𝑥 2 𝑛 σ 𝑦2− σ 𝑦 2
12 20,777 −( 137)(1,701)
𝑟=
12(1,829)− 137 2 12(248,373)− 1,701 2
16,287 16,287
𝑟= = = 0.97892
3,179 87,075 16,637.65083
Ramón Enamorado
EJEMPLO 5
Considere los datos del ejemplo 2, sobre el tiempo de
realización de la prueba por los niños (X), y el número de
errores cometidos (Y):
Tiempo en No. de errores XY
minutos ( X ) cometidos ( Y ) Los valores de las sumatorias,
7 3 21 según la calculadora son:
12 1 12
5 4 20
σ 𝑥 = 80 𝑦 = 30
5 3 15
6 4 24 𝑦 2 = 106
𝑥 2 = 726
9 4 36
13 1 13
σ 𝑥𝑦 = 209
9 2 18
4 5 20
10 3 30
Se calcula una tercera columna que contiene los productos de los valores de X y Y
20
Ramón Enamorado
EJEMPLO 5
A continuación se sustituyen los valores de las sumatorias
en la fórmula:
𝑛 σ 𝑥𝑦−σ 𝑥 σ 𝑦
𝑟=
𝑛 σ 𝑥2− σ 𝑥 2 𝑛 σ 𝑦2− σ 𝑦 2
10 209 −( 80)(30)
𝑟=
10(726)− 80 2 10(106)− 30 2
−310 −310
𝑟= = = −0.8357
860 160 370.94474
Ramón Enamorado
EJEMPLO 6
X Y XY
Los valores de las sumatorias,
20 14 280 según la calculadora son:
30 4.5 135
45 13 585
σ 𝑥 = 627 𝑦 = 77
51 5.5 280.5
62 9 558 𝑦 2 = 799.5
𝑥 2 = 45,141
75 4 300
75 7 525
σ 𝑥𝑦 = 4461.5
89 2 178
90 3 270
90 15 1350
Se calcula una tercera columna que contiene los productos de los valores de X y Y
22
Ramón Enamorado
EJEMPLO 6
A continuación se sustituyen los valores de las sumatorias
en la fórmula:
𝑛 σ 𝑥𝑦−σ 𝑥 σ 𝑦
𝑟=
𝑛 σ 𝑥2− σ 𝑥 2 𝑛 σ 𝑦2− σ 𝑦 2
10 4461.5 −( 627)(77)
𝑟=
10(45,141)− 627 2 10(799.5)− 77 2
−3,664 −3,664
𝑟= = = −0.3339
58,281 2,066 10,973.083
• Se concluye que la correlación lineal entre estas
variables es baja, o que no hay correlación lineal a nivel
de la muestra
23
Ramón Enamorado
Ramón Enamorado
𝑛 σ 𝑥𝑦−σ 𝑥 σ 𝑦
b= 2 Al valor de b se le conoce como pendiente
𝑛 σ 𝑥 2 −(σ 𝑥)
σ 𝑦−𝑏 σ 𝑥
a= El valor de a determina el intercepto en el eje Y
𝑛
Y = 𝑎 + 𝑏𝑋
* OBS: Las formulas cambian si se quisiera predecir X a partir de la variable Y. Para utilizar estas
fórmulas es necesario que se haya identificado como Y a la variable dependiente
25
Ramón Enamorado
EJEMPLO 7
Considere los datos del ejemplo 1, sobre la edad en años
(X) y la talla en centímetros (Y) de doce niños o
adolescentes en un centro de salud:
Edad Talla XY
(años, X) (cm, Y) Los valores de las sumatorias,
19 178 3,382 según la calculadora son:
6 110 660
5 110 550
σ 𝑥 = 137 𝑦 = 1,701
11 150 1,650
7 120 840 𝑦 2 = 248,373
σ 𝑥 2 = 1,829
10 133 1,330
18 175 3,150
σ 𝑥𝑦 = 20,777
9 130 1,170
13 145 1,885
7 115 805
15 170 2,550
17 165 2,805
Se había encontrado, en el ejemplo 4, que el coeficiente de correlación entre
estas variables es de 0.97892. Correlación alta
26
Ramón Enamorado
EJEMPLO 7
A continuación se sustituyen los valores de las sumatorias
en la fórmula:
𝑛 σ 𝑥𝑦−σ 𝑥 σ 𝑦 σ 𝑦−𝑏 σ 𝑥
b= 2 a=
𝑛 σ 𝑥 2 −(σ 𝑥) 𝑛
16,287 999.149
b= = 5.123 a= = 83.26
3,179 12
Ramón Enamorado
EJEMPLO 7
190
Primero se grafica 180 Y = 83.26 + 5.123X
el intercepto en Y 170
(el valor de a = 83.26)
Talla (Cm) ( Y )
160
110
como (10, 134.49)
Se traza la recta
pasando por esos
90
(0, 83.26) 80
100
70
.
0 2 4 6 8 10 12 14 16 18 20
puntos
Edad (Años) (X)
28
Ramón Enamorado
Ramón Enamorado
EJEMPLO 8
Por ejemplo, si la edad es 6 años, La talla estimada es:
Ramón Enamorado
EJEMPLO 9
La ecuación también puede utilizarse para predecir la talla
dentro de la población de niños o adolescentes, para un
individuo con una edad que no se observó en la muestra,
Por ejemplo, para un niño de 8 años, la talla se predice
como:
* OBS: Notar que la recta no es útil para predecir la talla de personas adultas, por ejemplo si la edad
es 50 años, el valor de la talla (Y) calculada con la ecuación sería de 339.41 cms (más de 3 metros).
Esto se debe a que las personas a cierta edad dejan de crecer y el comportamiento creciente de la
ecuación ya no es aplicable.
31
Ramón Enamorado
EJERCICIO
Ramón Enamorado
Ramón Enamorado
Un investigador en psicología experimental lleva a cabo un experimento con 10
animales de laboratorio (de la misma edad y peso). Les administra un fármaco,
midiendo el tiempo en horas (X) y la concentración del fármaco en mg (Y). Se obtienen
los siguientes datos: (Se recomienda hacer uso del modo estadístico de la
calculadora para los cálculos)
Ramón Enamorado
Solución:
35
Ramón Enamorado
!MUCHAS GRACIAS!