Correlacion y Regresion Lineal Simple

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 35

UNIVERSIDAD NACIONAL AUTÓNOMA

DE HONDURAS

MM-241 BIOESTADÍSTICA

INTRODUCCIÓN A LA CORRELACIÓN Y
REGRESIÓN LINEAL SIMPLE

Ramón A. Enamorado
2

Ramón Enamorado

CORRELACIÓN LINEAL

Intuitivamente diremos que dos variables cuantitativas X e


Y, se correlacionan (o que se relacionan linealmente) si:

• A medida los valores de X crecen, los valores de Y


también crecen (correlación directa o positiva)*

• A medida los valores de X crecen, los valores de Y


decrecen (Correlación Inversa o negativa)*

• Si esto no sucede, en general, se dice que no hay


correlación entre las variables
* OBS: Para los objetivos de la clase se supone que la tendencia creciente o decreciente tiene
una intensidad de cambio constante, es decir que la tendencia sigue una línea
recta NO horizontal, NO vertical.
3

Ramón Enamorado

DIAGRAMA DE DISPERSION O NUBE DE PUNTOS

Es un gráfico que permite visualizar el grado de relación


que pueden tener dos variables:

• Se grafican puntos en el plano cartesiano, que


corresponden a los pares de valores observados para
las dos variables
• Para efectos de ver sólo si hay correlación, no importa
que variable ubicamos en el eje horizontal, y cual en el
eje vertical
4

Ramón Enamorado
5

Ramón Enamorado

EJEMPLO 1
Considere los siguientes datos sobre la edad en años (X) y
la talla en centímetros (Y) de doce niños o adolecentes en
un centro de salud:
Edad Talla
(años) (cm)
19 178
6 110
5 110
11 150
7 120
10 133
18 175
9 130
13 145
7 115
15 170
17 165
6

Ramón Enamorado

EJEMPLO 1
Al ordenar los valores de la edad, trayendo consigo los
valores correspondientes de la talla, se tiene:
Edad Talla
(años) (cm)
5 110
6 110
7 115
7 120
9 130
10 133
11 150
13 145
15 170
17 165
18 175
19 178

Notar que, en general, cuando crecen los valores de la edad, también crecen
los valores de la talla (correlación positiva)
7

Ramón Enamorado

EJEMPLO 1
Diagrama de dispersión para los datos de
edad y talla de niños o adolescentes
Edad Talla 190
(años) (cm) 180
19 178 170
6 110 160
150
5 110
Talla (Cm)

140
11 150
130
7 120
120
10 133 110
18 175 100
9 130 90
13 145 80
7 115 70
15 170 0 2 4 6 8 10 12 14 16 18 20
17 165 Edad (Años)

Notar que el gráfico muestra una tendencia lineal creciente


(Correlación positiva)
8

Ramón Enamorado

EJEMPLO 2
Los siguientes datos corresponden al tiempo (X) que
tardaron 10 niños para desarrollar una prueba psicológica
sencilla, y el número de errores cometidos por cada
alumno en la prueba (Y):
Tiempo en No. de errores
minutos ( X ) cometidos ( Y )
7 3
12 1
5 4
5 3
6 4
9 4
13 1
9 2
4 5
10 3

Fuente: Análisis de datos en Psicología, Botella Ausina et.al. Larousse-Ediciones Pirámide, Enero, 2012, Pág.. 142
9

Ramón Enamorado

EJEMPLO 2
Al ordenar los valores del tiempo, trayendo consigo los
valores correspondientes del número de errores, se tiene:
Tiempo en No. de errores
minutos ( X ) cometidos ( Y )
4 5
5 4
5 3
6 4
7 3
9 4
9 2
10 3
12 1
13 1

Notar que, en general, cuando crecen los valores del tiempo de realización de
la prueba, decrecen los valores del número de errores cometidos (correlación
negativa)
10

Ramón Enamorado

EJEMPLO 2
Diagrama de dispersión para el tiempo y número de errores
cometidos por los niños en la prueba
5
Tiempo No. de
(min) errores
7 3 Número de errores 4

12 1
5 4 3
5 3
6 4 2
9 4
13 1 1
9 2
4 5
0
10 3 0 1 2 3 4 5 6 7 8 9 10 11 12 13

Tiempo (Min)

Notar que el gráfico muestra una tendencia lineal decreciente


(Correlación negativa)
11

Ramón Enamorado

EJEMPLO 3
Ejemplos de parejas de variables que no guardan relación
lineal:
X Y Z W

20 14 3 2
30 4.5 3 1
45 13 4 3
51 5.5 4 2
62 9 4 4
75 4 5 3
75 7 10 5
89 2 11 3
90 3 12 3
90 15 12 2
13 1
14 2

Notar que, en general, no hay una tendencia de crecimiento o decrecimiento


de la segunda variable, cuando la primera variable crece (No hay correlación
lineal)
12

Ramón Enamorado

EJEMPLO 3
Diagrama de dispersión para las variables X e Y

15
X Y 14
13
20 14 12
30 4.5 11
10
45 13 9
51 5.5 8
62 9 7
Y

6
75 4 5
75 7 4
3
89 2
2
90 3 1
90 15 0
0 10 20 30 40 50 60 70 80 90

Notar que, en general, el gráfico no muestra una tendencia lineal (no hay
correlación lineal)
13

Ramón Enamorado

EJEMPLO 3
Diagrama de dispersión para las variables Z y W

5
Z W
3 2 4
3 1
4 3 3
4 2
4 4
W

2
5 3
10 5
1
11 3
12 3
12 2 0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
13 1
14 2 Z

Notar que, en general, el gráfico no muestra una tendencia lineal (no hay
correlación lineal)
14

Ramón Enamorado

COEFICIENTE DE CORRELACIÓN DE PEARSON (r)


Es una medida del grado de asociación o de correlación
que existe entre dos variables cuantitativas:
• Puede tomar cualquier valor real en el intervalo
entre -1 y 1 inclusive
• Si r = 1, hay una correlación perfecta positiva
• Si r = -1, hay una correlación perfecta negativa
• Si el valor de r es cercano a 1 hay una correlación alta,
directa o positiva
• Si el valor de r es cercano a -1 hay una correlación alta,
pero inversa o negativa
• Si el valor de r es cercano o igual a 0, se dice que la
correlación es baja, o que no hay correlación
15

Ramón Enamorado

CLASIFICACIÓN EMPÍRICA DE NIVELES DE CORRELACIÓN


COEFICIENTE DE PEARSON (r)

-1 - 0.7 - 0.5 - 0.3 0 0.3 0.5 0.7 1

Alta Alta

Moderada Moderada

Baja o no correlación
16

Ramón Enamorado

COEFICIENTE DE CORRELACIÓN DE PEARSON (r)

La fórmula para calcular el coeficiente de correlación es:

𝑛 σ 𝑥𝑦−σ 𝑥 σ 𝑦
𝑟=
𝑛 σ 𝑥2− σ 𝑥 2 𝑛 σ 𝑦2− σ 𝑦 2

• Para el cálculo se debe crear una columna que contenga


los productos de los valores de x e y, y usar el modo
estadístico de una calculadora científica para obtener
todos los valores de las sumatorias
• Después se sustituyen en la fórmula los resultados de las
sumatorias y se hacen las operaciones para obtener el
valor de r
17

Ramón Enamorado

EJEMPLO 4
Considere los datos del ejemplo 1, sobre la edad en años
(X) y la talla en centímetros (Y) de doce niños o
adolescentes en un centro de salud:
Edad Talla XY
(años, X) (cm, Y) Los valores de las sumatorias,
19 178 3,382 según la calculadora son:
6 110 660
5 110 550
σ 𝑥 = 137 ෍ 𝑦 = 1,701
11 150 1,650
7 120 840 ෍ 𝑦 2 = 248,373
σ 𝑥 2 = 1829
10 133 1,330
18 175 3,150
σ 𝑥𝑦 = 20,777
9 130 1,170
13 145 1,885
7 115 805
15 170 2,550
17 165 2,805

Se calcula una tercera columna que contiene los productos de los valores de X y Y
18

Ramón Enamorado

EJEMPLO 4
A continuación se sustituyen los valores de las sumatorias
en la fórmula:
𝑛 σ 𝑥𝑦−σ 𝑥 σ 𝑦
𝑟=
𝑛 σ 𝑥2− σ 𝑥 2 𝑛 σ 𝑦2− σ 𝑦 2

12 20,777 −( 137)(1,701)
𝑟=
12(1,829)− 137 2 12(248,373)− 1,701 2

• Y se realizan las operaciones


249,324−233,037
𝑟=
21,948−18,769 2,980,476−2,893,401

16,287 16,287
𝑟= = = 0.97892
3,179 87,075 16,637.65083

• Se concluye que existe una correlación alta y positiva


19

Ramón Enamorado

EJEMPLO 5
Considere los datos del ejemplo 2, sobre el tiempo de
realización de la prueba por los niños (X), y el número de
errores cometidos (Y):
Tiempo en No. de errores XY
minutos ( X ) cometidos ( Y ) Los valores de las sumatorias,
7 3 21 según la calculadora son:
12 1 12
5 4 20
σ 𝑥 = 80 ෍ 𝑦 = 30
5 3 15
6 4 24 ෍ 𝑦 2 = 106
෍ 𝑥 2 = 726
9 4 36
13 1 13
σ 𝑥𝑦 = 209
9 2 18
4 5 20
10 3 30

Se calcula una tercera columna que contiene los productos de los valores de X y Y
20

Ramón Enamorado

EJEMPLO 5
A continuación se sustituyen los valores de las sumatorias
en la fórmula:
𝑛 σ 𝑥𝑦−σ 𝑥 σ 𝑦
𝑟=
𝑛 σ 𝑥2− σ 𝑥 2 𝑛 σ 𝑦2− σ 𝑦 2

10 209 −( 80)(30)
𝑟=
10(726)− 80 2 10(106)− 30 2

• Y se realizan las operaciones


2,090−2,400
𝑟=
7,260−6,400 1,060−900

−310 −310
𝑟= = = −0.8357
860 160 370.94474

• Se concluye que existe una correlación alta y negativa


21

Ramón Enamorado

EJEMPLO 6

Considere los datos del ejemplo 3, de las variables X e Y:

X Y XY
Los valores de las sumatorias,
20 14 280 según la calculadora son:
30 4.5 135
45 13 585
σ 𝑥 = 627 ෍ 𝑦 = 77
51 5.5 280.5
62 9 558 ෍ 𝑦 2 = 799.5
෍ 𝑥 2 = 45,141
75 4 300
75 7 525
σ 𝑥𝑦 = 4461.5
89 2 178
90 3 270
90 15 1350

Se calcula una tercera columna que contiene los productos de los valores de X y Y
22

Ramón Enamorado

EJEMPLO 6
A continuación se sustituyen los valores de las sumatorias
en la fórmula:
𝑛 σ 𝑥𝑦−σ 𝑥 σ 𝑦
𝑟=
𝑛 σ 𝑥2− σ 𝑥 2 𝑛 σ 𝑦2− σ 𝑦 2

10 4461.5 −( 627)(77)
𝑟=
10(45,141)− 627 2 10(799.5)− 77 2

• Y se realizan las operaciones


44,615−48,279
𝑟=
451,410−393,129 7,995−5,929

−3,664 −3,664
𝑟= = = −0.3339
58,281 2,066 10,973.083
• Se concluye que la correlación lineal entre estas
variables es baja, o que no hay correlación lineal a nivel
de la muestra
23

Ramón Enamorado

ECUACIÓN DE REGRESIÓN DE LA MUESTRA


• Si se sospecha que los valores de una variable aleatoria
Y, dependen linealmente de los valores de otra variable
X (conocida), se puede encontrar una función lineal que
permita predecir los valores de la variable dependiente
Y, a partir de los valores conocidos de la variable
independiente X, minimizando los errores de predicción.

• A la ecuación de recta Y = 𝑎 + 𝑏𝑋 donde a y b se


determinan por medio de un procedimiento particular
especial, se le conoce como ecuación de regresión de Y
sobre X, y a la recta que representa, se le conoce como
recta de regresión de mínimos cuadrados.
24

Ramón Enamorado

ECUACIÓN DE REGRESIÓN DE LA MUESTRA

Las fórmulas para calcular los coeficiente a y b de la recta


de regresión de mínimos cuadrados (Y sobre X) son*:

𝑛 σ 𝑥𝑦−σ 𝑥 σ 𝑦
b= 2 Al valor de b se le conoce como pendiente
𝑛 σ 𝑥 2 −(σ 𝑥)

σ 𝑦−𝑏 σ 𝑥
a= El valor de a determina el intercepto en el eje Y
𝑛

Y = 𝑎 + 𝑏𝑋

* OBS: Las formulas cambian si se quisiera predecir X a partir de la variable Y. Para utilizar estas
fórmulas es necesario que se haya identificado como Y a la variable dependiente
25

Ramón Enamorado

EJEMPLO 7
Considere los datos del ejemplo 1, sobre la edad en años
(X) y la talla en centímetros (Y) de doce niños o
adolescentes en un centro de salud:
Edad Talla XY
(años, X) (cm, Y) Los valores de las sumatorias,
19 178 3,382 según la calculadora son:
6 110 660
5 110 550
σ 𝑥 = 137 ෍ 𝑦 = 1,701
11 150 1,650
7 120 840 ෍ 𝑦 2 = 248,373
σ 𝑥 2 = 1,829
10 133 1,330
18 175 3,150
σ 𝑥𝑦 = 20,777
9 130 1,170
13 145 1,885
7 115 805
15 170 2,550
17 165 2,805
Se había encontrado, en el ejemplo 4, que el coeficiente de correlación entre
estas variables es de 0.97892. Correlación alta
26

Ramón Enamorado

EJEMPLO 7
A continuación se sustituyen los valores de las sumatorias
en la fórmula:
𝑛 σ 𝑥𝑦−σ 𝑥 σ 𝑦 σ 𝑦−𝑏 σ 𝑥
b= 2 a=
𝑛 σ 𝑥 2 −(σ 𝑥) 𝑛

12 20,777 −(137) (1,701) a=


b= 1,701−(5.123)(137)
12(1,829) −(137)2
12
• Y se realizan las operaciones
249,324−233,037 1,701−701.851
b= a=
21,948 −18,769 12

16,287 999.149
b= = 5.123 a= = 83.26
3,179 12

• Se concluye que la recta de regresión es: Y= 83.26 + 5.123X,


donde Y es la talla en centímetros y X es la edad en años
27

Ramón Enamorado

EJEMPLO 7

Se grafica la recta en el plano XY de la siguiente forma:

190
Primero se grafica 180 Y = 83.26 + 5.123X
el intercepto en Y 170
(el valor de a = 83.26)
Talla (Cm) ( Y )
160

Luego se grafica otro


punto de la recta,
150
140
130
120
.
(10, 134.49)

110
como (10, 134.49)

Se traza la recta
pasando por esos
90
(0, 83.26) 80
100

70
.
0 2 4 6 8 10 12 14 16 18 20
puntos
Edad (Años) (X)
28

Ramón Enamorado

ECUACIÓN DE REGRESIÓN DE LA MUESTRA

Conociendo la ecuación de la recta: Y= 83.26 + 5.123X

Que es equivalente a: Talla = 83.26 + 5.123Edad,

Se puede utilizar esta ecuación para predecir un valor de


la variable dependiente (Talla), conociendo un valor de la
variable independiente (Edad)
29

Ramón Enamorado

EJEMPLO 8
Por ejemplo, si la edad es 6 años, La talla estimada es:

Talla= 83.26 + 5.123Edad


Talla= 83.26 + 5.123 (6)

Talla= 83.26 + 30.738 = 113.998 cms

Notar que, en la tabla de datos recolectados (observados),


el valor correspondiente para la edad de 6 años es 110,
por lo que el error de estimación es 113.998 – 110 = 3.998
cms.
30

Ramón Enamorado

EJEMPLO 9
La ecuación también puede utilizarse para predecir la talla
dentro de la población de niños o adolescentes, para un
individuo con una edad que no se observó en la muestra,
Por ejemplo, para un niño de 8 años, la talla se predice
como:

Talla= 83.26 + 5.123Edad

Talla= 83.26 + 5.123 (8)

Talla= 83.26 + 40.984 = 124.24 cms

* OBS: Notar que la recta no es útil para predecir la talla de personas adultas, por ejemplo si la edad
es 50 años, el valor de la talla (Y) calculada con la ecuación sería de 339.41 cms (más de 3 metros).
Esto se debe a que las personas a cierta edad dejan de crecer y el comportamiento creciente de la
ecuación ya no es aplicable.
31

Ramón Enamorado

EJERCICIO

En el ejemplo 5, se observó que el coeficiente de


correlación para las variables: tiempo de realización de la
prueba (X), y número de errores cometidos (Y) del ejemplo
2, fue -0.8357 (Diapositivas 7, 9,18 y 19)
a) Encuentre la ecuación de la recta de regresión de
mínimos cuadrados de Y sobre X

b) Grafique la recta de regresión en el plano cartesiano

c) Utilice la ecuación encontrada en a) para estimar el


número de errores cometidos por un niño que realiza
la prueba en 8 minutos
32

Ramón Enamorado

Utilizando el modo estadístico de


la calculadora
Vea el video aquí
33

Ramón Enamorado
Un investigador en psicología experimental lleva a cabo un experimento con 10
animales de laboratorio (de la misma edad y peso). Les administra un fármaco,
midiendo el tiempo en horas (X) y la concentración del fármaco en mg (Y). Se obtienen
los siguientes datos: (Se recomienda hacer uso del modo estadístico de la
calculadora para los cálculos)

(a) Calcule el coeficiente de correlación de Pearson r e interprete


(b) ¿Considera conveniente realizar una regresión y porque?
(c) Encuentre un modelo de regresión lineal donde Y sea la variable dependiente
(Ecuación de regresión)
(d) Estime la concentración del fármaco para un tiempo de 2.5 horas.
(e) Para una concentración de 0.30 mg, estime el tiempo en horas
34

Ramón Enamorado
Solución:
35

Ramón Enamorado

!MUCHAS GRACIAS!

También podría gustarte