Analisis de Regresion y Correlacion
Analisis de Regresion y Correlacion
Analisis de Regresion y Correlacion
En terminos generales, ambas relaciones se encargan de analizar la relacion que existen entre dos o
mas variables de una población. En la correlacion es mas cuantificada que en la de regresion que es
mas un modelo (en este caso la ecuación de una recta) de como las dos variables se relacionan
Y= Es la proyección
Y = ßo + ß1X + ε
X= Variable Independiente
i. Linealidad.- La relacion entre ambas variables, deberá ser lineal, y para corroborar esto
ii. Distribucion normal de los residuos.- Con media igual a cero se puede comprobar a través
iii. Varianza de residuos constantes.- Su constante debe estar aproximadamente a lo largo del
iv. Valores atípicos y de alta influencia.- Estos valores pueden generar una falsa correlacion
donde no existe.
empresa o negocio esta triunfando o no, o también lo utilizan para saber si pueden relacionar unos
temas con otros, como por ejemplo un entrenador quiere saber cuanta relacion pueden tener entre su
r=0 r = +1 r = -1
Indica el valor de la intensidad de la la relacion entre las dos variables. “El cálculo de la correlación
entre dos variables es independiente del orden o asignación de cada variable a X e Y, mide
únicamente la relación entre ambas sin considerar dependencias.” Joaquin Amat, R. (Junio del 2016).
Coeficiente de determinación (R2).- “Se interpreta como una medida de ajuste de los datos
es positivo. También se puede obtener el R² ajustado, el cual sí puede ser negativo en algunos
casos. Se busca que ambos valores sean similares para dar confianza al coeficiente de
En determinado barrio se desea saber si existe alguna relación entre la edad de los vecinos y la
“percepción de inseguridad en el barrio”, medida en una escala del 0-10 donde el 0 representa
Se pide:
a) Estudiar la relación entre las dos variables “edad” y “percepción de inseguridad” a través de
regresión lineal.
b) Representar gráficamente la nube de puntos y la recta que las relaciona. ¿Qué podemos decir de
esta relación?
individuo de 70?
e) ¿Qué valor de la edad presenta mayor residuo? ¿Cuál es residuo para la edad de 42 años? ¿Y para
la edad de 31?
Solución
1. Tenemos dos variables y queremos observar su relación. Para ello, debemos definir cuál de ellas
será x y cuál y. En general, para esta definición debemos decidir qué variable es “independiente” (que
llamaremos x) y cuál es “dependiente” (que llamaremos y). Es importante tener en cuenta que esta
“dependencia” no hay que considerarla simplemente como una causa-efecto, pues las relaciones entre
variables, sobre todo en investigación social, son bastante más complejas. Pero sí podemos
comprobar, y ese será nuestro objetivo, cómo una variable se relaciona con la otra de tal forma que
cambios en una variable se asocian con cambios en la otra. En este caso, tiene sentido estudiar si la
percepción de inseguridad cambia en función de la edad, o dicho de otra manera, si la edad influye en
x: edad
Para estudiar la relación entre x e y mediante un modelo lineal necesitamos hallar la recta de
regresión:
Y para ello es imprescindible obtener los coeficientes a y b de la recta. Sabemos que a es el punto de
tal forma que su signo determinará el sentido positivo o negativo de esa pendiente. Primero hallamos b,
����=2480 n=10
52
�=
437
=43,7 �= =5,2
10 10
���� 2480
��� = − �� = − 43,7 × 5,2 = 20, 76
� 10
Como la covarianza es ≠ 0 podemos afirmar que existe alguna relación entre las variables, aunque con
ella es difícil saber su intensidad, pues la covarianza no tiene un valor máximo o mínimo. Serán otros
los coeficientes que nos permitan determinar esa intensidad, y que calcularemos en otro apartado de
La recta de regresión tiene pendiente positiva (algo que también sabemos porque b>0). Por tanto, la
recta indica que conforme aumenta la edad, también aumenta la percepción de inseguridad en el
barrio.Si embargo, la recta solo muestra la relacion entre X e Y. Para ello, necesitamos otras medidas
Para x=25 y = 0,8677742 + 0,0991356 · 25 = 3,35 Para x=70 y = 0,8677742 + 0,0991356 · 70 = 7,8
Un individuo de 70 años puntuaría la inseguridad en el barrio con 7,8 puntos.Vemos, por lo tanto, que
hay una notable diferencia entre los individuos jóvenes respecto a los mayores en su percepción de
inseguridad.
Pearson (r):
Sxy ��� = 20,76 ��� = 209,41 = 14,471
�=
Sx Sy �� =
(��−�)2
�
= 1,6613
��� 20,76
�= = = �, ����
�� �� 14,471 × 1,6613
Vemos que indica una correlación bastante alta entre las variables. Por tanto, para este colectivo de
En el gráfico apreciamos que el punto que mas se separa del conjunto es x=53 por lo tanto deducimos
HALLANDO EL RESIDUO:
En este caso, el ajuste es mucho mejor, casi perfecto. El residuo es muy pequeño y la recta de
regresión pronostica muy bien la percepción de inseguridad en el individuo de esa edad.