M4 - Correlación

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 19

Correlación

Herramientas
Matemáticas V -
Estadística II

1
Correlación
Análisis De Correlación

El objetivo del análisis de correlación es cuantificar la intensidad de relación


lineal entre dos variables cuantitativas.

El coeficiente de correlación, “r” es un indicador que se ubica en el intervalo


[-1, 1], donde estos valores extremos indican correlaciones exactas entre las
variables:

-1: Correlación negativa perfecta


1: Correlación positiva perfecta

En problemas orientados a la regresión, el coeficiente de correlación, r,


puede obtenerse a partir del coeficiente de determinación:
En estos casos, en que corresponda a una regresión, el signo de r será el
signo de b1.

Sin embargo, en muchas ocasiones hacemos un análisis de correlación


independiente del análisis de regresión. En particular, debido a que el
análisis de correlación no exige fijar a ninguna de las variables como
dependiente de la otra.

Diferentes grados de correlación

Figura 1: correlación negativa

2
Figura 2: correlación negativa, que si bien no es perfecta es claramente
una correlación fuerte entre las variables.

Figura 3: El grado de relación es inferior.

Figura 4: La correlación negativa es menos intensa.

3
Figura 5

Figura 6

Figura 7: Este gráfico ilustra una situación en la cual no hay correlación


lineal entre las variables.

4
Figura 8: Si bien existe una correlación lineal positiva, ésta es muy débil.

Figura 9: La correlación es algo mayor que en los casos anteriores.

5
Figura 10: una correlación positiva fuerte.

Figura 11: Una correlación positiva aún mas marcada.

Figura 12: una correlación positiva perfecta entre las variables.

Fuente: Elaboración propia con la herramienta de simulación provista por:


http://www.seeingstatistics.com/seeing1999/resources/opening.ht ml

6
Tras analizar estos gráficos, con su conocimiento de estadística, ¿qué
información está faltando? Haga un comentario crítico al respecto.

En los casos en los cuales no se aplica el análisis de regresión, el coeficiente


de correlación se calcula a través de las siguientes fórmulas:

Opción 1:

Opción 2:

Supuestos del análisis de regresión

Los supuestos en este caso, son similares a los que mencionamos para el
ANOVA.

Los cuatro supuestos básicos que deben controlarse son:

1) Normalidad Es necesario que los valores de Y se distribuyan de manera


normal para cada valor de X. No obstante, el análisis de regresión es
bastante robusto en cuanto a este supuesto, en tanto la distribución no
sea demasiado asimétrica.
A través de gráficos Q-Q o P-P, que tienen en cuenta la prueba de
normalidad de Kolmogorff-Smirnov es posible diagnosticar la normalidad
de las distribuciones.

2) Homocedasticidad Para cada nivel de la variable X, la variabilidad o


dispersión de los valores de Y debe ser la misma. Es muy importante el
cumplimiento de este supuesto para la aplicación del método de mínimos
cuadrados ordinarios. Este supuesto es más frecuentemente vulnerado
en los estudios de corte transversal.

7
Existen diferentes herramientas para diagnosticarla, una de ellas es la
prueba de Levene sobre igualdad de varianzas.

3) Independencia de error Los residuos o errores (diferencia entre el valor


observado y el predicho) no debe estar correlacionado con el valor de X.
Este supuesto se ve afectado con frecuencia en los estudios de series de
tiempo.
Para verificar su cumplimiento, se analiza el estadístico Durbin Watson
(DW). Este indicador toma el valor de 2 cuando los residuos son
completamente independientes, en tanto si el DW resulta inferior a 2,
indica autocorrelación positiva, y si DW es mayor que dos, hay
autocorrelación negativa.

4) Linealidad La relación entre X e Y es lineal.


Como medida de diagnóstico se recomienda el análisis gráfico de la nube
de puntos a través de los diagramas de dispersión.

Ejercicios

Resuelva los siguientes ejercicios, si tiene dudas o consultas, envíelas a su


tutor virtual.

1) Con los siguientes datos, plantee y resuelva 2 problemas distintos de


regresión lineal

8
Tabla 1

Los datos corresponden a distintas ciudades turísticas del un país.

Empleo: indica el número de personas en cada ciudad que tienen un empleo


asociado con el turismo.

La variable número de viajeros, indica la cantidad total de viajeros o turistas


que le ciudad recibe por año

La estancia media indica cuántos días en promedio, permanece un turista en


la ciudad.

9
Actividades:
 Determine si existe correlación entre la series.
 Relacione las variables y trate de armar una vinculación entre dos
variables de las listadas, en las cuales pueda existir una causalidad.
 Plantee el modelo de regresión lineal simple a estimar
 Grafique la nube de puntos a través de un diagrama de dispersión
 Obtenga los estimadores de los parámetros del modelo
 Calcule una medida de bondad de ajuste y explique su significado

2) Con la siguiente información, analice la correlación entre las variables

Tabla 2

Obtenga los coeficientes de correlación entre las series y explique su


significado.

3) La tabla siguiente resume las puntuaciones de 10 individuos (N=10) en


dos variables X e Y.

10
Tabla 3

Actividades:
 Calcular el coeficiente de correlación de Pearson
 En este caso ¿el coeficiente calculado es adecuado para representar el
patrón de covariación que muestran los datos?. ¿por qué?. Ayuda:
construya el diagrama de dispersión. Elabore una conclusión
 ¿Qué relación podría estar descripta por esas variables? Indicar un
ejemplo.

4) La tabla siguiente recoge las puntuaciones de 10 individups (N=10) en dos


variables X e Y.

11
Tabla 4

Actividades:

 Calcular el coeficiente de correlación de Pearson


 En este caso ¿el coeficiente calculado es adecuado para representar el
patrón de covariación que muestran los datos?. ¿por qué?. Ayuda:
construya el diagrama de dispersión. Elabore una conclusión
 ¿Qué relación podría estar descripta por esas variables? Indicar un
ejemplo.

5) La tabla siguiente recoge las puntuaciones de 10 individuos (N=10) en dos


variables X e Y.

12
Tabla 5

Actividades:

 Calcular el coeficiente de correlación de Pearson


 En este caso ¿el coeficiente calculado es adecuado para representar el
patrón de covariación que muestran los datos?. ¿por qué?. Ayuda:
construya el diagrama de dispersión. Elabore una conclusión
 ¿Qué relación podría estar descripta por esas variables? Indicar un
ejemplo.
 En base a los ejercicios 3, 4 y 5, elabore una conclusión general.

6) En una muestra de 10 personas se obtuvo información referida al grado


de extroversión, y se desea evaluar su posible relación lineal con la
dimensión de personalidad estabilidad emocional. Estas variables se han
medido a través un test y se han obtenido las puntuaciones para cada
sujeto en una escala de 0 a 10. Los valores obtenidos se presentan en la
siguiente tabla:

13
Tabla 6

Actividades
 Realice un diagrama de dispersión. Sugerencia: intente hacerlo usando
alguna herramienta informática como Excel.
 Estime la ecuación de regresión lineal simple.
 ¿Cuál es el nivel de estabilidad predicho para un sujeto cuyo grado de
extroversión es cero?. ¿Este valor corresponde a algún coeficiente de la
recta calculada?
 ¿En cuánto se diferenciarían las puntuaciones ajustadas de dos sujetos
con puntuaciones consecutivas en grado de extroversión? ¿Este valor
corresponde a algún coeficiente de la recta calculada?
 Complete la tabla anterior añadiendo para cada sujeto su puntuación
predicha (Y ˆ ) y el error cometido.
 Identifique al sujeto mejor ajustado por la relación lineal estimada y al
peor.

7) 7. Se obtienen los siguientes estadísticos con las notas de 100 alumnos en


las asignaturas X= Estadística 1, e Y= Estadística 2.

14
 Estimar la ecuación de regresión de Y sobre X

8) Con los datos de una muestra de 300 individuos hemos estimado la


ecuación de regresión que relaciona años trabajados y estrés laboral y
hemos obtenido la siguiente ecuación:

Tenga en cuenta que:


 la escala de estrés puede tomar valores entre 1 y 30
 que la media fue de 15

Indicar cuáles de las siguientes afirmaciones son correctas y justificar:


 A mayor número de años trabajados mayor estrés.
 0,05 es la media de estrés de los sujetos que no trabajan
 A mayor número de años trabajados menor es el estrés.
 -10 es el estrés medio estimado de aquellas personas que no trabajan
 El año próximo, si sigues trabajando, tu nivel medio de estrés se
incrementará en 0,05 puntos.

9) A un propietario de departamentos para alquilar le interesa averiguar si


la renta de sus departamentos son típicas Para ello, ha escogido una
muestra aleatoria de 11 alquileres y del tamaño de los departamentos de
edificios similares. Los datos se transcriben a continuación.

15
Tabla 7

 Desarrollar el modelo de regresión lineal simple que mejor describa


estos datos e interpretar los coeficientes de regresión.
 Graficar los datos y ajuste al grafico la línea recta obtenida.
 Calcular, interpretar los coeficientes de correlación y de determinación,
y estimar la renta de un departamento de 2 habitaciones.

10) Un encargado de costos desea predecir los costos C (en millones de


pesos), basándose en la cantidad de insumos de materias primas M
(cientos de kilos) que recibe un fabricante de pantalones.

Tabla 8

 Determinar el modelo de regresión lineal simple.

16
 Graficar la nube de puntos y la recta de regresión obtenida
 Obtener un indicador de bondad de ajuste y explicarlo

11) Una cadena nacional de tiendas ha tenido grandes fluctuaciones en sus


ingresos durante los últimos años. Bastantes ofertas, nuevos productos y
técnicas de publicidad se han utilizado durante este tiempo, por lo cual
es difícil determinar cuáles de esos factores tienen la influencia más
profunda en las ventas.

El área de marketing ha estudiado varias relaciones y piensa que los gastos


mensuales destinados a carteles pueden ser significativos. Realizó una
muestra de 7 meses y descubrió lo siguiente

Tabla 9

 Desarrollar el modelo de regresión lineal simple que mejor describa


estos datos y calcular el error estándar de estimación.

12) En la contabilidad de costos, con frecuencia se trata de estimar los gastos


indirectos basándose en el número de unidades producidas. La gerencia
de una empresa manufacturera, ha reunido información sobre esos
gastos y las unidades producidas en diferentes plantas y le gustaría
estimar una ecuación de regresión para predecir los gastos indirectos en
el futuro.

17
Tabla 10

 Desarrollar la ecuación de regresión


 Interpretar los parámetros del modelo
 Estimar el gasto general cuando se producen 50 unidades.
 Calcular e interpretar el error estándar de estimación, los coeficientes
de correlación y de determinación.

13) ¿Qué tipo de correlación (positiva, negativa o cero) debemos esperar de


estas variables?

 Capacidad de los supervisores y productividad de sus subordinados


 Antigüedad en su trabajo de tiempo completo y número de años de
escolaridad

18
Referencias
Berenson & Levine (1996). Estadística para administración y economía. Sexta
Edición. Ed. Prentice Hall Hispanoamericana. México.

19

También podría gustarte