Unidad 5 Regresion y Correlacion
Unidad 5 Regresion y Correlacion
Unidad 5 Regresion y Correlacion
5.4 CORRELACIÓN.
~1~
Unidad 5: Regresión Y Correlación.
Definición
Causas de variación
Diagramas de diagnóstico
~2~
Diagrama de scadter (Diagrama de Dispersión)
Gráfica de control
1. Cuantificar los factores del problema y sumar los efectos parciales hallando el
total.
~3~
5.2 DIAGRAMA DE DISPERSIÓN.
Definición.
Los datos se muestran como un conjunto de puntos, cada uno con el valor de una
variable que determina la posición en el eje horizontal y el valor de la otra variable
determinado por la posición en el eje vertical. Un diagrama de dispersión se llama
también gráfico de dispersión.
Características principales
Impacto visual
Comunicación
Guía en la investigación
Utilidad
* Relaciones causa-efecto
~4~
Si representamos cada par de valores como las coordenadas de un punto, el
conjunto de todos ellos se llama nube de puntos o diagrama de dispersión. Sobre la
nube de puntos puede trazarse una recta que se ajuste a ellos lo mejor posible,
llamada recta de regresión.
1. Elaborar una teoría admisible y relevante sobre la supuesta relación entre dos
variables.
3. Determinar los valores máximo y mínimo para cada una de las variables.
7. Rotular el gráfico.
~5~
5.3 REGRESIÓN LINEAL SIMPLE.
Introducción
Si sabemos que existe una relación entre una variable denominada dependiente y
otras denominadas independientes (como por ejemplo las existentes entre: la
experiencia profesional de los trabajadores y sus respectivos sueldos, las estaturas
y pesos de personas, la producción agraria y la cantidad de fertilizantes utilizados,
etc.), puede darse el problema de que la dependiente asuma múltiples valores para
una combinación de valores de las independientes.
Aspectos teóricos
Y = f(X)
Como Y depende de X:
Y es la variable dependiente, y
X es la variable independiente.
Conclusión
~6~
5.4 CORRELACIÓN.
Definición
Interpretación geométrica
~7~
El coseno del ángulo alfa entre estos vectores es dado por la fórmula siguiente:
Más generalmente:
La fórmula de correlación para dos series distintas con cierto desfase "k", está dada
por la fórmula:
~8~
Distribución del coeficiente de correlación
Donde:
es la distribución gamma
para
~9~
Aunque, la solución:
es la función beta.
~ 10 ~
5.5 DETERMINACIÓN Y ANÁLISIS DE LOS COEFICIENTES DE CORRELACIÓN
Y DE DETERMINACIÓN.
No obstante, puede que exista una relación que no sea lineal, sino exponencial,
parabólica, etc. En estos casos, el coeficiente de correlación lineal mediría mal la
intensidad de la relación las variables, por lo que convendría utilizar otro tipo de
coeficiente más apropiado.
Para ver, por tanto, si se puede utilizar el coeficiente de correlación lineal, lo mejor
es representar los pares de valores en un gráfico y ver qué forma describe, el
coeficiente de correlación lineal se calcula aplicando la siguiente fórmula:
Los valores que puede tomar el coeficiente de correlación “r” son: −1 < r < 1
Si “r” > 0, la correlación lineal es positiva (si sube el valor de una variable sube el de
la otra). La correlación es tanto más fuerte cuanto más se aproxime a 1.
Por ejemplo: altura y peso: los alumnos más altos suelen pesar más.
Si “r” < 0, la correlación lineal es negativa (si sube el valor de una variable disminuye
el de la otra). La correlación negativa es tanto más fuerte cuanto más se aproxime
a −1.
Por ejemplo: peso y velocidad: los alumnos más gordos suelen correr menos.
Si “r” = 0, no existe correlación lineal entre las variables. Aunque podría existir otro
tipo de correlación (parabólica, exponencial, etc.)
De todos modos, aunque el valor de “r” fuera próximo a 1 o −1, tampoco esto quiere
decir obligatoriamente que existe una relación de causa-efecto entre las dos
variables, ya que este resultado podría haberse debido al puro azar.
~ 11 ~
5.6 DISTRIBUCIÓN NORMAL BIDIMENSIONAL.
Con
Con
Propiedades:
X=AZ+
~ 12 ~
Sigue una distribución normal n-dimensional Nn (,) donde = A A'.
Z=BX+C
parámetros y .
Sea X=(X1,...,Xn) una variable aleatoria con distribución normal n-dimensional
Nn(,). Sus n variables componentes X1, X2,..,Xn son independientes si, y
sólo si, están incorrelacionadas.
Sea X=(X1,...,Xn) una variable aleatoria con distribución normal n-dimensional
~ 13 ~
las matrices y (con los parámetros correspondientes a cada grupo),
Normal bidimensional:
Propiedades:
~ 14 ~
Si (X, Y) tiene una distribución normal bidimensional
bidimensional , donde
~ 15 ~
aleatoria (X, Y) tiene distribución normal bidimensional
.
Sea (X, Y) una variable aleatoria normal bidimensional. Entonces, X e Y son
independientes si, y sólo si, están incorrelacionadas.
Sea (X, Y) una variable aleatoria normal bidimensional. La distribución de Y
condicionada por X=x es normal unidimensional
~ 16 ~
5.7. INTERVALOS DE CONFIANZA Y PRUEBAS PARA EL COEFICIENTE DE
CORRELACION.
El coeficiente de correlación, r:
Fórmula para r:
Intervalo de confianza:
El intervalo de confianza para el valor medio de Y para un valor dado de X está dado por:
~ 17 ~
5.8. ERRORES DE MEDICION.
GENERALIDADES:
A la Estadística le interesa estudiar las poblaciones que poseen variaciones entre
sus datos en estudio, de lo contrario, bastaría con estudiar un individuo para
explicar la población.
Además de la variación real inherente a los elementos o individuos que se
estudian, se debe considerar una variación sobreañadida o espuria, que sólo es en
realidad, errores determinados por los factores que intervienen en la observación.
ASPECTOS A CONSIDERAR:
Los errores de medición, determinan que ninguna medición es absolutamente
exacta. Lo anterior se debe tomar en cuenta cuando se comparan dos o más
observaciones, con el fin de no dar mayor importancia a la existencia de pequeñas
diferencias, las cuales pueden deberse simplemente, al proceso de medición
utilizado.
~ 18 ~
ERRORES DEPENDIENTES DE LOS INDIVIDUOS OBSERVADOS:
Fuera de la variabilidad real que presentan los individuos que se observan, hay
también una variabilidad sobreañadida dependiente de ellos mismos, debida a las
condiciones y tiempo en que se estudian.
~ 19 ~
Que en la mayoría de las veces, los errores que se cometen al realizar determina
medición se hacen unas veces por exceso y otras por defecto. ES IMPORTANTE
ACLARAR Si se traza una línea en la pizarra y se pide a un grupo de estudiantes
que estimen a simple vista su longitud.
ERROR ALEATORIO:
Es un error al azar, es inevitable, se produce por eventos únicos imposibles de
controlar durante el proceso de medición. En un estudio de investigación, por lo
general, el error aleatorio viene determinado por el hecho de tomar sólo una
muestra de una población para hacer inferencias.
ERROR SISTEMÁTICO:
Es aquel que se produce de igual modo en todas las mediciones que se realizan de
una magnitud, puede estar originado en un defecto del instrumento, en una
particularidad del operador o del proceso de medición u observación, a este tipo de
error también se le llama sesgo.
VALORES ANÓMALOS:
También llamados atípicos u outliers, son aquellos casos u observaciones
irregulares que son numéricamente distantes de los datos que se están estudian y
por otro no siguen el mismo modelo.
PRECISIÓN:
Es lo cerca que los valores medidos están unos de otros. Cuando menos es la
variabilidad de datos, mayor es la precisión.
EXACTITUD:
Se refiere a que tan cerca se encuentra el valor medio de la distribución de la
esperanza matemática. Se relaciona con el sesgo de una estimación. A menor
sesgo, más exacta es la estimación. Sesgo: es la diferencia entre la esperanza
matemática y el valor característico de la población.
~ 20 ~