Unidad 5 Regresion y Correlacion

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 20

UNIDAD V

5.1 CONTROL DE CALIDAD.

5.2 DIAGRAMA DE DISPERSIÓN.

5.3 REGRESIÓN LINEAL SIMPLE.

5.4 CORRELACIÓN.

5.5 DETERMINACIÓN Y ANÁLISIS DE LOS COEFICIENTES DE CORRELACIÓN


Y DE DETERMINACIÓN.

5.6 DISTRIBUCIÓN NORMAL BIDIMENSIONAL.

5.7. INTERVALOS DE CONFIANZA Y PRUEBAS PARA EL COEFICIENTE DE


CORRELACION.

5.8. ERRORES DE MEDICION.

~1~
Unidad 5: Regresión Y Correlación.

5.1 CONTROL DE CALIDAD.

Definición

El control de calidad estadístico se refiere a la utilización de métodos estadísticos


en el seguimiento y mantenimiento de la calidad de los productos y servicios Un
método, conocido como muestreo de aceptación, se puede utilizar cuando una
decisión debe ser tomada para aceptar o rechazar un grupo de piezas o artículos
basados en la calidad encontrado en una muestra. Un segundo método, conocido
como control estadístico de proceso, utiliza pantallas gráficas conocidas como
gráficos de control para determinar si un proceso debe continuar o debe ajustarse
para conseguir la calidad deseada.

Él Control Estadístico de la Calidad y la mejora de procesos. Comenzando con la


aportación del científico llamado Shewhart, sobre reconocer que en todo proceso
de producción existe variación, podemos decir que no podían producirse dos partes
con las mismas especificaciones, pues era evidente que las diferencias en la
materia prima e insumos y los distintos grados de habilidad de los operadores
provocaban variabilidad. Shewhart no proponía suprimir las variaciones, sino
determinar cuál era el rango tolerable de variación que evite que se originen
problemas.

Causas de variación

Existen variaciones en todas las partes producidas en el proceso de manufactura.


Hay dos fuentes de variación: variación aleatoria se debe al azar y no se puede
eliminar por completo. Variación asignable es no aleatoria y se puede reducir o
eliminar.

Nota: la variación puede cambiar y cambiará la forma, dispersión y tendencia central


de la distribución de las características medidas del producto.

Diagramas de diagnóstico

Son controles o registros que podrían llamarse "herramientas para asegurar la


calidad de una fábrica", esta son las siguientes:

 Hoja de control (Hoja de recogida de datos)


 Histograma
 Análisis paretiano (Diagrama de Pareto)
 Diagrama de Ishikawa: Diagrama de causa y efecto (Espina de Pescado)
 Estratificación (Análisis por Estratificación)

~2~
 Diagrama de scadter (Diagrama de Dispersión)
 Gráfica de control

Como elaborar un diagrama de Pareto:

Partiendo de los descubrimientos del célebre economista y sociólogo italiano


Vilfredo Pareto. El diagrama de Pareto es una comparación ordenada de factores
relativos a un problema. Esta comparación nos va a ayudar a identificar y enfocar
los pocos factores vitales diferenciándolos de los muchos factores útiles. Esta
herramienta es especialmente valiosa en la asignación de prioridades a los
problemas de calidad, en el diagnóstico de causas y en la solución de las mismas,
el diagrama de Pareto se puede elaborar de la siguiente manera:

1. Cuantificar los factores del problema y sumar los efectos parciales hallando el
total.

2. Reordenar los elementos de mayor a menor.

3. Determinar el % acumulado del total para cada elemento de la lista ordenada.

4. Trazar y rotular el eje vertical izquierdo (unidades).

5. Trazar y rotular el eje horizontal (elementos).

6. Trazar y rotular el eje vertical derecho (porcentajes).

7. Dibujar las barras correspondientes a cada elemento.

8. Trazar un gráfico lineal representando el porcentaje acumulado.

9. Analizar el diagrama localizando el "Punto de inflexión" en este último gráfico.

Se ha llegado a verificar la regularidad con la que se dan en las distintas actividades


y fenómenos sociales y productivos, el hecho de que unos pocos factores son
responsables de la mayoría de los sucesos, en tanto que el resto mayoritario de los
elementos o factores generan o poseen escasos efectos, es lo que más
comúnmente se cataloga como los "pocos vitales y los muchos triviales".

Así en procesos tradicionales de producción podemos tener que el 20% de las


causas de imperfecciones o fallas originan o son responsables de entre un 70% y
80% de los defectos detectados. Y al revés, un 80% de las restantes causas
generan tan sólo entre un 30 y 20% de los defectos.

~3~
5.2 DIAGRAMA DE DISPERSIÓN.

Definición.

Un diagrama de dispersión es un tipo de diagrama matemático que utiliza las


coordenadas cartesianas para mostrar los valores de dos variables para un conjunto
de datos.

Los datos se muestran como un conjunto de puntos, cada uno con el valor de una
variable que determina la posición en el eje horizontal y el valor de la otra variable
determinado por la posición en el eje vertical. Un diagrama de dispersión se llama
también gráfico de dispersión.

Características principales

 Impacto visual

Un Diagrama de Dispersión muestra la posibilidad de la existencia de correlación


entre dos variables de un vistazo.

 Comunicación

Simplifica el análisis de situaciones numéricas complejas.

 Guía en la investigación

El análisis de datos mediante esta herramienta proporciona mayor información que


el simple análisis matemático de correlación, sugiriendo posibilidades y alternativas
de estudio, basadas en la necesidad de conjugar datos y procesos en su utilización.

 Utilidad

Los diagramas de dispersión pueden utilizarse para examinar:

* Relaciones causa-efecto

* Relaciones entre dos efectos

* Posibilidad de utilizar un efecto como sustituto de otro

* Relaciones entre dos posibles causas

En las distribuciones bidimensionales a cada individuo le corresponden los valores


de dos variables, las representamos por el par (xi, yi).

~4~
Si representamos cada par de valores como las coordenadas de un punto, el
conjunto de todos ellos se llama nube de puntos o diagrama de dispersión. Sobre la
nube de puntos puede trazarse una recta que se ajuste a ellos lo mejor posible,
llamada recta de regresión.

Pasos a seguir para elaborar un diagrama de dispersión.

1. Elaborar una teoría admisible y relevante sobre la supuesta relación entre dos
variables.

2. Obtener los pares de datos correspondientes a las dos variables.

3. Determinar los valores máximo y mínimo para cada una de las variables.

4. Decidir sobre qué eje se representará a cada una de las variables.

5. Trazar y rotular los ejes horizontal y vertical.

6. Marcar sobre el diagrama los pares de datos.

7. Rotular el gráfico.

~5~
5.3 REGRESIÓN LINEAL SIMPLE.

Introducción

Si sabemos que existe una relación entre una variable denominada dependiente y
otras denominadas independientes (como por ejemplo las existentes entre: la
experiencia profesional de los trabajadores y sus respectivos sueldos, las estaturas
y pesos de personas, la producción agraria y la cantidad de fertilizantes utilizados,
etc.), puede darse el problema de que la dependiente asuma múltiples valores para
una combinación de valores de las independientes.

Aspectos teóricos

La Regresión y la correlación son dos técnicas estadísticas que se pueden utilizar


para solucionar problemas comunes en los negocios.

Muchos estudios se basan en la creencia de que es posible identificar y cuantificar


alguna Relación Funcional entre dos o más variables, donde una variable depende
de la otra variable.

Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera


en un modelo de Regresión Simple.

"Y es una función de X"

Y = f(X)

Como Y depende de X:

Y es la variable dependiente, y

X es la variable independiente.

Conclusión

La ecuación de Regresión Lineal estimada para las variables estatura y peso


muestran, de acuerdo a la prueba F, relación. Esta relación se ha estimado en un R
= 93.7, que indica una fuerte relación positiva.

Además si consideramos el coeficiente de determinación R² = 87.9 podemos indicar


que el 87.9% de las variaciones que ocurren en el peso se explicarían por las
variaciones en la variable estatura.

~6~
5.4 CORRELACIÓN.

Definición

En probabilidad y estadística, la correlación indica la fuerza y la dirección de una


relación lineal y proporcionalidad entre dos variables estadísticas. Se considera que
dos variables cuantitativas están correlacionadas cuando los valores de una de ellas
varían sistemáticamente con respecto a los valores homónimos de la otra: si
tenemos dos variables (A y B) existe correlación si al aumentar los valores de A lo
hacen también los de B y viceversa. La correlación entre dos variables no implica,
por sí misma, ninguna relación de causalidad.

Fuerza, sentido y forma de la correlación

La relación entre dos súper variables cuantitativas queda representada mediante la


línea de mejor ajuste, trazada a partir de la nube de puntos. Los principales
componentes elementales de una línea de ajuste y, por lo tanto, de una correlación,
son la fuerza, el sentido y la forma:

 La fuerza extrema según el caso, mide el grado en que la línea representa a


la nube de puntos: si la nube es estrecha y alargada, se representa por una
línea recta, lo que indica que la relación es fuerte; si la nube de puntos tiene
una tendencia elíptica o circular, la relación es débil.
 El sentido mide la variación de los valores de B con respecto a A: si al crecer
los valores de A lo hacen los de B, la relación es positiva; si al crecer los
valores de A disminuyen los de B, la relación es negativa.
 La forma establece el tipo de línea que define el mejor ajuste: la línea recta,
la curva monotónica o la curva no monotónica.

Interpretación geométrica

Dados los valores muéstrales de dos variables aleatorias que


pueden ser consideradas como vectores en un espacio a n dimensiones, pueden
construirse los "vectores centrados" como:

~7~
El coseno del ángulo alfa entre estos vectores es dado por la fórmula siguiente:

Pues es el coeficiente de correlación muestral de Pearson. El coeficiente


de correlación es el coseno entre ambos vectores centrados:

Si r = 1, el ángulo ,ambos vectores son colineales (paralelos).

Si r = 0, el ángulo , ambos vectores son ortogonales.

Si r = -1, el ángulo ,ambos vectores son colineales de dirección


opuesto.

Más generalmente:

Por supuesto, del punto vista geométrica, no hablamos de correlación lineal: el


coeficiente de correlación tiene siempre un sentido, cualquiera que sea su valor
entre 1 y 1. Nos informa de modo preciso, no tanto sobre el grado de dependencia
entre las variables, que sobre su distancia angular en la heterosfera a “n”
dimensiones.

La Iconografía de las correlaciones es un método de análisis multidimensional que


reposa en esta idea. La correlación lineal se da cuando en una nube de puntos estos
se encuentran o se distribuyen alrededor de una recta.

La fórmula de correlación para dos series distintas con cierto desfase "k", está dada
por la fórmula:

~8~
Distribución del coeficiente de correlación

El coeficiente de correlación muestral de una muestra es de hecho una variable


aleatoria, eso significa que si repetimos un experimento o consideramos diferentes
muestras se obtendrán valores diferentes y por tanto el coeficiente de correlación
muestral calculado a partir de ellas tendrá valores ligeramente diferentes. Para
muestras grandes la variación en dicho coeficiente será menor que para muestras
pequeñas. R. A. Fisher fue el primero en determinar la distribución de probabilidad
para el coeficiente de correlación.

Si las dos variables aleatorias que trata de relacionarse proceden de una


distribución gaussiana bivariante entonces el coeficiente de correlación r sigue una
distribución de probabilidad dada por:

Donde:

es la distribución gamma

es la función gaussiana hipergeométrica.

Nótese que, el valor esperado del coeficiente de correlación muestral r es:

Por tanto r es estimador sesgado de .

Puede obtenerse un estimador aproximado no sesgado resolviendo la ecuación:

para

~9~
Aunque, la solución:

Es subóptima. Se puede obtener un estimador sesgado con mínima varianza para


grandes valores de n, con sesgo de orden buscando el máximo de
la expresión:}

En el caso especial de que donde ,la distribución original puede ser


reescrita como:

es la función beta.

~ 10 ~
5.5 DETERMINACIÓN Y ANÁLISIS DE LOS COEFICIENTES DE CORRELACIÓN
Y DE DETERMINACIÓN.

El coeficiente de correlación lineal mide el grado de intensidad de esta posible


relación entre las variables. Este coeficiente se aplica cuando la relación que puede
existir entre las variables es lineal (es decir, si representáramos en un gráfico los
pares de valores de las dos variables la nube de puntos se aproximaría a una recta).

No obstante, puede que exista una relación que no sea lineal, sino exponencial,
parabólica, etc. En estos casos, el coeficiente de correlación lineal mediría mal la
intensidad de la relación las variables, por lo que convendría utilizar otro tipo de
coeficiente más apropiado.

Para ver, por tanto, si se puede utilizar el coeficiente de correlación lineal, lo mejor
es representar los pares de valores en un gráfico y ver qué forma describe, el
coeficiente de correlación lineal se calcula aplicando la siguiente fórmula:

Numerador: se denomina covarianza y se calcula de la siguiente manera: en cada


par de valores (x, y) se multiplica la “x” menos su media, por la “y” menos su media.
Se suma el resultado obtenido de todos los pares de valores y este resultado se
divide por el tamaño de la muestra.

Denominador: se calcula el producto de las varianzas de “x” y de “y”, y a este


producto se le calcula la raíz cuadrada.

Los valores que puede tomar el coeficiente de correlación “r” son: −1 < r < 1

Si “r” > 0, la correlación lineal es positiva (si sube el valor de una variable sube el de
la otra). La correlación es tanto más fuerte cuanto más se aproxime a 1.

Por ejemplo: altura y peso: los alumnos más altos suelen pesar más.

Si “r” < 0, la correlación lineal es negativa (si sube el valor de una variable disminuye
el de la otra). La correlación negativa es tanto más fuerte cuanto más se aproxime
a −1.

Por ejemplo: peso y velocidad: los alumnos más gordos suelen correr menos.

Si “r” = 0, no existe correlación lineal entre las variables. Aunque podría existir otro
tipo de correlación (parabólica, exponencial, etc.)

De todos modos, aunque el valor de “r” fuera próximo a 1 o −1, tampoco esto quiere
decir obligatoriamente que existe una relación de causa-efecto entre las dos
variables, ya que este resultado podría haberse debido al puro azar.

~ 11 ~
5.6 DISTRIBUCIÓN NORMAL BIDIMENSIONAL.

La distribución normal n-dimensional Nn (,) es una generalización de la


distribución normal univariante.

La función de densidad de una variable n-dimensional normal X=(X1, X2,..., Xn) de


parámetros  y  es

Para (i = 1,2,.., n), donde m es el vector de medias con

Con

Y  es la matriz de varianzas-covarianzas (simétrica y definida positiva)

Con

Propiedades:

 Para n=1 la función de densidad anterior es la de la distribución normal


unidimensional.
 Si  = 0 y  = I (matriz identidad) entonces la distribución se denomina normal
n-dimensional estándar, Nn(0,I)
 Si Z=(Z1,...,Zn) tiene una distribución normal n-dimensional estándar, A=(aij)
es una matriz cuadrada de orden n con determinante no nulo y =(1,..,n)' es
una matriz columna nx1 entonces la variable

X=AZ+

~ 12 ~
Sigue una distribución normal n-dimensional Nn (,) donde  = A A'.

 Si X=(X1,...,Xn) tiene una distribución normal n-dimensional Nn(,) y B y C


son dos matrices de números reales (B de dimensión pxn y C de dimensión
px1) tal que BB' es una matriz definida positiva entonces la variable

Z=BX+C

Tiene una distribución normal p-dimensional Np (B+C, BB').

 Si X=(X1,...,Xn) tiene una distribución normal n-dimensional Nn(,), la variable


formada por cualquier subconjunto de k variables de las n, sigue una
distribución normal k-dimensional con los parámetros correspondientes.

En particular con k=1, tenemos que la distribución marginal de cualquiera

de las Xi es una distribución normal unidimensional .

 Sean X1, X2,.., Xn variables aleatorias independientes con distribuciones

normales unidimensionales . Entonces, la variable aleatoria


X=(X1,..., Xn) tiene una distribución normal n-dimensional Nn (,) con

parámetros y .
 Sea X=(X1,...,Xn) una variable aleatoria con distribución normal n-dimensional
Nn(,). Sus n variables componentes X1, X2,..,Xn son independientes si, y
sólo si, están incorrelacionadas.
 Sea X=(X1,...,Xn) una variable aleatoria con distribución normal n-dimensional

Nn (,). Si dividimos sus componentes en dos grupos ,por

ejemplo y y de igual forma particionamos

~ 13 ~
las matrices  y  (con los parámetros correspondientes a cada grupo),

y entonces la distribución de condicionada

por es una normal p-dimensional de media y


matriz de varianzas-covarianzas .

Normal bidimensional:

Esta distribución es un caso particular de la distribución normal n-dimensional para


n=2 por lo que todos los resultados vistos anteriormente son también válidos.

No obstante, mostraremos de forma explícita dichos resultados sin recurrir a la


notación matricial.

Así bien, la función de densidad de una variable aleatoria (X, Y) normal


bidimensional es

Para y , donde X y Y son las medias de X e Y


respectivamente, X y Y sus desviaciones típicas y  el coeficiente de
correlación lineal entre las dos variables.

Propiedades:

 Si X y Y son cero X y Y son 1 y  es cero entonces la distribución se


denomina normal bidimensional estándar, y su función de densidad es

~ 14 ~
 Si (X, Y) tiene una distribución normal bidimensional

y (U, V) es una transformación de ella del tipo

U=aX+bY+c y V=dX+eY+f, de manera que la matriz tiene


determinante distinto de cero (rango dos).

Entonces la variable aleatoria (U, V) también sigue una distribución normal

bidimensional , donde

 En particular, si (X,Y) tiene una distribución normal bidimensional estándar

y (U,V) es una transformación de ella del tipo anterior (con


rg(B)=2) entonces (U,V) sigue una distribución normal bidimensional

 Si (X, Y) tiene una distribución normal bidimensional, tanto X como Y siguen


distribuciones normales, en concreto X tiene una distribución N (X,X) e Y
tiene una distribución N (Y,Y).
 Si X e Y son variables aleatorias independientes con distribuciones
normales unidimensionales N (X,X) y N (Y,Y). Entonces, la variable

~ 15 ~
aleatoria (X, Y) tiene distribución normal bidimensional
.
 Sea (X, Y) una variable aleatoria normal bidimensional. Entonces, X e Y son
independientes si, y sólo si, están incorrelacionadas.
 Sea (X, Y) una variable aleatoria normal bidimensional. La distribución de Y
condicionada por X=x es normal unidimensional

~ 16 ~
5.7. INTERVALOS DE CONFIANZA Y PRUEBAS PARA EL COEFICIENTE DE
CORRELACION.

El coeficiente de correlación, r:

El coeficiente de correlación (r) es una medida de la intensidad de la relación lineal


entre dos variables.

 Requiere datos de nivel de razón.


 Puede tomar cualquier valor de -1.00 a 1.00.
 Los valores de -1.00 o 1.00 indican la correlación perfecta y fuerte.
 Los valores cerca de 0.0 indican la correlación débil
 Los valores negativos indican una relación inversa y los valores positivos indican
una relación directa.

Fórmula para r:

Calculamos el coeficiente de correlación de las fórmulas siguientes:

Intervalo de confianza:

El intervalo de confianza para el valor medio de Y para un valor dado de X está dado por:

~ 17 ~
5.8. ERRORES DE MEDICION.

Es la inexactitud que se acepta como inevitable, al comparar una magnitud con su


patrón de medida, el error de medida depende de la escala de medida empleada y
tiene un límite.

GENERALIDADES:
A la Estadística le interesa estudiar las poblaciones que poseen variaciones entre
sus datos en estudio, de lo contrario, bastaría con estudiar un individuo para
explicar la población.
Además de la variación real inherente a los elementos o individuos que se
estudian, se debe considerar una variación sobreañadida o espuria, que sólo es en
realidad, errores determinados por los factores que intervienen en la observación.

FACTORES QUE INTERVIENEN EN LA OBSERVACIÓN:


Dependientes del:
1. Observador.
2. Método de observación.
3. Objeto o elemento observado.

ASPECTOS A CONSIDERAR:
Los errores de medición, determinan que ninguna medición es absolutamente
exacta. Lo anterior se debe tomar en cuenta cuando se comparan dos o más
observaciones, con el fin de no dar mayor importancia a la existencia de pequeñas
diferencias, las cuales pueden deberse simplemente, al proceso de medición
utilizado.

ERRORES DEPENDIENTES DEL OBSERVADOR:


Puede ocurrir por: • El grado de preparación o entrenamiento. • El estado físico. •
El exceso de trabajo. • Las condiciones ambientales de trabajo.

ERRORES DEPENDIENTES DEL MÉTODO DE OBSERVACIÓN:


Todos los métodos de observación, tienen errores de mayor o menor importancia y
de ahí surge la preocupación científica de mejorarlos o cambiarlos por otros más
convenientes.

~ 18 ~
ERRORES DEPENDIENTES DE LOS INDIVIDUOS OBSERVADOS:
Fuera de la variabilidad real que presentan los individuos que se observan, hay
también una variabilidad sobreañadida dependiente de ellos mismos, debida a las
condiciones y tiempo en que se estudian.

RELACIONES ENTRE LAS DIFERENTES FUENTES ERROR:


Existe una clara distinción entre las tres fuentes de error de observación antes
mencionados, es importante aclarar que cada uno es independiente. Sin embargo,
debe admitirse que ellos dependen en gran medida del método de observación
utilizado.

REDUCCIÓN DE LOS ERRORES:


Se logrará de acuerdo a las causas que lo determinan. Aquellos dependientes de
los observadores, pueden reducirse aumentando su preparación y entrenamiento,
vigilando sus condiciones físicas y poniéndolos en condiciones óptimas de trabajo.

Para disminuir los errores causados por el método de observación, se procura


seleccionar las mejores técnicas conocidas, estandarizar los métodos a emplear y
controlar constantemente el funcionamiento de los aparatos utilizados. Finalmente,
se debe procurar que los individuos estudiados se investiguen en las más
favorables y similares circunstancias con el fin de disminuir errores de lo que ello
pueda depender.

MEDICIÓN DE LOS ERRORES:


Consiste en la evaluación de las diferentes técnicas y métodos de estudio de
manera conjunta. Cada investigador debiera estimar los errores de las técnicas e
instrumentos que utilizan, valorándose de manera conveniente los márgenes de
error a que pueden conducir su aplicación.

~ 19 ~
Que en la mayoría de las veces, los errores que se cometen al realizar determina
medición se hacen unas veces por exceso y otras por defecto. ES IMPORTANTE
ACLARAR Si se traza una línea en la pizarra y se pide a un grupo de estudiantes
que estimen a simple vista su longitud.

ERROR ALEATORIO:
Es un error al azar, es inevitable, se produce por eventos únicos imposibles de
controlar durante el proceso de medición. En un estudio de investigación, por lo
general, el error aleatorio viene determinado por el hecho de tomar sólo una
muestra de una población para hacer inferencias.

ERROR SISTEMÁTICO:
Es aquel que se produce de igual modo en todas las mediciones que se realizan de
una magnitud, puede estar originado en un defecto del instrumento, en una
particularidad del operador o del proceso de medición u observación, a este tipo de
error también se le llama sesgo.

VALORES ANÓMALOS:
También llamados atípicos u outliers, son aquellos casos u observaciones
irregulares que son numéricamente distantes de los datos que se están estudian y
por otro no siguen el mismo modelo.

PRECISIÓN:
Es lo cerca que los valores medidos están unos de otros. Cuando menos es la
variabilidad de datos, mayor es la precisión.

EXACTITUD:
Se refiere a que tan cerca se encuentra el valor medio de la distribución de la
esperanza matemática. Se relaciona con el sesgo de una estimación. A menor
sesgo, más exacta es la estimación. Sesgo: es la diferencia entre la esperanza
matemática y el valor característico de la población.

~ 20 ~

También podría gustarte