Prac2descrip2modelos v23
Prac2descrip2modelos v23
Prac2descrip2modelos v23
TAREA 1. Calcula la tabla de contingencia del pesoINT (fila) y grado (columna). Calcula el coeficiente
de contingencia entre estas dos variables categóricas y comenta el resultado.
Estadísticos > Tabla de contingencia > Tabla de doble entrada
Para obtener el coeficiente de contingencia C= sqrt(2 / (2 + N)) utilizamos la ventana del R-Script
escribiendo la fórmula donde sustituimos los valores:
2 = X-squared = 20.8248 N = 40 (porque tenemos 40 datos) y apretamos Ejecutar
➢ Cómo son las variables ¿dependientes o independientes? Como 0.5851 (coeficiente contingencia)
está lejos de 0, podemos suponer que hay relación entre las variables (son dependientes).
También podemos suponer que son dependientes al nivel de significación α = alfa= 0.1, porque p-value = 0.05301 es
menor que alfa = 0.1 (lo veremos en tema 3)
2. Vamos A ESTUDIAR AHORA LA RELACION lineal ENTRE DOS VARIABLES NUMÉRICAS (tareas 2 y
3) aunque también hay ejemplos de relación no lineal y de relación múltiple.
Datos en archivo “datosmu2.xls”
Datos > Importar datos > desde conjunto de datos Excel, …
seleccionamos Hoja 1 y apretamos OK
TAREA 2. Consideramos 12 máquinas manejadas por dos operarios diferentes (A y B), en las que
medimos el tiempo que están funcionando al día (en horas) y la energía consumida (en kw).
Operario A A A A A B B B B B B B
HORAS 4.3 4.2 3.9 4.4 2.5 3.8 5.7 6.1 4.5 3.5 3.7 4.6
ENERGIA (kw) 22 20 21 21 14 19 29 32 23 18 17 23
2.a) Calcula el coeficiente de correlación y la covarianza entre las variables HORAS y ENERGIA.
Para obtener la covarianza debemos cambiar cor por cov en la última instrucción que tenemos en
Práctica 2 – curso 2023 Página 2
EE-ET-EM-EQ1011 Estadística y Optimización PRACTICA 2 con
2.b) Haz la nube de puntos de la variable ENERGIA como explicativa y variable HORAS como
explicada. Relaciona este gráfico con las medidas calculadas en apartado (2.a).
3
Por tanto, será adecuado hacer un ajuste
lineal calculando la recta de regresión
correspondiente.
15 20 25 30
ENERGIA
TAREA 3. Nos interesa predecir las HORAS que se trabaja si se han consumido 25 kilowatios.
3.b) Escribe la ecuación del ajuste lineal para obtener esa predicción.
Estadísticos > Ajuste de modelos > Regresión lineal
=A
=B
3.d) Comenta la bondad del ajuste e identifica el valor del coeficiente de determinación.
El ajuste es muy bueno porque coeficiente de determinación lineal R2 = Multiple R-squared =
0.9584 está muy próximo a UNO.
Si al dibujar la nube de puntos queremos también dibujar la recta de regresión debemos hacer:
Gráficas > Diagrama de dispersión elegid variable X e Y; dejad solo Línea de mínimos ….
5.5
HORAS
4.5
3.5
2.5
15 20 25 30
ENERGIA
EJEMPLO relación NO LINEAL. (pro11, Lec2) Ajustad una función potencial que exprese la cantidad de iones
de calcio en función de los iones de sulfato: calcio* = a · sulfato b
Dibujamos el diagrama de dispersión siendo sulfato =v. independiente (x); calcio =v. dependiente (y)
0.06
0.04
sulfato
La bondad del ajuste es muy buena porque Adjusted R-squared = 0.9995 está muy próximo a 1.
Si vemos que los datos ajustan a un modelo parabólico (y = a + bx + cx^2) debemos hacer:
Estadísticos > Ajuste de modelos > Modelo lineal
En la izquierda escribimos la variable explicada (dependiente).
En la derecha escribimos 1 + I (explicativa) + I (explicativa^2)
EJEMPLO Regresión múltiple. En un proceso de fundición de tapas de aluminio por inyección, se está intentando minimizar el
índice de porosidad encontrado en ellas. Este índice se puede obtener a través de rayos X. Al parecer la Temperatura del aluminio
líquido y la Presión con que éste se inyecta en el molde afectan al índice de porosidad de la placa resultante. El objetivo es estimar
la relación existente entre el índice de porosidad con la temperatura (Temp) y presión (Pres), y encontrar unas condiciones óptimas
de trabajo en las cuales la porosidad sea mínima. Para esto, hemos recopilado datos sobre el índice de porosidad variando la
temperatura y presión en los intervalos que los técnicos del proceso han recomendado.
Vamos a hacer una Regresión Múltiple (consideramos más de una variable independiente). La variable dependiente (explicada)
es Porosidad y las independientes (explicativas) son: Presion, presión al cuadrado (Presion2), Temperatura, temperatura al
cuadrado (Temperatura2) y el producto TempxPres
Estadísticos > Ajuste de modelos > Regresión lineal
De los resultados → nos interesan los coeficientes debajo de Estimate, para escribir la ecuación del modelo:
Porosidad = 1056– 0.2042*Pres + 0.0004725*Pres2 – 2.803*Temp + 0.00255*Temp2 – 0.0008552*TempxPres
Calcula la predicción del índice de porosidad para los valores: Temperatura = 690.6 Presion = 841
Temperatura2 = 476928.36 Presion2 = 707281 TempxPres = 580794.6
En la ventana R-Script escribimos hay que poner el nombre del modelo
Probabilidad acumulada cola izquierda: P(X ≤ a) = f(0) + f(1) + f(2) +…+ f(a-1) + f(a)
Probabilidad acumulada cola derecha: P( X > a) = f(a+1) + f(a+2) + f(a+3) + ….
n = nº de pruebas
p = probabilidad de éxito
Por ejemplo, si X= “nº de pruebas necesarias para tener 3 éxitos” → BN(k=3, p=0.55) y nos piden
P(X = 3) = P(XR = 3 - 3) = P(XR = 0) = 0.1663750000
P(X = 4) = P(XR = 4 - 3) = P(XR = 1) = 0.2246062500
P(X = 5) = P(XR = 5 - 3) = P(XR = 2) = 0.2021456250
P(X = 6) = P(XR = 6 - 3) = P(XR = 3) = 0.1516092187 …..
EJERCICIO 1. En una gran fábrica, el 35% de las personas que trabajan son mujeres. Elegimos una
muestra de 15 personas (nº pruebas o ensayos) y nos interesa calcular:
1.1 la probabilidad de que haya 2 mujeres en la muestra.
1.2 la probabilidad de que haya como máximo 6 mujeres.
1.3 la probabilidad de que haya más de 10 mujeres en la muestra.
1.4 ¿cuántas mujeres acumulan hasta el 80% de probabilidad? → valor a tal que P(X ≤ a) = 0.80
1.5 la representación gráfica de la función de probabilidad (cuantía) y de la función de distribución.
Si X = “número de mujeres en 15 personas” sigue modelo BINOMIAL con P(éxito = ser mujer) =
p=0.35 y n=15
Cola izquierda
P(X ≤ 6) = 0.7548425
1.3 la probabilidad de que haya más de 10 mujeres en la muestra → P(X > 10) = f(11)+f(12)+…+f(15)
Distribuciones > Distribuciones discretas > Distribución binomial > Probabilidades binomiales
acumuladas
Cola derecha
1.4 el número máximo de mujeres que tenemos el 80% de las veces → valor a tal que P(X≤a) = 0.80
Distribuciones > Distribuciones discretas > Distribución binomial > Cuantiles binomiales
0.10
0.00
0 2 4 6 8 10
Nºexitos = nº successes
0.8
0.6
0.4
0.2
0.0
0 2 4 6 8 10
Nº exitos
Ejercicio 2. (Hacedlo vosotr@s) Suponemos que X = “número de averías que sufre una máquina en
un mes” sigue modelo Poisson de media 2 averías en un mes. Calcula:
2.1 P(tener solo 1 avería en un mes) = P(X = 1) =
2.2 P(tener más de 1 avería) = P(X > 1) =
2.3 P(tener menos de 4 averías) = P(X < 4) =
2.4 P(tener 3 ó más averías) = P(X 3) =
2.5 El 60% de las veces reparamos un máximo de ________ averías en un mes.
2.6 Haz la representación gráfica de la función de probabilidad e identifica el número de averías que
tiene mayor probabilidad.
2.7 P(tener exactamente 6 averías en dos meses)
EJERCICIO 3. El peso de una pieza sigue modelo Normal de media µ = 400 gr. y desviación típica σ=5
gr.
3.1 Calcula la probabilidad de elegir una pieza que pese como máximo 395.5 gramos.
3.2 Calcula la probabilidad de elegir una pieza que pese más de 404.5 gramos.
3.3 ¿Qué relación ves en los resultados de los apartados 3.1 y 3.2? ¿Por qué ocurre eso?
3.4 Nos interesan las piezas que pesan entre 394.3 y 405.1. Calcula el porcentaje de piezas que
interesan.
3.5 Representa gráficamente la función de densidad de este modelo Normal, marcando la región de
probabilidad del apartado 3.4.
3.6 ¿Qué peso mínimo tienen el 60% de las piezas que pesan más?
3.1 Calcula la probabilidad de elegir una pieza que pese como máximo 395.5 gramos. P(X ≤ 395.5)
Distribuciones > Distribuciones continuas > Distribución normal > Probabilidades normales
3.2 Calcula la probabilidad de elegir una pieza que pese más de 404.5 gramos → P(X > 404.5)
Distribuciones > Distribuciones continuas > Distribución normal > Probabilidades normales
Escribimos el valor de la variable que interesa y seleccionamos cola a derecha
Cola izquierda
Cola derecha
3.3 ¿Qué relación ves en los resultados de los apartados 3.1 y 3.2? ¿Por qué ocurre eso?
3.4 Nos interesan las piezas que pesan entre 394.3 y 405.1. Calcula el porcentaje de piezas que
interesan.
Distribuciones > Distribuciones continuas > Distribución normal > Probabilidades normales
P(394.3 X 405.1) = P(X 405.1) – P(X 394.3) = 0.8461358 - 0.1271432 = 0.7189926 = 71’90%
3.5 Representa gráficamente la función de densidad de este modelo Normal, marcando la región de
probabilidad del apartado 3.4.
Distribuciones > Distribuciones continuas > Distribución normal > Gráfica de la distribución normal
Tambien se pueden usar cuantiles. Por ejemplo si nos piden marcar la zona que deja por encima el
40%=0.4=p de probabilidad, usamos 1-p=0.6: Región 1: desde 0.6 a 1
Si nos piden marcar zona que ocupa el 80% de probabilidad a izquierda: Región 1: desde 0 a 0.8
3.6 ¿Qué peso mínimo tienen el 60% de las piezas que pesan más?
Debemos calcular el percentil (cuantil) 40 con cola a izquierda o el cuantil 60 con cola a derecha.
P(X≤a) = 0.4 → obtenemos a = P40 = 398.7333 P(X > b) = 0.6 → b = 398.7333 = a = P40
Problema 2. En una fábrica de muelles, la probabilidad de no tener averías en un día es 0.75. Queremos
tener 3 días sin averías, y consideramos la variable aleatoria Y= “número de días transcurridos para tener 3
días sin averías”.
2.1) La variable Y sigue modelo ………………………….. de parámetros:
2.2) ¿Cuál es la probabilidad de que tengan que transcurrir como máximo 7 días?
2.3) ¿Cuál es la probabilidad de que tengan que transcurrir 6 o más días?
Problema 3. La variable X = “tiempo que transcurre entre la llegada de dos clientes a un banco” sigue
modelo exponencial de media 5 minutos.
3.1) Calcula la probabilidad de que transcurran más de 6.6 minutos entre la llegada consecutiva de dos
clientes.
3.2) Representa la función de densidad de este modelo y marca la probabilidad calculada.