Est-501 2 Descdatos
Est-501 2 Descdatos
Est-501 2 Descdatos
• Simétrica
• Asimétrica a la derecha
• Asimétrica a la izquierda
• Forma de campana
Una manera común de visualizar la forma
de los datos es mediante la construcción de
diagramas de puntos o de histogramas.
Largo
Ancho
Diagramas de
puntos
Pétalo
Largo
Ancho
Un valor aberrante (outlier) es un
valor observado que es
notablemente distinto –
generalmente más chico o más
grande– del resto de los valores.
Media = 9 / 9 = 1
Medias iguales y datos
muy distintos
Media = 9 / 9 = 1
9 9
Medidas de dispersión
Se define simplemente
como la diferencia entre
los valores máximo y
mínimo del conjunto de 10
datos
9
10 – 8 = 2; 14 – 5= 9
5
Ventaja: Sencillez.
Desventaja: Sólo toma en cuenta los valores extremos.
Considera todos los
Varianza
valores.
Toma las diferencias de
15
cada valor con respecto a
la media elevadas al
cuadrado.
La varianza s2 es el
promedio de tales
10
diferencias.
9
5
Más conveniente dividir por n -1
Desviación estándar
En el intervalo Se encuentra,
aproximadamente
Respuesta
Como se ilustra a continuación, está justificado aproximar
la distribución —tanto de RC como de PS— con una curva
simétrica en forma de campana.
Es decir, se puede utilizar la Regla Empírica.
Ejemplo (Lock, pp 66 y 79), continuación
Las medias y desviaciones Puntajes estandarizados
estándar de las variables RC y PS
(calculadas con R) son: RC:
mean(ICUAdmissions$HeartRate)
# [1] 98.925 PS:
sd(ICUAdmissions$HeartRate)
# [1] 26.82962 Conclusión
mean(ICUAdmissions$Systolic) La PS del paciente es menos común
# [1] 132.28 (más alta) que el RC del resto de los
sd(ICUAdmissions$Systolic) pacientes.
# [1] 32.9521 ¿POR QUÉ?
Ritmo cardiaco
Medidas de posición
Estas medidas están representadas por los percentiles.
Los percentiles dan información adicional sobre una distribución.
El percentil p-ésimo es el valor de una variable cuantitativa que es
mayor que p % de los datos.
Por ejemplo:
A lo más 90% A lo más 10 %
de los datos de los datos
x*
x* es el percentil 90-ésimo de la variable x
Resumen de cinco números
Definición
Resumen de cinco números
= {mínimo, Q1, mediana, Q3, máximo}
donde:
Q1 = Primer cuartil = percentil 25-ésimo
Q3 = Tercer cuartil = percentil 75-ésimo
Del resumen de cinco números se obtiene otra medida
de dispersión:
IQR = Rango intercuartílico = Q3 – Q1
• La media y la desviación estándar son sensibles a la presencia
de observaciones atípicas o aberrantes (outliers).
• La mediana y el IQR son resistentes a los outliers.
• En presencia de outliers o asimetrías el resumen de cinco
números es más informativo que la media y la desviación
estándar.
Q1 Mediana Q3
Una variable categórica y una variable cuantitativa
Como en esta
comparación vis-à-vis
de la longitud del
sépalo de las las tres
especies de lirio.
Curvas para
suavizar
histogramas y
aproximar la
forma de una
distribución.