Est-501 2 Descdatos

Descripción de datos
Dr. Félix V. González Cossio

felixgc@colpos.mx
Montecillo, Mex., otoño 2024
Temas
Variables categóricas
Una variable cuantitativa: forma,
tendencia central, dispersión
Relaciones entre variables categóricas y
cuantitativas
Dos variables cuantitativas: diagrama
de dispersión, correlación, regresión
OBJETIVOS DEL CAPÍTULO
• Exhibir información de una variable categórica en cuadros o gráficas
• Relacionar dos variables categóricas en tablas de doble entrada
• Reconocer el significado y utilización de la desviación estándar
• Interpretar el resumen de cinco números
• Describir las ventajas y desventajas de distintas medidas de tendencia
central y de dispersión
• Identificar observaciones aberrantes (outliers)
• Utilizar gráficas de caja para una variable cuantitativa y para relacionar una
variable categórica y una cuantitativa
• Describir la asociación presente en un diagrama de dispersión
• Interpretar una correlación
• Reconocer que la correlación no implica una relación causa-efecto
• Encontrar la recta de regresión con dos variables cuantitativas
• Interpretar la pendiente y ordenada al origen de una recta de regresión
• Reconocer cuándo son válidas las predicciones de una recta de regresión
Una variable categórica divide los
casos en grupos, dejando cada caso
en exactamente una de dos o más
categorías.
La información de una variable
categórica se puede resumir en una tabla
de frecuencias, o en una tabla de
proporciones (o frecuencias relativas),
para cada categoría de la variable.
Una variable categórica
Posición del estilo
Una variable cuantitativa
Al describir una variable cuantitativa
generalmente se tiene interés en tres preguntas:
• ¿Cuál es la forma general de los datos?
• ¿En qué valores se centran los datos?
• ¿Cómo varían los datos?
Todos estos son aspectos de la denominada

distribución de los datos.
Formas más comunes de las
distribuciones:
• Simétrica
• Asimétrica a la derecha
• Asimétrica a la izquierda
• Forma de campana
Una manera común de visualizar la forma
de los datos es mediante la construcción de
diagramas de puntos o de histogramas.
• Tres especies de lirio: setosa, versicolor y

virginica.
• 50 casos de cada especie.
• Cuatro variables cuantitativas: largo y ancho
de pétalo, y largo y ancho de sépalo.
(Data iris en R)
Un histograma es una representación
gráfica de una tabla de frecuencias.
Tanto histogramas como diagramas de
puntos pueden ser útiles para
identificar asimetrías y observaciones
aberrantes en la distribución de los
datos.
Sépalo
Largo
Ancho
Diagramas de
puntos
Pétalo
Largo
Ancho
Un valor aberrante (outlier) es un
valor observado que es
notablemente distinto –
generalmente más chico o más
grande– del resto de los valores.
Longitud del sépalo en los

50 casos de la especie
virginica.
Con frecuencia se utilizan curvas para suavizar la

forma de un histograma. Dicha curva describe la
forma de la distribución de los datos de una
variable cuantitativa.
Medidas de tendencia central
 Una curva permite visualizar la forma que tiene la
distribución de datos de una variable cuantitativa.
 Por otra parte, hay cantidades numéricas —
denominadas estadísticas— que permiten conocer
características importantes de esta distribución.
 La media, la mediana y la moda son ejemplos de dichas
estadísticas.
 Se les utiliza para describir el centro de una distribución.
Estadística Fórmula Utilizada para
Medida de tendencia
central. Está fuertemente
Media afectada por datos
atípicos.
n impar: valor central de los datos
ordenados de menor a mayor. Medida de tendencia
Mediana n par: valor promedio de los dos central. No está afectada
valores centrales. por datos atípicos.
Dato cuyo valor se repite más que Medida de tendencia

Moda cualquier otro valor. central. Puede haber más
de un valor modal.
Formas de
algunas
distribuciones
y sus medidas
de tendencia
central
asociadas.
Orden de magnitud de tres medidas de tendencia central
cuando la distribución es asimétrica.
•S es la desviación estándar de la
muestra
•Md es la mediana
•x̄ es la media
Cuando la distribución es:
• Simétrica, el coeficiente es cero.

• Sesgada positivamente, el coeficiente es positivo.
• Sesgada negativamente, el coeficiente es negativo.
La media es una medida de tendencia central con serias limitaciones
cuando la distribución de los datos es sesgada, o están presentes
valores atípicos (outliers).
Media = 27 / 9 = 3 Media no es representativa de la

distribución de valores
Media = 9 / 9 = 1
Medias iguales y datos
muy distintos
Media = 9 / 9 = 1
Se requieren otras estadísticas, además de las medidas de tendencia central, para

describir con mayor detalle una distribución de datos.
15
Estos dos conjuntos de

datos también tienen la
misma media.
Pero son muy distintos. 10
Mientras que nh_juan 9
tiene valores similares,
nh_elena presenta
mayor variabilidad. 45 45
5
9 9
Medidas de dispersión
 No basta con conocer el centro o parte media de un

conjunto de datos.
 También es importante saber cuánta variabilidad o
dispersión está presente en dichos datos.
 Las estadísticas amplitud (rango), varianza, desviación
estándar y coeficiente de variación son medidas de
dispersión.
Amplitud (rango) 15
Se define simplemente
como la diferencia entre
los valores máximo y
mínimo del conjunto de 10
datos
9
10 – 8 = 2; 14 – 5= 9
5
Ventaja: Sencillez.
Desventaja: Sólo toma en cuenta los valores extremos.
 Considera todos los
Varianza
valores.
 Toma las diferencias de
15
cada valor con respecto a
la media elevadas al
cuadrado.
 La varianza s2 es el
promedio de tales
10
diferencias.
9
5
Más conveniente dividir por n -1
Desviación estándar
Ventajas en comparación con la varianza:

Se expresa en las mismas unidades que los
datos.
Toma valores más acordes con la
naturaleza de los datos. 0.5 12
0.7 3.5
Coeficiente de variación
Dos conjuntos de datos medidos en la

misma escala pueden tener
desviaciones estándar similares pero
medias distintas. 200000 18000
Las dispersiones entre esos conjuntos
pueden notarse mejor utilizando el 11.933 11.933
coeficiente de variación.
El CV se expresa como % de la media.
0.06 0.66
• Entre mayor sea el CV, será mayor el nivel
de dispersión alrededor de la media.
• Por lo general se le expresa en porcentaje.
• Por ser adimensional, permite la

comparación de distribuciones de valores
cuyas escalas de medición no son
comparables.
Interpretación de la desviación estándar
1. Regla empírica
Sea una distribución simétrica con forma de campana.
En el intervalo Se encuentra,
aproximadamente
68.0 % de los datos.

Metodología
de mejora de
procesos Seis
Sigma.
2. Teorema de Chevyshev
Para cualquier conjunto de datos numéricos
En el intervalo Se encuentra, aproximadamente
Al menos 3/4 de los datos.
Al menos 8/9 de los datos.
Al menos de los datos.

Se define el puntaje estandarizado (zScore) como:
 El puntaje zScore indica el número de desviaciones estándar

que se aleja un valor x de la media de los datos.
 Por ejemplo, si la distribución de los datos es simétrica en
forma de campana, por la regla empírica se sabe que
aproximadamente 95 % de esos datos están alejados de la
media dos veces la desviación estándar.
 Es independiente de las unidades de medición.
Ejemplo (Lock, pp 66 y 79)
 200 pacientes de la
unidad de cuidados
intensivos de un
hospital.
 20 variables que
incluyen Ritmo
cardíaco (Hearth rate)
y Presión sanguínea
(Systolitic).
 Datos en paquete
Lock5Data de R (data
ICUAdmissions).
Pregunta
El paciente con identificación ID#772 tiene PS = 204 mmHg,
y RC = 52 bpm. ¿Cuál de esos dos valores es menos común
en relación con el resto de los valores en la muestra?
Respuesta
Como se ilustra a continuación, está justificado aproximar
la distribución —tanto de RC como de PS— con una curva
simétrica en forma de campana.
Es decir, se puede utilizar la Regla Empírica.
Ejemplo (Lock, pp 66 y 79), continuación
Las medias y desviaciones Puntajes estandarizados
estándar de las variables RC y PS
(calculadas con R) son: RC:
mean(ICUAdmissions$HeartRate)
# [1] 98.925 PS:
sd(ICUAdmissions$HeartRate)
# [1] 26.82962 Conclusión
mean(ICUAdmissions$Systolic) La PS del paciente es menos común
# [1] 132.28 (más alta) que el RC del resto de los
sd(ICUAdmissions$Systolic) pacientes.
# [1] 32.9521 ¿POR QUÉ?
Ritmo cardiaco
Medidas de posición
 Estas medidas están representadas por los percentiles.
 Los percentiles dan información adicional sobre una distribución.
 El percentil p-ésimo es el valor de una variable cuantitativa que es
mayor que p % de los datos.
Por ejemplo:
A lo más 90% A lo más 10 %
de los datos de los datos
x*
x* es el percentil 90-ésimo de la variable x
Resumen de cinco números
Definición
Resumen de cinco números
= {mínimo, Q1, mediana, Q3, máximo}
donde:
Q1 = Primer cuartil = percentil 25-ésimo
Q3 = Tercer cuartil = percentil 75-ésimo
Del resumen de cinco números se obtiene otra medida
de dispersión:
IQR = Rango intercuartílico = Q3 – Q1
• La media y la desviación estándar son sensibles a la presencia
de observaciones atípicas o aberrantes (outliers).
• La mediana y el IQR son resistentes a los outliers.
• En presencia de outliers o asimetrías el resumen de cinco
números es más informativo que la media y la desviación
estándar.
Regla práctica para detectar outliers

El valor de un dato es un outlier si es
Menor que Q1 – 1.5 (IQR), ó
Mayor que Q3 + 1.5 (IQR)
Gráficas de caja (box plots)
Permiten visualizar la información de los resúmenes
de cinco números.
Para las tres especies de lirio:

Outlier
Valor mínimo que Valor máximo

no es outlier
Q1 Mediana Q3
Una variable categórica y una variable cuantitativa
Las gráficas de caja

pueden ser utilizadas
para relacionar una
variable cuantitativa
con una variable
categórica.
Como en esta
comparación vis-à-vis
de la longitud del
sépalo de las las tres
especies de lirio.
Curvas para
suavizar
histogramas y
aproximar la
forma de una
distribución.

Est-501 2 Descdatos

Cargado por

Información del documentohacer clic para expandir la información del documento

Información del documentohacer clic para expandir la información del documento

Copyright:

Formatos disponibles

Est-501 2 Descdatos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Est-501 2 Descdatos

Cargado por

Copyright:

Formatos disponibles

Descripción de datos

Dr. Félix V. González Cossio

Todos estos son aspectos de la denominada

• Tres especies de lirio: setosa, versicolor y

Longitud del sépalo en los

Con frecuencia se utilizan curvas para suavizar la

Dato cuyo valor se repite más que Medida de tendencia

Cuando la distribución es:

• Simétrica, el coeficiente es cero.

Media = 27 / 9 = 3 Media no es representativa de la

Se requieren otras estadísticas, además de las medidas de tendencia central, para

Estos dos conjuntos de

 No basta con conocer el centro o parte media de un

Ventajas en comparación con la varianza:

Dos conjuntos de datos medidos en la

• Por lo general se le expresa en porcentaje.

• Por ser adimensional, permite la

68.0 % de los datos.

95.0 % de los datos.

99.7 % de los datos.

En el intervalo Se encuentra, aproximadamente

Al menos 3/4 de los datos.

Al menos 8/9 de los datos.

Al menos de los datos.

 El puntaje zScore indica el número de desviaciones estándar

Regla práctica para detectar outliers

Para las tres especies de lirio:

Valor mínimo que Valor máximo

Las gráficas de caja

También podría gustarte