Tema 6 - 5

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 10

UNIDAD TEMÁTICA 6

MÉTODO PARA EL ANÁLISIS DESCRIPTIVO DE DATOS CUANTITATIVOS

Medidas de resumen de una distribución


Muchas veces es necesario utilizar un valor resumen que represente la serie de
valores en su conjunto, es decir, su distribución. Para los datos de variables
cualitativas, la proporción o porcentaje, la razón y las tasas son unas típicas
medidas de resumen. Para los datos de variables cuantitativas, sin embargo,
hay medidas que resumen su tendencia hacia un valor medio (medidas de
tendencia central) y otras que resumen su grado de variabilidad (medidas de
dispersión). Cada una proporciona información complementaria y útil para el
análisis epidemiológico.

Medidas de tendencia central


Las medidas de tendencia central de los datos son la moda, la mediana, y la
media o promedio.
La selección de las medidas depende del tipo de datos y propósitos. Los
valores de muchas variables biológicas, como la talla, se distribuyen de manera
simétrica. Otras variables, como la mortalidad y la tasa de ataque en una
epidemia, tienen distribución asimétrica. Para distribuciones normales (ejemplo
de distribución simétrica), la media, la mediana y la moda son idénticas. Para
distribuciones asimétricas, la mediana representa mejor al conjunto de datos,
aunque la media tiene mejores propiedades para el análisis estadístico y
pruebas de significancia. El Gráfico 3.6 ilustra estas distribuciones, usando la
serie observada de datos de la página 12 (listado de edades).

Para indicar que, por ejemplo, la rubéola tiene un período de incubación de 15


a 21 días (generalmente 18 días), fue necesario observar una gran cantidad de
casos, desde el primer contacto de una persona sana con un enfermo hasta la
aparición de los signos y síntomas y medir este período en días. La diferencia
entre el límite inferior (15 días) y el superior (21 días) se conoce como rango y
se considera, junto con la desviación estándar y la varianza, una medida de
dispersión de los datos, como se verá más adelante. El Cuadro 3.3 presenta el
período de incubación de la rubéola, en días, observado en 11 niños (a esta
forma de listar los datos se le denomina Serie Simple de datos).
Cuadro 3.3 Período de incubación de la rubéola observado en 11 niños.

El valor más frecuente, o sea el que más se repite, se denomina modo o moda.
En el ejemplo, observamos que lo más frecuente fueron períodos de incubación
de 16 días (4 veces). Este valor puede ser utilizado para representar el período
de incubación en este grupo; i.e., “el período de incubación de rubéola más
frecuente es de 16 días”.

Si ordenamos los valores en forma ascendente, como por ejemplo:

(1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11)
15 15 15 16 16 16 16 19 20 32 37

Observaremos que el sexto valor, o sea el que se encuentra en medio de la


serie, también es de 16 días. Este valor que ocupa la posición central de una
serie ascendente o descendente se denomina mediana y divide la serie en 50%
de las observaciones arriba y 50% abajo de ella. Esta medida también es útil y
puede ser empleada para representar la tendencia central del conjunto de
datos, sobre todo cuando no es conveniente usar la media debido a la
presencia de valores extremos o cuando la distribución es asimétrica, como en
una curva epidémica.

Si en vez de un número impar de observaciones tuviéramos un número par de


valores, como por ejemplo:

(1) (2) (3) (4) (5) (6) (7) (8) (9) (10)
15 15 15 16 17 18 19 20 32 37
Se puede constatar que en esta serie no hay un valor central. Para calcular la
mediana se suman los dos valores centrales (en el caso, 17 y 18) y se divide el
resultado entre dos:

La media o promedio aritmético ( )


también es muy útil y se obtiene sumando los valores de todas las
observaciones y dividiendo el resultado entre el número de observaciones.
En nuestro ejemplo, es la suma de todos los valores de los períodos de
incubación dividida entre el número de niños observados.

El promedio de 19,7 días es mayor que los valores del modo y de la mediana
ya que, como toma en cuenta los valores de todos los casos, se ve afectado
por la influencia de los casos con 32 y 37 días de incubación, que son valores
extremos.
En muchas ocasiones los datos están disponibles como distribución de
frecuencias, en cuyo caso la serie se presentaría de la manera siguiente:

El cálculo de la media de estos datos se haría así:

3(15)+4(16)+1(19)+1(20)+1(32)+1(37) = 45+64+19+20+32+37 = 217/11 = 19,7


días

Las medidas de tendencia central son de gran utilidad también para comparar
grupos de valores. Por ejemplo, de las personas que participaron en un paseo,
un grupo se enfermó después de la comida y otro grupo no presentó ningún
síntoma. Las edades de las personas en los dos grupos fueron las siguientes:

• Enfermos: 8, 12, 17, 7, 9, 11, 6, 3 y 13


• Sanos: 19, 33, 7, 26, 21, 36, 33 y 24
Los promedios aritméticos calculados fueron:

Por lo tanto la enfermedad afectó más a los niños que a los adultos. Los niños
eran más susceptibles o se expusieron más (consumieron mayor cantidad del
alimento contaminado).

Series agrupadas

Cuando se tienen muchos datos se requiere agruparlos, para ello se


construyen intervalos, que pueden contener igual o diferente número de
unidades, y a ellos se asignan los datos observados. Tenemos entonces una
serie de datos agrupados como en el Cuadro 3.4a.

Cuadro 3.4a Casos de suicidio. Lugar X, 1995-2000

Cuando nuestros datos sobre una variable continua están agrupados


(categorizados) también podemos calcular una media y mediana aproximadas.
Para estimar la media se debe construir una columna con los puntos medios (x)
de cada intervalo de clase de la variable y otra (fx) resultado de multiplicar el
valor de cada punto medio (x) por el número de casos (f) del intervalo
correspondiente (Cuadro 3.4b). La suma de estos productos (Σfx) dividida entre
la suma de casos (Σf) nos da una aceptable aproximación a la media.
Para calcular el punto medio (x) de cada intervalo de clase de la variable se
obtiene la media del intervalo, esto es se suman el límite inferior y superior del
intervalo y se divide entre dos, por ejemplo en el cuadro 3.4a el primer intervalo
es de 10 a 14 años (10+14.9/2 = 12.5), note que se utiliza 14.9 por ser el límite
superior real del intervalo. Los puntos medios de los siguientes intervalos de
clase se calculan de manera similar.

Cuadro 3.4b Casos de suicidio. Lugar X, 1995-2000

En este ejemplo, la aproximación a la media sería:

Mientras que si utilizáramos en el cálculo los 4.457 casos, uno a uno,


obtendríamos una media de 45,7 años de edad.
También podemos estimar la mediana a partir de datos agrupados en un
cuadro de frecuencias.
Para ello tendremos que construir una columna de “casos acumulados”, como
la que se presenta en el Cuadro 3.4b, que se obtiene a partir de la columna de
“casos”.
La primera celda corresponde a los casos de 10 a 14 años (37), la segunda se
obtiene sumando a esos 37 los casos de 15 a 19 años (176) y así
sucesivamente, hasta completar la última celda, cuyo valor tiene que coincidir
con el total de casos (4.457). Una vez construida la columna de frecuencias
acumuladas podemos aproximar la mediana de la edad mediante el siguiente
proceso de cálculo: primero, localizar el intervalo de clase que contiene la
posición de la mediana (PM); es decir:
En la columna de casos acumulados el caso N° 2.228 está situado en el
intervalo de edad de 40 a 49 años.

Después de obtener la posición de la mediana, se estima la mediana por


interpolación; es decir:

En donde:
• Li = Límite inferior del intervalo de la posición de la mediana.
• PM = Posición de la mediana.
• fIPM = Frecuencia acumulada del intervalo anterior a la posición de la
mediana.
• fPM = Frecuencia de la posición de la mediana.
• AIPM = Amplitud del intervalo de la posición de la mediana.

En donde:
• 2.228 = caso situado en el punto medio de la serie
• 1.565 = casos acumulados en el intervalo anterior al que contiene el caso
2.228
• 784 = casos del intervalo que contiene la mediana
• 10 = amplitud del intervalo

Si calculásemos la mediana de edad de esta serie a partir de los 4.457 casos


de suicidio individualmente, ésta sería 48 años de edad.

Medidas de dispersión

Para las variables cuantitativas continuas las medidas de dispersión más


usadas son básicamente tres: el rango o amplitud, la varianza y la desviación
estándar. Estas medidas representan la dispersión o variabilidad de los datos
continuos. El rango o amplitud es la diferencia entre el valor máximo y el valor
mínimo de una serie de datos. La varianza (s2), que mide la desviación
promedio de los valores individuales con respecto a la media, es el cociente
entre la suma de los cuadrados de la diferencia entre cada valor y el promedio,
y el número de valores observados (menos 1). La desviación estándar (DE)
es la raíz cuadrada de la varianza. La desviación estándar junto con la media
permite describir la distribución de la variable. Si la variable se distribuye
normalmente, entonces el 68% de sus valores estará dentro de ± 1 desviación
estándar de la media, 95% dentro de ± 2 y 99,9% dentro de ± 3 DE (Gráfico
3.7). (Es necesario notar que se trata de aproximaciones, ya que, por ejemplo,
el área bajo la curva que abarca 95% no es exactamente 2 desviaciones, sino
1.96).

Gráfico 3.7 Distribución normal

Veamos un ejemplo. Volviendo al Cuadro 3.3, el rango del período de


incubación de la rubéola, con base en las 11 observaciones, es de 22 días (i.e.,
37-15 días). La varianza sería:

Y la desviación estándar sería:

En resumen, los estimadores de los parámetros de la distribución del período


de incubación de la rubéola en los 11 niños del ejemplo serían:
Media ( ) = 19,7 días

Desviación estándar (DE) = 7,6 días

Cuando nuestros datos sobre una variable continua están agrupados también
podemos calcular la varianza y correspondiente desviación estándar
aproximadas. Para ello, al igual que para estimar la media en datos agrupados,
se parte de la columna con los puntos medios (x) de cada intervalo de clase.
Luego generamos tres columnas; una con las diferencias entre el punto medio
de cada intervalo de clase y la media de nuestros datos (x - ) llamada
desviación; otra con esta desviación elevada al cuadrado (x - )2 llamada
desviación cuadrática y, finalmente, otra columna (f (x - )2), resultado de
multiplicar la desviación cuadrática por el número de casos (f) del intervalo
correspondiente (Cuadro 3.4c). La suma de todos estos productos (Σf (x - )2)
dividida entre la suma de casos (Σf) nos da una razonable aproximación a la
varianza y extrayendo su raíz cuadrada obtendremos un estimado aceptable de
la desviación estándar de nuestros datos agrupados.

En este ejemplo, la aproximación a la varianza (s2) sería:

Y la
correspondiente desviación estándar (D.E., o “S”) para datos agrupados sería:
Mientras que si utilizáramos en el cálculo los 4.457 casos, uno a uno,
obtendríamos una desviación estándar de 15,3 años de edad.
Finalmente, otra forma útil de representar la dispersión de la distribución de una
serie de datos es usando cuartiles, que son los valores que ocupan una
determinada posición en función de la cantidad de partes iguales en que se ha
dividido una serie ordenada de datos. Si dividimos nuestra serie en 100 partes
iguales, hablamos de percentiles; si la dividimos en 10 partes iguales, deciles;
en cinco partes, quintiles; y en cuatro, cuartiles.
Como ejemplo, el Cuadro 3.5 presenta nueve percentiles de edad
correspondientes a la serie de casos de malaria del Cuadro 3.2: el percentil 25
de esta distribución es 33 años, que equivale a decir que 25% de los casos
tenían edad menor o igual a 33 años (y, en consecuencia, 75% de los casos
eran mayores de 33 años). Nótese que la mediana de la distribución
corresponde al percentil 50 (o cuartil 2).

Como hemos visto, el promedio y la desviación estándar definen la


distribución normal y, por ello, se les llaman sus parámetros. El promedio,
como medida resumen de tendencia central de los datos, es un indicador de la
precisión de las observaciones. Por su parte, la desviación estándar, como
medida resumen de la dispersión de los datos, es un indicador de la variación
de las observaciones. Estos dos conceptos, precisión y variación, son de gran
importancia para documentar la incertidumbre con la que observamos los
fenómenos en la población y constituyen los principios básicos del proceso de
inferencia estadística, cuyo uso nos permite derivar conclusiones acerca de
toda la población observando solamente una muestra de la misma. El Gráfico
3.8 ilustra esquemáticamente dos situaciones posibles y frecuentes con
relación a la distribución del peso al nacer en la población.

Una vez que se ha revisado la forma de presentación de los datos, las medidas
de tendencia central y de dispersión de los mismos, se continúa con el estudio
de las distintas distribuciones o modelos teóricos. El más conocido de ellos es
la llamada Curva Normal (Gráfico 3.7) que acabamos de introducir. Existen
otros modelos teóricos que tienen aplicación en Epidemiología y Salud Pública,
pero que van más allá de los objetivos de este taller. Mencionaremos que la

Distribución Normal queda definida por 4 elementos característicos:

1. Tiene un eje de simetría.


2. La media aritmética, la mediana y la moda coinciden en el mismo valor por el
cual pasa el eje de simetría.
3. La distancia entre el eje de simetría y los puntos de inflexión de la curva
equivalen a la desviación estándar.
4. Es asintótica al eje de las “x” (abscisas), es decir nunca lo cruza.

También podría gustarte