Introducción A La Bioestadística

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 105

C:\Documents and Settings\jvila\Mis documentos\JVila\class\CreuRoja\common\dossier\dossier_v06.

doc


Introduccin a la
Bioestadstica





Joan-S Vila Domnech











Introduccin a la bioestadstica J Vila

2
NDICE
NDICE........................................................................................................................... 2
INTRODUCCIN A LA ESTADSTICA..................................................................... 5
Conceptos estadsticos bsicos ................................................................................... 6
Poblacin y Muestra................................................................................................... 6
Concepto de sesgo ...................................................................................................... 6
Estadstica descriptiva y inferencia estadstica........................................................... 6
ESTADSTICA DESCRIPTIVA................................................................................... 7
Bases de datos............................................................................................................. 7
Proporcin "p" .......................................................................................................... 10
Porcentaje "%".......................................................................................................... 10
Error estndar de una proporcin ............................................................................. 11
Frecuencia, porcentaje de casilla/acumulado ........................................................... 12
La media ................................................................................................................... 12
La Mediana............................................................................................................... 13
La Moda.................................................................................................................... 14
La Varianza .............................................................................................................. 14
La Desviacin Estndar............................................................................................ 14
Los Percentiles y Cuartiles ....................................................................................... 15
Nota sobre los percentiles..................................................................................... 17
Amplitud intercuartil ................................................................................................ 18
Amplitud................................................................................................................... 18
El coeficiente de variacin ....................................................................................... 18
Error estndar de una media. .................................................................................... 19
Estandarizacin de una variable cuantitativa ........................................................... 20
EJEMPLOS DE REPRESENTACIN GRFICA..................................................... 21
Los grficos de cajas y bigotes................................................................................. 21
Otros grficos ........................................................................................................... 23
LA DISTRIBUCIN NORMAL................................................................................. 27
Prueba de normalidad de Kolmogorov-Smirnov...................................................... 29
INTERVALO DE CONFIANZA DE UNA PROPORCION ...................................... 31
Estimacin por intervalo de una proporcin poblacional......................................... 35
TAMAO DE MUESTRA NECESARIO PARA ESTIMAR UNA PROPORCIN
POBLACIONAL.......................................................................................................... 38
Frmula para el clculo del tamao de muestra ....................................................... 39
Correccin por finitud de poblacin......................................................................... 40
Introduccin a la bioestadstica J Vila

3
INTERVALO DE CONFIANZA DE UNA MEDIA................................................... 40
Estimacin por intervalo de una media poblacional................................................. 43
TAMAO DE MUESTRA NECESARIO PARA ESTIMAR UNA MEDIA
POBLACIONAL.......................................................................................................... 44
PRUEBAS DE HIPTESIS......................................................................................... 45
PRUEBAS DE HIPTESIS CON DOS VARIABLES CUALITATIVAS................. 46
Muestras Independientes: Prueba de Ji al cuadrado................................................. 46
La prueba de Ji al cuadrado con la correccin de Yates........................................... 48
La prueba exacta de Fisher ....................................................................................... 50
Intervalo de confianza de la diferencia entre proporciones:..................................... 51
Estimacin del tamao de muestra necesario para hallar estadsticamente
significativa una diferencia entre dos proporciones:............................................................ 52
RELACIN ENTRE UNA VARIABLE CUALITATIVA DICOTMICA Y UNA
CUANTITATIVA........................................................................................................ 54
La prueba 't' de Student para datos independientes .................................................. 54
Intervalo de confianza de la diferencia entre dos medias......................................... 56
Estimacin del tamao de muestra necesario para hallar estadsticamente
significativa una diferencia entre dos medias: ..................................................................... 57
La prueba no paramtrica 'U' de Mann-Whitney...................................................... 57
RELACIN ENTRE UNA VARIABLE CUANTITATIVA MEDIDA EN DOS
MOMENTOS DIFERENTES...................................................................................... 60
La prueba t de Student para datos apareados......................................................... 60
Intervalo de confianza de las diferencias.................................................................. 61
PRUEBAS DE HIPTESIS CON UNA VARIABLES CUALITATIVAS MEDIDA
EN DOS MOMENTOS DISTINTOS .......................................................................... 62
Prueba de Mc Nemar ................................................................................................ 62
REGRESIN Y CORRELACIN.............................................................................. 65
Diagrama de dispersin ............................................................................................ 65
La Regresin............................................................................................................. 67
La Correlacin.......................................................................................................... 69
MEDIDAS DE ASOCIACIN EN LOS ESTUDIOS EPIDEMIOLGICOS ........... 71
El Riesgo Relativo (RR)........................................................................................... 71
Intervalo de confianza de un RR.............................................................................. 72
La Odds Ratio (OR).................................................................................................. 73
Intervalo de confianza de un OR.............................................................................. 74
Confusin e interaccin............................................................................................ 74
Confusin ................................................................................................................. 74
Interaccin ................................................................................................................ 77
Introduccin a la bioestadstica J Vila

4
VALORACIN DE PRUEBAS DIAGNSTICAS.................................................... 78
Prevalencia ............................................................................................................... 78
Sensibilidad .............................................................................................................. 78
Especificidad ............................................................................................................ 78
Falsos positivos ........................................................................................................ 78
Falsos negativos........................................................................................................ 78
Valor predictivo positivo.......................................................................................... 78
Valor predictivo negativo......................................................................................... 78
NMERO DE PACIENTES QUE NECESITAMOS TRATAR NNT ....................... 81
ALFA DE CRONBACH.............................................................................................. 84
NDICE KAPPA SIMPLE........................................................................................... 86
Anexo I (tabla de percentiles)................................................................................... 88
Anexo II (tabla z)................................................................................................... 89
Anexo III (tabla t) .................................................................................................. 90
Anexo IV (tabla X
2
).................................................................................................. 91
EJERCICIOS................................................................................................................ 92
TABLAS EJEMPLOS................................................................................................ 104
Introduccin a la bioestadstica J Vila

5
INTRODUCCIN A LA ESTADSTICA

La estadstica est considerada como una ciencia matemtica, basada en la observacin de
fenmenos que presentan una regularidad. Incluso antes de su existencia como tal, la
estadstica siempre ha sido una ciencia aplicada de una manera inconsciente en la toma de
cualquier tipo de decisin diaria basada en la experiencia previa del propio observador.
Es a partir del siglo XVIII cuando en Francia, a raz de la importancia social que adquieren
los juegos de azar, nace la Teora de la Probabilidad . Sus principales iniciadores fueron
Pascal y Fermat.
El concepto central era la siguiente definicin de probabilidad:
La probabilidad de un suceso o resultado es el cociente del nmero de casos
favorables, partido por el nmero de casos posibles, siempre que todos los
casos sean igualmente plausibles.
Sin embargo el trmino plausible es sinnimo de probable, por lo que sta definicin no deja
de ser un crculo vicioso que puede dar lugar a paradojas.
Fueron primero J. Bernuilli (1712) y posteriormente E. Borel (1900) quienes con sus leyes
sobre los grandes nmeros establecen la base para la primera Ley Emprica del Azar
En una serie larga de tiradas (o realizaciones de una experiencia), la
frecuencia relativa observada de un suceso se aproxima a su probabilidad.
Al margen de todas estas ideas de probabilidad, durante los siglos XVIII y XIX se hizo un uso
sistemtico por parte de economistas, demgrafos, compaas de seguros, etc., de tcnicas de
recuento, ordenacin. clculo de ndices, etc., sobre poblaciones humanas, tcnicas que
actualmente forman parte de lo que en general se denomina Estadstica Descriptiva.
Pronto se estableci la idea de la regularidad estadstica:
En poblaciones grandes, ciertos ndices tienden a mantenerse prcticamente
constantes, con pequeas fluctuaciones alrededor de un valor determinado
El paso decisivo se constituy en el momento en que se reconoci el paralelismo entre la
regularidad en los juegos de azar y la regularidad estadstica, basndose en la
equivalencia entre una serie larga de tiradas y una poblacin muy grande.
Esta equivalencia fue la base para la Estadstica matemtica, con la cual se pretenda
explicar la regularidad estadstica basndose en ideas de probabilidad.
La estadstica es en realidad una herramienta con la que un observador recoge sus datos, los
organiza, resume y los analiza de una manera objetiva para aceptar o rehusar una serie de
hiptesis planteadas al inicio del estudio.

Introduccin a la bioestadstica J Vila

6
Conceptos estadsticos bsicos
Poblacin y Muestra

Denominamos Poblacin al conjunto de todos los individuos que tienen en comn una
determinada caracterstica que deseamos medir o estudiar.
Denominamos Individuo a cada uno de los elementos que componen la citada poblacin.
Las poblaciones pueden ser finitas o infinitas, pero en cualquier caso suelen estar constituidas
por una gran cantidad de individuos. Por ello, resulta prcticamente imposible realizar
estudios sobre la totalidad de una poblacin, debindose realizar sobre un subconjunto al que
denominamos muestra. Para poder extrapolar los resultados observados en una muestra, sta
debe cumplir ciertos requisitos para ser representativa de la poblacin.

Concepto de sesgo

Cuando las caractersticas de la muestra son diferentes de la poblacin objeto del estudio se
dice que la muestra est sesgada.
Por ejemplo suponga que quiere realizarse un estudio sobre las caractersticas de los
estudiantes que realizan estudios universitarios en una ciudad. Como muestra seleccionan al
azar 100 individuos de una escuela de enfermera. Si en la ciudad hay otras universidades y/o
se imparten otras materias y stas no se tienen presentes para la seleccin de la muestra,
seguramente se llegaran a conclusiones equivocadas sobre las caractersticas de la poblacin
(una alta proporcin de mujeres, un alto grado de altruismo, etc.). Esta muestra est sesgada
puesto que la poblacin origen de la muestra (los estudiantes de enfermera de la ciudad) es
diferente la poblacin objeto del estudio (los estudiantes de todas las universidades de esta
ciudad).

Estadstica descriptiva y inferencia estadstica
La estadstica descriptiva es la parte de la estadstica que nos describe las caractersticas de
una muestra,
Organizando la informacin y presentndola en forma de tablas y
representaciones grficas
Analizando los datos a travs de la obtencin de valores representativos de
la muestra, como son las medidas de tendencia central y de dispersin
La parte de la estadstica que pretende sacar conclusiones a partir de una muestra estudiada y
extrapolarlas a la poblacin objeto del estudio, se denomina estadstica inferencial o
inductiva. Una condicin para que las conclusiones puedan ser extrapoladas, es que la
muestra debe ser representativa de la poblacin.
Introduccin a la bioestadstica J Vila

7
ESTADSTICA DESCRIPTIVA

Se entiende por "variablecomo cada una de las caractersticas que queremos estudiar en una
muestra de individuos.
Las variables pueden clasificarse en
cualitativas (categricas) Sus valores representan cualidades o atributos
nominales: no representan ningn orden entre ellos (sexo, color de los ojos,
etc.). Un caso particular son la variables cualitativas dicotmicas que slo
presentan dos categoras (p.e. sexo)
ordinales: los valores pueden ser ordenados de menor a mayor (nivel de
gravedad I>II>III>IV)
cuantitativas (continuas o discretas).
continuas: Entre dos valores existen infinidad de valores intermedios
(temperatura corporal
discretas: No hay valores intermedios entre dos valores consecutivos (nmero
de hijos)
Para resumir la informacin de una variable se utilizan lo que denominamos parmetros
estadsticos. Los ms comunes son:
Variables cualitativas
Proporcin, Porcentaje
Error estndar de una proporcin
Frecuencia, porcentaje de casilla/acumulado
Variables cuantitativas
Medidas de tendencia central
Media
Mediana
Moda
Medidas de dispersin
Varianza
Desviacin Estndar
Percentiles y cuartiles
Amplitud intercuartil
Amplitud (rango)
Coeficiente de variacin
Error estndar de una media
Estandarizacin de una variable cuantitativa

Bases de datos

Se entiende por base de datos al conjunto de toda informacin (de datos) que se dispone de
los individuos estudiados.
Su estructura se compone de columnas o campos, que son variables (edad, sexo, etc. ) y las
filas (registros) o individuos.
Introduccin a la bioestadstica J Vila

8


En la Tabla 1se muestra un ejemplo de base de datos.

Tabla 1: Ejemplo de base de datos
Colesterol
N id Sexo Tratamiento
asignado
Tipo de
reaccin
N ataques
dolorosos
Colesterol
Previo
Post-
tratamiento

1 H A leve 3 180 180
2 H A moderada 4 160 159
3 M B grave 5 221 200
4 M A leve 3 140 135
5 H B grave 4 220 210
6 H B moderada 5 325 250
7 M A moderada 2 221 190
.
.
.
.


n
El individuo 5 (5 registro), tiene el valor 220 en la variable (campo) colesterol previo.

Las caractersticas de cada una de las variables (campos) son:
Sexo: cualitativa dicotmica
Tratamiento asignado: cualitativa
Tipo de reaccin: cualitativa ordinal
N ataques dolorosos: cuantitativa discreta
Colesterol previo/post-tratamiento: cuantitativa continua. El colesterol
previo y post-tratamiento es medir lo mismo al mismo paciente en momentos
diferentes, por lo tanto son datos "apareados"


Introduccin a la bioestadstica J Vila

9

A continuacin se presentan en la Tabla 2 unos datos de ejemplo que servirn para explicar
algunos de los parmetros expuestos.

Supngase que a 12 sujetos se les ha medido su peso y su talla con el siguiente resultado:
Tabla 2 : resultado hipottico de 12 valores de peso y talla
N individuo Peso Talla

1 80 1,80
2 56 1,50
3 76 1,76
4 64 1,69
5 76 1,68
6 89 1,76
7 86 1,79
8 76 1,66
9 55 1,68
10 66 1,69
11 68 1,69
12 69 1,67

Las dos variables peso y talla son cuantitativas continuas, ya que pueden tomar infinidad de
valores decimales entre dos valores consecutivos. Sin embargo pueden manipularse y
convertirlas en cualitativas (o categricas).
As por ejemplo si se agrupa la variable peso en 3 categoras
categora 1: < 65 kg.
categora 2: entre 65 y 75 Kg.
categora 3: > 75 Kg.
Esta nueva variable ser una variable cualitativa ordinal, ya que en este caso a ms categora
ms peso

Los individuos 2, 4 y 9 pertenecen a la categora 1, los individuos 10,11 y 12 a la categora 2,
y el resto de los individuos a la categora 3.

N individuo Peso Categora de peso Talla
1 80 3 1,80
2 56 1 1,50
3 76 3 1,76
4 64 1 1,69
5 76 3 1,68
6 89 3 1,76
7 86 3 1,79
8 76 3 1,66
9 55 1 1,68
10 66 2 1,69
11 68 2 1,69
12 69 2 1,67

Introduccin a la bioestadstica J Vila

10
Proporcin "p"

La proporcin se obtiene al dividir en nmero de sujetos que presenta una caracterstica
concreta por el nmero total de sujetos.
La proporcin de sujetos que pertenecen a la categora 2 (peso entre 65 y 75 Kg.):
Una proporcin puede tomar valores entre 0 y 1.


El valor de una proporcin debe interpretarse como el nmero de sujetos que presentan una
caracterstica por cada "uno" del total de los sujetos (tanto por uno).

Porcentaje "%"

Es el nmero de sujetos que presentan una caracterstica por cada 100 del total de los sujetos.



Basta con multiplicar la proporcin por 100.


En el ejemplo anterior:

Cuando el nmero de sujetos que presentan una caracterstica es muy pequeo en relacin con
el total de sujetos, pueden ofrecerse los resultados en tanto por 1.000, 10.000, 100.000 etc.
Para su clculo bastar con mover la coma hacia la derecha tantos lugares cmo ceros tenga la
cifra con la que queramos establecer la relacin. Veamos como aplicarlo en el porcentaje
25%:

proporcin
tanto * 1

Tanto * 10
%
tanto * 100

tanto * 1.000

tanto * 10.000

tanto * 100.000
0 2 5 0 0 0

n
c
n
p =
25 , 0
12
3
p = =
100 *
n
c
n
100 * p % = =
% 25 100 * 0,25 % = =
Introduccin a la bioestadstica J Vila

11
Error estndar de una proporcin

Es una estimacin de la variabilidad que tendra una variable resultante de calcular la
proporcin "p" a todas las muestras posibles de "n" individuos que se pueden realizar de una
poblacin con una proporcin "P" de personas que presentan una caracterstica.

Si se conociera la proporcin "P" de la poblacin su frmula es:


Donde Q = (1-P)

Como que a menudo no se conoce la proporcin "P" de la poblacin, el EE
P
se realiza a partir
de los valores observados en la muestra. As


Donde q = (1-p)

As el EE
P
de la proporcin de sujetos que pertenecen a la categora 2 (peso entre 65 y 75
Kg.):


El EE
P
se utilizar sobretodo para el clculo de intervalos de confianza. Cmo se ver ms
adelante cuanto menor sea el error ms precisa ser la estimacin que se realiza en la
poblacin. Por lo tanto el error estndar debe considerarse cmo una medida de precisin
ms que de dispersin. Y no debe confundirse con el error estndar de una media y mucho
menos con la desviacin estndar que se utiliza para variables cuantitativas.
n
P*Q
EE
p
=
n
q * p
EE
p
=
125 , 0
12
0,75 * 0,25
EE
p
= =
Introduccin a la bioestadstica J Vila

12
Frecuencia, porcentaje de casilla/acumulado

Se utiliza tanto para variables cualitativas como para cuantitativas.
Frecuencia se refiere el nmero de veces que ocurre un determinado valor.

Porcentaje de casilla resulta de expresar esta frecuencia en porcentaje. Se obtiene al realizar l
siguiente operacin:


Porcentaje acumulado resulta de ir acumulando los porcentajes hasta llegar al 100 %.

Para los datos del peso de la Tabla 2:

Valor Frecuencia % casilla % acumulado

59 2 16,67 16,67
60-69 4 33,33 50,00
70-79 3 25,00 75,00
80-89 3 25,00 100,00



La media

La media o media aritmtica, es el valor que representa el centro de gravedad de una variable.
Se calcula sumando todos los valores de una variable y dividiendo el resultado por el nmero
de sujetos.


Para la variable peso:



La media es el valor de tendencia central ms utilizado para describir variables cuantitativas.
Resulta un mal estimador cuando la variable no sigue una distribucin "normal" (ver captulo
correspondiente) p.e. supngase que a 18 individuos se les ha medido en tiempo en horas
hasta el inicio de dolor tras anestesia:
100 x
n
valor o determinad un ocurre que con frecuencia
casilla % =
n
x
X
n
1 i
i
=
=
75 , 71
12
69 68 .... 64 76 56 80
X =
+ + + + + +
=
Introduccin a la bioestadstica J Vila

13

*
*
* *
* *
* *
* *
* *
* * * * * *



3 4 5 6 7 8 9 10


Tampoco debe (y de hecho no puede) utilizarse cuando la variable tiene intervalos abiertos,
p.e. supngase que los datos de Alanina Aminotransferrasa (GPT) de 10 pacientes son los
siguientes:
<40, 45, 43, 126, 184, <40, <40, <40, 44, 50
En este caso no puede calcularse la media ya se desconoce el valor exacto de <40 (39?, 16?,
etc.).



La Mediana

Es el valor que representa al punto central de una variable despus de ordenarla.
Si es impar el nmero de sujetos la mediana es el valor central de la variable ordenada, si es
par la mediana es la media de los dos valores centrales.
En la variable peso:

Peso

55
56
64
66
68
69
76
76
76
80
86
89







Describe mejor la variable cuando no se cumplen las condiciones para utilizar la media.

5 , 72
2
76 69
=

+

=
Md
Introduccin a la bioestadstica J Vila

14
La Moda

Es el valor que ms se repite en una variable.
En el ejemplo de la variable peso la moda es 76.
La variable puede presentar ms de una moda, en este caso ser bimodal, trimodal, etc.
Es un parmetro de tendencia central poco utilizado en la literatura mdica para resumir la
informacin.



La Varianza

Es una medida de dispersin de una variable cuantitativa.
Su valor es la media de las diferencias al cuadrado entre cada valor y la media.
Se utiliza el signo
2
cuando se refiere a la varianza de una variable obtenida en una
poblacin y s
2
cuando se trata de una muestra.

2
y s
2
se diferencian en que para el clculo de la primera se utiliza 'n' y 'n-1' para el clculo
de la segunda.

En el ejemplo de la variable peso, aceptando que se trata de una "muestra":




La Desviacin Estndar

Conocida tambin como desviacin tpica o tipificada.
Se representa con el smbolo '' cuando se refiere a la poblacin o con el smbolo 's' o ms
conocido cmo 'DE' cuando se refiere a una muestra.
Es la raz cuadrada de la varianza:


( )
n
X x
2
1
i
2

=
n
i

( )
1 - n
X x
2
1
i
2

=
n
i
s
( ) ( ) ( ) ( )
11 , 115
1 12
75 , 71 69 75 , 71 68 .... 75 , 71 56 75 , 71 80
. 2 . 2 . 2 . 2
2
=

+ + + +
= s
2
=
2
s s DE = =
Introduccin a la bioestadstica J Vila

15
En el ejemplo de la variable peso:


Cuando una variable tiene una distribucin 'normal' aproximadamente el 95% de los valores
se hayan comprendidos entre .
La desviacin estndar es la medida de dispersin que debera acompaar a la media.


Los Percentiles y Cuartiles

El valor n-til de una variable cuantitativa es aquel valor de la variable en que el n*% de los
sujetos presentan valores iguales o menores al valor del sujeto del n-til correspondiente, y el
(100 - n*%) valores iguales o superiores.
La media representa el percentil 50 ya que el 50% de los sujetos presenta valores iguales o
menores a la mediana, y el (100-50 = 50%) de los sujetos presenta valores iguales o
superiores.
El clculo de los percentiles no est exento de cierta complejidad.
Supngase que se desea saber el percentil 30 de la variable peso del ejemplo:
En primer lugar los valores deben ordenarse de menor a mayor y asignar rangos a cada uno
de ellos:

55 56 64 66 68 69 76 76 76 80 86 89
(1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11) (12)

A continuacin debe calcularse el valor "c" que corresponde al n-til que se desea calcular, en
este caso el percentil 30:


El valor (3,9) nos indica que el percentil 30 de la variable peso se encontrar entre el valor 3
y 4 ( ya que el valor 3,9 se encuentra entre el nmero 3 y el 4) de los datos ordenados. A
continuacin habr que realizar una interpolacin:

73 , 10 11 , 115 = = = s DE
( ) ( )
9 , 3
100
1 12 30
100
1
=
+
=
+
=
n k
c
Introduccin a la bioestadstica J Vila

16
3 4
64 66
3,9
65,8


Introduccin a la bioestadstica J Vila

17
Percentil 30
P
30
= 64 + (66-64) * (3,9-3)= 64 + 2 * 0,9 = 65,8
El 30% de los sujetos pesan 65,8 Kg. o menos

El percentil:
25 se corresponde al cuartil 1 (64,5)
50 se corresponde al cuartil 2 y a la mediana (72,5)
75 se corresponde al cuartil 3 (79,0)
Nota sobre los percentiles
El EXCEL calcula los percentiles de forma diferente a como lo formulan la mayora de libros de estadstica y lo
hacen la mayora de paquetes estadsticos (entre ellos el SPSS)
1
.

Se trata de calcular un valor (c) que nos indicar entre que par de individuos se encuentra el valor de percentil.
En la forma tradicional,
100
1) (n * k
c
+
= , mientras que para el EXCEL
100
1) (n * k
1 c

+ = ,
donde k es el percentil (p.e. 25) y n el tamao de muestra.

Una vez obtenido c hay que descomponerlo en la parte entera (e y la parte decimal d) y aplicar la frmula:
( )
d * ) x (x x P
e 1) (e e k
+ =
+

dnde P
(k)
es el resultado de calcular el percentil k

Supongamos que se quiere calcular el percentil 25 (P
(k)
= P25) de los siguientes valores, ya ordenados, de una
variable cuantitativa:
X
1
32
X
2
36
X
3
44
X
4
48
X
5
56
X
6
65
X
7
82
X
8
96
X
9
110
X
10
115
Para el clculo de c:
.- Segn la frmula tradicional: 75 , 2
100
1) (10 * 25
c =
+
= , por lo tanto e = 2 y d = 0,75
.- Segn el EXCEL 25 , 3
100
1) (10 * 25
1 c =

+ = , por lo tanto e = 3 y d = 0,25



Para el clculo de P25:

.- Segn la frmula tradicional: 42 75 , 0 * ) 36 44 ( 36 25 P = + =
.- Segn el EXCEL: 45 25 , 0 * ) 44 48 ( 44 25 P = + =

Evidentemente en tamaos de muestra muy grandes, realizar los clculos con uno u otro mtodo lleva a
diferencias insignificantes.

Otras formas de calcular los percentiles se encuentra en:
http://www.jstor.org/view/00031305/di020632/02p0099f/0


1
http://www.itl.nist.gov/div898/handbook/prc/section2/prc262.htm
Introduccin a la bioestadstica J Vila

18
Amplitud intercuartil

Entre los valores de los cuartiles 1 y 3 se encuentran el 50% central de los valores de la
variable cuantitativa.
La amplitud intercuartil, esto es: (cuartil 3 - cuartil 1) es la medida de dispersin que debera
acompaar a la mediana.
Para la variable Peso:
Amplitud Interquartil = 79,0 - 64,5 = 14,5



Amplitud

Resulta de realizar la resta entre el valor mximo y el valor mnimo.
En el ejemplo:
Amplitud = 89-55 = 34


El coeficiente de variacin

Se trata de una medida de la dispersin relativizada a la dimensin de la variable.
No tiene unidades de medida por lo que su valor se puede comparar con el de otras variables
que midan cosas totalmente distintas.
Supngase que se ha medido el peso y talla a nias de dos aos y a nias de 12 aos con el
siguiente resultado:

Peso en Kg. Talla en cm.

2 aos 12,4 (2,05) 87,0 (4,1)
12 aos 60,8 (6,69) 147,3 (6,9)

Ya que la desviacin estndar es una medida de variabilidad, la impresin es que las nias de
12 aos presentan ms variabilidad que las de 2 aos, y que en la talla hay ms variabilidad
que en el peso.
Si se relativiza esta medida de variabilidad respecto a la media, obtenemos el coeficiente de
variacin (CV).
En el ejemplo del peso en nias de 2 aos:

X
DE
CV =
16,63% 0,1663
12,4Kgr.
2,05Kgr.
CV = =
Introduccin a la bioestadstica J Vila

19

Los dems CV son:
peso en nias 12 aos = 0,11 = 11 %
talla en nias 2 aos = 0,471 = 4,71 %
talla en nias 12 aos = 0,468 = 4,68 %

Contrariamente a la conclusin obtenida observado tan solo la desviacin estndar, la variable
peso en nias de dos aos es la que presenta mayor variabilidad.
A menudo en CV se expresa en porcentaje


Error estndar de una media.

No debe confundirse con la desviacin estndar.
Es una estimacin de la variacin que tendra una variable compuesta de todas las muestras
posibles de tamao "n", media Xy desviacin estndar .
Se utiliza para calcular intervalos de confianza.
Como que habitualmente no se dispone de los datos poblacionales, su estimacin se realiza a
partir de los datos obtenidos con la muestra. La frmula es:

n
DE
EE
X
=


Para los datos de la variable peso:


097 , 3
12
10,73
EE
X
= =


Introduccin a la bioestadstica J Vila

20
Estandarizacin de una variable cuantitativa

Suponga que un pediatra de neonatologa atiende 5 nacimientos en una noche. Los pesos de
los cros en Kilogramos y Libras se muestran en la Tabla 3.


Tabla 3 :Peso en Kilogramos y en Libras y sus respectivos valores estandarizados de 5 recin
nacidos

Nmero de PESO EN:
recin nacido Kilogramos: unidades Libras: unidades
Originales Estandarizadas Originales Estandarizadas

1 3,050 + 0,668 6,725 + 0,668
2 3,020 + 0,297 6,659 + 0,297
3 2,950 - 0,569 6,505 - 0,569
4 3,080 + 1,039 6,791 + 1,039
5 2,880 - 1,435 6,350 - 1,435

X = 2,996 0 6,606 0
DE = 0,081 1 0,178 1



Un valor estandarizado se obtiene restando al valor original la Xy dividiendo el resultado por
la DE.
As, 0,668 es el resultado de {(3,050-2,996) / 0,081}.
Si los alumbramientos hubieran ocurrido en el Reino Unido los pesos se hubieran registrado
en libras en lugar de kilogramos.
Para ello simplemente hay que multiplicar los kilogramos por el factor 2,205.
Obsrvese que aunque los valores originales difieran entre kilogramos y libras, sus
respectivos valores estandarizados son idnticos. Es ms, las Xy DE son diferentes en los
originales, mientras que en los estandarizados son idnticos.
Adems, y esta es una de sus propiedades ms importantes, la Xde una variable
estandarizada es siempre 0 y su DE siempre 1.
Introduccin a la bioestadstica J Vila

21
EJEMPLOS DE REPRESENTACIN GRFICA
Los grficos de cajas y bigotes

Los grficos de cajas y bigotes, del ingls box-and-whisker plot o ms conocidos como
boxplot, son una forma excelente de representar los valores de una variable cuantitativa.

Estos grficos nos informan de la mediana, los cuartiles 1 y 3, los valores extremos y de la
dispersin que tienen los datos.

Ejemplo, con los siguientes datos:
43
119
122
125
133
135
141
141
167
171
190
191
198
199
207
208
209
210
245
334
345


Se ha generado el grfico:
5
0
1
0
0
1
5
0
2
0
0
2
5
0
3
0
0
3
5
0
Ejemplo Boxplot

La mediana es la lnea de mayor grosor (190), la caja indica los cuartiles 1 y 3 (134 y 208,4
respectivamente). Se observan 2 valores superiores exageradamente extremos (334 y 345)
y ningn valor exageradamente extremo entre los inferiores.
Introduccin a la bioestadstica J Vila

22

Los bigotes se extienden hasta los valores extremos restantes una vez descartados aquellos
valores exageradamente extremos. Se considera que un valor es exageradamente extremo
si se halla ms legos que aadir al cuartil 1,5 veces la amplitud intercuartil.

En el ejemplo anterior:
Mediana = 190
Cuartil 1 = 134
Cuartil 3 = 208,5
AIQ = (208,5-134) = 74,5
1,5*AIQ = 1,5 * 74,5 = 111,75
Limite inferior para considerarlo exageradamente extremo = 134 -111,75 = 22,5. No
hay ningn valor inferior a 22,5, por lo que el grfico no se muestra ningn valor
Limite superior para considerarlo exageradamente extremo = 208,5 +111,75 =
320,25. Hay dos valores por encima de 320,25. Concretamente el 334 y el 345
En los valores superiores, una vez descartados los valores exageradamente extremos
(334 y 345) el mximo es 245. Hasta all se extiende el bigote superior
En los valores mnimos no hay ningn valor exageradamente extremo por lo que el
bigote inferior se extiende hasta el valor mnimo (43).

El siguiente grfico describe el nmero de orqudeas segn el insecticida utilizado.

A B C D E F
0
5
1
0
1
5
2
0
2
5
N de orqudeas segn el insecticida utilizado

Introduccin a la bioestadstica J Vila

23

Otros grficos
Varias proporciones (o medias)
y sus IC
- barras de error -
0
10
20
30
40
50
60
70
80
90
100
Grupo 1 Grupo 2 Grupo 3 Grupo 4


Proporciones de un solo grupo
- sectores / pastel -
Introduccin a la bioestadstica J Vila

24

Medias a lo largo del tiempo
- lneas de tendencia -
0
10
20
30
40
50
60
70
80
90
100
Dia 0 15 das 30 das 45 das 60 das


Proporciones en grupos diferentes
- diagrama de barras -
0
10
20
30
40
50
60
70
80
90
100
< 45 a. 45 65 a. > 65 a.
Introduccin a la bioestadstica J Vila

25



Frecuencias agrupadas en intervalos
- histograma y polig. frecuencias -
0
5
10
15
20
25
30
35
40
45
50
0-5 5-10 10-15 15-20 20-25 25-30 30-35 35-40 40-45 45-50 50-55 55-60
Correlacin y regresin
- dispersin con lnea de tendencia -
0
10
20
30
40
50
60
1989 1990 1991 1992 1993 1994 1995 1996
Introduccin a la bioestadstica J Vila

26








Magnificando las diferencias
- origen lejos del cero -
89
90
91
92
93
Tto. A Tto. B Tto. C Tto. D
Magnificando las diferencias
- presentacin correcta -
0
20
40
60
80
100
Tto. A Tto. B Tto. C Tto. D
Introduccin a la bioestadstica J Vila

27
LA DISTRIBUCIN NORMAL

Las condiciones de aplicacin de muchas de las pruebas estadsticas ms utilizadas requieren
que se pueda asumir que los datos provienen de una poblacin normal.
Una variable presenta una distribucin normal, cuando la frecuencia relativa con la que
sucede cada valor se puede obtener a partir de la frmula descrita por Carl Gauss (1777-
1855):

=
2
2
i
2(DE)
) X - (x
i
exp
2 DE
1
) x (

donde:
(x
i
) = frecuencia relativa de cada valor (x
i
)
= nmero pi
DE = desviacin estndar
X= media
En la figura 1 se presentan los datos agrupados en intervalos de la frecuencia del nmero de
espermatozoides observado en el eyaculado de 2.717 individuos sanos.
En la Figura 2 se muestran estos mismos valores, pero en escala logartmica (base 10).
Sobreimpresa se ha dibujado la distribucin normal, substituyendo en la frmula anterior la
Xy la DE por sus respectivos valores y multiplicando el resultado por el nmero de sujetos.
Obsrvese que la Figura 1 presenta una distribucin bastante alejada de la normal, mientras
que los datos de la Figura 2 se adaptan mucho a esta distribucin.
Una prueba de hiptesis, por ejemplo la descrita por Kolmogorov-Smirnov (K-S) nos
mostrara que los datos de la Figura 1 presentan diferencias estadsticamente significativas
respecto a la hiptesis de que la poblacin de que gener estos datos presentaba una
distribucin normal (p < 0,001).
Los datos de la Figura 2 no alcanzan el nivel de significacin estadstica (p =0,083) para
rechazar esta hiptesis.
Debera tenerse presente que cuando el tamao de la muestra es tan grande, utilizar pruebas
de significacin (como la de K-S) para asumir la hiptesis de normalidad puede conducirnos
fcilmente a su rechazo, sin que otras pruebas inferenciales (t de Student, anlisis de la
varianza, etc.) en las que se utiliza esta variable se vean afectadas por su significativa falta
de normalidad.
En estos casos es mejor una inspeccin visual grfica de los datos, como la presentada en las
dos figuras, que aunque es subjetiva, debera ser la que gue nuestra decisin de utilizar o no
la variable en pruebas de estadstica inferencial que requieran la asuncin de normalidad.
Introduccin a la bioestadstica J Vila

28
Figura 1: Ejemplo en el que se rechaza la hiptesis de que esta muestra se ha obtenido
de una poblacin con distribucin normal. (p< 0,001)

Figura 2 : Ejemplo en el que no se rechaza la hiptesis de que esta muestra se ha
obtenido de una poblacin con distribucin normal. (p< 0,083)

Introduccin a la bioestadstica J Vila

29
Prueba de normalidad de Kolmogorov-Smirnov

Obsrvense los datos sobre el peso de la Tabla 2:
Se trata de establecer la hiptesis (hiptesis nula) de que:
"Esta muestra de 12 individuos proviene de una poblacin que se distribuye de forma normal".
Para ello se calcula la probabilidad de que si la poblacin se distribuya normalmente, al elegir
una muestra al azar de 12 individuos se observe una distribucin como muestra la figura 3.
S su probabilidad es muy pequea (por tradicin 0,05) se rechazar la hiptesis y concluir
que esta muestra no proviene de una poblacin con distribucin normal.
S la probabilidad es grande (> 0,05), la conclusin ser de que con los datos de que se dispone,
no se ha alcanzado el nivel de significacin estadstica para rechazar la hiptesis de que la
poblacin que gener esta muestra presenta una distribucin normal.

Figura 3: Histograma con curva normal de los datos de la Tabla 1

La prueba propuesta por Kolmogorov-Smirnov (1947) consiste en calcular las diferencias entre
la proporcin acumulada observada en los datos y la esperada si estos se distribuyeran de forma
normal.
Para ello se ordenan los "n" valores y se realizan los clculos de la Tabla 4.

Introduccin a la bioestadstica J Vila

30
Tabla 4 : Clculos realizados para obtener el estadgrafo de K-S
Valor
observado
x
i

Valor
estandarizado
xz
i

Proporcin
acumulada
p
i

Area
acumulada

i

Si xz
i
(+)=(1-)
Si xz
i
(-)=
Diferencia

p
i
-
i

Diferencia

p
(i-1)
-
i-


0,000
55 -1,56 0,083 0,059 0,024 -0,059
56 -1,47 0,167 0,071 0,096 0,012
64 -0,72 0,250 0,235 0,015 -0,068
66 -0,54 0,333 0,296 0,037 -0,046
68 -0,35 0,417 0,363 0,053 -0,030
69 -0,26 0,500 0,399 0,101 0,018
76 0,40 0,75 0,654 0,096 -0,154
76 0,40 0,75 0,654 0,096 0,096
76 0,40 0,75 0,654 0,096 0,096
80 0,77 0,833 0,779 0,054 -0,029
86 1,33 0,917 0,908 0,009 -0,075
89 1,61 1,000 0,946 0,054 -0,029


Donde:
p
i
= proporcin de individuos con valores de x
i
x
i

xz
i
= valores estandarizados de la variable

i
= el rea que deja a su izquierda en una distribucin normal el valor estandarizado de
la variable
Con la mayor de las diferencias calculadas (en valor absoluto) se calcula el estadgrafo "z"
utilizando la frmula:

5334 , 0 54 0,1 * 12 max * = = |) dif. (| n = z

Del valor "z" obtenido se busca su significacin estadstica utilizando el siguiente criterio:

Nivel de
significacin 0,2 0,1 0,05 0,02 0,01 0,002

Valor de "z" 1,0727 1,2238 1,3581 1,5174 1,6276 1,8585


En el ejemplo el valor 0,5334 no alcanza el nivel de significacin estadstica (1,3581), por lo que
se puede asumir que la muestra proviene de una poblacin con distribucin normal.

Introduccin a la bioestadstica J Vila

31
INTERVALO DE CONFIANZA DE UNA PROPORCION
(muestras grandes)

Se trata de realizar una estimacin aproximada de una proporcin poblacional (P) a partir de los
datos observados en una muestra.

Se basa en cuatro principios:
1. Si de una poblacin que presenta una proporcin P de individuos con una caracterstica
concreta se realizan todas las muestras posibles con repeticin de n individuos, la media de la
variable compuesta de las proporciones observadas en todas las muestras posibles (POTMP)
( X
POTMP
) ser igual a P, y la desviacin estndar (DE
POTMP
)

ser igual a:



2. Cuando las muestras son grandes (de forma aproximada P*n y Q*n >5), la variable POTMP se
distribuye con una densidad de probabilidad siguiendo una distribucin normal con
media=X
POTMP
y desviacin estndar=DE
POTMP
.


3. Si la variable POTMP se distribuye de forma normal el % central de todas las muestras se
encontrar entre:



4. Por lo tanto, a cualquier valor de p observada en una muestra que se encuentre entre %
central, le sumamos y restamos d

obtendremos un intervalo que tiene una probabilidad , de


contener la P de la poblacin. Este intervalo se conoce como el intervalo de confianza del
%.

La media de la variable POTMP = P y la DE = P*Q/n

Supngase una poblacin compuesta de 6 individuos: A, B, C, D, E y F de los cuales los C, D, E y
F presentan una determinada caracterstica y los otros dos no.

La proporcin P de individuos que presentan la caracterstica es 4/6 = 0,667.

La tabla siguiente muestra todas las muestras posibles (36) de dos individuos con repeticin que se
pueden realizar con una poblacin de seis.
n
Q * P
DE
POTMP
=

= d P
n
Q * P
z P
2
Introduccin a la bioestadstica J Vila

32

p de la
muestra
p de la
muestra

AA 0 DA 0,5
AB 0 DB 0,5
AC 0,5 DC 1
AD 0,5 DD 1
AE 0,5 DE 1
AF 0,5 DF 1
BA 0 EA 0,5
BB 0 EB 0,5
BC 0,5 EC 1
BD 0,5 ED 1
BE 0,5 EE 1
BF 0,5 EF 1
CA 0,5 FA 0,5
CB 0,5 FB 0,5
CC 1 FC 1
CD 1 FD 1
CE 1 FE 1
CF 1 FF 1


Obsrvese que la media de esta nueva variable POTMP compuesta de las proporciones de todas las
muestras posibles es:




y que la desviacin estndar de POTMP es:




667 , 0
36
1 1 ..... 0 0
X = =
+ + + +
= P POTMP
333 , 0
2
333 , 0 * 667 , 0
n
Q * P

36
) 667 , 0 0 ( ) 667 , 0 0 ( ........ ) 667 , 0 1 ( ) 667 , 0 1 (
DE
2 2 2 2
POTMP
= = =
+ + + +
=
Introduccin a la bioestadstica J Vila

33
Cuando las muestras son grandes POTMP se distribuye de forma normal

Este concepto es difcil de comprender pero obsrvese cmo se distribuyen la frecuencia de cada
uno de los valores de la variable POTMP del ejemplo anterior cuando las muestras son de 2
individuos:


cuando las muestras son de 3 individuos:



cuando las muestras son de 4 individuos:


0
0,1
0,2
0,3
0,4
0,5
0 0,2 0,4 0,6 0,8 1
0
0,1
0,2
0,3
0,4
0,5
0 0,2 0,4 0,6 0,8 1
0
0,1
0,2
0,3
0,4
0,5
0 0,2 0,4 0,6 0,8 1
Introduccin a la bioestadstica J Vila

34
y cuando las muestras son de 5 individuos:



Obsrvese que la frecuencia relativa con ocurre cada uno de los valores cada vez ms se parece a
una distribucin normal, y que el punto ms frecuente ocurre alrededor de la media o de P (0,667).


El % central de todas las muestras se puede calcular a partir de la tabla de valores de la
distribucin normal

Si una variable se distribuye de forma normal con media y desviacin estndar el % central
de todos los valores de esta variable se encontraran entre:


Donde z
/2
es el valor de la tabla de la distribucin normal (ver anexo I)


Ejemplo:

Supngase que el 51% de una determinada poblacin son mujeres.
Si se realizan todas las muestras posibles de p.e. 250 mujeres, se calcula la proporcin de mujeres
observada en cada una de estas muestras y con estos valores se construye la variable proporciones
observadas en todas las muestras posibles POTMP.
La media de POTMP ser: 0,51 = 51%

la desviacin estndar ser:



0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0 0,2 0,4 0,6 0,8 1

2 /
z
0316 , 0
250
49 , 0 * 51 , 0
n
Q * P
a
) x (
2
a
1 i
i
= = =

=

=
Introduccin a la bioestadstica J Vila

35
Donde:
: desviacin estndar de POTMP. Tambin se conoce como error estndar de una
proporcin EE
p
(en el ejemplo = 0,0316)
a: nmero de muestras posibles que se pueden realizar
x
i
: proporciones observadas en cada una de las muestras
: media de POTMP (en el ejemplo 0,51)
P: proporcin de la poblacin (en el ejemplo 0,51)
Q: 1-P (en el ejemplo 0,49)
n: tamao de las muestras (en el ejemplo 250)

El tamao de las muestras puede considerarse grande puesto que P*n y Q*n son mayores de 5
(0,51*250 = 127,5 y 0,49*250 = 122,5).

Si las muestras son grandes puede asumirse que POTMP se distribuir de formal normal.

El valor 1,96 de la tabla de la distribucin normal nos indica que el rea que deja a su derecha es de
0,025 (2,5%). Al ser la curva normal simtrica el valor 1,96 deja a su izquierda tambin el 2,5%.
Por lo tanto entre 1,96 se hallar el 95% central del rea.
La conclusin es que el 95% central de valores que puede tener la variable POTMP se encontrar
entre P1,96 EE
p
, es decir entre 0,511,96 * 0,0316 = (0,448 ;0,572).

Ejemplo:

El 45% de los sujetos de una determinada poblacin presenta HTA. Si se realizan todas la muestras
posibles de 80 individuos, entre que valores se encontraran el 90% de las proporciones
observadas?.

La variable compuesta de las proporciones observadas en todas las muestras posibles puede
asumirse que se distribuir de forma normal puesto que el tamao de las muestras es grande
(0,45*80 y 0,55*80 > 5).

El valor 1,64 de la distribucin normal deja a su derecha aproximadamente el 5% del rea y por
simetra el 1,64 deja a su izquierda el 5%. Por lo tanto el 90% central de proporciones observadas
se encontrar entre:



Estimacin por intervalo de una proporcin poblacional

Segn el primer ejemplo, el 95% de todas las muestras posibles se hallar entre 0,448 y 0,572. Por
lo tanto si a cualquier valor comprendido entre 0,448 y 0,572 (p.e. 0,45; 0,47; 0,52 0,57) se le
suma y se le resta (1,96*0,0316) el intervalo resultante contendr la proporcin poblacional (0,51).
Contrariamente al realizar esta operacin con los valores ms pequeos de 0,448 ( p.e. 0,43) o ms
grandes de 0,572 (p.e. 0,58) el intervalo resultante no incluir la proporcin poblacional:

0,45 1,96 * 0,0316 = {0,388 ; 0,512}
} 541 , 0 ; 359 , 0 { 0915 , 0 45 , 0
80
55 , 0 * 45 , 0
64 , 1 45 , 0 = =
Introduccin a la bioestadstica J Vila

36
0,47 1,96 * 0,0316 = {0,408 ; 0,532}
0,52 1,96 * 0,0316 = {0,458 ; 0,582}
0,57 1,96 * 0,0316 = {0,508 ;0,632}
0,43 1,96 * 0,0316 = {0,368 ; 0,492}
0,58 1,96 * 0,0316 = {0,518 ; 0,642}

La siguiente figura muestra grficamente lo que se acaba de explicar:


0,51
0,45
0,47
0,52
0,57
0,43
0,58


Por lo tanto, para estimar por intervalo una proporcin poblacional con una confianza
predeterminada, bastar con obtener una muestra y sumarle y restarle:



Lo que ocurre es que en esta frmula precisamente P es un valor desconocido. En su lugar se
utiliza la proporcin p observada en la muestra, cmo la mejor estimacin que se dispone de P.

Las estimaciones realizadas con este mtodo se conocen cmo intervalos de confianza.

Ejemplo

Supngase que se quiere saber cual es la proporcin de obsesos que hay en un centro de Salud. Para
ello se ha elegido al azar una muestra de 500 personas y ha observado que el 18% presenta
n
PQ
Z
2 /
Introduccin a la bioestadstica J Vila

37
obesidad. Con un nivel de confianza del 99% Cual es la proporcin de obesos de la poblacin
atendida por este centro de salud?.
Las condiciones de aplicacin se cumplen puesto que 0,18*500 y 0,82*500 > 5.
El valor de Z que deja a su derecha (0,01/2 = 0,005) es 2,576.



Se estima con un nivel de confianza del 99% que en la poblacin atendida por el centro de salud
entre un13,6% y un 22,4% presenta obesidad.


Ejemplo

Se quiere conocer cual la proporcin de individuos de una ciudad que presenta anticuerpos contra el
virus de la hepatitis C. Para ello se han seleccionado 2000 individuos al azar de esta poblacin y se
observado que el 5% es positivo a estos anticuerpos. Con un nivel de confianza del 95% cual debe
ser esta proporcin en la poblacin?.

Las condiciones de aplicacin se cumplen puesto que 0,05*2.000 y 0,95*2.000 > 5.

El valor de Z que deja a su derecha (0,05/2 = 0,025) es 1,96.



Se estima con un nivel de confianza del 95% que en la poblacin origen de esta muestra entre el 4%
y el 6% presenta anticuerpos contra el virus de la hepatitis C.


} 224 0, ; 6 13 , 0 {
500
82 , 0 * 18 , 0
576 , 2 18 , 0 % 99 IC = =
} 0,06 ; 04 , 0 {
000 . 2
95 , 0 * 05 , 0
96 , 1 05 , 0 % 95 IC = =
Introduccin a la bioestadstica J Vila

38
TAMAO DE MUESTRA NECESARIO PARA ESTIMAR UNA
PROPORCIN POBLACIONAL

Ms arriba se ha explicado como estimar por intervalo una proporcin poblacional a partir de la
frmula:

n
q * p
Z p
) 2 / (

es decir la p observada en la muestra un desvo.

desvo p

Cuanto menor sea este desvo mayor ser la precisin con que se realiza la estimacin. No debe
confundirse precisin con confianza. Supngase que dos investigadores A y B estn estimando una
proporcional poblacional (P) y el resultado que obtienen es el siguiente:

investigador A: IC95% = 0,60,03
investigador B: IC95% = 0,60,10

Ambos confan que con la metodologa seguida acertarn el 95% de las ocasiones en incluir la
autntica P en su intervalo, aunque el investigador A, al ser su desvo menor, ofrece una
estimacin ms precisa.

Obsrvese cmo influyen los elementos de este desvo:

Z
(/2)
.Cuanto mayor sea Z mayor ser el desvo (a mayor confianza menor precisin)
p: cuanto ms cerca de 0,5 se encuentre p mayor ser el desvo (a mayor incertidumbre
menor precisin)
n: cuanto ms grande sea n ms pequeo ser el desvo

Suponga que un investigador desea realizar una estimacin de la proporcin de hipertensos que hay
en la zona de influencia de su centro de salud. Para calcular el tamao idneo para hacer esta
estimacin debe responder a tres preguntas:

1. Con que nivel de confianza desea realizar la estimacin?
2. Con que precisin (desvo) desea realizar la estimacin?
3. Cul es aproximadamente la proporcin P de la poblacin?


Con que nivel de confianza desea realizar la estimacin?

Lo ms frecuente es calcular los intervalos con una confianza del 95%, aunque ya se ha explicado
cmo modificando Z se consiguen intervalos con mayor o menor confianza.

Introduccin a la bioestadstica J Vila

39
Con que precisin (desvo) desea realizar la estimacin?

Esto depende del objetivo de la investigacin, p.e. si un investigador desea estimar cual es la
proporcin de pacientes hipertensos de la zona de influencia de un centro de salud con el objetivo
de destinar recursos de enfermera a esta patologa, tal vez debera realizar la estimacin con
bastante precisin (0,02 0,025 cmo mucho de 0,05).
Sin embargo, el enfoque puede ser diferente si el mismo investigador quiere saber si en su centro
los hipertensos estn exageradamente infradiagnosticados. Supngase que la bibliografa consultada
dice que aproximadamente el 50% de la poblacin adulta presenta hipertensin. El investigador
piensa que en su centro estn muy lejos de esta cifra. Si el objetivo del estudio es simplemente
corroborar la afirmacin de que tienen exageradamente infradiagnosticados los hipertensos, tal vez
una precesin de 0,15 0,20 sea suficiente (p.e. 0,20,20 sigue estando en el mejor de los casos
por debajo de 0,5).

Cul es aproximadamente la proporcin P de la poblacin?

Este valor aproximado (que utilizar para calcular de forma aproximada el error estndar de la
proporcin sobre la que quiere realizar el estudio) lo puede obtener de la bibliografa, o realizando
una prueba piloto (p.e. con 30 pacientes.


Frmula para el clculo del tamao de muestra

Una vez respondidas estas 3 preguntas ya tiene los elementos necesarios para el clculo del tamao
de la muestra. Puesto que:

n
q * p
Z desvio precisin
/2) (
= =

despejando n:

2
2
/2) (
2
/2) (
2
/2) (
(desvio)
q * p ) (Z
n
n
q * p
) (Z (desvio)
n
q * p
Z desvio

=
=
=


Ejemplo

Suponga que quiere estimar la proporcin de fumadores entre los estudiantes universitarios de su
ciudad. La confianza con la quiere realizar esta estimacin es del 95% (Z= 1,96) y la precisin de
0,05. La bibliografa consultada muestra que en otros estudios han observado que
aproximadamente el 45% de los estudiantes universitarios fuman.
Introduccin a la bioestadstica J Vila

40

381
(0,05)
0,55 * 0,45 * (1,96)
n
2
2
=

Es decir, 381 estudiantes son suficientes para estimar con un nivel de confianza del 95% y una
precisin de 0,05, la proporcin de fumadores entre los estudiantes universitarios de su ciudad.



Correccin por finitud de poblacin

Cuando las poblaciones son pequeas (por debajo de 10.000) el EE
p
suele ser menor que si este
mismo error se obtiene en una poblacin muy grande (hacer todas las muestras posibles de una
poblacin pequea presenta menos variabilidad que hacerla de una poblacin muy grande). En estos
casos, cuando la poblacin es pequea, conviene realizar una pequea correccin al EE
p
que se
conoce cmo correccin por finitud de poblacin. En esta situacin el EE
p
es:
n
q * p
*
N
n
1 EE
p
=

Donde n= tamao de la muestra y N = tamao de la poblacin.

Cuando se conoce el tamao de la poblacin N, el valor de n estimado sin el factor de
correccin habra que multiplicar n por este factor sin la raz cuadrada.


Ejemplo

Suponga que la poblacin de estudiantes de su ciudad es de 2.000 habitantes.

323
000 . 2
308
1 * 381 n 308
000 . 2
381
1 * 381 n
priori a
|

\
|
= |

\
|
=

Es decir cuando se supona una poblacin muy grande (prcticamente infinita) n=381.
Cuando se tiene la primera estimacin (381) se aplica el factor de correccin y se obtiene un tamao
a priori ms correcto. Se repite la operacin y se obtiene la n definitiva.



INTERVALO DE CONFIANZA DE UNA MEDIA

Tal cmo se ha explicado con las proporciones se basa en los siguientes supuestos:

Cuando de una variable cuantitativa obtenida en una poblacin se realizan todas las muestras
posibles (en este caso sin repeticin) la media de esta nueva variable Medias Observadas en
Todas las Muestras Posibles (MOTMP) es igual a media de la poblacin y la desviacin
estndar de MOTMP es igual a error estndar de la poblacin.
Introduccin a la bioestadstica J Vila

41
Si la variable poblacin sigue una distribucin aproximadamente normal, la variable MOTMP
seguir tambin una distribucin normal, aunque si las muestras son pequeas (< 30) su
distribucin se ajusta mejor a la de Student.
Si se conoce su distribucin se pueden realizar, a partir de lo observado en una muestra, una
estimacin con un determinado nivel de confianza, de cual ser la media de la poblacin,
utilizando los conceptos explicados a propsito de las proporciones.

El siguiente ejemplo ilustra lo enunciado en el primer apartado. Suponga que se dispone de una
poblacin de 6 individuos con valores:


Individuo Valores

A 1.010
B 995
C 998
D 1.005
E 990
F 1.002


Llmese:
.- a la media de la poblacin
.- a la desviacin estndar de la poblacin
.- X
MOTMP
a la media de todas las muestras posibles
.- DE
MOTMP
a la DE de todas las muestras posibles
.- N al tamao de la poblacin (N=6)
.- n al tamao de cada muestra (n=2)
.- N
MOTMP
al nmero de todas las muestras posibles (N
MOTMP
= 36)




Todas las muestras posibles de 2 individuos sin repeticin que se pueden realizar son:




por lo tanto, N
MOTMP
= 15
000 . 1
6
002 . 1 990 005 . 1 998 995 010 . 1
=
+ + + + +
=
183 , 7
1) - (6
1.000) - (1.012 1.000) - (990 . . . . . . 1.000) - (995 1.000) - (1.010

2 2 2 2
=
+ + + +
=
15
2)! - (6 * 2!
! 6
=
Introduccin a la bioestadstica J Vila

42


Pareja Media

(A,B) 1.002,5
(A,C) 1.004,0
(A,D) 1.007,5
(A,E) 1.000,0
(A,F) 1.006,0
(B,C) 996,5
(B,D) 1.000,0
(B,E) 992,5
(B,F) 998,5
(C,D) 1.001,5
(C,E) 994,0
(C,F) 1.000,0
(D,E) 997,5
(D,F) 1.003,5
(E,F) 996,0






Por lo tanto,


y

La utilizacin en los clculos del factor de correccin:


se conoce como correccin por finitud de poblacin. En la mayora de investigaciones que se basan
en poblaciones grandes esta correccin es prcticamente 1, por lo que la frmula puede reducirse a:


000 . 1
15
996 5 , 003 . 1 ........ 0 , 004 . 1 5 , 002 . 1
XMOTMP =
+ + + +
=
147 , 4
15
1.000) - (996 . . . . . . 1.000) - (1.004,0 1.000) - (1.002,5
DE
2 2 2
MOTMP
=
+ + +
=
000 . 1 XMOTMP = =
147 , 4
2
183 , 7
* )
6
2
1 (
2
* )
N
n
1 ( EEM DE
MOTMP
= =

= =
)
N
n
1 (
Introduccin a la bioestadstica J Vila

43



Ntese que se ha utilizado N-1 en lugar de N para el clculo de , lo que ha resultado un estimador
exacto de la desviacin estndar de la poblacin de medias de todas las muestras posibles DE
MOTMP
.



Estimacin por intervalo de una media poblacional

Si se puede asumir que la poblacin de distribuye de forma normal, la estimacin por intervalo de
una media poblacional se obtiene a partir de la frmula:

n
DE
t X % IC
/2
=

Donde:
: nivel de confianza deseado {= [1-(*2)]*100}
X
: media observada en la muestra
t
(/2)
: valor (en valor absoluto) de la distribucin de t que deja en el centro el % del rea,
con grados de libertad = n-1)
DE: desviacin estndar observada en al muestra
n: tamao de la muestra


Ejemplo

Suponga que desea estimar con un nivel de confianza del 95% cual es la media de frecuentacin
(nmero de visitas anuales) que realizan los pacientes asignados a su centro de salud. Para ello ha
elegido una muestra al azar de 29 pacientes y en ellos la media observada ha sido de 3,7 con una
desviacin estndar de 2,1.
En este ejemplo los grados de libertad son 29-1= 28

4,50) ; (2.90
29
2,1
2,048 3,7 IC95% = =

Se estima con un nivel de confianza del 95% que la media de frecuentacin de los pacientes de su
centro de salud debe ser algn valor situado entre 2,90 y 4,50.

n
EEM DEMMP

= =
Introduccin a la bioestadstica J Vila

44
TAMAO DE MUESTRA NECESARIO PARA ESTIMAR UNA MEDIA
POBLACIONAL

Cmo ocurre con las proporciones el problema se centra en la precisin con la que se quiere realizar
la estimacin:

2
2
/2
/2
/2
(desvio)
DE ) t (
n
n
DE
t desvio
desvio X
n
DE
t X % IC

=
=
= =


Al no conocerse de antemano el nmero de sujetos, no se conocen los grados de libertad y no puede
utilizarse correctamente la tabla de Student. En su lugar habitualmente se utiliza la distribucin
normal cmo una buena aproximacin (para n > 400 la distribucin normal y la de Student son
prcticamente idnticas). La frmula en este caso es:

2
2 2
/2
(desvio)
DE ) Z (
n

=


Ejemplo

Un investigador desea estimar con un nivel de confianza del 99%, y una precisin de 2,5, la
media de ndice de Masa Corporal (IMC) de los pacientes de su centro de salud. La bibliografa
sugiere que en la poblacin general la DE (variabilidad) es de 17,3.

318
(2,5)
17,3 2,576) (
n
2
2 2
=


Si fuera el caso, tambin debera aplicarse la correccin por finitud de poblacin.


Ejemplo

Suponga que la poblacin sobre la que se quiere realizar la estimacin de la media de IMC es de
2.500 individuos:

283
500 . 2
278
1 * 318 n 278
500 . 2
318
1 * 318 n
priori a
|

\
|
= |

\
|
=

Es decir, 283 sujetos son suficientes para estimar con un nivel de confianza del 99% la media de
IMC de una poblacin de 2.500 individuos, asumiendo que se distribuyan de forma de normal con
DE = 17,3
Introduccin a la bioestadstica J Vila

45
PRUEBAS DE HIPTESIS


El objetivo que se persigue con las pruebas de hiptesis es basarse en los datos obtenidos en una
muestra para tomar decisiones sobre la poblacin, con un riesgo mnimo de error.

Con ellas se pueden responder preguntas del tipo:

Ejemplo 1.A: Las madres de recin nacidos a las que se les da un soporte intensivo por parte
de enfermera alargan ms el perodo de lactancia que las madres que no reciben este tipo de
soporte?
Ejemplo 1.B: Para prevenir lceras por decbito es mejor movilizar a los pacientes o utilizar
camas neumticas?
Ejemplo 1.C: El personal que trabaja en el turno de noche presenta ms alteraciones de la
vigilia que el personal que trabaja en turnos diurnos?

En este contexto, por hiptesis debe entenderse una teora o suposicin de cual debe ser el
comportamiento en la poblacin. Con los datos obtenidos en una muestra se van a tomar
conclusiones respecto a la validez o no de esta hiptesis.

El proceso que debe seguirse para utilizar estas pruebas estadsticas puede resumirse en 5 pasos:

1. Definir Hiptesis nula (H
o
)
2. Definir Hiptesis alternativa (H
1
)
3. Elegir un nivel de significacin (unilateral o bilateral)
4. Calcular un estadgrafo (valor estadstico)
5. Comparar el valor obtenido con valores de las tablas respectivas y con ello llegar a conclusiones
acerca de la validez de la H
o



Para explicar estos pasos quizs se entienda mejor empezando por los dos ltimos. Lo que se hace
es calcular un estadgrafo con los datos obtenidos en una muestra y utilizar este estadgrafo como
indicador de si se acepta o se rechaza la H
o
.

Es habitual en estadstica definir la H
o
cmo la hiptesis contraria a la original y se espera que con
los datos obtenidos se puede rechazar.

Ejemplos

En el ejemplo 1.A la H
o
sera que el tiempo de lactancia de las madres que reciben soporte
intensivo por parte de enfermera es en media idntico al tiempo de lactancia de las madres que
reciben soporte estndar
En el ejemplo 1.B la H
o
sera que para prevenir las lceras por decbito es indistinto movilizar
al paciente que utilizar camas neumticas
Y en el ejemplo 1.C la H
o
sera que el personal que trabaja en el turno de noche presenta la
misma cantidad de alteraciones de la vigilia que el personal que trabaja en turnos diurnos.

Los posibles valores que puede tomar este estadgrafo se van situar en uno de los siguientes dos
grupos:

En el primer grupo lo formarn los estadgrafos que nos van a llevar a concluir que la H
o
. es
aceptable. Estos valores forman la regin de aceptacin.
Introduccin a la bioestadstica J Vila

46
El segundo grupo lo forman aquellos estadgrafos que nos van a llevar a rechazar la H
o
. y que
formarn la regin de rechazo (o regin crtica).

Procediendo de esta manera se pueden cometer dos tipos de errores: concluir que la H
1
es cierta
cuando en realidad es cierta la H
o
, o concluir que la H
o
es cierta cuando en realidad es cierta la H
1
.
El tipo de error cometido en la primera situacin se llama error tipo I y en la segunda situacin se
est cometiendo un error del tipo II.

La probabilidad de cometer un error del tipo I se simboliza con la letra griega y la probabilidad
de cometer un error del tipo II con la letra . La tabla siguiente resume estas situaciones:

REALIDAD
EN LA
POBLACIN
H
o
es cierta
(H
1
es falsa)
H
o
es falsa
(H
1
es cierta)
H
o
es cierta
(H
1
es falsa)
No error
probabilidad = (1-)
confianza
Error tipo II
probabilidad =
H
o
es falsa
(H
1
es cierta)
Error tipo I
probabilidad =
No error
probabilidad = (1-)
potencia
CONCLUSI
N A PARTIR
DE LOS
DATOS
OBTENIDOS
EN UNA
MUESTRA



En la mayora de pruebas estadsticas se especifica el error tipo I asumible, , y este se conoce
cmo nivel de significacin. Aunque en cierto modo es arbitrario, es bastante comn establecer el
nivel de significacin al 5% (0,05).




PRUEBAS DE HIPTESIS CON DOS VARIABLES CUALITATIVAS

Muestras Independientes: Prueba de Ji al cuadrado

Supngase que al observar los datos de seroconversin post-vacunacin de Hepatitis B en 223
profesionales sanitarios se ha observado el siguiente resultado:

Introduccin a la bioestadstica J Vila

47
Tabla observada

50 a. > 50 a.
S seroconversin
118
(90.77 %)
70
(75.27 %)
188
(84.3 %)
No seroconversin
12
(9.23 %)
23
(24.73 %)
35
(15.7 %)
130 93 223

Los datos sugieren que la seroconversin es diferente segn el grupo de edad al que se pertenezca.

Los pasos a seguir para generalizar esta conclusin en la poblacin son los siguientes:

1. H
o
: El porcentaje de seroconversin es indiferente de la edad del vacunado
2. H
1
: El porcentaje de seroconversin es diferente segn la edad del vacunado
3. Nivel de significacin = 0,05
4. Calcular un estadgrafo: en este caso, con dos variables cualitativas el estadgrafo de eleccin es
el Ji al cuadrado (
2
)
5. Comparar el valor obtenido con valores de la tabla de Ji al cuadrado y con ello llegar a
conclusiones acerca de la validez de la H
o


Para poder aplicar la prueba de Ji al cuadrado debe cumplirse una condicin de aplicacin: muestras
de tamao grande (de forma aproximada, sujetos esperados > 5 sujetos).

Primero debe construirse la tabla de sujetos "esperados" utilizando la mejor estimacin de lo que
ocurre en la poblacin. Es decir, puesto que prescindiendo del factor edad se observa que el 84,3%
de los sujetos seroconvierten, cabra "esperar" que el tanto de los sujetos 50 a. como de los >50 a.
seroconviertan el 84,3%.


Tabla esperada

50 a. > 50 a.
S seroconversin

130*0,843 = 109,60 93*0,843 = 78,40 188
No seroconversin

130*0,157 = 20,40 93*0,157 = 14,60 35
130 93 223

El estadgrafo
2
se calcula realizando:



Siendo k el nmero de casillas de la tabla.

=
k
1 i
esperado
) esperado (observado
2
i
2
i i

Introduccin a la bioestadstica J Vila



48
En el ejemplo:


2
= 9,836

Una vez obtenido el valor estadstico se compara con la tabla de
2
con grados de libertad igual:

(n de casillas-1) * (n de filas -1) = (2-1)*(2-1) = 1



Con 1 grado de libertad, si el valor es 3,841 el valor entra dentro de la regin crtica y se puede
rechazar la hiptesis nula con un nivel de significacin 0,05 (se puede rechazar la H
o
con un
riesgo de error 5%).

En realidad, observando ms detenidamente la tabla de Ji al cuadrado, el nivel de significacin es
menor:

p < 0,01, puesto que 9,836 >6,635

La conclusin es que el porcentaje de serocorversin es significativamente mayor (p< 0,01) en los
sujetos con edad 50 a. que en los sujetos de mayor edad.



La prueba de Ji al cuadrado con la correccin de Yates

Cuando los efectivos esperados son < 5 pero 3 puede utilizarse la prueba de Ji al cuadrado
corregida.
Supngase los datos de la siguiente tabla en la que se analizan los datos de dos lotes diferentes de
vacunas en cuanto a la reaccin producida.
14,6
2
) 6 , 14 23 (
20,4
2
) 4 , 20 12 (
78,4
2
) 4 , 78 70 (
109,6
2
) 6 , 109 118 (
2

+

=
Introduccin a la bioestadstica J Vila

49
Ejemplo hipottico para ilustrar la utilizacin de la correccin de Yates.


Lote
E-205 E-105 Total


Inapreciable 12
(6,9%)
29
(17,3%)
41
(12,0%)
Tipo de
Moderada 156
(90,2%)
135
(80,4%)
291
(85,3%)
Reaccin
Grave 5
(2,9%)
4
(2,4%)
9
(2,6%)

Total 173 168 341


La tabla es del tipo 2 x 3.

Segn esta muestra parece que los lotes son diferentes en los tipos de reaccin que provocan.

Los pasos a seguir para generalizar esta conclusin en la poblacin son los siguientes:

1. H
o
: La distribucin de porcentajes de reaccin es similar en ambos lotes
2. H
1
: La distribucin de porcentajes de reaccin es diferente entre los lotes
3. Nivel de significacin = 0,05
4. Calcular un estadgrafo: en este caso, con dos variables cualitativas, cuando las condiciones de
aplicacin del estadgrafo
2
no se cumplen, se va a utilizar el mismo estadgrafo pero
corregido:
2
c

5. Comparar el valor obtenido con valores de la tabla de Ji al cuadrado y con ello llegar a
conclusiones acerca de la validez de la H
o



La siguiente tabla muestra los efectivos esperados. Obsrvese que en dos celdas no se cumplen las
condiciones de aplicacin de la prueba de Ji al cuadrado de Pearson.

Efectivos esperados en el ejemplo hipottico para la utilizacin de la correccin de Yates.


Lote
E-205 E-105 Total

Inapreciable 20,80 20,20 41
Tipo de
Moderada 147,63 147,37 291
Reaccin
Grave 4,57 4,43 9

Total 173 168 341

Introduccin a la bioestadstica J Vila

50
El Ji al cuadrado corregido (X
2
c
) se obtiene a partir de:



Este resultado se compara con la tabla de
2
con grados de libertad igual (3-1)*(2-1) = 2

p < 0,05 por lo que se rechaza la H
o
de igualdad en la distribucin de reacciones entre lotes.


La prueba exacta de Fisher

Cuando los efectivos esperados son menores de 5 la prueba de
2
puede conducir a conclusiones
errneas.

La correccin de Yates (asequible en la mayora de programas informticos) corrige en algunos
casos esta deficiencia, aunque en esta situacin es mejor utilizar la prueba exacta de Fisher, (PE-
Fisher) basada en la distribucin binomial.

Dados unos valores marginales determinados de una tabla, se trata de calcular la probabilidad de
que ocurra una tabla con unos efectivos de casilla tan o ms extremos como los observados.

Obsrvese los datos de siguiente tabla. Los marginales son 35, 5 40, 21 y 19.

Ejemplo para el clculo de la PE-Fisher

17 18 35
4 1 5
21 119 40

El efectivo observado ms pequeo es 1, as que, con estos marginales, slo podra construirse una
tabla ms extrema:

nica tabla que puede construirse con valores ms extremos, utilizando los marginales de la tabla
anterior

16 19 35
5 0 5
21 119 40

577 , 7
4,43
) 5 , 0 43 , 4 14 (
....
20,80
) 5 , 0 80 , 20 12 (

e
) 0,5 e - o (
c X
2 2 2
2
=

+ +

=

=

Introduccin a la bioestadstica J Vila

51
La probabilidad (p) de que ocurra una tabla como la observada o con valores ms extremos es:



Donde k = nmero de tablas como la observada o ms extrema, y el resto de notacin:


a b e
c d f
g h n


Para los datos del ejemplo:



Puesto que la probabilidad no es 0,05, las diferencias no son estadsticamente significativas.

Para tablas de una dimensin superior a 2x2 tambin puede calcularse del mismo modo, aunque los
clculos son mucho ms engorrosos.




Intervalo de confianza de la diferencia entre proporciones:

Otra forma de inferir sobre la poblacin a partir de los datos observados en una muestra es calcular,
realizando una estimacin por intervalo, cual puede ser en la poblacin la diferencia entre las
proporciones.

Si este intervalo no incluye el valor 0, se rechazar la H
o
. Y el nivel de significacin ser = (100-
)%, donde es el nivel de confianza.

Supngase los datos de la tabla de la seroconversin. En ella puede observarse que el 90,77% de los
50 a. han seroconvertido, mientras que en los > 50 a. slo lo han hecho el 75,27%. Por lo tanto se ha
observado un 15,5% ms de seroconversin entre los ms jvenes.

A continuacin se calcula se realiza una estimacin por intervalo de cual puede ser esta diferencia de
porcentajes en la poblacin. La frmula utilizada es:

=
=
k
1 i
! n * ! d * ! c * ! b * ! a
! h * ! g * ! f * ! e
p
204 , 0
! 40 !* 0 !* 5 !* 19 !* 16
! 19 !* 21 !* 5 !* 35
! 40 !* 1 !* 4 !* 18 !* 17
! 19 !* 21 !* 5 !* 35
p = + =
Introduccin a la bioestadstica J Vila

52



Para poder aplicarse esta frmula debe tratarse de muestras grandes. De forma aproximada puede
considerarse una muestra grande cuando son 5:
(n
A
* p
A
), (n
A
* q
A
), (n
B
* p
B
) y (n
B
* q
B
)


Para los datos de las seroconversin y si se desean calcular el intervalo de confianza del 95%:


Las condiciones de aplicacin se cumplen puesto que:
130 * 0,9077 = 118 > 5
130 * 0,0923 = 12 > 5
93 * 0,7527 = 70 > 5
93 * 0,2473 = 23 > 5

La conclusin ser de que se ha observado una diferencia 15,5% en los porcentajes de
seroconversin a favor de los 50 a. y se estima con un nivel de confianza del 95%, que esta
diferencia en la poblacin ser algn valor entre un 5% y un 25,5%.

Al no incluir ente intervalo la H
0
(que la diferencia es del 0%) se rechaza con un riesgo de error
0,05

En las publicaciones biomdicas se tiende a utilizar ms los intervalos de confianza que la
significacin estadstica "p", puesto que ofrecen ms informacin y son ms fcilmente entendibles.



Estimacin del tamao de muestra necesario para hallar estadsticamente
significativa una diferencia entre dos proporciones:

Se trata de realizar una estimacin a priori, antes de recoger los datos, de cual es el tamao idneo
de sujetos que debe haber en cada uno de los dos grupos para que si en la poblacin existe una
diferencia que el investigador considera clnicamente relevante, al extraer una muestra azar tenga
una probabilidad determinada para observarla cmo estadsticamente significativa.

El investigador debe decidir:

B
n
B
q *
B
p
A
n
A
q *
A
p
) 2 / (
B
p
A
p 100 * ) IC(1 + = z
[ ] 0,255 0,05 10 , 0 155 , 0
93
0,2473 * 0,7527
130
0,0923 * 0,9077
96 , 1 7527 , 0 9077 , 0
95% IC 100 * ) 05 , 0 IC(1
= =
+ =
=
Introduccin a la bioestadstica J Vila

53
d: la diferencia entre dos proporciones que considera clnicamente relevante y que desea que si
esta diferencia ocurre en la poblacin, cuando realice una prueba estadstica (p.e. Ji al
cuadrado) muestre que los dos grupos son estadsticamente diferentes.
P
A
: Una estimacin de cual es la proporcin de sujetos que presentan el acontecimiento de
inters si no se les aplica la intervencin.
Error : probabilidad de cometer un error tipo I. Es decir, concluir que las son poblaciones
estadsticamente diferentes cuando en realidad son iguales.
Potencia de la prueba (1-): Potencia que tiene la prueba estadstica para detectar las diferencias
como estadsticamente diferentes cuando las poblaciones son diferentes.
Tipo de contraste: Que ser bilateral si el investigador esta interesado tanto si la intervencin
mejora o empeora la situacin basal, y ser unilateral si slo est interesado en un
sentido(slo la empeora o slo la mejora).

Supngase que un equipo de pediatra est interesado en fomentar la lactancia materna y se plantea
si realizando un soporte a las madres ms intensivo que el tipo de visitas estndar del programa del
Nio Sano, consiguen que la proporcin de madres que dan lactancia a las 12 semanas sea ms
elevado en este grupo de intervencin.

La revisin de las historias clnicas muestra que de las madres que dan lactancia materna de recin
nacidos menores de 1 mes que acuden al centro para el control de su hijo, slo el 25% sigue dando
este tipo de lactancia a las 12 semanas. Por lo tanto (P
A
= 0,25).

Deciden en el grupo intervencin esta proporcin puede llegar cmo mnimo al 40%. Una
diferencia menor no justificara el esfuerzo de establecer un nuevo plan de visitas. Por lo tanto (d =
0,40 - 0,25 = 0,15).

Aunque en principio uno esperara que en el grupo intervencin la proporcin fuera mayor, no
tienen argumentos para estar seguros de que no ocurra el efecto contrario, (que a las madres
asignadas al rgimen de visitas intensivo les provoque p.e. una sensacin de angustia y el porcentaje
sea menor). As que los investigadores deciden que el contraste es bilateral.

El error lo cifran en 0,05, puesto que es el habitual en las publicaciones biomdicas: Los valores
de una distribucin normal estandarizada que dejan en el centro en 95% del rea y el 5% en los
extremos es 1,96.

Si en la poblacin existe una diferencia del 15% (d=0,15) desean tener una potencia del 80% para
detectarla como estadsticamente significativa. Mayor potencia requerira mucho mayor tamao de
muestra y por lo tanto dedicar mucho ms esfuerzo, tanto material cmo humano al estudio. Por
otro lado esta potencia es la ms habitual en este tipo de estudios. Por lo tanto = 0,2. El punto de
la curva normal que deja a su izquierda el 80% del rea y a su derecha el 20% es 0,84.

La frmula para el clculo del tamao de muestra necesario es:



donde p
m
se refiere a la proporcin promedio de las dos que se van a estimar. En el ejemplo:

2
d
B
q
B
p
A
q
A
p z
m
q
m
2p
/2
z
n
|
|
|

\
|
+ +
>

Introduccin a la bioestadstica J Vila

54
p
m
= (0,25 + 0,40) / 2 = 0,325

y el resto de valores:



El resultado es de 152 sujetos en cada uno de los grupos son suficientes para con una potencia
estadstica del 80% hallar estadsticamente significativa una diferencia entre poblaciones de 15
puntos percentuales, asumiendo que en la categora de referencia es del 25%, y estableciendo el
nivel de significacin en p 0,05.


RELACIN ENTRE UNA VARIABLE CUALITATIVA DICOTMICA Y UNA
CUANTITATIVA

Se trata de analizar si en la poblacin, los valores de una variable cuantitativa son ms elevados en
grupo de sujetos que en otro grupo.

Si la variable cuantitativa puede asumirse que proviene de una poblacin con distribucin normal la
prueba estadstica a utilizar es la 't' de Student y el intervalo de confianza de la diferencia entre dos
medias. Si no puede asumirse este supuesto habr que pensar en la prueba no paramtrica 'U' de
Mann-Whitney.


La prueba 't' de Student para datos independientes

Esta prueba desarrollada por Willian Gosset (1876-1937) calcula la probabilidad de que si la H
0
es
cierta (p.e. media de un grupo = media del otro grupo) al obtener una muestra al azar se observe una
diferencia entre medias cmo la observada o mayor.

Para ello debe calcularse el estadgrafo 't' y buscar si significacin estadstica en las tablas diseadas
a tal efecto.

La frmula para su clculo es la siguiente:


Donde:

X
A
= media en el primer grupo
2
0,15
6 , 0 * 4 , 0 0,75 * 0,25 0,84 0,675 * 0,325 * 2 1,96
n
|
|

\
|
+ +
>
B
2
*
A
2
*
B A
n
S
n
S
X X
t
+

=
Introduccin a la bioestadstica J Vila

55
X
B
= media en el segundo grupo
n
A
= nmero de sujetos del primer grupo
n
B
= nmero de sujetos del segundo grupo
S
2
*
= varianza ponderada resultante de aplicar



El resultado se compara con la tabla de la t de Student con (n
A+
n
B
-2) grados de libertad.

(Cuando la variancias de los dos grupos no son homogneas debe hacerse una modificacin en su
clculo y en los grados de libertad)


Ejemplo

A 15 individuos intervenidos de hernia inguinal se les a medido el nmero de dosis de analgesia
precisadas post-intervencin. Los pacientes se han asignado aleatoriamente a dos grupos. Uno
recibe analgesia a demanda (grupo A) mientras que el otro grupo la recibe pautada cada 6 horas.
Los resultados del nmero de dosis administradas se muestra en la siguiente tabla:

Ejemplo hipottico para ilustrar los clculos de la prueba estadstica 't' de Student.

Grupo A Grupo B

X
6,25 7,0
DE 1,282 1,0
N 8 7


Los datos observados en la muestra sugieren que el grupo A (dosis a demanda) precisa menos dosis
que el grupo B (dosis pautadas)

Cmo se ha explicado anteriormente los pasos a seguir para generalizar esta conclusin en la
poblacin son los siguientes:

1. H
o
: La media de dosis administradas es similar en ambos grupos
2. H
1
: La media de dosis administradas es diferente segn si se administra a demanda o de forma
pautada
3. Nivel de significacin = 0,05
4. Calcular un estadgrafo: en este caso, con una variable cualitativa dicotmica y una cuantitativa
(si esta puede asumirse que proviene de una poblacin que se distribuye de forma normal) el
estadgrafo de eleccin es la t de Student
5. Comparar el valor obtenido con valores de la tabla de la t de Student y con ello llegar a
conclusiones acerca de la validez de la H
o


Primero debe calcularse la varianza ponderada S
*
2

2 n n
) 1 (n * DE ) 1 (n * DE
S
B A
B
2
B A
2
A 2
*
+
+
=
Introduccin a la bioestadstica J Vila

56

A continuacin se calcula el valor 't':


La tabla nos muestra que para 13 grados de libertad (n
A
+ n
A
2 = 8+7-2= 13) el valor de 'p' es < 0,3
pero > 0,2, as que este valor no se encuentra en la regin crtica (no alcanza el nivel para
considerarla estadsticamente significativa). Por lo tanto la conclusin es que no se han observado
diferencias estadsticamente significativas entre los dos regmenes de analgesia.


Intervalo de confianza de la diferencia entre dos medias

Cuando se cumplen las condiciones de aplicacin (normalidad de la variable continua) una frmula
alternativa de inferir sobre la poblacin es calcular el intervalo de confianza de la diferencia entre
las dos medias. Si este intervalo no incluye la hiptesis nula (usualmente

X
A
-

X
B
= 0) esta se
rechaza.

La frmula para su clculo es:



donde (1-)*100 es el nivel de confianza deseado.

Para los datos del ejemplo y un IC 95%:

t = 2,160 (para 13 grados de libertad en un contraste bilateral)


Con un nivel de confianza del 95% se considera que en la poblacin la diferencia entre medias
puede tomar valores entre -2,048 y 0,548. El intervalo incluye el valor de la H
0
, por lo tanto los
datos no aportan evidencia suficiente para rechazarla.


3465 , 1
2 7 8
1) - (7 * 1 1) - (8 * 1,282
S
2 2
2
*
=
+
+
=
249 , 1
7
1,3465
8
1,3465
7 25 , 6
t =
+

=
B
2
*
A
2
*
2 / B A
n
S
n
S
X X 100 * ) IC(1 + =

t
0,548 2,048
7
1,3465
8
1,3465
160 , 2 7 25 , 6 100 * ) 05 , 0 IC(1 = + =
Introduccin a la bioestadstica J Vila

57
Estimacin del tamao de muestra necesario para hallar estadsticamente
significativa una diferencia entre dos medias:

Se trata de realizar una estimacin a priori, antes de recoger los datos, de cual es el tamao idneo
de sujetos que debe haber en cada uno de los dos grupos para que, si en la poblacin existe una
diferencia entre las medias que el investigador considera clnicamente relevante, al extraer una
muestra azar tenga una probabilidad determinada para observarla cmo estadsticamente
significativa.

El investigador debe decidir:

d: la diferencia entre las dos medias que considera clnicamente relevante y que desea que si
esta diferencia ocurre en la poblacin, cuando realice una prueba estadstica muestre que los dos
grupos son estadsticamente diferentes.
DE: Una estimacin de cual es la desviacin estndar de la variable cuantitativa.
Error : probabilidad de cometer un error tipo I. Es decir, concluir que las son poblaciones
estadsticamente diferentes cuando en realidad son iguales.
Potencia de la prueba (1-): Potencia que tiene la prueba estadstica para detectar las diferencias
como estadsticamente diferentes cuando las poblaciones son diferentes.
Tipo de contraste: Que ser bilateral si el investigador esta interesado tanto si la intervencin
mejora o empeora la situacin basal, y ser unilateral si slo est interesado en un sentido(slo
la empeora o slo la mejora).

la frmula para su clculo para un contraste bilateral es:


Supngase que los datos del ejemplo son una prueba piloto para estimar la DE y que la diferencia
entre medias si es la poblacin es de 0,75, se desea encontrarla cmo estadsticamente significativa.
Aplicando la frmula:


Se necesitan al menos 38 sujetos en cada grupo para asegurarse con una potencia del 80% de que si
en la poblacin las diferencias son de al menos 0,75 dosis, esta se halle como estadsticamente
significativa si el nivel de significacin se establece en 0,05.



La prueba no paramtrica 'U' de Mann-Whitney

Cuando no se cumplen las condiciones de aplicacin para la prueba 't' de Student puede utilizarse la
prueba no paramtrica 'U' de Mann-Whitney. Su caracterstica principal es que se basa en la
2
/2
d
)DE Z (Z
2
|
|

\
| +
>

n
38
0,75
1,3465 ) 84 , 0 ,96 1 (
2
2
>
|
|

\
|
+
> n
Introduccin a la bioestadstica J Vila

58
distribucin de los rangos observados en cada categora y por lo tanto no se ve afectada por valores
extremos.

Supngase los datos de la siguiente tabla en que se estudia el crecimiento celular en dos grupos.

Datos hipotticos para ejemplificar la prueba no paramtrica "U" de Mann-Whitney:

% crecimiento
ID GRUPO Celular Rango
1
2
3
4
5
6
7
8



A
0
0
0
0
2
3
10
12
3.5
3.5
3.5
3.5
7.5
9.0
10.5
12.0

9
10
11
12
13
14



B
0
0
2
10
14
16
3.5
3.5
7.5
10.5
13.0
14.0


n
(Grupo 1)
= 8

R
(1)
= (x
i/Grupo 1
) = 53

X
(rangos Grupo 1)
= 6.625
n
(Grupo 2)
= 6

R
(2)
= (x
i/Grupo 2
) = 52

X
(rangos Grupo 2)
= 8.67

Los valores observados en el grupo 1 son menores que en el grupo 2.

En esta situacin:

1. H
o
: Los valores de crecimiento celular son similares en ambos grupos
2. H
1
: Los valores de crecimiento celular son diferentes dependiendo del grupo
3. Nivel de significacin = 0,05
4. Calcular un estadgrafo: en este caso, con una variable cualitativa dicotmica y una cuantitativa
(si esta no puede asumirse que proviene de una poblacin que se distribuye de forma normal) el
estadgrafo de eleccin es la "U" de Mann-Whitney
5. Comparar el valor obtenido con valores "U" de Mann-Whitney con ello llegar a conclusiones
acerca de la validez de la H
o


Introduccin a la bioestadstica J Vila

59
Se debe cumplir que:



A continuacin es calculan los dos estadgrafos 'U
1
' i 'U
2
':



Se debe cumplir que:


Se selecciona la U
i
que se corresponde a la R
i
ms pequea. En nuestro ejemplo R
2
, y se va a buscar el
valor de U (17) en las tablas propuestas por Mann-Whitney.

El resultado de realizar este ejemplo con el programa estadstico SPSS-Win se muestra a continuacin:

- - - - - Mann-Whitney U - Wilcoxon Rank Sum W Test
V1
by GRUP


Mean Rank Cases

6.63 8 GRUP = 1.00
8.67 6 GRUP = 2.00
--
14 Total

EXACT Corrected for Ties
U W 2-tailed P Z 2-tailed P
17.0 52.0 .4136 -.9428 .3458

Cuando las muestras son grandes (n
1
> 20, y n
2
> 30) se puede realizar una transformacin y calcular
la 'p' bajo la distribucin normal (z).

El valor U=17 no se halla en la regin crtica (p=0,4136), por lo tanto no existe evidencia suficiente
para rechazar la H
o
.
105
2
1) 6 (8 ) 6 (8
52 53
2
1) n )(n n (n
R R
B A B A
2 1
=
+ + +
= +
=
+ + +
= +
17 2 5
2
1) (6 6
6 * 8 R
2
1) (n n
n * n U
31 3 5
2
1) (8 8
6 * 8 R
2
1) (n n
n * n U
2
2 2
2 1 2
1
1 1
2 1 1
=
+
+ =
+
+ =
=
+
+ =
+
+ =
48 6 * 8 17 31 *n n U U
2 1 2 1
= = + = = +
Introduccin a la bioestadstica J Vila

60
RELACIN ENTRE UNA VARIABLE CUANTITATIVA MEDIDA EN DOS
MOMENTOS DIFERENTES

Se trata de analizar si en la poblacin, los valores de una variable cuantitativa se modifican despus
de una intervencin. Para ello deber calcularse la variable diferencia pre-post intervencin. Si sta
se puede asumir que proviene de una distribucin normal, la prueba idnea es la 't' de Student para
datos apareados.

La prueba t de Student para datos apareados

Ejemplo:

Un equipo de atencin primaria realiz un estudio en el que se trataba de valorar si las tiras de
glicemia modificaban sus valores si eran guardadas en nevera. Para ello a 159 pacientes que
acudieron al servicio de extracciones se les realiz una determinacin de glicemia. las tiras se
guardaron en la nevera y a las 4 semanas volvieron a analizarse. Los resultados se muestran en la
siguiente tabla.

Resultados de 159 determinaciones de glicemia.

Situacin Variable
Basal 4 semanas Diferencia

X
143 136,6 - 6,4

DE 62,2 63 8


En esta situacin:

1. H
o
: La media de la variable diferencia es 0
2. H
1
: La media de la variable diferencia es mayor que 0
3. Nivel de significacin = 0,05
4. Calcular un estadgrafo: en este caso, con una variable cuantitativa (si esta puede asumirse que
proviene de una poblacin que se distribuye de forma normal) el estadgrafo de eleccin es la t
de Student
5. Comparar el valor obtenido con valores de la tabla t de Student con ello llegar a conclusiones
acerca de la validez de la H
o



Se trata de calcular un valor de 't' y buscar su significacin estadstica en las tablas de la 't' de
Student con grados de libertad = n-1. La frmula para su clculo es:


n
DE
X
t
diferencia
diferencia
=
Introduccin a la bioestadstica J Vila

61
Para los datos del ejemplo:



La tabla de 't' de Student con grados de libertad n-1 = 159 1 = 158, nos muestra que la p 0,001,
por lo que se concluir que las tiras de glicemia pierden significativamente su valor guardadas en
nevera.



Intervalo de confianza de las diferencias

Una forma alternativa de realizar inferencias sobre la poblacin, y que cmo se ver ofrece mucha
ms informacin, es calcular el intervalo de confianza de cual puede ser la medida del cambio (la
diferencia) en la poblacin.

Para ello se aplica la frmula:


donde:

IC(1-)100 = nivel de confianza deseado
t
/2
= valor de 't' que corresponde a para grados de libertad = n-1

En el ejemplo, si desean calcular el intervalo de confianza del 95%:


Con los datos que se disponen se concluye con un nivel de confianza del 95%, que las tiras de
glicemia guardadas en nevera 4 semanas pierden su valor en media entre 5,14 y 7,65 mg/dl. Al no
incluir este intervalo la H
o
( X
diferencias
=0), se rechaza con un nivel de significacin estadstica
0,05.

Obsrvese cmo el IC ofrece mucha ms informacin, pues un clnico difcilmente cambiar el
tratamiento porque una tira de glicemia indique cmo mucho 7,65 mg/dl menos de lo que en
realidad est el paciente. En este caso nos encontramos ante una diferencia estadsticamente
significativa pero clnicamente irrelevante. Esta matizacin slo la podremos ofrecer con los IC.
088 , 10
159
8
6.4 -
t = =
n
DE
t X 100 * ) IC(1
s diferencia
2 /
s diferencia

=
7,65 - 5,14 -
159
8
98 , 1 4 , 6 100 * ) 05 , 0 IC(1 = =
Introduccin a la bioestadstica J Vila

62
PRUEBAS DE HIPTESIS CON UNA VARIABLES CUALITATIVAS
MEDIDA EN DOS MOMENTOS DISTINTOS

Prueba de Mc Nemar

Supngase un investigador interesado en los trastornos del sueo. Sospecha que las mujeres al
quedarse embarazadas roncan con ms facilidad.

Para ello recoge datos en un servicio de obstetricia: En la primera visita 26 mujeres confiesan
roncar en ocasiones antes del embarazo mientras que 75 dicen no roncar nunca. En la visita de los 6
meses se repite la pregunta. De las 26 mujeres que confesaron roncar ahora slo 18 dicen seguir
hacindolo, mientras que de las que decan no tener este problema ahora roncan 25. Los datos
pueden resumirse en la siguiente tabla:

Ejemplo hipottico para ilustrar la prueba de Mc Nemar

Roncaba durante
el embarazo

S No
S 18 8 26 Ronca antes
del embarazo No 25 50 75
43 58 101

Obsrvese que los valores sombreados corresponden a aquellas situaciones en que el estado inicial
es distinto al del final. Los datos sugieren pues que hay un cambio durante el embarazo.

En este estudio:

1. H
o
: El embarazo no provoca ningn cambio en el roncar de las pacientes
2. H
1
: El embarazo provoca cambios en el roncar de las pacientes
3. Nivel de significacin = 0,05
4. Calcular un estadgrafo: el estadgrafo de eleccin es el 2 obtenido con la frmula de Mc
Nemar
5. Comparar el valor obtenido con los valores de la tabla 2

La frmula utilizada para el clculo es:



Este valor se busca en las tablas con 1 grado de libertad ([filas-1]* [columnas-1] = [2-1]*[2-1] = 1).
Los datos aportan evidencia para rechazar la H
o
. Las mujeres con el embarazo modifican
significativamente (p < 0,01) el hbito de roncar.

Las condiciones para poder aplicar esta prueba es que el nmero de sujetos discordantes (en el
ejemplo 8+25 = 33 sea grande (aproximadamente > 10).

7576 , 7
25 8
) 1 | 25 8 (|
es coincident no n' ' las de suma
-1) | es coincident no n' ' las entre diferencia (|
2 2
2
=
+

= =
Introduccin a la bioestadstica J Vila

63
Obsrvese el resultado obtenido con el paquete estadstico SPSS-Win:

ANTES y DESPUES
18 8
25 50
ANTES
1
2
1 2
DESPUES

Estadsticos de contraste
b
101
7.758
.005
N
Chi-cuadrado
a
Sig. asintt.
ANTES y
DESPUES
Corregido por continuidad
a.
Prueba de McNemar
b.



Muchos paquetes estadsticos en lugar de utilizar el estadgrafo calculan directamente la
probabilidad de la tabla basndose en la distribucin binomial. Obsrvese el resultado obtenido con
el paquete estadstico SPSS-Win con los datos de la siguiente tabla:



Roncaba durante
El embarazo

S No
S 5 10 15 Ronca antes
del embarazo No 1 18 19
6 28 34




Introduccin a la bioestadstica J Vila

64
NPar Tests
Crosstabs

ANTES & DESPUES
-----------------------
| | DESPUES |
| ----- | ---- | -- |
| ANTES | 0 | 1 |
| ----- | ---- | -- |
| 0 | 18 | 10 |
| ----- | ---- | -- |
| 1 | 1 | 5 |
| ----- | ---- | -- |

Test Statistics(b)
---------------------------------------------
| | ANTES & DESPUES |
| --------------------- | --------------- |
| N | 34 |
| --------------------- | --------------- |
| Exact Sig. (2-tailed) | ,012(a) |
| --------------------- | --------------- |
a Binomial distribution used.
b McNemar Test


La distribucin binomial y se calcula utilizando la frmula que depende de los efectivos ms
pequeos observados en una de las casillas "discordantes" (llmese c
i
):


donde "r" son el sumatorio de los valores de las casillas "discordantes". En el ejemplo propuesto al
presentar la casilla "discordante" con menos efectivos 1 slo sujeto:



[ ]
..........
2
1) (r r
r 1 2(0,5) p 2 c si
r 1 (0,5) 2 p 1 c si
(0,5) 2 p 0 c si
r
i
r
i
r
i
(

)
`


+ + = =
+ = =
= =
[ ] 012 , 0 1 11 (0,5) 2 p
11
= + =
Introduccin a la bioestadstica J Vila

65
REGRESIN Y CORRELACIN

Tanto la regresin cmo la correlacin son mtodos para analizar la relacin entre dos variables
cuantitativas.
La utilizacin de la regresin o de la correlacin, o de ambas depender de la naturaleza de los
datos y su relacin subyacente.
Antes de analizar los datos es conveniente representarlos grficamente en lo que se conoce cmo
diagrama de dispersin (en ingls Scatter)



Diagrama de dispersin

Suponga que a 15 alumnas de primero de enfermera se les ha medido su altura y el Volumen
Espiratorio Forzado en un segundo (VEF-1). Los resultados se muestran a continuacin:

ID Altura VEF-1

1 155,8 2,80
2 158,7 3,00
3 161,9 3,16
4 162,6 3,40
5 162,6 3,39
6 162,7 3,17
7 163,4 3,56
8 163,4 3,74
9 165,3 3,90
10 167,2 3,71
11 168,2 3,06
12 168,2 4,01
13 168,2 4,30
14 168,5 4,00
15 169,1 4,40

Para realizar un diagrama de dispersin una de las variables representar los valores del eje de
abscisas (generalmente representado por la letra X) y la otra el eje de ordenadas (generalmente
representado por la letra Y). La asignacin de una u otra variable a cada uno de los ejes depender
de la naturaleza de la relacin, asignando la letra Y a la variable cuyos valores dependen de la
otra variable. En el ejemplo los valores de FEV-1 dependen de la altura de los alumnos. Por lo
tanto el grfico tendr la siguiente forma:
Introduccin a la bioestadstica J Vila

66



Una inspeccin simple de la figura sugiere que los valores de FEV-1 aumentan con la altura.

El siguiente paso consiste en trazar una lnea que mejor represente esta relacin: La ms simple es
una lnea recta. Podra intentarse otro tipo de lnea que mejor representara esta dispersin, pero su
compresin va ms all de los objetivos del presente dossier.

La siguiente figura muestra la lnea recta que mejor se ajusta a los datos.




Esta lnea tiene algunas propiedades:

pasa por el punto que representa la media de X y por el punto que representa la media de Y.
de todas las lneas que se pueden trazar, sta es la nica que tiene la propiedad de que la suma de
las distancias al cuadrado de cada punto hasta la recta sea mnima.
Introduccin a la bioestadstica J Vila

67
esta recta (cmo cualquier otra recta en un plano) viene definida por la ecuacin: [y = a + b x]
donde a y b son constantes.
a se conoce la ordenada en el origen. Es el punto por donde la recta cruza ele eje de las y
cuando x= 0
b cmo la pendiente. Es el incremento de y cuando x aumenta en una unidad.



La Regresin

El trmino regresin se debe a Sir Francis Galton (1822-1911), antroplogo y bilogo britnico que
al estudiar la importancia de los factores hereditarios en el crecimiento de las plantas de guisante
observ hace ms de 100 aos que al cruzar las plantas de mayor tamao entre s se obtenan
plantas por trmino medio ms pequeas, mientras que al cruzar las ms pequeas se originaban
plantas relativamente mayores. Galton tambin observ este fenmeno en sus estudios sobre la
herencia de la altura en humanos, denominndolo regresin a la mediocridad. El fenmeno descrito
por Galton es un caso particular de lo que en la actualidad se denomina regresin a la media.


El contexto donde se utiliza la regresin es aquel en que se dispone de una variable desenlace o
dependiente y una variable predictora o independiente. En el ejemplo la variable FEV-1 es la
variable desenlace y la altura es la variable predictora.

En esta situacin cada valor de Y depende de un valor de X multiplicado por un coeficiente b,
ms una constante a y un trmino de error e. Es decir:
Y = a + b X + e

donde:
e es una variable con valores aleatorios que se distribuyen de forma normal con media =0
a es una constante, la ordenada en el origen, que se obtiene a partir de:
x b y a =
b es tambin una constante, conocida cmo la pendiente y se obtiene a partir de:
2
) x - (x
) y - (y ) x - (x
b

=

Introduccin a la bioestadstica J Vila

68
En nuestro ejemplo:


id x
i
y
i (x
i
- X)
2
(y
i
- Y)
2
(x
i
- X)
* (y
i
- Y)
valores
predichos
Y

= -12,417+ 0,097*x
i
residuales
y
i
- Y



1 155,8 2,8 73,731 0,598 6,640 2,738 0,062
2 158,7 3 32,338 0,329 3,260 3,020 -0,020
3 161,9 3,16 6,184 0,171 1,028 3,331 -0,171
4 162,6 3,4 3,192 0,030 0,310 3,400 0,000
5 162,6 3,39 3,192 0,034 0,328 3,400 -0,010
6 162,7 3,17 2,845 0,163 0,680 3,409 -0,239
7 163,4 3,56 0,974 0,000 0,013 3,477 0,083
8 163,4 3,74 0,974 0,028 -0,164 3,477 0,263
9 165,3 3,9 0,834 0,107 0,298 3,662 0,238
10 167,2 3,71 7,915 0,019 0,384 3,847 -0,137
11 168,2 3,06 14,542 0,264 -1,958 3,944 -0,884
12 168,2 4,01 14,542 0,191 1,665 3,944 0,066
13 168,2 4,3 14,542 0,528 2,771 3,944 0,356
14 168,5 4 16,920 0,182 1,755 3,973 0,027
15 169,1 4,4 22,216 0,683 3,896 4,032 0,368


2465,8 53,6 214,937 3,325 20,908 0,000
Media 164,387 3,573 0,000

b = 0,097
a = -12,417

Con nuestro modelo predecimos que una mujer que mida 165,3 cm (id = 9) tendr un VEF-1 de
3,622 litros. En realidad ha presentado 3,9 litros por lo que el error ha sido de 0,238 litros.

Es ms, segn nuestro modelo cada aumento de 1 cm resulta en un aumento del VEF-1 de 0,097
litros.

La H
0
subyacente es que la pendiente b = 0, es decir, cada aumento de una unidad de la variable
altura, no produce en media ningn aumento o disminucin en la variable VEF-1.

Para testar esta hiptesis se calcula un valor de t y se compara en las tablas con n-2 grados de
libertad. Para obtener este valor de t es necesario calcular:

La varianza residual s
2
= [1/(n-2)]* ( (y
i
-

y )
2
- b
2
* (x
i
-

x )
2
)
en nuestro ejemplo:

s
2
= [1/(15-2)]* (3,325 0,097
2
*214,937)= 0,0993
El error estndar de (b) = 0215 , 0
937 , 214
0,0993
) x (x
s
EE
2
i
2
b
= =

=
53 , 4
0,0215
0.097
EE
b
t
b
= = =
Introduccin a la bioestadstica J Vila

69
Al comparar este valor (4,53) con las tablas de t dStudent con 13 (n-2) grados de libertad
observamos que p< 0,001, por lo tanto podemos concluir que existe evidencia suficiente para
rechazar la hiptesis de que b = 0.



La Correlacin

La regresin nos explica cmo los cambios de una variable influencian en media en los valores de
otra variable, pero no nos dice nada acerca de la intensidad de esta relacin. Para responder a esta
pregunta debe calcularse el coeficiente de correlacin. El coeficiente de correlacin se basa en la
suma de productos alrededor de la media de las dos variables.

Obsrvese el siguiente diagrama de dispersin donde se ha trazado una lnea perpendicular a la
altura de la media de los valores de talla y una lnea horizontal a la altura de la media de los valores
de VEF-1.


Obsrvese que la mayora de valores se encuentran en las zonas positivas, por lo tanto la suma de
productos cruzados dar un valor positivo. En esta situacin existe una correlacin positiva. Las
siguientes figuras muestran una correlacin negativa entre la edad y los das libres de trabajo
remunerado en el ltimo mes y prcticamente una ausencia de correlacin entre la edad y la altura.

Introduccin a la bioestadstica J Vila

70




Para medir la intensidad de la relacin lineal entre dos variables cuantitativas se calcula el ndice de
correlacin que se simboliza por r Este ndice tomar valores entre 1 y +1. Cuanto ms cerca se
halle del valor 1 indica una correlacin negativa, cuanto ms cerca se encuentre r del valor +1
indica correlacin positiva y cuando se encuentre cerca del valor 0 indica ausencia de correlacin.
De modo aproximado, y tomado r en valor absoluto:

|r| entre 0,75 y 1 = correlacin excelente
|r| entre 0,5 y 0,75 = correlacin moderada/buena
|r| entre 0,25 y 0,5 = correlacin escasa
|r| entre 0 y 0,25 = correlacin despreciable

Ente ndice se obtiene a partir de la siguiente frmula:

Introduccin a la bioestadstica J Vila

71
782 , 0
325 , 3 * 937 , 214
908 , 20
) y - (y ) x - (x
) y - (y ) x - (x
r
2 2
= =

=

Para calcular su signifiacin estadstica puede calcularse un valor t de Student y se compara con
las tablas con n-2 grados de libertad utilizando la frmula:

52 , 4
0,782 1
2 15
782 , 0
r 1
2 n
r t
2 2
=

=
La tabla de la t de Student indica que p < 0,001, con lo que concluimos que existe gran evidencia
de que en la poblacin origen de esta muestra en coeficiente de correlacin es distinto de 0.




MEDIDAS DE ASOCIACIN EN LOS ESTUDIOS EPIDEMIOLGICOS


El Riesgo Relativo (RR)

Se utiliza en estudios de cohortes o en ensayos clnicos.
Se trata de calcular el riesgo observado en los expuestos y "relativizarlo" respecto al riesgo de los
que no estaban expuestos.

Los sujetos se "clasifican" entre expuestos y no expuestos y posteriormente se observa si presentan
o no una determinada enfermedad

Dada la siguiente tabla:

Enfermedad
Si No Total

Si a b a+b
Expuestos
No c d c+d

d c
c
b a
a
RR
+
+
= =
expuestos no en Riesgo
expuestos Riesgo


En los estudios que implican un seguimiento (cohortes y ensayos clnicos) el riesgo es equivalente a
la tasa de incidencia acumulada.

Introduccin a la bioestadstica J Vila

72

Ejemplo

Una cohorte de 1.249 nios es seguida durante 14 aos. Se quiere saber si hay relacin entre
presentar episodios de bronquitis en los primeros 5 aos de vida (exposicin) y presentar tos a los
14 aos (enfermedad).


Tos a los
14 aos

Si No Total

Si 26 247 273
Bronquitis a
los 5 aos

No 44 1.002 1.046





Los nios con antecedentes de bronquitis antes de los 5 aos tienen 2,26 veces ms riesgo de
padecer tos a los 14 aos que nos nios sin estos antecedentes.

26 , 2
042 , 0
95 , 0
1.046
44
273
26
RR = = =


Intervalo de confianza de un RR

A partir de los datos observados en una muestra de sujetos, se trata de estimar cual puede ser el RR
en la poblacin. Esta estimacin se realiza por intervalo con un determinado nivel de confianza.


Cuando los efectivos en cada una de las casillas son mayores de 5 la frmula para el clculo de IC
es:
d c c b a a
Z RR
e IC
+
+
+

=
1 1 1 1
) ln(
)
2
(
100 ) 1 (



Para los datos del ejemplo y si desea calcular el intervalo de confianza del 95 %:

61 , 3 42 , 1 100 ) 05 , 0 1 (
046 . 1
1
44
1
273
1
26
1
96 , 1 ) 26 , 2 ln(
= =
+
e IC

Introduccin a la bioestadstica J Vila

73

La Odds Ratio (OR)

Para estudios de Casos y Controles, y Transversales.

Debido al diseo de estos estudios, no se puede calcular "riesgo".

Un grupo de individuos que presentan una enfermedad de inters, se "comparan" con un grupo de
controles que no padecen la enfermedad y se observa si presentaron o no la exposicin en el pasado.

Dada la siguiente tabla:

Enfermedad
Si No

Si a b
Expuestos
No c d
Total a+c b+d
b c
d a
d
b
c
a

= = =
enfermos no Odds
enfermos Odds
OR

Ejemplo

Un grupo de enfermos de cncer de pulmn se comparan con un grupo de controles tambin
ingresados en el hospital pero por otros motivos que no sea cncer de pulmn. Posteriormente se
analiza si estaban expuestos o no al tabaquismo.


Cncer
Si No

Si 688 650
Tabaquismo
No 21 59
Total 709 709




Por cada paciente fumador entre los que no presentan cncer hay 2,97 fumadores entre los que
presentan cncer.

97 , 2
0 , 11
8 , 32
59
650
21
688
OR = = =

Los pacientes fumadores tienen 2,97 ms riesgo de padecer cncer que los pacientes no fumadores.


Introduccin a la bioestadstica J Vila

74
Intervalo de confianza de un OR

A partir de los datos observados en una muestra de sujetos, se trata de estimar cual puede ser el OR
en la poblacin. Esta estimacin se realiza por intervalo con un determinado nivel de confianza.



Cuando los efectivos en cada una de las casillas son mayores de 5 la frmula para el clculo de IC
es:
d c b a
Z OR
e IC
1 1 1 1
) ln(
)
2
(
100 ) 1 (
+ + +
=



Para los datos del ejemplo y si se desea calcular el IC del 95%:

) 95 , 4 79 , 1 ( 100 ) 05 , 0 1 (
59
1
21
1
650
1
688
1
96 , 1 ) 97 , 2 ln(
= =
+ + +
e IC


Confusin e interaccin

En el contexto de RR y OR, se habla de interaccin y de confusin cuando en la relacin entre una
variable explicativa (p.e. sexo mujer/hombre) y una variable desenlace (muerte s/no) es muy
importante tener presente una tercera variable (p.e. edad <65/65).

Confusin

Desde el punto de vista epidemiolgico un factor de confusin es aquel que cumple las tres
condiciones:
.- A) esta relacionado con el acontecimiento de inters (variable desenlace).
.- B) esta relacionado con el factor de inters (variable explicativa)
.- C) y no es un paso intermedio entre el factor de inters y el acontecimiento. En otras palabras, no
debe ser un mecanismo de generacin de dicho acontecimiento.

A menudo el ltimo apartado es el ms difcil de entender.

El ejemplo tpico de confusin es el tabaco como confusor en la relacin entre consumo de caf e
Infarto Agudo de Miocardio (IAM):
.- A) los fumadores presentan ms IAM que los no fumadores
.- B) los fumadores tienden a ser ms consumidores de caf que los no fumadores
.- C) consumir caf, no causa tabaquismo

La siguiente figura ilustra esta relacin.
Introduccin a la bioestadstica J Vila

75
Confusin: ejemplo del consumo de caf, de tabaco e Infarto Agudo de
Miocardio.
EXPOSICIN
(consumo de caf)
ENFERMEDAD
(Infarto Agudo de Miocardio)
VARIABLE
CONFUSORA
(consumo de tabaco)


Si analizamos la relacin entre sexo (hombre/mujer) y muerte tras un infarto, la gravedad del infarto
(Killip I-II versus Killip III-IV):
.- A) los Killip III-IV tienen ms mortalidad que los Killip I-II
.- B) los Killip III-IV tienden a ser ms frecuentes en mujeres que en hombres
.- C) sin embargo el Killip (gravedad) podra argumentarse que es un mecanismo de generacin de
la muerte y por tanto no puede considerarse un factor confusor

La siguiente figura ilustra esta situacin.

Ejemplo de NO confusin. En este caso el Killip puede argumentarse que es
un paso intermedio hacia la muerte
EXPOSICIN
(sexo)
ENFERMEDAD
(Muerte tras
Infarto Agudo de Miocardio)
VARIABLE NO
CONFUSORA
(Killip)

Introduccin a la bioestadstica J Vila

76
Teniendo siempre bien presente la explicacin epidemiolgica, a efectos puramente numricos, a
priori una tercera variable puede ser un factor de confusin si cuando se estratifica por cada nivel de
la variable potencialmente confusora los OR (o los RR) son muy similares y sin embargo, cuando se
prescinde de la estratificacin el OR (o el RR) resultante es muy diferente.

Por ejemplo en los datos hipotticos de la siguiente tabla, asumiendo en este caso que el Killip no es
un paso intermedio, el consejo que daramos a un paciente es que da lo mismo ir a un hospital de
alto nivel que a un comarcal puesto que en cada estrato de gravedad (Killip) el OR es 1.


KILLIP I-II KILLIP III-IV

C C

C C
Alto nivel 5
(9%)
95
(9%)
Alto nivel 200
(99%)
800
(99%)

Comarcal 50 950 Comarcal 2 8
55
(5%)
1045 1100 202
(20%)
808 1010

OR = 1 OR = 1

Obsrvese que los pacientes graves tienden a ir al hospital de alto nivel aunque el tipo de hospital
no se relaciona con ser un caso o un control (OR=1).

Sin embargo si no tenemos presente la estratificacin y simplemente analizamos la relacin entre
tipo de hospital y ser C o Cel resultado se muestra en la siguiente tabla:


Datos crudos, sin ajustar por Killip

C C
Alto nivel 205
(80%)
895
(48%)

Comarcal 52 958
257
(12%)
1853 2110

OR = 4,22

Llegaramos a la conclusin errnea que ir a un hospital de alto nivel tiene 4 veces ms riego que
ir a un comarcal. La relacin entre tipo de hospital y ser caso/control est confundida por efecto
de gravedad.

Obviamente el OR correcto es 1. La forma adecuada es presentar los OR para cada estrato o, mejor
an, calcular un OR conjunto ponderado (ajustado) por ejemplo por el mtodo de Mantel y
Haenzel o con la utilizacin de un modelo multivariado como la regresin logstica

El OR de 4,22 se le llama OR crudo ya que no est ajustado por otra/s variable/s.


Introduccin a la bioestadstica J Vila

77
Interaccin

En el contexto de OR y RR se entiende por interaccin cuando los riesgos de cada estrato son muy
diferentes.

Por ejemplo obsrvese la siguiente tabla:


< 65 aos 65 aos

C C

C C
Hombre 180
(82%)
538
(52%)
Hombre 20
(71%)
490
(84%)

Mujer 40 660 Mujer 8 92
220
(4%)
1198

1418 28
(5%)
582 610

OR = 5,52 OR = 0,47

Cuando se tiene menos de 65 aos los hombres tienen mucho ms riesgo que las mujeres, sin
embargo cuando se tienen ms de 65 es mucho mejor ser hombre.

Cuando existe una interaccin, la mejor solucin es presentar los datos de cada estrato por separado
o alternativamente elegir una categora de referencia (por ejemplo mujeres menores de 65 aos) y
comparar contra esta categora todas las dems combinaciones (hombres <65; mujeres 65; hombres
65).

Introduccin a la bioestadstica J Vila

78
VALORACIN DE PRUEBAS DIAGNSTICAS

Prevalencia

Es la proporcin de sujetos que presentan una determinada enfermedad (o caracterstica).

Sensibilidad

Es la proporcin de sujetos que presentando la enfermedad dan positivos en una prueba
diagnstica.

Especificidad

Es la proporcin de sujetos que no presentando la enfermedad dan negativos en una prueba
diagnstica.

Falsos positivos

Es la proporcin de sujetos que no presentando la enfermedad dan positivos en una prueba
diagnstica.


Falsos negativos

Es la proporcin de sujetos que presentando la enfermedad dan negativos en una prueba
diagnstica.


Valor predictivo positivo

Es la proporcin de sujetos que presentan la enfermedad entre los que dan positivo en una prueba
diagnstica.


Valor predictivo negativo

Es la proporcin de sujetos que no presentan la enfermedad entre los que dan negativo en una
prueba diagnstica.

Introduccin a la bioestadstica J Vila

79
Ejemplos de sensibilidad, especificidad, valor predictivo positivo y valor predictivo negativo


HIV Prevalencia (20/100.000)*100=0,02%
+ -
Prueba
+ 198 9.998 10.196 Sensibilidad (198/200)*100=99%
diagnstica - 2 989.802 989.804 Especificidad (989.802/999.800)*100=99%
200 999.800 1.000.000 VPP (198/10.196)*100= 1,94%
VPN (989.802 / 989.804)*100=
99,9998%


HIV Prevalencia 45%
+ -
Prueba
+ 4.455 55 4.510 Sensibilidad 99%
diagnstica - 45 5.445 5.490 Especificidad 99%
4.500 5.500 10.000 VPP 98,78%
VPN 99,18%


Dficit visual Prevalencia 7,8135
%
+ -
Prueba diagnstica + 485 295 780 Sensibilidad 97%
(equipo salud escolar) - 15 5.605 5.620 Especificidad 95%
500 5.900 6.400 VPP 62,18%
VPN 99,73%


Tuberculosis Prevalencia 0,05%
+ -
Prueba diagnstica
+ 180 7.996 8.176 Sensibilidad 90%
PPD - 20 391.804 391.824 Especificidad 98%
200 399.800 400.000 VPP 2,2%
VPN 99,995%


Introduccin a la bioestadstica J Vila

80

Tuberculosis Prevalencia 10%
+ -
Prueba diagnstica
+ 36.000 7.200 43.200 Sensibilidad 90%
PPD - 4.000 352.800 356.800 Especificidad 98%
40.000 360.000 400.000 VPP 83,33%
VPN 98%




Introduccin a la bioestadstica J Vila

81
NMERO DE PACIENTES QUE NECESITAMOS TRATAR NNT


Existen muchas formas de presentar los resultados de un ensayo clnico o de un estudio de cohortes.

El Ensayo Sueco en Ancianos Hipertensos realiz un ensayo clnico en 1.627 hipertensos entre 70 y
84 aos. Se evaluaba morbididad y mortalidad. Uno de los resultados se muestra en la siguiente
tabla:

Complicaciones
Primarias

S No Total

Tratamiento Activo (TtA) 58 754 812

Placebo (Pl) 94 721 815

152 1.475 1.627


Riesgo Relativo (RR)

El riesgo observado en el grupo TtA:

% 14 , 7 0,0714 =
812
58


El riesgo observado en el grupo Pl:

% 53 , 11 0,1153 =
815
94


El riesgo de grupo TtA relativo al grupo Pl:

0,619 =
53 , 11
14 , 7
= RR

Los individuos tratados activamente tienen el 62% del riesgo que tienen los tratados con Placebo

Reduccin Relativa de Riesgo (RRR)


38,1% 0,381 =
53 , 11
14 , 7 53 , 11
= RRR



En los individuos tratados activamente tienen un 38% menos riesgo de sufrir una complicacin
primaria que los que toman placebo


Reduccin Absoluta de Riesgo (ARR)
Introduccin a la bioestadstica J Vila

82

4,4% = 7,14 - 11,53 = ARR

En los individuos tratados activamente el riesgo de complicaciones primarias se reduce en 4,4%

Nmero de pacientes que necesitamos tratar (NNT)

22,7
4,4
100
=
044 , 0
1
= NNT

Se necesitan tratar con TtA 23 personas para evitar una complicacin primaria

De estas 4 formas de presentar los resultados slo 2 nos ofrecen a valor relacionado con la magnitud
del tratamiento.

El NNT adems de ser fcil de interpretar nos da informacin de los recursos necesarios.

Para evidenciar esta afirmacin supngase 2 situaciones hipotticas ilustradas en la siguiente tabla:
Introduccin a la bioestadstica J Vila

83

%
complicaciones


TtA Pl RR RRR ARR NNT

Situacin
Real
7,14 11,53
0,619
53 , 11
14 , 7


38%
53 , 11
14 , 7 53 , 11


4,4%
14 , 7 53 , 11


23
% 4 , 4
1




Situacin
Media
0,714 1,153
0,619
153 , 1
714 , 0


38%
153 , 1
714 , 0 153 , 1


0,44%
714 , 0 153 , 1


228
% 44 , 0
1




Situacin
Baja
0,0714 0,1153
0,619
1153 , 0
0714 , 0


38%
1153 , 0
0714 , 0 1153 , 0


0,044%
0714 , 0 1153 , 0


2.278
% 044 , 0
1




Introduccin a la bioestadstica J Vila

84
ALFA DE CRONBACH
2


Cuando en un cuestionario las puntuaciones de varias preguntas se combinan para ofrecer una sola
puntacin, stas deberan tener consistencia interna. Es decir, las preguntas deberan todas medir la
misma cosa, por lo que deberan estar muy correlacionadas entre ellas.

Por ejemplo el mini-HAQ es una medida de deterioro fsico desarrollado para pacientes con
mielopata cervical
3
. La siguiente tabla muestra el resultado de aplicarlo a 249 pacientes:

Mini-HAQ scale in 249 severely impaired subjects


Item Mean score SD of score s
i


Stand 2.96 1.04
Get out of bed 2.57 1.11
Cut meat 2.91 1.12
Hold cup 2.41 1.06
Walk 2.64 1.04
Climb stairs 3.06 1.04
Wash 3.25 1.01
Use toilet 2.59 1.09
Open a jar 2.86 1.02
Enter/leave car 2.80 1.03

Mini-HAQ 28.06 s
T
= 8.80



Un coeficiente para medir la consistencia interna es la Alfa de Cronbach calculada a partir de:

|
|

\
|

=

2
2
1
1
T
i
s
s
k
k

donde:

.- k = nmero de tems (preguntas), en el ejemplo 10
.- s
i
2
= varianza (DE
2
) de cada tem, en el ejemplo = (1,04)
2
+(1,11)
2
+ . . .+(1,03)
2
= 11.16
.- s
T
2
= varianza de la puntaciones suma, en el ejemplo = (8,80)
2
= 77.44

Aplicando los datos del ejemplo a la frmula:

95 , 0
44 , 77
16 , 11
1
1 10
10
= |

\
|

=

Cuando las escalas se utilizan como herramientas para comparar grupos, la puede ser menor que
cuando se utiliza en situaciones clnicas donde el valor propio de un individuo es de inters. Para

2
Blan JM, Altman DG. Cronbachs alpha. BMJ 1997:314: 572
3
Casey ATH, Crockard HA, Bland JM, Setevens J, Moskovich R, Ransford AQ. Development of a functional scoring
system for rheumatoid arthritis patients with cervical myelopathy. Ann Rheum Dis 1996: 55(12):901-906
Introduccin a la bioestadstica J Vila

85
comparar grupos valores de superiores a 0,7 son suficientes, mientras que para aplicaciones
clnicas el valor debe ser como mnimo de 0,90.

La de Cronbach tiene la siguiente interpretacin:
los tems utilizados en nuestra escala son tan slo algunos de todos los posibles tems que se
podran utilizar para realizar una puntuacin final. Si se eligen aleatoriamente dos de estos
tems la correlacin esperada es .

Introduccin a la bioestadstica J Vila

86
NDICE KAPPA SIMPLE

Proporcin de acuerdo potencial por encima del azar que obtienen distintas mediciones de un
mismo hecho.

El ndice Kappa simple se utiliza para categoras nominales o binarias.

El ndice Kappa ponderado se utiliza para categoras ordinales 3.

El recorrido de Kappa va de 1 a +1.

De forma aproximada pude decirse que
4
:

Kappa = 0: el acuerdo obtenido puede explicarse exclusivamente por azar
Kappa > 0 y < 0,4: concordancia deficiente
Kappa 0,4 y < 0,75: concordancia aceptable /buena
Kappa 0,75: acuerdo excelente


Otra clasificacin aproximada
5
,
6
:

< 0: poor
0 to 0.20: Slight
0.21 to 0.40: Fair
0.41 to 0.60: Moderate
0.61 to 0.80: Substantial
0.81 to 1: Almost perfect

Suponga que dos radilogos (observador A y observador B) clasifican radiografas de una
determinada enfermedad como grado I o grado II. El resultado obtenido se muestra en la siguiente
tabla:


Oserv. A
Grado I Grado II

Grado I 37 (a) 10 (b)
Oserv. B
Grado II 11 (c) 52 (d)


ndice de acuerdo observado (I
o
), tambin llamada concordancia simple:

809 , 0
110
52 37
=
+
=
+
=
n
d a
I
o



4
Hernandez Aguado I, Porta Serra M, Miralles M, Garcia Benavides F, Bolumar F. La cuantificacion de la variabilidad
en las observaciones clinicas.
Med clin (BARC), 1990; 95: 424-429
5
Kramer MS. Feinstein AR. Clinical biostatistics LIV. The biostatistics of concordance. Clin Pharmacol Ther, 1981;
29: 111-123
6
Kraemer H, Periyakoil VS, Noda A. Kappa coefficients in medical research. Stat Med. 2002; 21:2109-2129.
Introduccin a la bioestadstica J Vila

87
Frecuencias esperadas debidas al azar (el terminologa de Ji al cuadrado):


Oserv. A
Grado I Grado II

Grado I 20,51(a) 26,49 (b)
Oserv. B
Grado II 27,49 (c) 35,51 (d)


ndice de acuerdo debido al azar (I
A
):
5092 , 0
110
51 , 35 51 , 20 ' '
=
+
=
+
=
n
d a
I
A

Si un observador hubiera clasificado las radiografas simplemente tirando una moneda al aire se
esperara que coincidiera en el 50,9% de los casos.

Acuerdo posible no debido al azar: (1-I
A
):
4908 , 0 5092 , 0 1 = =
A
I

ndice Kappa:

acuerdo observado no debido al azar acuerdo posible no debido al azar

612 , 0
4908 , 0
5092 , 0 809 , 0
azar al debido no posible acuerdo
azar al debido no observado acuerdo
Kappa =

= =

Expresado grficamente:

10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

acuerdo observado 81% no acuerdo

esperado por azar 51%
acuerdo posible no debido al azar 49%

kappa 61% no acuerdo

De la proporcin de acuerdo posible no debido al azar (49%) en el 61% han coincidido los dos
investigadores.




Introduccin a la bioestadstica J Vila

88
Anexo I (tabla de percentiles)




Introduccin a la bioestadstica J Vila

89

Anexo II (tabla z)
Anexo 1: Algunos valores del rea bajo la curva situada a la derecha de un valor z de una
distribucin normal con media = 0 y distribucin estndar = 1

z 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0
0,50000 0,49601 0,49202 0,48803 0,48405 0,48006 0,47608 0,47210 0,46812 0,46414
0,1
0,46017 0,45620 0,45224 0,44828 0,44433 0,44038 0,43644 0,43251 0,42858 0,42465
0,2
0,42074 0,41683 0,41294 0,40905 0,40517 0,40129 0,39743 0,39358 0,38974 0,38591
0,3
0,38209 0,37828 0,37448 0,37070 0,36693 0,36317 0,35942 0,35569 0,35197 0,34827
0,4
0,34458 0,34090 0,33724 0,33360 0,32997 0,32636 0,32276 0,31918 0,31561 0,31207
0,5
0,30854 0,30503 0,30153 0,29806 0,29460 0,29116 0,28774 0,28434 0,28096 0,27760
0,6
0,27425 0,27093 0,26763 0,26435 0,26109 0,25785 0,25463 0,25143 0,24825 0,24510
0,7
0,24196 0,23885 0,23576 0,23270 0,22965 0,22663 0,22363 0,22065 0,21770 0,21476
0,8
0,21186 0,20897 0,20611 0,20327 0,20045 0,19766 0,19489 0,19215 0,18943 0,18673
0,9
0,18406 0,18141 0,17879 0,17619 0,17361 0,17106 0,16853 0,16602 0,16354 0,16109
1
0,15866 0,15625 0,15386 0,15151 0,14917 0,14686 0,14457 0,14231 0,14007 0,13786
1,1
0,13567 0,13350 0,13136 0,12924 0,12714 0,12507 0,12302 0,12100 0,11900 0,11702
1,2
0,11507 0,11314 0,11123 0,10935 0,10749 0,10565 0,10383 0,10204 0,10027 0,09853
1,3
0,09680 0,09510 0,09342 0,09176 0,09012 0,08851 0,08692 0,08534 0,08379 0,08226
1,4
0,08076 0,07927 0,07780 0,07636 0,07493 0,07353 0,07215 0,07078 0,06944 0,06811
1,5
0,06681 0,06552 0,06426 0,06301 0,06178 0,06057 0,05938 0,05821 0,05705 0,05592
1,6
0,05480 0,05370 0,05262 0,05155 0,05050 0,04947 0,04846 0,04746 0,04648 0,04551
1,7
0,04457 0,04363 0,04272 0,04182 0,04093 0,04006 0,03920 0,03836 0,03754 0,03673
1,8
0,03593 0,03515 0,03438 0,03362 0,03288 0,03216 0,03144 0,03074 0,03005 0,02938
1,9
0,02872 0,02807 0,02743 0,02680 0,02619 0,02559 0,02500 0,02442 0,02385 0,02330
2
0,02275 0,02222 0,02169 0,02118 0,02068 0,02018 0,01970 0,01923 0,01876 0,01831
2,1
0,01786 0,01743 0,01700 0,01659 0,01618 0,01578 0,01539 0,01500 0,01463 0,01426
2,2
0,01390 0,01355 0,01321 0,01287 0,01255 0,01222 0,01191 0,01160 0,01130 0,01101
2,3
0,01072 0,01044 0,01017 0,00990 0,00964 0,00939 0,00914 0,00889 0,00866 0,00842
2,4
0,00820 0,00798 0,00776 0,00755 0,00734 0,00714 0,00695 0,00676 0,00657 0,00639
2,5
0,00621 0,00604 0,00587 0,00570 0,00554 0,00539 0,00523 0,00508 0,00494 0,00480
2,6
0,00466 0,00453 0,00440 0,00427 0,00415 0,00402 0,00391 0,00379 0,00368 0,00357
2,7
0,00347 0,00336 0,00326 0,00317 0,00307 0,00298 0,00289 0,00280 0,00272 0,00264
2,8
0,00256 0,00248 0,00240 0,00233 0,00226 0,00219 0,00212 0,00205 0,00199 0,00193
2,9
0,00187 0,00181 0,00175 0,00169 0,00164 0,00159 0,00154 0,00149 0,00144 0,00139
3
0,00135 0,00131 0,00126 0,00122 0,00118 0,00114 0,00111 0,00107 0,00104 0,00100


El valor z se construye sumando los valores de la primera columna y de la primera fila. En la
confluencia de estas dos cifras se muestra el rea bajo curva que deja a su derecha este valor z.
P.e. el valor z = 1,96 se forma con el valor 1,9 de la primera columna ms el valor 0,06 de la
primera fila. En la confluencia la tabla muestra que el rea bajo curva que este punto deja a su
derecha es 0,025 (2,5%). Por simetra el valor 1,96 deja a su izquierda el 2,5% del rea. Por lo
tanto entre 1,96 se encontrar el 95% del rea bajo la curva.
Introduccin a la bioestadstica J Vila

90
Anexo III (tabla t)
Tabla de la "t" de Student: Probabilidad , de observar un valor absoluto mayor o igual a la"t", en
un contraste bilateral



0,9 0,5 0,3 0,2 0,1 0,05 0,02 0,01 0,001
gl
1 0,158 1,000 1,963 3,078 6,314 12,706 31,821 63,656 636,578
2 0,142 0,816 1,386 1,886 2,920 4,303 6,965 9,925 31,600
3 0,137 0,765 1,250 1,638 2,353 3,182 4,541 5,841 12,924
4 0,134 0,741 1,190 1,533 2,132 2,776 3,747 4,604 8,610
5 0,132 0,727 1,156 1,476 2,015 2,571 3,365 4,032 6,869
6 0,131 0,718 1,134 1,440 1,943 2,447 3,143 3,707 5,959
7 0,130 0,711 1,119 1,415 1,895 2,365 2,998 3,499 5,408
8 0,130 0,706 1,108 1,397 1,860 2,306 2,896 3,355 5,041
9 0,129 0,703 1,100 1,383 1,833 2,262 2,821 3,250 4,781
10 0,129 0,700 1,093 1,372 1,812 2,228 2,764 3,169 4,587
11 0,129 0,697 1,088 1,363 1,796 2,201 2,718 3,106 4,437
12 0,128 0,695 1,083 1,356 1,782 2,179 2,681 3,055 4,318
13 0,128 0,694 1,079 1,350 1,771 2,160 2,650 3,012 4,221
14 0,128 0,692 1,076 1,345 1,761 2,145 2,624 2,977 4,140
15 0,128 0,691 1,074 1,341 1,753 2,131 2,602 2,947 4,073
16 0,128 0,690 1,071 1,337 1,746 2,120 2,583 2,921 4,015
17 0,128 0,689 1,069 1,333 1,740 2,110 2,567 2,898 3,965
18 0,127 0,688 1,067 1,330 1,734 2,101 2,552 2,878 3,922
19 0,127 0,688 1,066 1,328 1,729 2,093 2,539 2,861 3,883
20 0,127 0,687 1,064 1,325 1,725 2,086 2,528 2,845 3,850
21 0,127 0,686 1,063 1,323 1,721 2,080 2,518 2,831 3,819
22 0,127 0,686 1,061 1,321 1,717 2,074 2,508 2,819 3,792
23 0,127 0,685 1,060 1,319 1,714 2,069 2,500 2,807 3,768
24 0,127 0,685 1,059 1,318 1,711 2,064 2,492 2,797 3,745
25 0,127 0,684 1,058 1,316 1,708 2,060 2,485 2,787 3,725
26 0,127 0,684 1,058 1,315 1,706 2,056 2,479 2,779 3,707
27 0,127 0,684 1,057 1,314 1,703 2,052 2,473 2,771 3,689
28 0,127 0,683 1,056 1,313 1,701 2,048 2,467 2,763 3,674
29 0,127 0,683 1,055 1,311 1,699 2,045 2,462 2,756 3,660
30 0,127 0,683 1,055 1,310 1,697 2,042 2,457 2,750 3,646
31 0,127 0,682 1,054 1,309 1,696 2,040 2,453 2,744 3,633
32 0,127 0,682 1,054 1,309 1,694 2,037 2,449 2,738 3,622
33 0,127 0,682 1,053 1,308 1,692 2,035 2,445 2,733 3,611
34 0,127 0,682 1,052 1,307 1,691 2,032 2,441 2,728 3,601
35 0,127 0,682 1,052 1,306 1,690 2,030 2,438 2,724 3,591
36 0,127 0,681 1,052 1,306 1,688 2,028 2,434 2,719 3,582
37 0,127 0,681 1,051 1,305 1,687 2,026 2,431 2,715 3,574
38 0,127 0,681 1,051 1,304 1,686 2,024 2,429 2,712 3,566
39 0,126 0,681 1,050 1,304 1,685 2,023 2,426 2,708 3,558
40 0,126 0,681 1,050 1,303 1,684 2,021 2,423 2,704 3,551

0,126 0,674 1,036 1,282 1,645 1,960 2,326 2,576 3,291
Introduccin a la bioestadstica J Vila

91
Anexo IV (tabla X
2
)
Tabla del "X
2
": Probabilidad , de observar un valor absoluto mayor o igual al "X
2
", en un
contraste bilateral

0,9 0,5 0,3 0,2 0,1 0,05 0,02 0,01 0,001
gl
1 0,016 0,455 1,074 1,642 2,706 3,841 5,412 6,635 10,827
2 0,211 1,386 2,408 3,219 4,605 5,991 7,824 9,210 13,815
3 0,584 2,366 3,665 4,642 6,251 7,815 9,837 11,345 16,266
4 1,064 3,357 4,878 5,989 7,779 9,488 11,668 13,277 18,466
5 1,610 4,351 6,064 7,289 9,236 11,070 13,388 15,086 20,515



Introduccin a la bioestadstica J Vila

92
EJERCICIOS

1. Se quiere valorar si la relajacin es efectiva como sustituto del tratamiento
farmacolgico de la ansiedad de los pacientes que presentan este problema. Se ofrecen
cursillos de relajacin a pacientes que toman ansiolticos. De los que aceptan
participar en los cursos se selecciona una muestra al azar. Indique cual es la poblacin
objeto del estudio, la poblacin del estudio y las posibles fuentes de sesgo.

2. Se quiere realizar un estudio sobre las lceras por decbito. El estudio se realiza en
una residencia asistida, dependiente de los servicios sociales, dnde se ingresan los
ciudadanos que no tienen recursos ni soporte familiar. Indique cual es la poblacin
objeto del estudio, la poblacin del estudio y las posibles fuentes de sesgo.

3. El coordinador de urgencias esta preocupado por el excesivo consumo de peticiones
de analticas de los residentes y decide realizar un estudio. Comunica a los mdicos
esta decisin y les plantea el tipo de estudio que quiere realizar. Un mes ms tarde, y
antes de empezar dicho estudio, se da cuenta que las peticiones se han reducido
drsticamente. Explique las posibles razones. Puede ser fuente de sesgos?.

4. Se ha realizado un estudio en que las variables estudiadas han sido: la temperatura
corporal (en grados centgrados con la precisin de un decimal), Estado civil (soltero,
casado, viudo, divorciado, otros), Hipertenso (s, no), Glucosuria (+, ++, +++).
Indique el tipo de cada una de estas variables.

5. Ahora la fiebre se ha categorizado (fiebre alta, fiebre moderada, febrcula, no
fiebre), la tensin arterial sistlica/diastlica se ha medido en mm de Hg., y adems se
ha incluido el nivel de estudios (analfabeto, lee y escribe, primarios, secundarios,
universitarios) y nmero de personas a su cargo . Indique el tipo de cada una de estas
variables

6. Convierta la fiebre en cualitativa dicotmica, la tensin arterial en cualitativa ordinal
y diga un ejemplo de variable cuantitativa discreta.

7. De la tabla 1 de los ejemplos calcule la proporcin de mujeres, el error estndar de
la proporcin de hombres, y la proporcin de personas que durante su estancia en el
servicio de rehabilitacin aumentan su valor de Barthel ms del 50% respecto a su
valor basal.

8. Se reclutaron 1500 individuos seleccionados al azar de la provincia de Girona. Se
consideraron hipertensos a los 720 pacientes que presentaban cifras de tensin arterial
sistlica (TAS) 140 mm Hg o tensin arterial diastlica (TAD ) 90 mm Hg o
tomaban medicacin antihipertensiva. De estos, 180 individuos tomaban medicacin
antihipertensiva y de estos el 41,7% tenan cifras tensionales dentro de la normalidad.

a. Cul es la proporcin de individuos de esta muestra que presentan
hipertensin, recibe tratamiento y adems tiene valores dentro de la
normalidad?.
b. Qu porcentaje de individuos no era hipertenso?.
Introduccin a la bioestadstica J Vila

93
c. De toda la muestra, cul es el valor de 'q' de individuos que reciben
tratamiento antihipertensivo?

9. Una comunidad autnoma tiene 6.089.657 habitantes de los cuales 2.182 presentan
tuberculosis: 1.497 pulmonar, 496 extrapulmonar y 189 mixta.

a. Cuntos habitantes por 100.000 presentan tuberculosis?
b. Cuntos habitantes por 10.000 presentan tuberculosis pulmonar?
c. Cuntos habitantes por 1.000 presentan tuberculosis mixta?
d. De los tuberculosos que proporcin presenta una tuberculosis mixta?
e. Cul es el error estndar de esta proporcin?

10. Calcule la frecuencia, el porcentaje de casilla y el porcentaje acumulado de los
valores de Barthel al ingreso de la tabla 1 de los ejemplos, agrupndolos de 20 en 20
(1-20; 21-40; . . ; 81-100).

11. Categorize la variable edad de la madre de los datos de la tabla 2 de los ejemplos (<
30 aos, de 30 a 34, de 35 a 39 y 40. De esta nueva variable calcule la frecuencia, el
porcentaje de casilla y el porcentaje acumulado.

12. Calcule la media, la mediana y la moda de los valores de Barthel al alta de los
datos de la tabla 1 de los ejemplos.

13. Calcule la varianza y la desviacin estndar de las semanas de lactancia de los
nios/nias que nacieron con un parto instrumentalizado.

14. Calcule el cuartil 1 y el cuartil 3 de la edad de las madres de la tabla 2 de los
ejemplos.

15. Calcule la amplitud intercuartil y la amplitud de los valores de FIM al alta de los
datos de la tabla 1 de los ejemplos.

16. Al medir los datos antropomtricos de una nia de 14 aos, pesa 66 kg. y mide 1,68
m. Utilice el anexo I y decida si es necesario aconsejarle hacer dieta hipocalrica.

17. Una nia de 7 aos pesa 24 kg. y mide 1,10 m.. Utilizando el anexo I, Que consejo
debemos darle ?

18. La media y (la varianza) de los valores de Barthel al ingreso, Barthel al alta, FIM al
ingreso y FIM al alta son respectivamente 47,90 (585,88), 81,10 (268,52), 74 (341,79)
y 99,55 (250,68). Calcule el coeficiente de variacin de cada una de estas variables y
diga cual presenta menos variabilidad.

19. La media y el (error estndar) de las semanas de lactancia de las madres de la tabla 2
del ejemplo es 13,96 (2,23). Calcule el coeficiente de variacin.

20. Calcule (con los datos de la pregunta 18) el error estndar de la media de los valores
de FIM al alta y FIM al ingreso.


Introduccin a la bioestadstica J Vila

94
21. De los datos de la tabla 2 de los ejemplos, seleccione las nias que no fueron
primognitas (multpara = s). De este grupo, calcule los valores estandarizados de
semanas de lactancia.

22. Dibuje un grfico de cajas y bigotes (boxplot) de los valores de Barthel al ingreso,
Barthel al alta. Que le sugiere este grfico?

23. En una variable estandarizada que siguiera una distribucin normal:
a) Qu proporcin de individuos presentara valores superiores a 1,78?
b) Qu proporcin de individuos presentara valores inferiores a -1,03?
c) Qu proporcin de individuos presentara valores entre -1,25 y 1.25?
d) Qu valor de z deja por debajo el 33% de valores?
e) Qu valor de z deja por encima el 44% de valores?

24. Suponga que una variable sigue una distribucin normal con media 200 y
desviacin estndar 40:
a. Entre que dos valores se encontrarn el 95 % central de valores de esta
variable
b. Y el 99 % central
c. Y el 90 % central
d. Que punto de corte deja por debajo el 95 % de valores
e. Que punto de corte deja por encima el 99 % de valores
f. Que punto de corte deja por encima el 20 % de valores


25. Puede asumirse que la edad de las madres de las mujeres multparas proviene de
una poblacin que se distribuye de forma normal?

26. Al realizar una prueba de Kolmogorov-Smirnov con la variable Barthel al ingreso
de los datos de la tabla 1 de los ejemplos, se ha obtenido una diferencia mxima
positiva de 0,280 y una mxima negativa de 0,119. Puede asumirse que los valores
de Barthel de esta muestra se han obtenido de una poblacin dnde los valores de
Barthel siguen una distribucin normal?

27. Supngase que de una poblacin en la que el 5% de los pacientes son diabticos se
realizan todas las muestras posibles (con repeticin) de 2100 individuos. De cada una
de estas muestras se calcula la proporcin.
a. Cul ser la media de esta nueva variable compuesta de las
proporciones observadas en todas las muestras posibles?.
b. Y su desviacin estndar?
c. El 2,5% de los valores observados en esta nueva variable sern a que
valor?
d. El 2,5% de los valores observados en esta nueva variable sern a que
valor?
e. Entre que valores se encontrarn el 95% central de los valores
observados en esta nueva variable?


Introduccin a la bioestadstica J Vila

95
28. Si de una poblacin en la que el 50% son hipertensos se realizan todas las muestras
posibles de 1500 sujetos Entre qu valores se encontrar el 99% central de esta
variable compuesta de las proporciones observadas en todas las muestras posibles?


29. En una muestra de 1200 alumnos estudiantes de Terrassa, se observ que 410 eran
fumadores. Calcule el intervalo de confianza del 95% y el del 99% de esta
proporcin.

30. Los servicios sociales de una ciudad seleccionan al azar 1500 ciudadanos > 64 aos.
Observan que el 7,2% pueden considerarse "ancianos frgiles". Estime con un nivel de
confianza del 95% el porcentaje de "ancianos frgiles" que tiene esta ciudad.

31. Supngase que (de una poblacin infinita) se quiere estimar con un nivel de
confianza de 95% y una precisin de 5% la proporcin de sujetos > de 64 aos que
darn positivo en un cribaje de demencia. La bibliografa sugiere que
aproximadamente el 7 % de sujetos de esta edad dan positivo.
Cul es el tamao de muestra adecuado para realizar el estudio?
Y si la precisin es de 1%?

32. Supngase que se quiere realizar un estudio para estimar con una precisin de
2,5% el porcentaje de pacientes hipertensos de una comunidad autnoma (asuma
poblacin infinita). La bibliografa sugiere que este porcentaje es de
aproximadamente 45%. El nivel de confianza con el que se desea realizar esta
estimacin es del 95%. Calcule el tamao de la muestra adecuado para llevar adelante
este estudio.

33. En una muestra de 20 alumnos se ha observado que el tiempo que destinan, fuera
del horario escolar, a realizar trabajos es X= 7,6 horas/semana, DE = 2,1
horas/semana. Calcule el intervalo de confianza del 95% i del 99% de esta media.

34. En una muestra seleccionada al azar de 6263 individuos de una comunidad
autnoma con edades entre 35 y 74 aos, se ha observado que la media de
colesterolemia es 211,2 y la desviacin estndar de 42,8. Estime con un nivel de
confianza del 95% la media de colesterolemia de esta comunidad.

35. Se desea estimar la media de frecuentacin en el ltimo ao de los 15.000 pacientes
asignados a su centro de salud (a efectos de clculo asmala infinita). Se realiza una
prueba piloto con las 60 primeras historias y se observa que la media es de 3,8 y la
desviacin estndar de 2,6. Se quiere realizar la estimacin con un nivel de confianza
del 95% y una precisin de 0,5 visitas ao. Cul es el tamao de muestra
requerido?

36. De una poblacin (se asume infinita) se desea calcular la media de colesterol.
Estudios previos muestran que la desviacin estndar es de aproximadamente 45
mg/dl. Calcula el tamao de muestra adecuado para realizar esta estimacin con un
nivel de confianza del 95% y una precisin de 10 mg/dl.

37. Cuando se concluye que la H
o
es falsa siendo en realidad cierta la H
1

a. Se est cometiendo algn tipo de error?.
Introduccin a la bioestadstica J Vila

96
b. Cul es la probabilidad de que esto ocurra?.


38. Cuando se concluye que la H
1
es falsa cuando en realidad es cierta la H
1

a. Se esta cometiendo algn tipo de error?.
b. Cul es la probabilidad de que esto ocurra?.


39. Cuando se concluye que la H
o
es cierta cuando en realidad es cierta la H
1

a. Se esta cometiendo algn tipo de error?.
b. Cul es la probabilidad de que esto ocurra?.


40. Cuando se concluye que la H
o
es falsa cuando en realidad es falsa la H
1

a. Se esta cometiendo algn tipo de error?.
b. Cul es la probabilidad de que esto ocurra?.


41. Se realiza un estudio para saber si la proporcin de reacciones adversas utilizando
un determinado lote de vacunas (pe. E-210) es ms elevada que la proporcin de
reacciones adversas de otro lote de vacunas (pe. U-410).Especifique cual sera en
este estudio la H
o
y cual la H
1
)


42. Unos pacientes postoperados de ciruga se aleatorizan a dos regmenes distintos de
administracin de analgesia hasta ceder el dolor: uno recibe la analgesia a demanda
y el otro de forma pautada. Se analiza la media de miligramos administrados a cada
uno de los grupos. Especifique cual sera en este estudio la H
o
y cual la H
1
)


43. A 501 enfermos de Infarto Agudo de Miocardio (IAM) se les aplic tratamiento
tromboltico. 28 de ellos murieron durante los primeros 28 das. En el mismo perodo
a 752 enfermos tambin de IAM no se les administr este tipo de tratamiento.
Murieron 69 pacientes.

a. Construya la tabla observada
b. Construya la tabla esperada
c. Se cumplen las condiciones de aplicacin para la prueba de Ji al cuadrado de
Pearson?
d. Los porcentajes de muerte a 28 das son estadsticamente diferentes segn se
haya recibido o no trombolisis ?
e. Calcule el intervalo de confianza del 99% de cual puede ser esta diferencia en la
poblacin


44. A 28 madres de nios recin nacidos que acuden a la primera visita al centro
realizando lactancia materna se les asigna aleatoriamente a uno de los dos grupos: El
grupo B (n= 13) recibe el soporte de enfermera estndar (la visitas propias del
programa Nio Sano) mientras que las madres asignadas al grupo A (n=15) se les
ofrece un soporte intensivo (mayor frecuencia de visita y mayor facilidad en el acceso
Introduccin a la bioestadstica J Vila

97
al servicio de enfermera). A las 12 semanas siguen dando lactancia 13 de las madres
asignadas al grupo A y 3 de las del grupo B.

a. Construya la tabla observada
b. Construya la tabla esperada
c. Se cumplen las condiciones de aplicacin para la prueba de Ji al cuadrado de
Pearson?
d. Los porcentajes de lactancia a las 12 semanas son estadsticamente diferentes
segn se haya recibido un tipo u otro de soporte de enfermera?
e. Calcula el intervalo de confianza del 95% de cual puede ser esta diferencia en la
poblacin
f. Suponiendo que estos datos son de un estudio piloto destinado a estimar
proporciones para un estudio mayor en el que se desea detectar cmo
estadsticamente significativa una diferencia del 10%, con un error del 0,05 y
una potencia del 80%. Cul es el tamao de muestra necesario?.

45. Un equipo de pediatra est interesado en fomentar la lactancia materna. A un grupo
de madres de nios recin nacidos que reciben lactancia materna las asignan
aleatoriamente a dos tipos de visitas. Grupo A: rgimen de visitas estndar y Grupo B.
rgimen de visitas intensivas. El objetivo es alargar al mximo las semanas de
lactancia materna. Los resultados se muestran en la siguiente tabla:

Semanas de lactancia materna.

Grupo A Grupo B

X
6,69 20,3
DE 7,88 11,1
n 13 15


a. La variable semanas de lactancia puede asumirse que proviene de una
distribucin normal.
b. Son las diferencias estadsticamente significativas?
c. Cul es intervalo de confianza del 99% de la diferencia entre medias?

46. Se aplica la frmula de la t de Student y resulta un valor de 2,819. Considerando que
este problema tiene 22 grados de libertad.

a. Cul es el valor de la p correspondiente en un enfoque bilateral?.
b. Qu valor de p se corresponde para un anlisis unilateral?.
c. Para la misma t, con 12 grados de libertad y bilateral, a qu conclusin
llegamos?


47. A 12 pacientes (5 hombres y 7 mujeres) se les ha medido el peso perdido tras dos
semanas de dieta. Los resultados se muestran en la siguiente tabla:
Datos hipotticos de prdida de peso

ID Sexo Kg. de peso perdido
Introduccin a la bioestadstica J Vila

98

1
2
3
4
5


Hombres
1
0
0
0
2

6
7
8
9
10
11
12




Mujeres
1
0
3
1
0
22
30


a. Calcular la media de rangos para cada uno de los sexos.
b. Calcular el estadgrafo U


48. En un servicio de rehabilitacin quieren ver la eficacia de su labor. Para ello miden
el valor de Barthel al ingreso en el servicio y vuelven a valorarlo a los 30 das. Los
resultados se muestran en la siguiente tabla:

Valor de Barthel Variable
Ingreso 30 das Diferencia

X
47,9 81,1 - 33,2

DE 24,205 16,386 16,65

n = 20

a. Calcule el valor de la 't' de Student
b. Calcule el intervalo del 95% de cual debe ser esta diferencia en la poblacin.

49. Calcule si hay diferencias estadsticamente significativas entre el FIM al ingreso
(FIM_ING) y al alta (FIM_ALTA) con el test adecuado, slo para mujeres de la tabla
1 de los ejemplos. Razone numricamente la conclusin a la que se llega.


50. Suponga que un profesor est interesado en modificar la conducta violenta de sus
alumnos. Les aplica un test y clasifica a 28 alumnos cmo violentos y 24 cmo no
violentos. A partir de este momento realiza una serie de sesiones encaminadas a
modificar la conducta y vuelve a aplicar el test. De los alumnos violentos ahora slo
se puede clasificar cmo tales a 12. En cambio cuatro de los alumnos no violentos el
test ahora los clasifica como violentos.
Suponiendo que el estudio est bien diseado, puede considerarse que las sesiones son
capaces de modificar la conducta?

Introduccin a la bioestadstica J Vila

99

51. Suponga que a 6 pacientes se les a medido la edad y su capacidad vital. Los datos se
muestran en la siguiente tabla:

Tabla 3: ejemplo hipottico en el que se mide la edad y capacidad vital de 6
individuos

Capacidad
ID Edad Vital

1 39 4,6
2 40 5,3
3 41 5,5
4 41 3,7
5 45 4,0
6 49 5,1

Calcule el coeficiente de correlacin y los parmetros de la recta de regresin.

52. Suponga que se han hallado los siguientes niveles plasmticos de 6 distintas dosis a
otros tantos animales de laboratorio, siendo el resto de variables (peso, edad, sexo, etc.
similares)

Id dosis nivel
plasmtico
1 2 2,5
2 4 3,1
3 6 3,2
4 8 2,9
5 10 4,5
6 12 4,2
Dibujar el diagrama de dispersin, calcular coeficiente de correlacin r y los
de regresin a y b.

53. De los datos de la tabla 2 de los ejemplos se ha analizado la relacin entre la edad de
la madre, el peso del nio/a y las semanas de lactancia. El resultado se muestra en la
siguiente figura:
20 25 30 35 40
0
5
1
0
1
5
2
0
2
5
3
0
3
5
Figura 1
Edad de la madre
S
e
m
a
n
a
s

d
e

la
c
t
a
c
ia
20 25 30 35 40
2
.
5
3
.
0
3
.
5
4
.
0
4
.
5
Figura 2
Edad de la madre
P
e
s
o

d
e
l
n
i
o
/
a
2.5 3.0 3.5 4.0 4.5
0
5
1
0
1
5
2
0
2
5
3
0
3
5
Figura 3
Peso del nio/a
S
e
m
a
n
a
s

d
e

la
c
t
a
c
ia

Introduccin a la bioestadstica J Vila

100
A continuacin tiene 3 combinaciones de los valores de los coeficientes de correlacin y
los de regresin que corresponden a estas figuras. Cul corresponde a cada una de
ellas?

Combinacin
1 2 3

Coeficiente de regresin "r" -0.0999 0,0944 0,335
Constante "a" 21,6 6,38 2,08
Pendiente "b" -2,38 0,262 0,0390


54. En un estudio en el que participaron 137 alumnos de la escuela de enfermera, se
analiz la relacin entre la nota de las prcticas (variable predictora o independiente)
y la nota de examen (variable resultado o dependiente). Se calcularon los parmetros
de regresin: la constante "a" = 3,08 y la pendiente "b" = 0,422. De acuerdo con estos
parmetros, si un alumno ha obtenido una puntuacin de 6 en la prctica, que nota de
examen le predice que obtendr?

55. Desarrollar los mismos clculos para el siguiente problema: En tabla que sigue se
muestran la potencia en HP de 5 vehculos y su consumo de gasolina en l/100 km.

Vehculo HP litros / 100 km.
1 65 6
2 80 7,8
3 124 9
4 180 12
5 224 11



56. Existe la creencia, basada en la literatura, de que puede haber una influencia
gentica en la aparicin del IAM. Concretamente el genotipo P|
A1
P|
A2
debera estar
sobrerepresentado respecto al genotipo P|
A1
P|
A1
en los IAMs. Para evidenciarlo se
realiza el siguiente estudio: Se analiza la sangre de 136 pacientes con infarto y 31 de
ellos presentan el genotipo P|
A1
P|
A2
. Se comparan estos resultados con la sangre de
116 pacientes sin IAM y de ellos 32 presentan el genotipo P|
A1
P|
A2
.
Calcule la medida de asociacin correcta

57. Se sigui la evolucin durante 10 aos de 736 pacientes que presentaron un IAM.
617 eran varones y de ellos murieron en 10 aos 265 sujetos. En este mismo perodo
murieron 68 mujeres.

Calcule cuanto ms riesgo de morir tienen las mujeres respecto a los hombres.


58. De 30 pacientes con Sndrome de Reye 28 haban tomado aspirina durante una
enfermedad vrica previa al Sndrome. Compara esta situacin con 60 pacientes que
tambin haban acudido a urgencias por una complicacin vrica que no acab con
dicho Sndrome. De estos 35 tomaron aspirina.
Introduccin a la bioestadstica J Vila

101

Calcule cuanto ms riesgo de padecer un Sndrome de Reye tienen los que
toman aspirina respecto a los que no toman este frmaco.
Calcule el intervalo de confianza del 95% de este OR


59. 1650 ancianos hipertensos son asignados aleatoriamente a tomar placebo o
tratamiento activo frente a su problema hipertensivo. De los 827 que tomaron
tratamiento activo, 57 presentaron AVC. De los 823 asignados a placebo 93
presentaron AVC.

Calcule cunto ms riesgo tienen los individuos tratados con placebo respecto a
los individuos tratados con tratamiento activo
Calcule el intervalo de confianza del 95% de este RR.

60. Aproximadamente el 5% de individuos mayores de 65 presentan demencia en mayor
o menor grado. Dependiendo del punto de corte, el test de MiniMental tiene una
sensibilidad del 75% y una especificidad del 80%. Suponga que se aplica esta prueba
a una poblacin de 4.000 individuos mayores de 65 aos. Construya la tabla esperada.

61. Calcule el VPP, VPN, la proporcin de falsos positivos y la proporcin de falsos
negativos.


62. Se prueban 2 terapias para prevenir la neuropata diabtica en insulinodependientes,
despus de 6,5 aos de seguimiento se observa:

Situacin real
A) rgimen estndar RE (1-2 dosis/da); 9,6%
B) rgimen intensivo RI (bomba i/o 3 dosis/da); 2,8%

Situacin hipottica Alta:
A) RE = 96%
B) RI = 2,8%

Situacin hipottica Baja:
A) RE = 0,00096%
B) RI = 0,00028%

Calcular el RR, RRR, ARR y NNT para cada una de estas situaciones


63. Observe el siguiente ejemplo y diga si hay interaccin o confusin:

Anlisis de la asociacin cruda entre la exposicin caf y la enfermedad IAM
obtenemos:

IAM
S No

Introduccin a la bioestadstica J Vila

102
S 31 79 100
Caf
No 40 960 1,000


41 , 9
960
79
40
31
= OR =
Introduccin a la bioestadstica J Vila

103
Anlisis estratificado por la variable tabaquismo:

Fumadores No Fumadores

IAM IAM
S No S No

30 70 1 9
Caf Caf
10 90 30 870


86 , 3
90
70
10
30
= ORFumadores = 22 , 3
870
9
30
1
= OR Fumadores No



64. Observe el siguiente ejemplo y diga si hay interaccin o confusin:

El OR crudo de la asociacin Trombolisis y Exitus:

Exitus
S No

S 100 559
Trombolisis OR = 1,42
No 89 705


Anlisis estratificado por grado de Killip:

Killip I-II Killip III-IV

Exitus Exitus
S No S No

S 28 473 S 72 86
Trombolisis Trombolisis
No 69 683 No 20 22

OR = 0,59 OR = 0,92


Introduccin a la bioestadstica J Vila

104
TABLAS EJEMPLOS

Tabla 1: Datos hipotticos del test de Barthel y FIM en 20 pacientes afectados de
Accidente Vascular Cerebral (AVC) que acudieron a un centro de
rehabilitacin

IDENT BAR_ING BAR_ALTA FIM_ING FIM_ALTA SEXO

1 40 90 95 119 Mujer
2 41 66 68 80 Mujer
3 94 100 110 117 Hombre
4 38 61 66 93 Hombre
5 38 74 91 119 Hombre
6 28 67 59 82 Hombre
7 75 100 85 89 Mujer
8 21 67 48 77 Hombre
9 62 89 90 104 Mujer
10 38 79 72 104 Hombre
11 75 100 100 113 Hombre
12 41 91 80 114 Hombre
13 38 84 55 115 Hombre
14 78 100 80 90 Hombre
15 24 47 41 92 Hombre
16 17 87 60 115 Mujer
17 43 93 75 114 Hombre
18 40 60 65 70 Mujer
19 100 100 87 99 Hombre
20 27 67 53 85 Mujer


IDENT : Nmero de identificacin del paciente
BAR_ING: Valor de la escala de Barthel al ingreso
BAR_ALTA: Valor de la escala de Barthel al alta
FIM_ING: Valor de la escala de FIM al ingreso
FIM_ALTA: Valor de la escala de FIM al alta

Introduccin a la bioestadstica J Vila

105
Tabla 2: Datos hipotticos de lactancia materna de 28 nios asignados a dos
tratamientos
ID
Tipo de
soporte
Semana deja
lactancia
Sexo del
nio
Edad de
la madre
Tipo de parto
Peso del
nio
Mult-
para
Nmero
de hijos
Cursillo
preparto

1 Intensivo 14 nio 26 no instrumentalizado 2,10 no 0 no
2 Intensivo 35 nia 28 no instrumentalizado 2,50 no 0 si
3 Estndar 12 nio 24 no instrumentalizado 2,65 no 0 no
4 Intensivo 20 nio 29 instrumentalizado 2,90 no 0 si
5 Intensivo 17 nia 26 no instrumentalizado 3,05 no 0 si
6 Intensivo 20 nia 29 no instrumentalizado 3,15 si 1 no
7 Estndar 1 nio 35 no instrumentalizado 3,15 si 4 no
8 Intensivo 36 nio 28 no instrumentalizado 3,32 no 0 si
9 Estndar 27 nia 24 no instrumentalizado 3,40 no 0 si
10 Intensivo 25 nia 33 no instrumentalizado 3,44 si 1 si
11 Estndar 8 nia 28 no instrumentalizado 3,45 no 0 si
12 Estndar 1 nia 24 no instrumentalizado 3,60 no 0 no
13 Estndar 1 nio 28 no instrumentalizado 3,60 si 1 no
14 Intensivo 32 nia 42 no instrumentalizado 3,70 si 3 si
15 Intensivo 12 nio 30 no instrumentalizado 4,46 si 2 si
16 Estndar 10 nio 28 no instrumentalizado 2,40 no 0 si
17 Estndar 1 nio 24 instrumentalizado 2,65 no 0 si
18 Intensivo 26 nia 28 instrumentalizado 2,74 no 0 no
19 Estndar 2 nio 29 no instrumentalizado 2,95 si 1 no
20 Intensivo 12 nia 32 instrumentalizado 2,97 no 0 no
21 Estndar 4 nio 20 no instrumentalizado 3,15 no 0 no
22 Intensivo 12 nia 33 no instrumentalizado 3,20 no 0 si
23 Intensivo 6 nio 31 instrumentalizado 3,38 si 1 no
24 Estndar 1 nio 32 no instrumentalizado 3,40 no 0 si
25 Intensivo 1 nio 32 no instrumentalizado 3,75 si 1 si
26 Intensivo 36 nio 26 no instrumentalizado 3,45 no 0 si
27 Estndar 16 nio 30 no instrumentalizado 3,53 si 1 si
28 Estndar 3 nia 31 no instrumentalizado 3,79 si 1 no

También podría gustarte