Libro Diseno y Analisis de Investigacion
Libro Diseno y Analisis de Investigacion
Libro Diseno y Analisis de Investigacion
EN INVESTIGACIÓN
1
© Carlos Ochoa Sangrador.
Diseño, realización y coordinación Ni el propietario del copyright, ni el coordinador editorial, ni los patrocinadores,
editorial: pueden ser considerados legalmente responsables de la aparición de informa
ción inexacta, errónea o difamatoria, siendo los autores los responsables de la
misma.
Alberto Alcocer 13, 1.º D
28036 Madrid El autor declara no tener conflicto de intereses.
Tel.: 91 353 33 70 • Fax: 91 353 33 73
Reservados todos los derechos. Ninguna parte de esta publicación puede ser
www.imc-sa.es • [email protected]
reproducida, transmitida en ninguna forma o medio alguno, electrónico o me
ISBN: 978-84-7867-685-9 cánico, incluyendo las fotocopias, grabaciones o cualquier sistema de recupera
Depósito Legal: M-15006-2019 ción de almacenaje de información, sin permiso escrito del titular del copyright.
5 CAPÍTULO 1
· La memoria de investigación.
· Definir la pregunta de investigación
(PICO).
· La medida principal de efecto.
27 CAPÍTULO 2
· Búsquedas bibliográficas
y gestores de citas bibliográficas.
41 CAPÍTULO 3
· Diseños epidemiológicos.
· Muestreo y aleatorización.
59 CAPÍTULO 4
77 CAPÍTULO 5
· Estadística descriptiva.
· Medidas de frecuencia, riesgo
e impacto en epidemiología.
97 CAPÍTULO 6
· Estadística inferencial.
· Tamaño muestral e intervalos
de confianza.
113 CAPÍTULO 7
· Contraste de hipótesis.
· Elección del test estadístico.
133 CAPÍTULO 8
· Errores metodológicos
146 ANEXO
· Formulario para la Memoria
de un Proyecto de Investigación.
3
4
1
La memoria de investigación
Definir la pregunta de investigación
(PICO)
La medida principal de efecto
Objetivos docentes:
• Aprender a elaborar la memoria de un proyecto de investigación
• Conocer los fundamentos de la memoria de investigación
•A prender a definir la pregunta de investigación estructurada (PICO).
• Saber elegir la medida principal de efecto
• Conocer los apartados de una memoria de investigación.
La memoria de investigación
La memoria o protocolo de investigación es un documento en el que se describe cómo
se va a pasar de la concepción de un problema de investigación (idea abstracta plantea-
da por una o más personas) a la puesta en marcha de la investigación en sí misma (re-
clutamiento de colaboradores, contratación de personal, reparto de tareas, adquisición
de material, recogida y análisis de datos, etc.).
Toda investigación debe llevarse a cabo siguiendo métodos rigurosos y precisos que garanti-
cen la validez de los resultados, tal y como dicta el método científico. El protocolo de investiga-
ción será el marco de referencia donde se plantea la pregunta de investigación y donde se de-
tallan todas las definiciones operativas y procedimientos de trabajo a ejecutar en el proyecto.
Pero los investigadores no solo elaboran la memoria de investigación como manual de
trabajo interno, la principal razón por la que la hacen es poder recabar permisos por
parte de comisiones o comité éticos de investigación o para poder competir en convo-
catorias de agencias de financiación.
La preparación de un protocolo de investigación comprende tres fases: la conceptuali-
zación del problema a estudiar, la elección de una estrategia o diseño de investigación
y la planificación operativa de la investigación.
En la conceptualización, el investigador especifica el problema a estudiar, revisa el es-
tado de los conocimientos, define el modelo teórico que adopta y formula sus hipótesis.
5
Capítulo 1
6
Diseño y análisis en investigación
7
Capítulo 1
• N
ovedosa. ¿Está nuestra pregunta de investigación suficientemente contestada en
la literatura científica? ¿Qué aportamos al conocimiento disponible?
•É
tica. ¿Hemos evaluado los conflictos éticos implicados en la realización del estudio?
¿Va a ser la metodología de estudio lo suficientemente válida para justificar su rea-
lización? (lo que no es metodológicamente correcto no es éticamente justificable).
•R
elevante. ¿Es previsible la utilidad o aplicabilidad práctica de los resultados del
estudio?
Asimismo, la pregunta de investigación debe ser concreta. Para ello recomendamos la
estructura ligada al acrónimo PICO (o PICoR): Paciente, Intervención (exposición), Com-
paración y Resultado (outcome):
• Paciente.
Los pacientes o sujetos de estudio a los que queremos extrapolar nuestros
resultados. Resulta fundamental describir en los criterios de inclusión y exclusión sus
características de edad, sexo, ámbito, diagnóstico, etc.
• Intervención (exposición). El factor de estudio, exposición o intervención que será
evaluado.
•C
omparación. Cuando el estudio sea analítico, tendremos que definir el factor de
comparación, tanto si son factores de exposición como si son intervenciones. La pre-
gunta de investigación cambiará en función de la comparación elegida (por ejemplo:
placebo vs. intervención estándar).
• Resultado
(outcome). El último elemento del acrónimo PICO corresponde a la pala-
bra en inglés “outcome”, aunque puede sustituirse por la española “resultado”, adop-
tando el acrónimo PICoR. De igual manera a como se comentó con la comparación,
la medida de resultado elegida es un elemento clave de la pregunta de investigación.
Veamos un ejemplo.
Supuesto 1.1
Queremos saber si la asistencia a guardería se asocia a un mayor o menor riesgo de
desarrollar sibilantes recurrentes en la primera infancia.
La pregunta podría redactarse de forma textual, como: ¿En lactantes sanos, se asocia la
asistencia a guardería a un mayor riesgo de sibilantes recurrentes?
La pregunta de forma estructurada sería:
• Paciente: lactantes sanos.
• Intervención (exposición): asistencia a guardería.
• Comparación: cuidados en domicilio familiar.
• Resultado (outcome): episodios de sibilantes recurrentes (al menos tres) en los 2
primeros años de vida.
8
Diseño y análisis en investigación
En esta pregunta se podrían haber precisado más algunos componentes. Así, indicar
en paciente: “lactantes sanos seguidos regularmente en centros de salud desde el na-
cimiento”. En intervención podríamos haber concretado la exposición en función del
momento de inicio (por ejemplo: inicio de guardería antes de los 6 meses de edad) o el
nivel de exposición (por ejemplo: número de horas por semana, número de niños por
aula, etc.). Hemos elegido como comparación los cuidados en domicilio familiar (no
asistencia a guardería), aunque podríamos haber seleccionado otros criterios de compa-
ración (por ejemplo: inicio tardío de guardería, cuidados en unidades de guardería con
menos de seis niños, etc.). Finalmente, hemos optado por establecer como medida de
resultado la aparición de, al menos, tres episodios de sibilantes recurrentes, pero po-
dríamos haber seleccionado otras medidas de efecto cualitativas (por ejemplo: episodios
de sibilantes que hayan precisado consulta a Urgencias o ingreso) o cuantitativas (por
ejemplo: número de episodios de sibilantes recurrentes).
Practiquemos con otros supuestos la elaboración de la pregunta de investigación según
la estructura PICO. Estos mismos supuestos se emplearán en sucesivos ejercicios de este
capítulo. Al final de cada capítulo se presentan las respuestas correctas a cada pregunta
y un comentario explicativo.
Supuesto 1.2
No sabemos si el suero salino hipertónico nebulizado resulta eficaz en la bronquiolitis
aguda. Vamos a plantear una pregunta de investigación para esta duda, siguiendo la
estructura PICO.
9
Capítulo 1
Supuesto 1.3
No conocemos la frecuencia de hipertensión arterial en la población infantil en
nuestro medio. Nos planteamos determinar la presión arterial con dispositivos de
medición oscilométricos y confirmación con métodos auscultatorios y monitorización
ambulatoria de la presión arterial (MAPA).
Pregunta 1.2 a. P aciente: niños con presión arterial sistólica o diastólica superior
al percentil 95; Intervención/Exposición: obesidad o sobrepeso;
Queremos plantear Comparación: normopeso; Resultado: frecuencia de hipertensión.
una pregunta de b. Paciente: niños entre 4 y 14 años; Intervención/Exposición:
investigación para medición de la presión arterial; Comparación: no medición de la
resolver la duda de presión arterial; Resultado: frecuencia de hipertensión arterial.
cuál es la frecuencia
c. Paciente: niños sin sobrepeso ni obesidad;
de hipertensión
Intervención/Exposición: ninguna; Comparación: ninguna;
arterial en la
Resultado: frecuencia de hipertensión (presión arterial sistólica o
población infantil.
diastólica superior al percentil 95 confirmada).
Elija la pregunta
de investigación d. Paciente: niños entre 4 y 14 años; Intervención/Exposición:
estructurada más ninguna; Comparación: ninguna; Resultado: frecuencia de
correcta: hipertensión arterial (presión arterial sistólica o diastólica superior
al percentil 95 confirmada).
10
Diseño y análisis en investigación
11
Capítulo 1
d) Hipótesis.
e) Objetivos.
f) Métodos.
g) Utilidad esperada del estudio.
h) Limitaciones del estudio.
i) Aspectos éticos y legales.
j) Cronograma y reparto de tareas.
k) Experiencia previa del equipo investigador.
l) Medios disponibles para la realización del trabajo.
m) Presupuesto del estudio.
En un documento anexo se presenta un formulario preconfigurado para cumplimentar
la memoria de proyectos de investigación. La versión presentada contiene instrucciones
de cumplimentación en cada apartado. Suprimiendo dichas recomendaciones, se puede
usar para elaborar una nueva memoria.
12
Diseño y análisis en investigación
Resumen
La memoria debe contar con un resumen estructurado, que suele incluir los siguientes
apartados:
• Objetivos: en él se presenta el objetivo principal del estudio, que debería contener
los componentes de la pregunta de investigación estructurada (PICO).
• Diseño: en este apartado se debe detallar el tipo de diseño epidemiológico (estudio
transversal, estudio ecológico, estudio de casos y controles, estudio de cohortes,
ensayo clínico, etc.). En diseños mixtos se debe describir si el proyecto es descriptivo
o analítico, concurrente o histórico, observacional o experimental.
• Ámbito de estudio: debe indicarse si el ámbito de estudio es hospitalario, comuni-
tario o mixto y si el proyecto es unicéntrico o multicéntrico.
• Población de estudio: se puede indicar la población diana a la que se quieren
extrapolar los resultados y la población de estudio de la que se obtendrá la muestra
de estudio.
• Muestra de estudio: debe indicarse el tamaño muestral estimado y, cuando sea
pertinente, la estrategia de muestreo.
• Instrumentación: en este apartado se detallan las principales variables de exposi-
ción y/o efecto y los procedimientos de recogida.
• Determinación (análisis): en este apartado se concretarán las principales medidas
de frecuencia, riesgo e impacto a estimar y, cuando sea de interés, las técnicas esta-
dísticas a aplicar.
Debe hacerse un esfuerzo de síntesis en la elaboración del resumen del proyecto. Una
extensión aceptable sería de 250 a 300 palabras.
13
Capítulo 1
Hipótesis
En este apartado debe hacerse la formulación de la hipótesis de estudio siguiendo los
componentes de la pregunta de investigación (PICO o PICoR), tal y como hemos visto
en un apartado previo de este capítulo.
Para el supuesto 1.2 (suero salino hipertónico en bronquiolitis) visto previamente sería:
• En pacientes con bronquiolitis aguda moderada (P), el tratamiento nebulizado con
suero salino hipertónico (I), en comparación con suero salino fisiológico (C), reduce
el riesgo de ingreso hospitalario (O o R).
En ocasiones no se puede plantear una hipótesis previa. Así ocurre en estudios des-
criptivos como el del supuesto 1.3 (frecuencia de hipertensión arterial en la infancia).
Cuando ocurre esto, puede hacerse un planteamiento de contrastar nuestros resultados
(prevalencia de hipertensión) con la información disponible en la literatura (estimaciones
de otras áreas o épocas).
Objetivos
En este apartado debe desarrollarse la hipótesis de estudio en forma de objetivos, que
variarán según el tipo de pregunta y diseño. A continuación recogemos algunas opcio-
nes disponibles en función del tipo de objetivo de la pregunta de investigación:
• F recuencia: estimación de incidencia acumulada, densidad de incidencia o prevalencia.
•R
iesgo: estimación de riesgo relativo, odds ratio, cocientes de riesgos instantáneos
(hazard ratio), etc.
• Impacto: estimación del riesgo o proporción atribuible o prevenible.
14
Diseño y análisis en investigación
Métodos
En próximos capítulos repasaremos cuestiones metodológicas aquí recogidas de forma
breve.
Diseño
El apartado de metodología debe empezar definiendo el diseño epidemiológico elegi-
do, mediante descripción de sus características o asignando un tipo de diseño modelo:
• Características del estudio: descriptivo/analítico (existe grupo de comparación),
concurrente (prospectivo)/histórico (retrospectivo), observacional/experimental.
• Tipo de diseño: estudio transversal/estudio ecológico/estudio de casos y controles/
estudio de cohortes/ensayo clínico.
• Otros estudios: evaluación de pruebas diagnósticas/revisión sistemática.
Sujetos de estudio
En este apartado debemos hacer una descripción de la población accesible y susceptible
de entrar en el estudio, que puede ser diferente de la población diana a la que quere-
mos extrapolar nuestros resultados.
Muestra de estudio
• Tamaño muestral: debemos realizar en este momento la justificación del tamaño
muestral en función de la hipótesis y objetivos del estudio. Para el cálculo del tamaño
15
Capítulo 1
Figura 1.1
Disponible en https://www.
imim.cat/ofertadeserveis/
software-public/granmo/
•C
riterios de inclusión: los criterios de inclusión deben describirse de tal manera que
permitiera a una tercera persona reproducir el estudio o juzgar si un determinado
paciente estaría incluido en él.
•C
riterios de exclusión: los criterios de exclusión deben definirse a priori. Debemos tener
en cuenta que estos criterios pueden condicionar la aplicabilidad práctica de los resulta-
dos del estudio, ya que pueden cuestionar la representatividad de la muestra de estudio.
• Sistemática de muestreo: en los estudios en los que se haga una selección de
sujetos entre la población de estudio debe detallarse el tipo de muestreo. Más ade-
lante, en este libro, aprenderemos a diferenciar entre muestreos aleatorios (todos los
sujetos de la población de estudio tienen la misma probabilidad de ser incluidos en la
muestra de estudio) y no aleatorios, entre los muestreos estratificados y por conglo-
16
Diseño y análisis en investigación
Pregunta 1.6 a. M
uestreo aleatorio
simple.
Para estimar la frecuencia de hipertensión arterial en
la infancia (supuesto 1.3), seleccionamos, siguiendo un b. M
uestreo aleatorio
procedimiento aleatorio, aulas de los colegios de nuestra estratificado.
área de salud, midiendo la presión arterial a todos los c. M
uestreo aleatorio
alumnos de cada una de dichas aulas. ¿Qué técnica de por conglomerados.
muestreo hemos empleado?:
d. Muestreo sistemático.
17
Capítulo 1
Variables de estudio
En este apartado debemos recoger todas las definiciones operativas de las variables de
estudio. Las variables principales deben definirse en este apartado, pudiendo comple-
tarse esta información en anexos de la memoria, en forma de listado o cuaderno de
recogida de datos.
Para cada variable debemos mencionar su nombre, tipo de variable (cualitativa-discreta/
cuantitativa-continua), su escala de medida (nominal/ordinal/continua de intervalos o razo-
nes) y sus valores posibles (categorías o unidades de medida). La escala de medida de cada
variable será el elemento fundamental a la hora de planificar el análisis. Si una variable es
intrínsecamente cuantitativa (por ejemplo: edad), con un número de valores posibles infini-
tos, la escala de medida será habitualmente de intervalos o razones (en este libro las deno-
minaremos “continuas”). Si una variable es discreta (valores posibles finitos), puede tener
una escala de medida ordinal, si los posibles valores están ordenados entre sí (por ejemplo:
test de Apgar), o nominal, si los posibles valores no están ordenados (por ejemplo: sexo).
Deben diferenciarse las variables, cuando corresponda, en:
• Variables de Exposición/Intervención (variables independientes). Podrían ser más de una.
• Variables de Efecto/Resultado (variable dependiente):
• Principal. Debe haber una variable de efecto o resultado principal.
• Secundarias.
Veamos cómo quedaría este apartado para el supuesto 1.2 (suero salino hipertónico en
bronquiolitis):
• Variable de Exposición/Intervención: tipo de suero en el aerosol; variable cualitativa,
discreta, de escala de medida nominal dicotómica (1: suero hipertónico; 2: suero
fisiológico).
• Variable de Efecto/Resultado principal: ingreso; variable cualitativa, discreta, de esca-
la de medida nominal dicotómica (1: Sí; 2: No).
• Variable de Efecto/Resultado secundaria: escala de gravedad de trabajo respiratorio
(escala RDAI); variable cuantitativa, discreta, de escala de medida ordinal (valores
enteros entre 0 y 17).
En los estudios experimentales debe haber un apartado en el que se detallen los proce-
dimientos de asignación aleatoria de tratamientos (ocultación de la secuencia de alea-
torización) y de ocultación o enmascaramiento (ciego) de su aplicación.
Recogida de datos
Debe indicarse en este apartado la sistemática de recogida de datos: quién recoge los
datos (investigador, colaborador, autocumplimentado por el paciente, etc.), por qué
medio (revisión de historias, registros informatizados, llamada telefónica, etc.).
18
Diseño y análisis en investigación
Análisis estadístico
El análisis estadístico se planificará empezando por la estadística descriptiva y siguiendo
por la analítica con estimación de medidas de riesgo, impacto, validez o precisión y
contrastes de hipótesis.
• Descriptivo: contempla las medidas de frecuencia de variables discretas y medidas
de centralización y dispersión de variables continuas (media/mediana; desviación
típica/rango intercuartílico). Asimismo, se incluyen aquí la estimación de medidas
de frecuencias de enfermedad (prevalencia, incidencia acumulada, densidad de in-
cidencia, etc.). Todas las estimaciones deberán acompañarse de sus intervalos de
confianza del 95 %.
• Analítico: el análisis implica comparación entre variables o grupos. La elección de la
medida de riesgo, impacto, validez o precisión más adecuada para cada tipo de es-
tudio, así como del test estadístico más adecuado para cada análisis, se abordará en
próximos capítulos del libro. El principal criterio a considerar en la elección es el tipo
de escala de medida que siguen las variables analizadas. A continuación resumimos
las principales opciones:
• Medidas de riesgo/impacto/validez/precisión:
• Medidas de riesgo: riesgo relativo/odds ratio/cociente de riesgos instantáneos
(hazard ratio), etc.
• Medidas de impacto: riesgo o proporción atribuible o prevenible.
• Eficacia/efectividad de procedimientos terapéuticos: reducción absoluta del
riesgo, número necesario a tratar.
• Validez: sensibilidad, especificidad, cocientes de probabilidades, áreas bajo la
curva ROC.
• Precisión: concordancia (índice kappa, coeficiente de correlación intraclase,
etc.).
• Contraste de hipótesis; opciones más frecuentes:
• Dos variables discretas: test de ji cuadrado o pruebas exactas (Fisher) (para
grupos relacionados, test de McNemar).
• Contraste de medias: test de la t de Student para muestras no relacionadas
o relacionadas, análisis de la varianza o pruebas no paramétricas alternativas.
19
Capítulo 1
Vamos a explorar sus conocimientos previos sobre la selección de test estadísticos según
la pregunta de investigación y las variables implicadas. A continuación comentaremos
brevemente las respuestas, refiriéndoles a capítulos sucesivos del libro para más infor-
mación.
Pregunta 1.7 a. N
úmero necesario
a tratar.
¿Qué medida de impacto es la más apropiada para estimar
b. Riesgo relativo.
el efecto del tratamiento (supuesto 1.2) con suero salino
hipertónico nebulizado (con respecto al suero salino c. O
dds ratio.
fisiológico) sobre el riesgo de ingreso por bronquiolitis?:
d. Diferencia de medias.
20
Diseño y análisis en investigación
21
Capítulo 1
22
Diseño y análisis en investigación
23
Capítulo 1
tes sujetos para estimar la frecuencia de hipertensión con precisión en cada grupo. En
todo caso, la elección de una u otra pregunta depende del criterio del investigador.
En cuanto al resultado, en las opciones “c” y “d” se concreta el criterio de hipertensión
arterial. Podríamos haber optado por una medida cuantitativa, como la media de pre-
siones arteriales sistólica, diastólica o media.
24
Diseño y análisis en investigación
grupos de los mismos (por ejemplo: aulas de colegios), la selección se aplica a dichos
grupos, que llamamos conglomerados. Esta estrategia facilita también el trabajo de
campo, por concentrar la recogida de datos. El muestreo sistemático es aquel en el
que se aplica una sistemática fija de selección entre sujetos disponibles (uno de cada
dos o tres pacientes).
25
Capítulo 1
BIBLIOGRAFÍA RECOMENDADA
• A
bramson JH. Survey Methods in Community Medicine. 2nd ed. Edinburgh. New York: Churchill
Livingstone; 1990.
• A
rgimón Pallás JM, Jiménez Villa J. Métodos de investigación aplicados a la Atención primaria de salud.
Barcelona: Harcourt; 2000.
• C
ontandriopoulos AP, Champagne F, Potvin L, Denis JL, Boyle P. Preparar un proyecto de investigación.
Barcelona: Editores SG; 1991.
• Cummings. Diseño de la investigación clínica. Un enfoque epidemiológico. Barcelona: Ed. Doyma; 1993.
• H
ulley SB, Cummings SR, eds. Designing clinical research: an epidemiologic approach. Baltimore: Williams
& Wilkins; 1987. [Traducción al castellano publicada por la editorial Doyma. Barcelona. 1982].
• K
leinbaum DG, Kupper LL, Morgensten H. Epidemiologic Research. Principles and quantitative Methods.
New York: Van Nostrand Reinhold Company; 1982.
• M
inisterio de Sanidad y Consumo. Fondo de Investigación Sanitaria. Diseño de un protocolo de
investigación. Convocatoria de acciones 1992. Madrid: Instituto Nacional de la Salud; 1991.
• R
iegelman RK, Hirsh RP. Cómo estudiar un estudio y probar una prueba: lectura crítica de la literatura
médica. 2.ª ed. Washington, D.C.: Organización Panamericana de Salud; 1992. (Publicación Científica
n.º 531).
26
2 Búsquedas bibliográficas
Gestores de citas bibliográficas
Objetivos docentes:
• Conocer los pasos de una búsqueda bibliográfica para
documentar una pregunta de investigación.
• Conocer los tipos de fuentes de información.
• Ser capaz de elaborar y depurar una búsqueda bibliográfica básica.
• Conocer las funciones de un gestor de citas bibliográficas.
• Ser capaz de crear una base de datos de referencias bibliográficas
a partir de fuentes de información.
• Ser capaz de insertar referencias bibliográficas en documentos
de texto.
27
Capítulo 2
28
Diseño y análisis en investigación
Figura 2.1
Pantalla de búsqueda
de descriptores
de PubMed
29
Capítulo 2
Figura 2.2
Pantalla de búsqueda
de Descriptores en
Ciencias de la Salud
En las figuras 2.1 y 2.2 podemos ver los resultados de las búsquedas realizadas en MeSH
y DeCS con el término “Obesidad abdominal” y su correspondencia en inglés “Obesity,
Abdominal”. El descriptor de referencia seleccionado en MeSH es el que generalmente,
aunque no siempre, tendrán asignados los artículos relacionados en Medline. El descrip-
tor se puede precisar eligiendo uno o más subdescriptores (área marcada con un “2”). Si
observamos el árbol de descriptores (área marcada con un “3”) vemos los términos je-
rárquicamente relacionados, entre los que serán descriptores alternativos a seleccionar.
Otras fuentes de información emplean listados y estrategias de indexación similares.
Para cada uno de los elementos de la pregunta de investigación tendremos que buscar
los términos más apropiados, completando así el conjunto de elementos de nuestra
estrategia de búsqueda.
30
Diseño y análisis en investigación
31
Capítulo 2
32
Diseño y análisis en investigación
Figura 2.3
Pantalla de búsqueda
de descriptores
(MeSH) en PubMed
33
Capítulo 2
Figura 2.4
Resultado
de búsqueda
en PubMed
34
Diseño y análisis en investigación
Invitamos a los lectores a diseñar y depurar una búsqueda bibliográfica para docu-
mentar dos estudios. Recomendamos seguir los pasos descritos en este capítulo.
a) V
amos a realizar un estudio para establecer si la asistencia a guardería se asocia a
un mayor o menor riesgo de desarrollar sibilantes recurrentes en la primera infancia.
b) V
amos a evaluar la eficacia del suero salino hipertónico nebulizado en la bron-
quiolitis aguda para reducir el riesgo de ingreso en servicios de Urgencias.
35
Capítulo 2
36
Diseño y análisis en investigación
37
Capítulo 2
Figura 2.5
Pantalla
de búsquedas
de PubMed, con el
icono de exportación
de citas a Zotero
integrado (icono
con forma de carpeta
señalado arriba
a la derecha)
Figura 2.6
Pantalla de Zotero
con referencias
importadas desde
PubMed
38
Diseño y análisis en investigación
En la figura 2.6 vemos las tres áreas en las que se divide la aplicación. A la izquierda la
referencia a la base de datos activa (Mi biblioteca), de la que cuelgan varias carpetas: la
carpeta “Mis publicaciones”, en la que podemos indicar los documentos creados con
vinculación a la base de datos: una carpeta donde se guardan las referencias duplicadas;
la carpeta con las referencias sin asignar a carpetas temáticas y la carpeta en la que se
sitúan las referencias borradas. Podemos añadir cuantas carpetas queramos en las que
clasificar las referencias por temas.
En el área intermedia vemos los títulos y autores de cada una de las referencias. Pulsando
en las cabeceras correspondientes podemos ordenar las referencias, para localizarlas por
título o autor. Si pulsamos el icono verde con el signo “+”, disponible sobre esta área,
se creará una nueva referencia en blanco. En el área de la derecha vemos los campos
que comprenden los elementos de cada referencia, donde se pueden consultar o editar.
Una vez importadas y depuradas todas las referencias bibliográficas de nuestra búsque-
da, podríamos pasar a la fase de citación en un documento. En la figura 2.7 vemos un
documento de texto en el que hemos insertado varias citas intercaladas en el texto (con
números correlativos entre paréntesis) y al final del mismo el listado de bibliografía en
el que se detallan todas ellas ordenadas. En la parte superior izquierda de la imagen po-
demos ver los iconos del complemento de Zotero que permiten insertar citas (Add/Edit
Citation) o insertar el listado de bibliografía (Add/Edit Bibliography). Para insertar una
cita debe situarse el cursor en el punto del texto que se desee y pulsar el icono “Add/
Edit Citation”. Se abrirá un menú en el que nos deja elegir el formato de citación y a
Figura 2.7
Pantalla de un editor
de texto en el que se
han insertados citas y
listado de referencias
con Zotero
39
Capítulo 2
continuación nos mostrará las referencias disponibles para que elijamos la referencia a
insertar. Cualquier nueva cita insertada entre las ya existentes recibirá el número que
le corresponda, ajustándose automáticamente los números del resto de citas. Para ver
la lista de referencias tendremos que situarnos al final del texto y pulsar el icono “Add/
Edit Bibliography”; aparecerán todas las referencias ordenadas de las citas previamente
insertadas.
Invitamos al lector a consultar los tutoriales sobre Zotero existentes en la Web y a apren-
der a manejarlo con los ejemplos prácticos propuestos en los ejercicios previos de este
capítulo.
BIBLIOGRAFÍA RECOMENDADA
• Aleixandre-Benavent R, González Alcaide G, González de Dios J, Alonso-Arroyo A. Fuentes de información
bibliográfica (I). Fundamentos para la realización de búsquedas bibliográficas. Acta Pediatr Esp.
2011;69(3):131-6.
• Aleixandre-Benavent R, Bolaños-Pizarro M, González de Dios J, Navarro Molina C. Fuentes de información
bibliográfica (II). Bases de datos bibliográficas españolas en ciencias de la salud de interés en pediatría: IME,
IBECS y MEDES. Acta Pediatr Esp. 2011;69(4):177-82.
• Aleixandre-Benavent R, González Alcaide G, González de Dios J, Alonso-Arroyo A, Navarro Molina C. Fuentes
de información bibliográfica (III). Bases de datos bibliográficas extranjeras en ciencias de la salud de interés en
pediatría: MEDLINE, Embase y LILACS. Acta Pediatr Esp. 2011;69(5):223-34.
• Alonso-Arroyo A, González de Dios J, Navarro Molina C, Vidal-Infer A, Aleixandre-Benavent R. Fuentes
de información bibliográfica (XII). Gestores de referencias bibliográficas: generalidades. Acta Pediatr Esp.
2012;70(5):211-6.
• Contandriopoulos AP, Champagne F, Potvin L, Denis JL, Boyle P. Preparar un proyecto de investigación. 1.ª ed.
Barcelona: SG Editores S.A.; 1991.
40
3 Diseños epidemiológicos
Muestreo y aleatorización
Objetivos docentes:
• Conocer los principales tipos de diseños epidemiológicos.
• Aprender a seleccionar el diseño más adecuado para cada
pregunta de investigación.
• Conocer las características de los estudios transversales, estudios
de casos y controles, estudios de cohortes y ensayos clínicos.
• Diferenciar muestreo de aleatorización.
• Conocer los principales tipos de muestreo.
• Conocer los pasos del procedimiento de aleatorización.
• Reconocer la importancia de la ocultación de la secuencia de
aleatorización.
41
Capítulo 3
42
Diseño y análisis en investigación
43
Capítulo 3
Descriptivos Analíticos No Sí
Grado de evidencia
Estudios transversales
Los estudios transversales (figura 3.2) son estudios observacionales, descriptivos y simul-
táneos (no direccionales). Estudian la población total o una muestra significativa en un
punto del tiempo o en un periodo corto, buscando la presencia o ausencia de factores
de riesgo (exposición) y enfermedad (efecto). También son denominados estudios “de
prevalencia”, ya que nos permiten cuantificar esta medida de enfermedad.
44
Diseño y análisis en investigación
Población
Muestra
Los estudios transversales son muy útiles en planificación sanitaria, ya que permiten
describir la distribución de las enfermedades y factores de riesgo y sugerir hipótesis
que puedan comprobarse en otros estudios analíticos. Tienen como ventajas que son
fáciles de ejecutar, relativamente poco costosos y fácilmente repetibles. Entre sus incon-
venientes podemos destacar que son estudios sujetos a múltiples sesgos, sobre todo
de selección (es primordial que la muestra elegida sea representativa), no sirven para
investigación causal por carecer de direccionalidad, no permiten estimar incidencias ni
riesgos y son poco útiles para estudiar enfermedades raras o de corta duración.
Estudios de cohortes
Los estudios de cohortes (figura 3.3) son estudios observacionales, analíticos, general-
mente anterógrados, de temporalidad concurrente o mixta, en los que se muestrea en
relación con la exposición. Se conocen también como estudios de “seguimiento”, de
“proyección”, de “incidencia” o “prospectivos”.
El punto de partida de estos estudios es la selección de dos grupos de sujetos, diferen-
ciados según tengan o no un determinado factor de exposición, que se siguen a lo largo
del tiempo para determinar la proporción de cada grupo que desarrolla la enfermedad
objeto de estudio. Todos los sujetos tienen que estar libres de dicha enfermedad al inicio
del estudio, pero ser susceptibles de poder padecerla.
PRESENTE FUTURO
Figura 3.3
estudio de cohortes
Muestra
Cohorte no expuesta
Población
45
Capítulo 3
Las principales ventajas de los estudios de cohortes es que permiten calcular inciden-
cias y estimar riesgos de forma más fiable, son eficientes para estudiar factores de
exposición poco frecuentes, establecen la secuencia real de eventos (de exposición a
enfermedad) y controlan mejor la existencia de sesgos. Como inconvenientes, podemos
citar que son difíciles de ejecutar, de coste elevado y difíciles de reproducir, que no son
factibles para enfermedades raras o con periodo de inducción largo (requerirían un gran
tamaño muestral y un largo seguimiento) y que se ven repercutidos por cambios en las
técnicas de medición a lo largo del tiempo o por desigualdades en la colaboración y
seguimiento de las cohortes.
Esquema de estudio
Muestra
enferma
de casos y controles
no enferma
Población
Muestra
Los estudios de casos y controles han proliferado en las últimas décadas por las indu-
dables ventajas que aportan. Permiten estudiar enfermedades poco frecuentes, son de
fácil ejecución, son muy eficientes (menor coste por unidad de estudio), tienen una
buena capacidad para generar hipótesis y, si están bien diseñados y ejecutados, pueden
alcanzar una validez cercana a la de los estudios de cohortes. Sin embargo, hay que
tener en cuenta algunos de sus inconvenientes: con estos estudios no podemos calcular
medidas de frecuencia (incidencia o prevalencia), ofrecen una peor estimación del ries-
go que los estudios de cohortes, al no garantizar la secuencia temporal de la relación
46
Diseño y análisis en investigación
PRESENTE FUTURO
Figura 3.5
Población
Control
Para analizar sus resultados, debemos contrastar la comparabilidad de los grupos antes
de la intervención. Los ECAC tienen importantes ventajas. Son los estudios que apor-
tan mayor control sobre los distintos factores implicados en el diseño, por lo que son
repetibles y comparables. A menudo ofrecen el único diseño posible para contestar a
determinadas preguntas de investigación. Además, proporcionan la mejor evidencia
sobre inferencia causal y generalización de los resultados. Como contrapunto presen-
tan diversos inconvenientes: son estudios costosos en tiempo y dinero, pueden verse
limitados por problemas éticos o de factibilidad y, en ocasiones, la aplicación de sus
resultados se ve cuestionada porque la muestra de estudio no representa a la población
donde quieren aplicarse.
A continuación veamos unos ejemplos con los que practicaremos la elección de un tipo
de diseño. Recomendamos para cada supuesto las siguientes preguntas encadenadas
(ver figura 3.1):
47
Capítulo 3
Supuesto 3.1
Queremos saber la frecuencia de desnutrición en pacientes pediátricos que ingresan
por problemas no digestivos.
Supuesto 3.2
Queremos saber si los pacientes pediátricos ingresados para intervención quirúrgica
programada con desnutrición al ingreso presentan mayor riesgo de infección de la
herida quirúrgica que los pacientes sin desnutrición.
Supuesto 3.3
Queremos saber si en prematuros de menos de 32 semanas de gestación es eficaz la
administración de probióticos para reducir el riesgo de enterocolitis necrotizante.
Supuesto 3.4
Queremos saber si la administración de aminofilina intravenosa en prematuros de
menos de 32 semanas de gestación es un factor de riesgo de desarrollar enterocolitis
necrotizante. Para ello comparamos la frecuencia de administración de aminofilina en
prematuros con y sin enterocolitis necrotizante.
48
Diseño y análisis en investigación
Muestreo
Es habitual en epidemiología que los estudios no puedan abarcar toda la población dis-
ponible, fundamentalmente por razones de factibilidad. Por ello, los estudios se realizan
en muestras obtenidas a partir de la población. Para obtener dichas muestras pueden
emplearse distintas técnicas de muestreo. Estas técnicas se diferencian en probabilísticas
49
Capítulo 3
50
Diseño y análisis en investigación
51
Capítulo 3
Figura 3.6
Pantalla de Epidat
4.2, desplegando los
menús de muestreo,
ventana de muestreo
aleatorio simple y
salida de resultados
52
Diseño y análisis en investigación
Aleatorización
La aleatorización se emplea para asignar de forma no predecible a los participantes de
un ensayo clínico a una de las alternativas de intervención. El objetivo fundamental de la
aleatorización es balancear los grupos que intervienen en el ensayo, de forma que sean
homogéneos en la distribución de todos aquellos factores, conocidos o desconocidos,
que puedan sesgar los resultados del estudio. De esta forma, las diferencias que puedan
existir entre los dos grupos serán probablemente debidas al efecto de la intervención
en estudio.
Los objetivos de la aleatorización son asignar los tratamientos de forma equilibrada y
generar grupos de comparación homogéneos, sin la interferencia voluntaria o involun-
taria de los investigadores o de los pacientes. Insistimos en que es muy importante que
no pueda predecirse a qué grupo será asignado el próximo participante como elemento
fundamental para prevenir sesgos de selección. Este último objetivo se consigue me-
diante la ocultación de la secuencia de aleatorización a los investigadores, que será
especialmente importante en estudios en los que no haya enmascaramiento de la inter-
vención (ausencia de ciego). No debemos confundir la ocultación de la aleatorización
con el ciego o enmascaramiento de la intervención (por ejemplo: uso de placebo) o de
la evaluación del resultado (evaluadores del efecto del estudio ciegos a la intervención
que ha recibido cada sujeto).
Lo habitual es elaborar una secuencia o código de aleatorización, que es una lista de
los tratamientos a los que se asignarán los sucesivos participantes. Para ello se utiliza
una tabla de números aleatorios o una secuencia aleatoria generada por ordenador y
se realiza de forma oculta al investigador. Otros procedimientos, cada vez menos fre-
cuentes, como la asignación por fecha de consulta o de nacimiento, por número de
historia clínica, procedencia geográfica, etc., no son aceptables para generar el código
de aleatorización, ya que pueden ser previsibles.
Existen diversas técnicas de aleatorización, de las que describiremos las cuatro más im-
portantes: aleatorización simple, en bloques, estratificada y con técnicas de minimización.
Aleatorización simple
Se conoce también como aleatorización completa y es la técnica más sencilla y la utili-
zada con más frecuencia.
Esta técnica asigna cada participante a un grupo de intervención sin tener en cuenta la
asignación de los participantes anteriores. Sería el equivalente de tirar una moneda al
aire con cada participante. Es importante reconocer que este reparto aleatorio puede
producir habitualmente grupos de diferente tamaño, por lo que debemos dudar de la
calidad del procedimiento en aquellos ensayos en los que se utilice y los autores presen-
ten grupos iguales, sobre todo si la muestra es de pequeño tamaño.
53
Capítulo 3
Este efecto de desigualdad de grupos puede producir pequeños desequilibrios entre las
características basales de los dos grupos, especialmente si las muestras son pequeñas
o existen varios grupos de intervención, que, dado el reducido tamaño, no serán esta-
dísticamente significativas, aunque sean clínicamente importantes. En estos casos se
preferirá el uso de otras técnicas de aleatorización.
1 2 Ocultación
3 7
54
Diseño y análisis en investigación
Por último, se ordenan los bloques al azar del 1 al 6 y se van asignando los participantes
de manera sucesiva a la opción que les corresponda, rellenando los bloques en el orden
establecido por azar. De esta forma, cada cuatro participantes asignados se igualará
el número de participantes de los dos grupos de intervención. En la práctica, se crean
sobres cerrados con el orden de asignación, que quedan a disposición del investigador
para realizar la aleatorización de los participantes en el ensayo.
Esta técnica de aleatorización es muy útil cuando el reclutamiento es lento, sobre todo
con muestras pequeñas, y cuando hay posibilidad de que el ensayo se interrumpa pre-
maturamente por cuestiones de eficacia o seguridad.
Su principal inconveniente deriva de la previsibilidad de asignación del tercero o cuarto
de cada bloque, sobre todo en ensayos no enmascarados en los que se conoce la asig-
nación de los participantes previos.
Aleatorización estratificada
La filosofía de este método es similar a la de los bloques, pero va un paso más allá.
En primer lugar, se establece una serie de grupos según un factor importante que se
piense que puede influir en los resultados finales y se divide según puntos de corte ba-
sados generalmente en conocimientos de estudios previos.
Seguidamente, se determina el número de estratos dentro de cada nivel del factor es-
cogido. Por ejemplo, en un estudio sobre tratamiento de la hipertensión podría elegirse
la edad como primer factor (18-30 años, 31-50 años y más de 50 años) y, dentro de
cada grupo, establecer un estrato sobre exposición al tabaco (fumador o no fumador).
Quedarían así seis grupos (18-30 y fumador, 18-30 y no fumador, 31-50 y fumador,
etc.). Finalmente, se genera una secuencia de aleatorización para cada uno de estos seis
grupos, lo que puede hacerse mediante aleatorización simple o, más frecuentemente,
mediante asignación por bloques.
El proceso de estratificación puede tener un mayor número de niveles. En nuestro ejem-
plo, cada uno de los grupos podría haberse estratificado, por ejemplo, por sexo (hom-
bre o mujer), dando lugar a 12 estratos.
Esta técnica consigue mantener un balance en el número de participantes teniendo en
cuenta todos los factores que se consideren de interés. Es preciso advertir que, si alguno
de los factores considerados en la estratificación tiene un fuerte efecto en el resultado
analizado, podrían reducirse las diferencias entre grupos por sobreajuste.
55
Capítulo 3
Figura 3.8
Pantalla de Epidat
4.2, con los menús
desplegados para la
aleatorización simple
56
Diseño y análisis en investigación
57
Capítulo 3
Este estudio no es un estudio experimental. Aunque los pacientes hayan recibido una
intervención, esta intervención no fue indicada por nosotros, sino que fue administrada
siguiendo criterios clínicos ajenos a nuestro estudio. Es, por tanto, un estudio observa-
cional. Aunque podríamos haber seleccionado sujetos con y sin aminofilina intravenosa
y seguirlos en el tiempo, esta estrategia no es eficiente, porque tendríamos que reclutar
y seguir a muchos pacientes para encontrar casos de enterocolitis necrotizante. Por ello
seleccionamos sujetos con la enfermedad y por cada enfermo a un control sin enfer-
medad, mirando hacia atrás (retrógradamente) si recibieron la aminofilina con más o
menos frecuencia. El estudio de casos y controles es un estudio observacional, analítico
(se comparan dos o más grupos), en el que los grupos se comparan en función de la
presencia/ausencia de enfermedad.
BIBLIOGRAFÍA RECOMENDADA
• Argimón JM, Jiménez J. Estudios experimentales I: el ensayo clínico aleatorio. En Métodos de investigación
clínica y epidemiológica. Madrid: Elsevier España SA; 2004;33-48.
• Contandriopoulos AP, Champagne F, Potvin L, Denis JL, Boyle P. Preparar un proyecto de investigación. 1.ª ed.
Barcelona: SG Editores S.A.; 1991.
• Hulley SB, Cummings SR (eds.). Designing Clinical Research: An Epidemiologic Approach. Baltimore: Williams
and Wilkins; 1988.
• Jeehyoung K, Wonshik S. How to do random allocation (randomization). Clin Orthop Surg. 2014;6:103-9.
• Kelsey JL, Thompson WD, Evans AS. Methods in observational epidemiology. Nueva York: Oxford University
Press; 1986.
• Kleinbaum DG, Kupper LL, Morgenstern H. Epidemiologic research. Principles and quantitative methods.
Belmont, CA: Lifetime Learning Publications; 1982.
• Kramer MS, Boivin JF. Toward an “unconfounded” classification of epidemiological research design. J Chron
Dis. 1987;40:683-8.
• Mahmoud S. An overview of randomization and minimization programs for randomized clinical trial. J Med
Signals Sens. 2011;1:55-61.
• Wang D, Bakhai A. Randomization. En: Wang D, Bakhai A. Clinical trials. A practical guide to design, analysis,
and reporting. Londres: Remedica; 2006;65-74.
• Xiao L, Huang Q, Yank V, Ma J. An easily accessible web-based minimization random allocation system for
clinical trials. J Med Internet Res. 2013;15:e139.
58
4 Tipos de variables
Diseño de base de datos
Objetivos docentes:
• Conocer el concepto de variable.
• Conocer los tipos de variables y las escalas de medida.
• Identificar la escala de medida correspondiente a cada variable.
• Saber seleccionar las variables de un estudio.
• Conocer los programas informáticos disponibles para la
introducción de los datos de un estudio (bases de datos).
• Saber elegir el tipo de campo para cada tipo de variable.
• Saber diseñar tablas y formularios de bases de datos.
• Conocer los procedimientos de exportación e importación de
bases de datos entre programas.
Variables
Recibe el nombre de variable toda característica medida en un estudio, se realice su
medición en números (variables cuantitativas: edad o peso) o en categorías (variables
cualitativas o categóricas). Se denomina variable porque, aunque podemos prever los
valores posibles (espacio muestral), el valor observado en un momento dado en un
individuo, grupo, comunidad o población es cambiante. Por ejemplo, podemos prever
que los valores posibles del sexo de un nuevo recién nacido pueden ser masculino o fe-
menino, pero hasta que no observamos al nuevo recién nacido no podemos asegurarlo.
En este ejemplo, la unidad de observación es el recién nacido y el conjunto de recién
nacidos examinados es la muestra de estudio.
Aunque la mayoría de las variables de uso frecuente pueden ser de fácil comprensión,
existen otras que no lo son y, por lo tanto, requerirán de una definición operativa. Dicha
definición incluirá el rango de valores posibles y la definición de cada uno de ellos. Vea-
mos un ejemplo: evolución de una enfermedad. Podemos definir como valores posibles:
59
Capítulo 4
60
Diseño y análisis en investigación
Escala nominal
Consta de dos o más categorías mutuamente excluyentes. Si solo hay dos, se llama
escala nominal dicotómica. A cada categoría se le suele asignar un número de código
sin significado cuantitativo, lo que facilita su introducción en bases de datos. En cual-
quier situación, si se usa una codificación propia, debe tenerse claro lo que significa
cada código para cada variable.
Veamos algunos ejemplos:
• Sexo: 1, masculino; 2, femenino.
• Fumar: 0, no; 1, sí.
• Estado civil: 1, casado; 2, soltero; 3, viudo; 4, divorciado.
• Procedencia del ingreso: 1, urgencias; 2, consultas; 3, otro hospital.
Dependiendo del programa que va a ser utilizado para el análisis, se prefiere codificar
las variables nominales dicotómicas, en las que la presencia de enfermedad o del fac-
tor de exposición se suele codificar como uno (1), mientras que la ausencia de enfer-
medad o de exposición a algún factor se codifica como cero (0) o dos (2). Por ejemplo,
el antecedente de hábito tabáquico puede codificarse como 1 y 0 (1, fumador; 0, no
fumador) o como 1 y 2 (1, fumador; 2, no fumador). Aunque matemáticamente la
presencia/ausencia de una característica se corresponde con la codificación 1-0, es
frecuente usar la codificación 1-2, para evitar que variables vacías sean asignadas al
0 por error.
61
Capítulo 4
Escala ordinal
Las variables ordinales tienen la cualidad adicional, respecto a la escala nominal, de que
sus categorías están ordenadas por rango; cada clase posee una misma relación po-
sicional con la siguiente, es decir, la escala muestra situaciones escalonadas. Si se usan
números, su única significación está en indicar la posición de las distintas categorías en
la serie; sin embargo, no asumen que la distancia del primer escalón al segundo sea la
misma que del segundo al tercero. Veamos algunos ejemplos:
• Clase social: 1 (baja), 2 (media), 3 (alta).
• Grados de reflujo vesicoureteral: grados 1, 2, 3, 4.
onformidad con una afirmación: 0 (completo desacuerdo), 1 (acuerdo parcial),
• C
2 (acuerdo total).
• F umar: 0 (no fumador), 1 (fumador leve; < 10/día), 2 (fumador moderado; 10-20/día)
y 3 (gran fumador; > 20/día).
Existen escalas que serán mezcla de nominal y ordinal, porque solo algunas categorías
estarán ordenadas por rango; esto ocurre en las escalas en las que un valor representa
a una categoría inclasificable (por ejemplo: no sabe/no contesta o resultado indeter-
minado).
Escalas de intervalos
Las escalas de intervalos poseen la cualidad adicional de que los intervalos entre sus
clases son iguales. Diferencias iguales entre cualquier par de números de la escala
indican diferencias también iguales en el atributo sometido a medición. Veamos un
ejemplo: la diferencia de temperatura entre una habitación a 22 grados centígrados y
otra a 26 es la misma que la existente entre dos a 33 y 37 grados centígrados, respec-
tivamente.
Sin embargo, la razón entre los números de la escala no es necesariamente la misma
que la existente entre las cantidades del atributo. Por ejemplo: una habitación a 20 gra-
dos no está el doble de caliente que otra a 10. Ello se debe a que el cero de la escala no
expresa el valor nulo o ausencia de atributo.
Escalas de razones
Su cualidad adicional es que el cero sí indica ausencia de atributo. En consecuencia,
la razón entre dos números de la escala es igual a la existente entre las cantidades del
atributo medido.
Ejemplos:
• Peso: medido en kilogramos.
• Concentración de glucosa en una muestra: medida en mg/dl.
62
Diseño y análisis en investigación
63
Capítulo 4
Si una variable continua se limita en uno de sus extremos con una categoría abierta
(por ejemplo: carga viral mayor de 100.000), forzamos que tenga que ser considerada
como ordinal.
Las categorías de las variables deben estar clara y operativamente definidas, la escala
debe ser exhaustiva (incluir todas las posibilidades) y las clases mutuamente excluyentes
(cada observación solo puede ser asignada a una opción). A menudo tendremos que
recurrir a categorías complementarias que cubran todo el espectro, como “otras”, “no
aplicable” o “desconocido”, o establecer un orden de prioridades en caso de opciones
intermedias.
Las escalas utilizadas para medir variables combinadas se llaman escalas compuestas,
pueden basarse en combinaciones de categorías (por ejemplo: combinación de varios
criterios diagnósticos simultáneos para asignar el estadio de un tumor), en el uso de
fórmulas (por ejemplo: índice de masa corporal = peso/talla²) o de puntuaciones com-
puestas, obtenidas tras la suma de las asignadas a los distintos “ítems” implicados (por
ejemplo: puntuación del test de Apgar).
Para poder diferenciar las escalas de medidas de una variable recomendamos hacer dos
preguntas encadenadas:
1. ¿Los valores posibles de la variable son teóricamente infinitos?:
Si los valores son teóricamente infinitos, la escala de medida será continua, bien
de intervalos, bien de razones. Aunque la característica operativa de estas escalas
es que la unidad de medida es constante, en la práctica la mayoría de las variables
continuas cumplen este criterio. No tiene mucho interés diferenciar si la escala es
de intervalos o de razones (existe el 0 absoluto), ya que ambas escalas comparten
características de análisis.
Si la respuesta es negativa, pasaríamos a la siguiente pregunta.
2. ¿Están los posibles valores ordenados entre sí?:
Si los posibles valores están ordenados entre sí, la escala es ordinal.
Si la respuesta es negativa, la escala es nominal.
A continuación haremos una serie de preguntas para que el lector practique la selección
de la escala de medida para cada variable. Advertimos al lector que algunas de las va-
riables de las preguntas podrían tener más de una posible escala de medida válida, en
función de la precisión con que se recoja.
Pregunta 4.1 a. N
ominal dicotómica.
b. Nominal politómica.
¿Qué escala de medida es la más apropiada
c. O
rdinal.
para la variable “leucocituria”?:
d. De intervalos o de razones (continua).
64
Diseño y análisis en investigación
Pregunta 4.2 a. N
ominal dicotómica.
b. Nominal politómica.
¿Qué escala de medida es la más apropiada
c. O
rdinal.
para la variable “hepatomegalia”?:
d. De intervalos o de razones (continua).
Pregunta 4.3 a. N
ominal dicotómica.
b. Nominal politómica.
¿Qué escala de medida es la más apropiada
c. O
rdinal.
para la variable “edad gestacional”?:
d. De intervalos o de razones (continua).
Pregunta 4.4 a. N
ominal dicotómica.
b. Nominal politómica.
¿Qué escala de medida es la más apropiada
c. O
rdinal.
para la variable “número de crisis asmáticas
en un paciente durante 1 año”?: d. De intervalos o de razones (continua).
65
Capítulo 4
66
Diseño y análisis en investigación
entender fácilmente que es más rápido teclear el número “1” que la palabra “masculi-
no”. Asimismo, utilizando números evitamos errores en el análisis; al hacer recuentos, el
ordenador no identifica como el mismo valor “masculino” y “Masculino”.
En general, recomendamos que toda variable que va a ser considerada en el análisis
(esto es, todas menos las de identificación: nombre, direcciones, etc.) se recoja con
códigos numéricos.
Además de definir cada variable, debemos predefinir los valores no permitidos para cada
variable y qué código introduciremos cuando tenemos valores perdidos para una varia-
ble. El tratamiento de los valores perdidos (no especificados o missing) es importante;
es preferible asignar a dicha categoría un código, para variables cualitativas, o un valor
imposible, para variables cuantitativas, que dejar en blanco el campo correspondiente.
Si dejamos el campo en blanco, no sabremos si nos hemos saltado involuntariamente
ese campo hasta que no revisemos el cuaderno de recogida de datos o la historia.
También es importante configurar a priori las relaciones entre variables. Por ejemplo,
establecer qué variables deben estar disponibles para su introducción en función de los
valores de variables previamente recogidas en la BD (por ejemplo: si se contestó “sí” a
una pregunta previa; “branching logic”).
67
Capítulo 4
perior de la hoja y en las filas inferiores los valores de cada variable para cada unidad de
estudio. Si el número de variables es elevado, el formato tabla no será cómodo para la
introducción de datos. Asimismo, la hoja de cálculo no facilita la introducción de datos
con listas de valores codificados o la organización de grupos de variables relacionados.
Es preciso señalar que algunas versiones web de Excel tienen la opción de crear formu-
larios de recogida de datos, aunque no tienen la potencialidad de los gestores de BD.
Por ello, si el número de variables es alto o la BD cuenta con variables con listas de
valores codificados o agrupaciones de variables relacionadas, recomendamos emplear
otros programas o herramientas informáticas específicamente diseñados para ello: los
gestores de BD. En este libro hablaremos de una herramienta habitualmente disponi-
ble en la mayoría de los ordenadores: Access.
En la figura 4.1 podemos observar la tabla de una BD de un estudio sobre fallo de me-
dro en la infancia diseñado en el gestor de bases de datos Access. Esta tabla es similar
a la que observaríamos en una hoja de cálculo Excel. En la imagen observamos una de
las funciones que tienen los gestores de BD como Access: el despliegue de listas de va-
lores de variables codificadas para su elección (ver la variable “sexo”). Otra ventaja de
estos programas es que facilitan el control de los valores introducidos en cada variable,
evitando errores. Asimismo, estos programas permiten agrupar y relacionar grupos de
variables; así, podemos separar los datos generales de un paciente de los datos repe-
tidos relacionados con episodios o consultas sucesivas. Otra herramienta muy útil, que
veremos más adelante, es la elaboración de formularios para facilitar la introducción de
datos (ver más adelante la figura 4.2). Finalmente, destacar que la BD de Access puede
ser alojada en un servidor y que distintos colaboradores puedan editarla simultánea-
mente desde terminales conectadas al servidor.
Otra opción para introducir una BD es recurrir directamente a programas o paquetes es-
tadísticos, como SPSS. Aunque algunos de estos paquetes incorporan gestores específi-
cos, no son tan potentes ni versátiles como los gestores de BD. Además, es habitual que
los puntos de introducción de datos sean diferentes de aquellos en los que se realiza el
análisis estadístico, no estando estos programas disponibles en todos los ordenadores de
Figura 4.1
Estructura de una BD
en formato tabla
68
Diseño y análisis en investigación
una organización. No obstante, tal y como comentamos al hablar de las hojas de cálculo,
si la magnitud de la información es pequeña y la recogida de datos ocasional, podríamos
optar por introducir la BD directamente en el programa estadístico.
La última de las opciones que se mencionaron son las aplicaciones online, como la utili-
dad de formularios de Google. Para algunas encuestas sencillas y ocasionales puede ser
una buena opción. Existen otras herramientas online, especializadas y potentes, que no
vamos a entrar a analizar en este libro.
69
Capítulo 4
mos indicar el tamaño del campo (número de espacios disponibles para texto, números
enteros y decimales disponibles, etc.), el formato (formato de fecha, tipo de caracteres),
los valores permitidos o reglas de validación (comprobar que el valor se encuentra en
un rango), la lista de valores para las variables codificadas y el valor o valores para los
datos perdidos.
Aunque los programas actuales permiten asignar a las variables nombres sin restriccio-
nes, conviene evitar nombres de variable largos, con espacios en blanco o con carac-
teres especiales (ñ, guiones, acentos, puntos, etc.). Cuando se exportan datos entre
programas (por ejemplo: de Access o Excel a SPSS), los nombres de variable complejos
pueden originar errores o ser modificados automáticamente. Se recomienda emplear
subrayados bajos “_” para separar palabras empleadas en el nombre de las variables
(por ejemplo: número_historia). Una regla útil es empezar el nombre de la variable con
una letra asociada al apartado del cuestionario de recogida de datos donde está la va-
riable y un número correlativo, seguido de una descripción del contenido de la variable
con abreviaturas (por ejemplo: para introducir la variable “peso al ingreso”, que ocupa-
rá el tercer lugar de las variables demográficas de una BD, podemos usar el nombre de
variable “D_3_Peso_Ing”).
Una vez asignado el nombre de la variable, debemos indicar el tipo y otras características
de los campos (variables). En la tabla 4.3 se presentan los tipos de campos disponibles
y su correspondencia entre un gestor de BD (Access) y un paquete estadístico (SPSS).
Access SPSS
Texto: Debe indicarse el tamaño (número de caracteres). Cadena: Debe indicarse el tamaño (número
de caracteres).
Número*: Debe especificarse el tamaño eligiendo entre: Byte, Numérico: Debe indicarse el tamaño de cifras
Decimal, Entero, Simple y Doble. Se recomienda Byte para enteras y decimales disponibles.
variables codificadas y Simple para variables numéricas.
Fecha/hora: Se recomienda fecha corta (dd/mm/aaaa) para Fecha: Se recomienda dd.mm.aaaa; A diferencia
fechas. de otros programas la unidad de fechas son
segundos.
Otros: Objeto, Memo (texto flexible), Moneda, Hipervínculo. Otros: Notación, Puntos, Coma, Moneda
personalizada.
* Byte: enteros entre 0 y 255; Entero: enteros entre -32.768 y 32.767; El requisito de almacenamiento es 2 bytes;
Entero largo: enteros entre -2.147.483.648 y 2.147.483.647; Simple: valores numéricos de punto flotante (con decimales)
entre -3,4 x 1038 y 3,4 x 1038; Doble: valores numéricos de punto flotante (con decimales) entre -1,797 x 10308
y 1,797 x 10308; Decimal: valores numéricos entre -9,999 x 1027 y 9,999 x 1027.
70
Diseño y análisis en investigación
Recomendamos emplear los campos Texto o Cadena solo para variables que no van a
ser utilizadas en el análisis (por ejemplo: nombre, domicilio). Las variables cualitativas se
introducirán como números (en Access, número tamaño byte), salvo que los códigos a
emplear contengan caracteres alfanuméricos (por ejemplo: códigos de la Clasificación
Internacional de Enfermedades). Algunas variables que no serán usadas en el análisis
pueden ser numéricas si su valor es originalmente numérico (por ejemplo: número de
historia). El tamaño recomendado en Access para variables intrínsecamente numéricas
es número-simple. No se recomienda el tipo de campo Sí/No de Access, ya que por
defecto el programa asigna un “No”, pudiéndose cometer el error de pasar de largo
porque el campo está relleno sin asignar el verdadero valor; además, este tipo de varia-
ble no permite introducir un código para valor perdido.
A las variables cualitativas codificadas con números se les asignará un número correlati-
vo (por ejemplo, nivel de estudios: 1, elementales; 2, medios; 3, superiores), destinando
un código extra para el valor perdido. Recomendamos el “9” para códigos para varia-
bles con menos de nueve categorías, “99” para variables con menos de 99 categorías,
etc. Esta regla facilita identificar el código 9 como “no especificado” en variables codi-
ficadas con distinto número de opciones.
71
Capítulo 4
Figura 4.2
Formulario diseñado
en Access de la BD
de la figura 4.1
Introducción de datos
Ya hemos mostrado anteriormente las ventajas de los formularios para la recogida de
datos. Es por ello que recomendamos usar esta opción para el tecleado de datos, regis-
tro a registro, en una o sucesivas sesiones.
Una vez que terminamos de introducir los datos, podemos cerrar el formulario y com-
probar cómo la tabla vinculada ha actualizado la información. Es importante saber que,
a diferencia de otros programas en los que al salir de los mismos nos preguntan si que-
remos guardar los cambios, Access almacena continuamente cualquier modificación (de
datos), por lo que cualquier cambio se incorpora sin preguntarnos nada al salir. Por ello,
recomendamos que al terminar la introducción de datos, provisional o definitivamente,
busquemos el fichero correspondiente y hagamos una copia de seguridad.
72
Diseño y análisis en investigación
Combinación de ficheros
Cuando la información de un mismo individuo se encuentra separada en varias tablas
(unidades de análisis), podemos requerir la fusión de las mismas para su tratamiento
estadístico. Por ejemplo, podemos necesitar fusionar los datos evolutivos de revisiones
periódicas de un paciente para estudiar cambios en la presencia o ausencia de un de-
terminado síntoma o variaciones cuantitativas de parámetros bioquímicos. La operación
requiere, en primer lugar, que las tablas tengan un mismo campo de identificación por
el que deben estar ordenados y que no haya coincidencias entre los nombres de los
campos de las tablas. Cada programa tiene sus instrucciones concretas para realizar
dicha tarea. Otra combinación común de ficheros es la unión de tablas de la misma es-
tructura con información de distintos individuos. Esto suele ser necesario cuando varias
personas recaban la información por separado o cuando se ha distribuido el trabajo de
introducción de datos al ordenador.
73
Capítulo 4
Transformación de variables
Las transformaciones de datos se realizan, habitualmente, para crear nuevas variables con
un formato más conveniente para el análisis. Las transformaciones más frecuentes son:
• Normalización de variables continuas (por ejemplo: transformación logarítmica).
• Recodificación de variables cualitativas (por ejemplo: agrupación de diagnósticos).
• C
ambios de escala o unidades (por ejemplo: transformación de gramos a kilogramos).
• V
ariables calculadas o combinadas (por ejemplo: estimación de tiempos a partir de
fechas, estimación de índice de masa corporal a partir de peso y talla, etc.).
• C
ategorización de variables continuas (por ejemplo: peso al nacimiento en bajo peso
sí/no).
L as transformaciones de variables pueden ser realizadas de forma simultánea durante la
introducción de datos o posteriormente, constituyendo un paso previo al análisis. En la
segunda opción la operación se hace de una vez con el fichero completo, reduciendo el
número de instrucciones necesarias, así como la probabilidad de error.
Una información práctica a la hora de manipular tiempos en las BD es saber que, aun-
que las fechas se introducen y muestran en formato día/mes/año, las BD las almacenan
como números, en referencia al tiempo transcurrido desde una fecha de referencia (por
74
Diseño y análisis en investigación
ejemplo: 1 de enero de 1900). Los distintos programas almacenan ese tiempo con uni-
dades distintas (días, segundos), lo que es importante conocer cuando vayamos a rea-
lizar cálculos de tiempo. Otra cuestión práctica es recordar la importancia de introducir
los años con los cuatro dígitos, para evitar que el programa asigne automáticamente el
siglo (no es lo mismo 1916 que 2016).
75
Capítulo 4
BIBLIOGRAFÍA RECOMENDADA
• Altman DG. Practical statistics for medical research. London: Chapman & Hall; 1991.
• Milton JS. Estadística para biología y ciencias de la Salud. México: McGraw-Hill; 2001.
• Norman GR, Streiner DL. Bioestadística. México: Mosby/Doyma Libros; 1996.
• Woodwark M. Epidemiology study design and data analyisis. London: Chapman & Hall/CRC; 1999.
76
5
Estadística descriptiva
Medidas de frecuencia, riesgo e impacto
en epidemiología
Objetivos docentes:
•C onocer los fundamentos de la estadística descriptiva e inferencial.
• Conocer las principales medidas de centralización y dispersión.
• Entender la utilidad de la mediana y los rangos intercuartílicos.
• Conocer los principales métodos de representación gráfica.
• Conocer las principales medidas de frecuencia, riesgo e impacto
en epidemiología.
• Saber elegir la medida epidemiológica más apropiada a cada tipo
de estudio.
• Saber interpretar las estimaciones de riesgo y las diferencias
de porcentajes o medias.
77
Capítulo 5
dos o más alternativas, cuantificando la probabilidad de que las diferencias entre ellas
se deban al azar.
Veamos un ejemplo para ilustrar las distintas funciones de la estadística: imaginemos
que en una muestra de 63 niños con jaquecas recurrentes probamos en episodios su-
cesivos dos analgésicos distintos (A y B). De ellos, 31 manifestaron preferencia por el
tratamiento A, 15 por el B y 17 no mostraron preferencia entre ellos. La estadística
descriptiva nos permite estimar que un 49,2 % prefirió el tratamiento A, un 23,8 % el
B, con una diferencia entre ambos del 25,4 % a favor del tratamiento A.
La inferencia estadística, mediante estimación de intervalos, nos permite avanzar hasta
estimar que, con un 95 % de confianza (5 % de error), la diferencia observada se situa-
ría en un intervalo entre el 3,6 y el 47,2 % a favor del tratamiento A.
Por último, el contraste de hipótesis nos permite calcular (test McNemar) que la proba-
bilidad de que las diferencias encontradas sean debidas al azar es 0,018 (1,8 %), por lo
que asumimos que el tratamiento A parece mejor que el B.
Los fundamentos y procedimientos seguidos para realizar estos cálculos se verán en
capítulos sucesivos de este libro.
Medidas descriptivas
Como hemos visto al inicio de este capítulo, el primer paso del análisis estadístico es el
cálculo de medidas descriptivas de la muestra de estudio. Podemos diferenciar varios
grupos de medidas: de masa, de tendencia (o centralización) y de dispersión.
Medidas de masa
Son medidas de masa el tamaño muestral (n), el sumatorio y las frecuencias absoluta y
relativa.
• Tamaño muestral: el recuento del número de casos.
• Sumatorio (∑Xi ): suma aritmética del valor de una variable de todos los casos.
• F recuencia absoluta: recuento del número de ocurrencias de cada valor de una va-
riable.
• Frecuencia relativa: proporción respecto al total.
En la tabla 5.1 se puede ver la tabla de frecuencias de la variable “número de hijos” de
20 parejas, tal y como lo ofrecen la mayoría de los paquetes estadísticos.
78
Diseño y análisis en investigación
– X1 + X2 + .... + XN i=1
∑ Xi ∑ Xi
X = --------------------------------- = ----------- = -----------
n n n
• M
oda muestral: la moda es el valor que más se repite (puede no existir, y si existe,
puede no ser única).
• M
ediana: si ordenamos de menor a mayor los valores de una variable en una mues-
tra (Xi), la mediana es el valor que está en el medio o la media de los valores que
están en el medio (si la muestra es par):
{ }
Xn+1 si n impar
~ 2
X= X +X { Xi } ordenados
n/2 n/2+1
---------------------- si n par
2
X = {2, 20, 3, 4, 5, 2, 3, 6, 7, 4, 2, 1, 3, 4, 6, 8, 6, 5, 4, 3}
79
Capítulo 5
La medida más popular y empleada es la media; sin embargo, cuando los valores de
una muestra no siguen una distribución normal, no es una buena medida de tendencia.
En estas circunstancias recomendamos utilizar la mediana. Si la media y la mediana son
muy diferentes, es poco probable que el valor medio describa la tendencia de los datos
(probablemente no tengan una distribución de Gauss o normal), por lo que tendremos
que dar la mediana o ambos.
Medidas de dispersión
Las medidas de tendencia no permiten describir los datos de una muestra, porque no
informan de cuan alejados está cada uno de los valores respecto el valor central. Las
principales medidas de dispersión son el rango, la varianza, la desviación típica, el coe-
ficiente de variación y el rango intercuartílico.
• R
ango: si ordenamos los valores de menor a mayor, es la diferencia entre los valores
extremos (mínimo y máximo):
• V
arianza: la varianza es la media de las diferencias al cuadrado entre cada valor y la
media. Se elevan al cuadrado para evitar que las diferencias negativas se anulen con
las positivas. Se representa con s2.
–
∑ (Xi – X )2
s = ---------------------
2
n
• C
uasivarianza: la cuasivarianza es una fórmula de estimación corregida de la dis-
persión de los datos. Aunque la varianza describe fielmente la dispersión de los
datos de la muestra, infraestima la dispersión de los datos en la población de la que
procede la muestra si esta tiene pequeño tamaño muestral; por ello, la fórmula se
corrige disminuyendo su denominador. La varianza que se emplea en inferencia es-
tadística es la cuasivarianza, también conocida como varianza muestral o estimada,
o simplemente varianza.
–
∑ (Xi – X )2
s = ---------------------
2
n–1
80
Diseño y análisis en investigación
• D
esviación típica muestral o estimada: como en el cálculo de la varianza las dis-
tancias entre cada valor y la media se elevan al cuadrado, la magnitud de la dispersión
pierde sentido. Por ello, recurrimos a redimensionar la dispersión haciendo la raíz cua-
drada de la varianza. De ahí resulta la desviación típica, representada por “s”.
––––––––––
–
––
s = + √ s2 = √∑ (Xi – X )2
n-1
––––––––––
–
––
s = + √ s2 = √∑ (Xi – X )2
n
s s
C.V. = ------
– a veces C.V. = ------
– · 100
X X
81
Capítulo 5
Tabla 5.2 C
álculo de la varianza y la desviación típica a partir de los datos
de longitud de una serie de recién nacidos
– –
Xi (longitud RN) Xi - X (Xi - X)2
82
Diseño y análisis en investigación
• Percentiles 25-75: ordenando los Xi de menor a mayor el valor que deja a su izquier-
da el 25 % de los casos es el percentil 25 y el que deja por arriba a un 25 % de los
casos es el percentil 75. El rango intercuartílico es el intervalo entre ambos percen-
tiles. En muestras con distribución no normal es la mejor alternativa a la desviación
estándar como medida de dispersión.
Veamos de forma gráfica cómo localizar los percentiles 25 y 75. En una muestra de
20 pacientes se recogieron las siguientes estancias hospitalarias:
X = {2, 20, 3, 4, 5, 2, 3, 6, 7, 4, 2, 1, 3, 4, 6, 8, 6, 5, 4, 3}
Si las ordenamos, los valores que corresponden a los percentiles 25 y 75 son “3” y “6”.
El rango intercuartílico sería 6 - 3 = 3.
83
Capítulo 5
Según los datos de que dispongamos, podremos recurrir a distintos diagramas, que
describimos a continuación:
• D
iagramas de líneas y de áreas: describen recuentos, porcentajes o medidas de ten-
dencia por grupos.
• D
iagramas de barras: describen recuentos, porcentajes o medidas de tendencia por
grupos (figura 5.1).
• Sectores (quesitos): describen frecuencias relativas de variables cualitativas (figura 5.2).
• H
istogramas de frecuencias: describen recuentos de casos de variables cuantitativas
por intervalos (figura 5.3).
• Box-plots (cajas de puntos): describen medidas de tendencia y dispersión de variables
continuas de forma global o por grupos (figura 5.4).
• Scatter plots (nubes de puntos): describen la relación entre dos variables cuantitativas
(figura 5.5).
Veamos a continuación los más importantes:
40
Figura 5.1
Diagrama de barras. 30
Distribución de
Porcentaje
gastroenteritis
bacterianas 20
por estaciones
10
0
inv pri ver oto
Estación ingreso
Figura 5.2
Diagrama de
sectores. Distribución 44,53 % Femenino
de gastroenteritis Masculino 55,47 %
por sexos
84
Diseño y análisis en investigación
42
Figura 5.3
41
o116
Fiebre máxima
Diagramas de cajas. 40
Fiebre máxima de
39
las gastroenteritis
en función de la 38
etiología bacteriana
37
36
N= 171 81
no sí
GEA Bacteriana
Mediana: línea gruesa horizontal central; Percentiles 25 y 75: límites inferior y superior de la caja sombreada; Valores extremos
(descartando valores atípicos): líneas horizontales finas inferior y superior; Valores atípicos: < P25-1,5 RIC o > P75 + 1,5 RIC; RIC:
rango intercuartílico; Valores atípicos señalados con su número de orden.
50
Figura 5.4
40
Histograma de
frecuencias.
Frecuencias
30
Recuento de
leucocitos (miles)
20
en pacientes con Desv. tip = 5,16
gastroenteritis Media = 11,1
10
N = 232,00
0
4,0 8,0 12,0 16,0 20,0 24,0 28,0 32,0 36,0
6,0 10,0 14,0 18,0 22,0 26,0 30,0 34,0
Recuento de leucocitos sangre
4
Figura 5.5
Gráfico de dispersión
Z score ((x-X)/ds) Peso
2
(Scatter Plot).
Correlación edad
0
en años/estado
de nutrición
(estandarizado) -2
-4
0 5 10 15 20
Edad decimal
85
Capítulo 5
A continuación proponemos una serie de preguntas para repasar las medidas descripti-
vas presentadas hasta ahora.
Pregunta 5.1 a. M
oda.
b. Media.
¿Qué medida de tendencia o centralización presentaría
c. M
ediana.
usted para describir los datos de la figura 5.4 (recuentos
de leucocitos)?: d. Media y mediana.
Pregunta 5.3
a. Coeficiente de variación.
Si tuviera que comparar la dispersión de puntuaciones b. Desviación típica.
de dos parámetros biológicos de distribución normal con c. Varianza.
distinta unidad de medida, ¿qué medida de dispersión d. Rango intercuartílico.
emplearía?:
86
Diseño y análisis en investigación
Incidencia y prevalencia
Incidencia y prevalencia son las expresiones de frecuencia de enfermedad más utilizadas
en la literatura médica. Es importante distinguir entre ambas. La incidencia es el número
de nuevos casos que han ocurrido durante un intervalo de tiempo dividido por el ta-
maño de la población en riesgo al comienzo del intervalo. Esta información es habitual-
mente obtenida de estudios de cohortes y expresada en forma de tasas.
La prevalencia es el número de individuos con una enfermedad o característica en un
determinado punto en el tiempo dividido por la población en riesgo en ese momento.
Se calcula habitualmente a partir de estudios transversales y se expresa como una pro-
porción.
La prevalencia y la incidencia expresan información complementaria (figura 5.6). Una
enfermedad con alta incidencia, pero con alta mortalidad o alta curación, tendrá una
baja prevalencia en la población. Alternativamente, una enfermedad con una baja inci-
dencia, pero con bajas mortalidad y curación (se cronifica), puede tener una alta preva-
lencia. El efecto de la mortalidad en la prevalencia puede repercutir en las características
de las muestras seleccionadas para participar en un estudio, ya que la población suscep-
tible de entrar en un estudio con casos prevalentes será una selección de pacientes con
mejor pronóstico y menor presencia de factores de riesgo que la población identificada
en un estudio con casos incidentes.
Figura 5.6
Representación
gráfica de la relación
entre incidencia y
prevalencia Incidencia
Curación
Prevalencia
Exitus
87
Capítulo 5
88
Diseño y análisis en investigación
Enfermos a b N1
No enfermos c d N0
M1 M0 T
89
Capítulo 5
Efecto (enfermedad)
Factor exposición (o riesgo) Casos Controles
Exposición presente a b N1
Exposición ausente c d N0
M1 M0 T
similar a la del RR: “1” supone el valor nulo, valores menores de 1 indican disminución
del riesgo y mayores de 1 indican aumento del riesgo. Hay que tener en cuenta que
solo cuando la enfermedad estudiada es muy poco frecuente el RR y la OR ofrecen
valores similares.
Otra medida de riesgo empleada en estudios de supervivencia es el cociente de ries-
gos instantáneos, más conocido por su término en inglés: hazard ratio. Se calcula en
estudios de supervivencia (tiempo hasta mortalidad u otro evento concreto), que refleja
el cociente de riesgos condicionados en los grupos comparados a lo largo de todo el
tiempo de seguimiento. La interpretación del hazard ratio es similar a la del RR y la OR:
el valor 1 indica ausencia de riesgo o asociación, valores mayores de 1, aumento del
riesgo, y menores, disminución.
Medidas de impacto
Aunque con las medidas anteriores podemos estimar el riesgo que genera un factor
de exposición sobre un efecto o enfermedad, esas medidas no nos informan del im-
pacto que dicha exposición puede originar en el conjunto de casos existentes en una
90
Diseño y análisis en investigación
91
Capítulo 5
Pc – Pi
Reducción relativa del riesgo: RRR = --------------
Pc
1
Número necesario a tratar: NNT = -----------
RAR
En la tabla 5.6 se presentan las medidas de frecuencia, riesgo e impacto más habituales
en función del diseño del estudio, cuando el efecto se mide con una variable nominal
dicotómica.
Cuando la medida de efecto de un estudio es una variable cuantitativa, la estimación
de la diferencia de medias entre los grupos de estudio constituye en sí misma una
medida de asociación e impacto (por ejemplo: diferencia de medias de hemoglobina
glicosilada en dos grupos de diabéticos con pautas de insulina distintas).
Tabla 5.6 M
edidas de frecuencia, riesgo e impacto para variables nominales
dicotómicas
Diseño Frecuencia Riesgo Impacto
Ensayo clínico Incidencia Riesgo relativo (RR) Reducción absoluta del riesgo (RAR)
Razón de densidades Reducción relativa del riesgo (RRR)
de incidencia
Número necesario a tratar (NNT)
En las figuras 5.7, 5.8 y 5.9 se presentan los cálculos de medidas realizados con una cal-
culadora Excel accesible en goo.gl/ke8sUc. Este fichero puede abrirse online o descar-
92
Diseño y análisis en investigación
garse. Dispone de tres hojas accesibles con tres pestañas en la parte inferior para hacer
cálculos con estudios de cohortes, casos y controles y ensayos clínicos. Basta introducir
los recuentos en la tabla marcada y el programa ofrece los cálculos.
Figura 5.7
Cálculos de medidas
epidemiológicas
de un estudio de
cohortes con la hoja
de cálculo accesible
en goo.gl/ke8sUc
Con los datos de la figura 5.7 podemos interpretar que el factor estudiado es un factor
de riesgo (RR > 1). En el capítulo 6 se explicará el fundamento, cálculo e interpretación
del intervalo de confianza del 95 %. Ahora podemos adelantar que tenemos una con-
fianza mayor del 95 % de que el factor estudiado es realmente un factor de riesgo, por-
que el intervalo de confianza no incluye en su interior el valor nulo para riesgos (el “1”).
Además, podemos interpretar que un 50 % del riesgo en los sujetos expuestos al factor
de riesgo (proporción atribuible 0,50) y un 25 % del riesgo en toda la población (pro-
porción atribuible poblacional 0,25) se asocia al factor de riesgo.
Figura 5.8
Cálculos de medidas
epidemiológicas de
un estudio de casos y
controles con la hoja
de cálculo accesible
en goo.gl/ke8sUc
Con los datos de la figura 5.8 podemos interpretar que el factor de estudio podría ser
un factor de riesgo (OR > 1); sin embargo, observando el intervalo de confianza, que
incluye en su interior el valor nulo para riesgos (el “1”), con la muestra estudiada no
tenemos suficiente confianza para declararlo. La calculadora no estima medidas de im-
pacto, ya que para ello necesitamos saber el riesgo en la población no expuesta (aquí
solo sabemos el riesgo en los casos y controles no expuestos, que podría no ser el mismo
que el existente en la población).
93
Capítulo 5
Figura 5.9
Cálculos de medidas
epidemiológicas de
un ensayo clínico
con la hoja de
cálculo accesible
en goo.gl/ke8sUc
Con los datos de la figura 5.9 podemos interpretar que el tratamiento experimental
reduce el riesgo del resultado de interés, con una reducción absoluta del riesgo del
20 %. Vemos que el intervalo de confianza no incluye en su interior el valor nulo para
diferencias de proporciones o medias (el “0”). Por ello tenemos una confianza mayor
del 95 % de que el tratamiento es eficaz. Además, podemos ver en términos relativos
que el riesgo se reduce en un 50 % con respecto al grupo control (reducción relativa
del riesgo). Por último, el programa nos calcula el número necesario a tratar, pudiendo
interpretar que tenemos que tratar a 5 con el tratamiento experimental para que mejore
un paciente con respecto al tratamiento control.
A continuación planteamos una serie de ejercicios prácticos para que realice el lector.
94
Diseño y análisis en investigación
95
Capítulo 5
BIBLIOGRAFÍA RECOMENDADA
• Altman DG. Practical statistics for medical research. London: Chapman & Hall; 1991.
• Argimón Pallás JM, Jiménez Villa J. Métodos de investigación clínica y epidemiológica. Barcelona: Elsevier; 2006.
• Milton JS. Estadística para biología y ciencias de la Salud. México: McGraw-Hill; 2001.
• Norman GR, Streiner DL. Bioestadística. México: Mosby/Doyma Libros; 1996.
• Rosner B. Fundamentals of Biostatistics, 7th Edition. Boston: Brooks/Cole, Cengage Learning; 2011.
• Rothman KJ. Epidemiología Moderna. Madrid: Díaz de Santos; 1987.
96
6
Estadística inferencial
Tamaño muestral e intervalos
de confianza
Objetivos docentes:
• Repasar el concepto de inferencia estadística.
• Conocer el concepto de variable aleatoria y las distribuciones
de probabilidad.
• Conocer las características de la distribución normal.
• Entender el concepto de error estándar.
• Entender el concepto de intervalo de confianza.
• Conocer el fundamento de la estimación del tamaño muestral.
• Aprender a manejar calculadoras epidemiológicas para calcular
intervalos de confianza y estimar tamaños muestrales.
Inferencia estadística
En el capítulo anterior dijimos que la estadística es una herramienta que nos ayuda a
tomar decisiones en presencia de incertidumbre. Nuestro objetivo es estimar parámetros
de la población a partir de la información obtenida en muestras. Esta estimación va a
estar siempre asociada a una mayor o menor incertidumbre, por muy grande que sea el
tamaño de la muestra que estudiemos. También diferenciamos entre la estadística des-
criptiva y la inferencia estadística. Dijimos que la inferencia estadística es el objetivo prin-
cipal de la estadística, ya que es la que nos permite cuantificar nuestra incertidumbre.
Dentro de la inferencia estadística diferenciamos dos tipos de estrategias:
• L a estimación de intervalos de confianza, que nos informa del rango de valores
entre los que se encontrará el parámetro poblacional a estimar.
• E
l contraste de hipótesis, con el que habitualmente confrontamos dos o más al-
ternativas, cuantificando la probabilidad de que las diferencias entre ellas se deban
al azar.
97
Capítulo 6
98
Diseño y análisis en investigación
La distribución normal
La distribución normal (o gaussiana o acampanada) es la distribución continua más
ampliamente utilizada. Constituye la piedra angular de la mayor parte de los métodos
99
Capítulo 6
f(x)
Figura 6.1
Distribución de
probabilidad normal
0 µ
-s +s
-1,96 s 68% +1,96 s
95%
-2,576 s + 2,576 s
99%
100
Diseño y análisis en investigación
f(x)
Figura 6.2
Rango de valores
de una distribución
normal
0 x µ
Hemos dicho que, conociendo la media y la desviación típica de una variable de dis-
tribución normal, podemos conocer la probabilidad de cualquier rango de valores; por
ejemplo, en la distribución de longitudes de recién nacidos (media 50 cm, desviación
típica 2 cm), podemos saber la probabilidad de que un recién nacido nazca con menos
de 46 cm. Como 46 corresponde a la media menos dos veces (casi 1,96 veces) la des-
viación típica (50 – 4), podemos calcular la probabilidad de medir menos de 46 cm, que
es, aproximadamente, 0,025 (un 2,5 %, ya que fuera del intervalo ± 1,96 la desviación
típica quedaba el 5% y aquí solo contamos un lado).
El cálculo exacto a partir de funciones de probabilidad requiere operaciones complejas,
innecesarias, ya que tanto las hojas de cálculo como los paquetes estadísticos tienen
memorizados los valores de referencia que corresponden a cada valor de una distribu-
ción de referencia que denominamos normal estandarizada o tipificada (Z), creada a
partir de una transformación que consiste en restar a cada valor la media (centrar) y
dividirlo por la desviación típica (estandarizar o tipificar). La distribución de referencia
tiene una media 0 y una desviación típica 1 (figura 6.3).
X–µ
Z = -------------
s
45 – 50
I
101
Capítulo 6
P = f (Z) ==> X = (Z · s) + µ
102
Diseño y análisis en investigación
√ 0,15 · 0,85
----------------------- = 0,112
10 √ 0,15 · 0,85
----------------------- = 0,080
20 √ 0,15 · 0,85
----------------------- = 0,035
100
Esta relación corresponde a lo que conocemos como error estándar o error típico,
que se comporta como el factor de dispersión (desviación típica) de la distribución de
proporciones muestrales, que, como otros parámetros, sigue una distribución normal
(según el teorema central del límite para muestras n ≥ 30). El error estándar se puede
calcular a partir de la proporción que hemos encontrado en nuestra muestra, su com-
plementario (1 – p) y el tamaño muestral (la aproximación a la normal es válida si el
producto [n · p · 1 – p] es mayor que 5).
––––––––––
Error Estándarproporción = √ p · (1 – p)
n
103
Capítulo 6
50 Media = ,15
Figura 6.4 Desviación típica = ,115
40 N = 120
Histogramas de
Frecuencia
frecuencia de las 30
proporciones de
partos distócicos 20
en 120 muestras
de tamaños n = 10, 10
n = 20 y n = 100
0
,00 ,10 ,20 ,30 ,40 ,50
PartoMu10
30 20
Media = ,15 Media = ,15
Desviación típica = ,081 Desviación típica = ,033
N = 120 N = 120
15
20
Frecuencia
Frecuencia
10
10
5
0 0
,00 ,10 ,20 ,30 ,40 ,50 ,00 ,10 ,20 ,30 ,40 ,50
PartoMu20 PartoMu100
Dijimos al comienzo de este apartado que nuestro objetivo era estimar un parámetro po-
blacional, pero no sabíamos cómo cuantificar nuestra incertidumbre para dar los valores
entre los que es verosímil que se encuentre. Ahora ya tenemos los elementos que necesi-
tamos para estimar el parámetro poblacional a partir de las medidas descriptivas de nues-
tra muestra. Como solo vamos a tener una muestra, asumiremos la proporción observada
como el punto central de la estimación (estimación puntual). Utilizando esa proporción
y el tamaño muestral calcularemos el error estándar, y utilizando las propiedades de la
distribución normal podemos cuantificar entre qué rango de valores se encuentra.
Imaginemos que nuestra muestra contaba con 100 partos y obtuvimos una proporción
de 0,17 (17 de los 100, 17 %, tuvieron parto distócico). Lo más probable es que hubié-
ramos encontrado un 15 %, pero por azar hemos encontrado otro resultado cercano.
Asumimos ese 0,17 como proporción y calculamos el error estándar con la fórmula:
–––––––––––––––
Error Estándarproporción = √ 0,17 · (1 – 0,17)
100
= 0,0375
104
Diseño y análisis en investigación
p ± Z1- α/2 · error estándar ==> Para IC 95% ==> 0,17 ± 1,96 · 0,0375
105
Capítulo 6
–––––––––––– –––––––––––––––––––––––––
Figura 6.5
√ p · ( 1 – p)
√ p1 ( 1 – p1 ) p2 ( 1 – p2)
^ ^ ^ ^
––––––––––––––––––––
1
√ 1 1 1
EE InOR = ------ + ------ + ------ + ------
a b c d
a
c
b
d
N: tamaño muestral; p: proporción; lnOR: logaritmo neperiano de odds ratio; s: desviación
típica muestral; σ: desviación típica poblacional (se estima a partir de s).
Figura 6.6
Cálculo de un
intervalo de
confianza para
una proporción
con Epidat 4.2. Se
presenta el menú
desplegado en
el que se accede
a la ventana
correspondiente
(en “Calcular”
debe señalarse
exclusivamente la
opción de intervalo
de confianza) y los
resultados
106
Diseño y análisis en investigación
Figura 6.7
Cálculo de un
intervalo de
confianza para
una diferencia
de proporciones
con Epidat 4.2. Se
presenta el menú
desplegado en
el que se accede
a la ventana
correspondiente
(en “Calcular”
debe señalarse
exclusivamente la
opción de intervalo
de confianza) y los
resultados
107
Capítulo 6
a) H
emos estudiado a 200 lactantes sanos que acuden a revisión de los 6 meses
y, de ellos, 60 mantenían lactancia materna. Calcule la prevalencia de lactancia
materna a esa edad con su intervalo de confianza del 95 %.
b) H
emos asignado a 70 recién nacidos con distrés respiratorio por aspiración meconial
a recibir presión positiva continua en las vías respiratorias (CPAP) nasal y a otros 70
a recibir oxígeno en campana. La medida de efecto principal fue la necesidad de
ventilación mecánica invasiva. Solo dos de los tratados con CPAP nasal requirieron
ventilación invasiva, por 17 de los otros. Calcule la diferencia de proporciones con
su intervalo de confianza del 95 %. Trate de interpretar este resultado; ¿podemos
decir que la CPAP disminuyó la necesidad de ventilación invasiva?
EE =
√ p · ( 1 – p)
-----------------------
n
p · ( 1 – p)
n = -----------------------
EE2
Za2/2 · p · ( 1 – p)
n = -------------------------------
d2
108
Diseño y análisis en investigación
sentamos para explicar el fundamento del cálculo del tamaño muestral. En la práctica
recurriremos a calculadoras epidemiológicas para realizar las estimaciones.
Por lo tanto, para calcular el tamaño muestral de una proporción solo vamos a necesitar:
• La proporción esperada.
• La precisión de nuestra estimación o diferencia a estimar.
Cuando el parámetro a estimar es una media en vez de la proporción esperada, ten-
dremos que saber la desviación típica de la característica medida, ya que aparece en la
fórmula del error estándar correspondiente. Para otros parámetros, como la diferencia
de proporciones, la diferencia de medias, odds ratio, etc., hay otros elementos a consi-
derar que van a aparecer en las fórmulas.
Pero, ¿de dónde obtenemos la información necesaria? Veamos cómo hacerlo para la
estimación de una proporción. Lo primero es establecer la proporción esperada. Para
ello podemos recurrir a nuestro conocimiento previo sobre el objeto de estudio o buscar
datos en la literatura publicada. Cuando no tenemos ninguna idea previa de la frecuen-
cia esperada, la estrategia más conservadora es realizar el cálculo asumiendo que la
prevalencia esperada es del 50 % (0,50). Para una misma precisión es la prevalencia que
más tamaño muestral nos estimará.
El otro elemento a conocer es la precisión o diferencia a estimar. Esta precisión también
requiere conocer el fenómeno estudiado, pero, generalmente, es el investigador el que
establece la precisión en función de ciertos factores, de los que destacamos tres:
• La existencia de estimaciones de referencia con las que se quiere comparar.
• La estimación de la diferencia clínicamente importante.
• La disponibilidad o factibilidad del equipo investigador para reclutar sujetos.
Imaginemos que tratamos de estimar la prevalencia de obesidad en una población es-
colar de un área desfavorecida. Si tenemos la impresión de que esta población tiene
una mayor prevalencia de obesidad que la población general, la precisión de nuestra
estimación la obtendremos de la diferencia entre la prevalencia de la población general
y la que nosotros creemos que va a tener la población desfavorecida. Si existe informa-
ción publicada de que en la población general hay un 18 % de obesidad y esperamos
encontrar una prevalencia entre la población desfavorecida de, al menos, un 25 %, la
precisión requerida será la diferencia entre ambas cifras: 7 %. En la calculadora introdu-
ciremos el 25 % esperado y el ± 7 % de precisión que buscamos.
El segundo factor a considerar era la “diferencia clínicamente importante”. Usando el ejemplo
anterior, si no podemos intuir cuál es la prevalencia en la población desfavorecida, tendremos
que establecer qué diferencia de prevalencia consideraríamos suficiente como para interpre-
tar la diferencia como “clínicamente importante”. En este ejemplo parece sensato asumir
que una diferencia de prevalencia de obesidad de, al menos, el 5 % es clínicamente impor-
tante, ya que supone un aumento del 27 % de la prevalencia poblacional (0,05/0,18 = 0,27).
109
Capítulo 6
En la figura 6.9 se presenta el cálculo del tamaño muestral para encontrar una diferen-
cia del 10 % en el riesgo de necesitar ventilación mecánica invasiva en dos grupos de
Figura 6.8
Disponible en https://www.
imim.cat/ofertadeserveis/
software-public/granmo/.
110
Diseño y análisis en investigación
recién nacidos con distrés respiratorio por aspiración meconial, tratados con CPAP nasal
u oxígeno en campana (proporción esperada respectiva del 5 y 15 %). Además de las
proporciones esperadas, debemos indicar la relación entre los grupos (si los grupos son
de igual tamaño muestral, introduciremos “1”) y la proporción esperada de pérdidas
(si no prevemos pérdidas, introduciremos “0”). Por defecto, el programa asigna ciertos
parámetros de los que no hemos hablado todavía y que se presentarán en el siguiente
capítulo del libro:
• Riesgo alfa (error tipo I).
• Riesgo beta (error tipo II).
• Tipo de contraste (unilateral o bilateral).
Podemos adelantar que el riesgo alfa es la probabilidad de que encontremos diferencias
cuando no las hay (error tipo I o de falso positivo) y el riesgo beta es la probabilidad
de que no encontremos diferencias cuando sí las hay (error tipo II o de falso negativo).
Se acepta que el máximo riesgo alfa asumible es 0,05 (5 %) y el máximo riesgo beta
asumible es 0,20 (20 %). Cuanto más exigentes seamos en el umbral de error (riesgos
menores), mayor será la muestra necesaria.
El tipo de contraste depende de la hipótesis que planteemos en el estudio; si nuestra hipó-
tesis considera las dos colas de la distribución normal (hipótesis de diferencia) o solo una
(hipótesis solo de superioridad o solo de inferioridad). El tipo de contraste elegido se tra-
duce en que el factor que multiplicará el error estándar será 1,96 (Zα/2 bilateral) o 1,65 (Zα
unilateral), por lo que el contraste bilateral siempre implicará un mayor tamaño muestral.
Como vemos en la figura 6.9, el programa asigna, por defecto, un riesgo alfa de 0,05,
un riesgo beta de 0,20 y un contraste bilateral. La estimación del tamaño muestral es
de 133 sujetos en cada grupo.
Figura 6.9
Disponible en https://www.
imim.cat/ofertadeserveis/
software-public/granmo/.
111
Capítulo 6
BIBLIOGRAFÍA RECOMENDADA
• Altman DG. Practical statistics for medical research. London: Chapman & Hall; 1991.
• Altman DG, Bland JM. Statistics notes: the normal distribution. BMJ. 1995;310:298.
• Altman DG, Bland JM. Statistics notes: variables and parameters. BMJ. 1999;318:1667.
• Milton JS. Estadística para biología y ciencias de la Salud. México: McGraw-Hill; 2001.
• Norman GR, Streiner DL. Bioestadística. México: Mosby/Doyma Libros; 1996.
• Rosner B. Fundamentals of Biostatistics, 7th Edition. Boston: Brooks/Cole, Cengage Learning; 2011.
112
7 Contrastes de hipótesis
Elección del test estadístico
Objetivos docentes:
• Repasar el concepto de contraste de hipótesis.
• Conocer las principales pruebas de contraste de hipótesis.
• Conocer los factores a tener en cuenta en la elección del
contraste de hipótesis.
• Saber elegir la prueba más apropiada para cada tipo de contraste
de hipótesis.
• Aprender a interpretar los contrastes de hipótesis más comunes.
Contraste de hipótesis
En el capítulo anterior expusimos los fundamentos de la inferencia estadística. Diferen-
ciamos en ella dos estrategias: la estimación por intervalos y el contraste de hipótesis.
En este capítulo abordaremos el contraste de hipótesis, con él podemos comparar dos
o más alternativas, cuantificando la probabilidad de que las diferencias entre ellas se
deban al azar.
Recordemos un ejemplo presentado anteriormente: en un ensayo clínico se compararon
dos tratamientos, A y B, a dos grupos de 100 pacientes, para prevenir recaídas de una
enfermedad. En el contraste de hipótesis se plantean dos alternativas:
• H
ipótesis nula: no hay diferencias de eficacia entre A y B. La diferencia de proporcio-
nes no es distinta de 0.
• H
ipótesis alternativa; dos opciones: sí hay diferencias entre A y B (contraste bilate-
ral) o A es más eficaz que B (contraste unilateral). La diferencia de proporciones es
distinta/mayor que 0.
En el grupo A recayeron un 20 %, mientras que en el grupo B un 40 %. En el capítulo
anterior calculamos para el mismo ejemplo que la diferencia de proporciones era del
113
Capítulo 7
20 %, con un intervalo de confianza del 95 % de 7,6 a 32,4 %. Como ese intervalo
no incluye el valor nulo, que para una diferencia es “0”, podíamos ya asumir la mayor
eficacia del tratamiento A. Sin embargo, para resolver el contraste de hipótesis debemos
cuantificar la probabilidad exacta de que la diferencia encontrada sea mayor que “0”
por azar.
Contamos con varias pruebas con las que calcular esta probabilidad. Una de las opcio-
nes es la aproximación a la distribución normal de la diferencia de proporciones, cuyo
error estándar era:
–––––––––––––––––––––––––
√
p1 ( 1 – p1 ) p2 ( 1 – p2)
^ ^ ^ ^
Figura 7.1
Contraste de
hipótesis para
una diferencia
de proporciones
mediante
aproximación a la
normal realizado
con Epidat 4.2. Se
presenta el menú
desplegado en
el que se accede
a la ventana
correspondiente
(en “Calcular”
debe señalarse el
tipo de contraste;
en este caso se ha
optado por contraste
bilateral)
114
Diseño y análisis en investigación
Figura 7.2 H0
Distribución normal
de las diferencias
de proporciones de
± 1 · Error Estándar
media 0 (hipótesis
nula [H0]) y
desviación típica
equivalente a su
error estándar
p = 0,002
115
Capítulo 7
Figura 7.3
Contraste de
hipótesis para
una diferencia
de proporciones
mediante
aproximación a la
normal Epidat 4.2
Figura 7.4 a
H0
Distribución normal
de las diferencias
de proporciones de
p = 0,091
media 0 (hipótesis
nula [H0]) y desviación
-20 -10 0 +10 +20
típica equivalente a
su error estándar
116
Diseño y análisis en investigación
Figura 7.4 b H1 H0
Distribuciones
normales de medias
0 (H0) y -20 (hipótesis
alternativa [H1]) p = 0,391
-20 -10 0 +10 +20
Para calcular el error tipo II (riesgo beta) o la potencia (1 – beta), recomendamos usar
una calculadora epidemiológica. En la figura 7.4b se muestra el planteamiento en el que
se sustenta el cálculo de la potencia. Si realmente existieran diferencias (H1 cierta), exis-
tiría una distribución de diferencias de proporciones alternativa (H1) a la hipótesis nula
(H0). En ese caso nuestro estudio podría haber encontrado cualquier valor comprendido
en la distribución alternativa, pero solo los que quedan más alejados de la hipótesis nula
darían una probabilidad menor de 0,05 en ella; podemos ver que ese valor es un valor
más extremo que el que nosotros hemos encontrado (-0,20). En la figura 7.5 se muestra
el cálculo para nuestro estudio.
Figura 7.5
Cálculo de la
potencia de un
contraste de
hipótesis para
una diferencia de
proporciones con
Epidat 4.2
La calculadora ha estimado que, con una muestra de 30 sujetos por grupo (60 en total),
la potencia para estimar una diferencia del 20 % es 39,1 %. Como vemos, no alcanza
la potencia mínima requerida del 80 %. Por ello, nuestro resultado “negativo” no sería
aceptable; si estamos convencidos de que el tratamiento A es mejor que el B (así lo
sugiere la diferencia encontrada), lo más razonable es plantear un estudio con mayor
tamaño muestral.
117
Capítulo 7
Tabla 7.1 A
lternativas del contraste de hipótesis
Realidad (¡¡Desconocida!!)
Decisión
H0 Cierta H0 Falsa
118
Diseño y análisis en investigación
a) H
emos comparado el riesgo de ingreso por enfermedad infecciosa aguda de 100
lactantes que acudieron a guardería en el primer año de vida y 200 lactantes
que fueron cuidados en su hogar. Ingresaron por enfermedad infecciosa aguda
10/100 lactantes del grupo de guardería y 10/200 del otro grupo. ¿Aumentó la
asistencia a guardería el riesgo de ingreso?
b) Q
ueremos estimar la eficacia de los corticoides inhalados diarios en niños con
asma persistente en comparación con montelukast. Para ello estudiamos a dos
grupos de 200 pacientes que reciben uno de los dos tratamientos de estudio.
Medimos la frecuencia de ingreso por asma en 1 año. Ingresaron 10/200 en el
grupo con corticoides y 30/200 en el grupo con montelukast. ¿Fueron más efi-
caces los corticoides inhalados?
119
Capítulo 7
Tabla 7.2 E
squema de elección del test de contraste de hipótesis más apropiado
Variable dependiente
Variable
independiente Nominal
Ordinal Continua
(continuas no normales) (razón o intervalos)
Muestras relacionadas:
· Test McNemar · T. Wilcoxon rangos · Test t de Student de
· Test Z y método binomial con signo muestras apareadas
120
Diseño y análisis en investigación
d) Número de grupos de estudio. Hay dos grupos, como corresponde a una variable
independiente nominal dicotómica.
e) Grupos de estudio independientes o relacionados (o apareados). Los grupos son
independientes, ya que unos casos no tienen nada que ver con los otros (serían re-
lacionados o apareados si midiéramos una misma características en el mismo grupo
antes/después de una intervención).
f) Contraste uni o bilateral. La elección de uno u otro contraste depende de la hi-
pótesis alternativa que planteemos. Si nuestra hipótesis alternativa es que ambos
grupos introducen el gluten de forma distinta, elegiremos un contraste bilateral.
Si nuestra hipótesis alternativa solo contempla que los que tienen familiares con
enfermedad celíaca introducen el gluten más tarde, elegiremos un contraste unila-
teral. La elección de un contraste unilateral se traduce en una reducción de la esti-
mación de error tipo I (“p” más baja o significativa). Aunque el contraste unilateral
es completamente ortodoxo, es habitual que se elijan contrastes bilaterales, ya que
son más conservadores. Algunos test estadísticos son intrínsecamente bilaterales,
por lo que cuando los usamos no tenemos otra opción (por ejemplo: test de ji cua-
drado).
g) Umbrales de errores tipo I y II. Habitualmente se eligen por defecto los umbrales
0,05 (error tipo I) y 0,20 (error tipo II). Algunos autores eligen umbrales de error
más exigentes (por ejemplo: 0,01 y 0,10, respectivamente), intentando mostrar un
mayor rigor en el contraste estadístico. Esta actitud podría estar justificada cuando
en el estudio se realizan múltiples contrastes estadísticos, con variables indepen-
dientes o dependientes alternativas, tratando de minimizar el error tipo I (a mayor
número de contrastes, más riesgo de encontrar alguna diferencia significativa por
azar).
El contraste estadístico de nuestro ejemplo podríamos describirlo como el análisis de la
asociación entre dos variables nominales dicotómicas y también como la comparación
de proporciones entre dos grupos (comparación de las proporciones de introducción
de gluten entre los 4 y 6 meses entre los sujetos con y sin antecedentes familiares de
enfermedad celíaca).
Aunque los factores a considerar en la elección de la prueba de contraste estadístico
son los anteriormente detallados, se puede simplificar el procedimiento en tres pasos,
siguiendo la estructura de la tabla 7.2:
1. Establecer las variables independiente y dependiente.
2. E legir la fila en función de la escala de medida de la variable independiente. Hay
cuatro opciones: nominal dicotómica con muestras independientes, nominal dico-
tómica con muestras apareadas, nominal politómica y continua.
3. E legir la columna en función de la escala de medida de la variable dependiente. Hay
tres opciones: nominal, ordinal y continua.
121
Capítulo 7
Podemos ver que las categorías de las columnas y filas no se corresponden. El es-
quema admite que si la variable dependiente o la independiente sigue una escala de
medida que no aparece entre las opciones (por ejemplo: la variable independiente
es ordinal), pueden intercambiarse las variables dependiente e independiente en el
esquema.
Veamos la elección de nuestro ejemplo:
1. L as variables independiente y dependiente son: familiar celíaco e introducción del
gluten entre los 4 y 6 meses.
2. La variable independiente es nominal dicotómica con muestras independientes
(primera fila).
3. La variable dependiente es nominal (primera columna).
Las opciones que nos ofrece el esquema son tres: test Z de comparación de proporcio-
nes, test de ji cuadrado y test exacto de Fisher. La primera opción es la que empleamos
en el apartado anterior de este capítulo, basada en la aproximación a la normal de
la distribución de diferencias de proporciones. Mucho más popular y más utilizada es
la segunda opción: el test de ji cuadrado (“ji” no “chi”, ya que la letra griega “χ” se
lee “ji” en español). Es la que empleamos cuando buscamos asociación entre varia-
bles nominales, en general, tanto sean dicotómicas como politómicas, que podemos
representar en una tabla de contingencia de dos o más filas por dos o más columnas.
La tercera opción (test exacto de Fisher) se emplea cuando el tamaño muestral es
pequeño y no se pueden utilizar los test anteriores, aunque puede ser empleada en
cualquier circunstancia.
En la tabla 7.3 se presentan los datos de nuestro ejemplo en formato de tabla de con-
tingencia 2 × 2 y analizados con un test de ji cuadrado.
Tabla 7.3 T
abla de contingencia 2 × 2 de asociación entre dos variables nominales
dicotómicas y análisis mediante test de ji cuadrado y exacto de Fisher
Sí No Total
Sí Recuento 17 39 56
% dentro de Familia Celiaco 30,4 % 69,6 % 100,0 %
Familia
Celiaco
No Recuento 401 471 872
% dentro de Familia Celiaco 46,0 % 54,0 % 100,0 %
122
Diseño y análisis en investigación
Tabla 7.3 T
abla de contingencia 2 × 2 de asociación entre dos variables nominales
dicotómicas y análisis mediante test de ji cuadrado y exacto de Fisher
(continuación)
Significación Significación Significación
Valor gl asintótica exacta exacta
(bilateral) (bilateral) (unilateral)
a. 0 casillas (0,0%) han esperado un recuento menor que 5. El recuento mínimo esperado es 25,22.
b. Sólo se ha calculado para una tabla 2 x 2.
123
Capítulo 7
124
Diseño y análisis en investigación
media y la mediana son muy diferentes y el histograma no adopta una forma acampa-
nada simétrica, podría no ser razonable emplear estos test.
En la tabla 7.4 se presenta el análisis comparativo de medias mediante test de la t de
Student para muestras independientes.
Tabla 7.4 C
omparación de medias de muestras independientes mediante test de la
t de Student para muestras independientes. Asociación entre una variable
nominal dicotómica y otra continua
Estadísticos de grupo
Desviación Error típico
Presión arterial sistólica N ,Media
típica de la media
Obesidad Sí 420 102,77 14,841 ,724
abdominal
ICT > 0,50 No 990 99,46 13,812 ,439
Prueba de Levene
para la igualdad Prueba T para la igualdad de medias
de varianzas
95 % intervalo
Presión arterial Sig. Diferencia de confianza para
F Sig. t gl la diferencia
sistólica biateral de medias
Inferior Superior
Se han asumido
1,918 0,166 4,030 1408 0,000 3,315 1,702 4,929
varianzas iguales
No se han asumido
3,915 741,132 0,000 3,315 1,653 4,978
varianzas iguales
La salida de resultados nos muestra en la parte superior las medias y desviaciones típi-
cas de presión arterial sistólica en cada grupo y en la parte inferior las estimaciones de
probabilidad (Sig. Bilateral) y la diferencia de medias con su intervalo de confianza (en
naranja). Como podemos ver, la tabla inferior contiene dos filas de resultados. Hemos
escogido la superior porque las varianzas de las muestras comparadas parecen iguales;
para saber esto, consideramos la significación de la prueba de Levene que aparece a
la izquierda (en azul; p > 0,05). Si las varianzas fueran distintas, hubiéramos elegido
la fila inferior. Concluimos diciendo que hay una diferencia de presión arterial signi-
ficativa, con un error tipo I (alfa) menor de 0,001 (solemos sustituir el último "0" por
un "1" poniendo delante el signo "<", ya que la salida de resultados no nos muestra
más precisión en la estimación) y, por lo tanto, asumible, dado que es una “p” < de 0,05.
125
Capítulo 7
126
Diseño y análisis en investigación
127
Capítulo 7
0.5000
0.4000
0.3000
Una correlación perfecta directa (a mayor índice cintura/talla, mayor IMC) tendría un
coeficiente de correlación de + 1 y una correlación perfecta inversa (a mayor índice
de cintura/talla, menor IMC) de – 1. A la ausencia de correlación le corresponde un
coeficiente de “0”. Cuanto más se aleja el coeficiente de correlación de 0, mayor es
la correlación. En este caso, el coeficiente de correlación de Pearson entre el índice
de cintura/talla y el IMC estandarizado es de + 0,65 y significativamente distinto de
“0” (p < 0,001). Por cada unidad de desviación estándar de IMC aumenta el índice
cintura/talla 0,65 puntos.
Si alguna de las variables es ordinal o no sigue una distribución normal, tendríamos que
emplear el test de correlación de Spearman, alternativa no paramétrica al de Pearson.
Otros contrastes
En el esquema de la tabla 7.2 hay otras pruebas de contraste de hipótesis que no vamos
a abordar por separado, ya que ello nos obligaría a extender este documento. El lector
interesado puede ver información al respecto en los textos de referencia.
Hay una serie de test de contraste de hipótesis que no se basan en parámetros que
sigan las distribuciones de probabilidad habituales, por ello se conocen como pruebas
no paramétricas. En vez de hacer las estimaciones en base a esos parámetros (media,
varianza, etc.), comparan el conjunto de datos y hacen cálculos de probabilidad en fun-
ción de la posición de cada uno de ellos en cada serie.
128
Diseño y análisis en investigación
En la tabla 7.2 se detallan los más habituales. Para cada test paramétrico podemos en-
contrar uno o más test no paramétricos alternativos.
Al pie de la tabla se detallan otros procedimientos de contraste de hipótesis para análisis
de supervivencia o análisis multivariante.
Finalizaremos este capítulo con una serie de preguntas para que el lector practique la
elección del test estadístico. Nos ceñiremos a los test más habituales: ji cuadrado, t de
Student para muestras independientes y relacionadas, ANOVA y coeficiente de correla-
ción de Pearson.
Recomendamos seguir el esquema de la tabla 7.2, con el procedimiento simplificado
en tres pasos:
1. Establecer las variables independiente y dependiente.
2. E legir la fila en función de la escala de medida de la variable independiente. Hay
cuatro opciones: nominal dicotómica con muestras independientes, nominal dico-
tómica con muestras apareadas, nominal politómica y continua.
3. E legir la columna en función de la escala de medida de la variable dependiente. Hay
tres opciones: nominal, ordinal y continua.
Pregunta 7.1
129
Capítulo 7
130
Diseño y análisis en investigación
131
Capítulo 7
BIBLIOGRAFÍA RECOMENDADA
• Altman DG. Practical statistics for medical research. London: Chapman & Hall; 1991.
• Hu Y, He JR, Liu FH, Li WD, Lu JH, Xing YF, et al. Effectiveness of a Kindergarten-Based Intervention for
Preventing Childhood Obesity. Pediatrics. 2017 Dec; 140(6). pii: e20171221.
• Marugán de Miguelsanz JM, Ochoa Sangrador C; Red de investigación de la SCCALP (Sociedad de
Pediatría de Asturias, Cantabria, Castilla y León). Adecuación de los hábitos de introducción del gluten a las
recomendaciones actuales. An Pediatr (Barc). 2013;79(2):88-94.
• Milton JS. Estadística para biología y ciencias de la Salud. México: McGraw-Hill; 2001.
• Norman GR, Streiner DL. Bioestadística. México: Mosby/Doyma Libros; 1996.
• Riegelman RK, Hirsh RP. Cómo estudiar un estudio y probar una prueba: lectura crítica de la literatura médica.
2.ª ed. Washington, D.C.: Organización Panamericana de Salud; 1992;531.
• Rosner B. Fundamentals of Biostatistics, 7th Edition. Boston: Brooks/Cole, Cengage Learning; 2011.
132
8 Errores metodológicos
Objetivos docentes:
• Diferenciar entre errores aleatorios y sistemáticos.
• Conocer los tipos de errores sistemáticos.
• Conocer los tipos de sesgos de análisis.
• Aprender a identificar y controlar sesgos de confusión.
• Aprender a identificar y controlar sesgos de interacción.
Error aleatorio
Por error aleatorio (debido al azar) entendemos el error ligado al propio proceso de me-
dición, esto es, a la falta de precisión. Esta falta de precisión o error aleatorio tendrá un
valor distinto, e impredecible dentro de un rango, en cada una de las repeticiones de la
medición. La variabilidad de una medición será, por tanto, un indicador de su precisión;
cuanto más amplia sea dicha variabilidad, menor será su precisión. La variabilidad pue-
de proceder de distintas fuentes: variabilidad biológica, imprecisión del instrumento de
medida, inexperiencia del evaluador, etc.
Los errores aleatorios no suelen afectar a la validez interna de los estudios (no alteran la
dirección de los resultados), pero sí limitan su potencia. En un estudio epidemiológico,
la manera principal de reducir el error aleatorio consiste en aumentar el tamaño de la
muestra. De esta manera minimizamos el riesgo de obtener resultados distorsionados
133
Capítulo 8
134
Diseño y análisis en investigación
Errores sistemáticos
El error sistemático se corresponde con la falta de validez de un estudio. Un estudio es
válido si “mide lo que realmente se quiere medir”. La validez es, por tanto, la carencia
de error sistemático. El error sistemático o sesgo (bias) es atribuible a errores meto-
dológicos que, a diferencia del error aleatorio, no se reducen aumentando el tamaño
muestral.
Resulta fundamental, al diseñar o analizar un estudio, valorar los sesgos que se hayan
podido cometer: qué tipo de sesgos son, cuál es su magnitud y cómo pueden haber
influido en los resultados. Tenemos que ser capaces, al menos, de identificarlos y esti-
mar su posible repercusión. No siempre tendremos información como para estimar su
magnitud, pero sí al menos tendremos que intuir su dirección, esto es, si los sesgos han
podido aumentar o disminuir el efecto observado.
La validez de un estudio de investigación suele distinguir entre dos conceptos: validez
interna y validez externa. Se entiende que hay validez interna cuando los resultados
del estudio son válidos entre los propios sujetos del estudio. Por validez externa se
135
Capítulo 8
Sesgos de selección
Los sesgos de selección se producen cuando la muestra de la que se obtienen los resul-
tados no es representativa de la población, pero no por efecto del azar, sino por un error
en los criterios de inclusión o exclusión, o en la sistemática de reclutamiento.
Estos sesgos afectan solo a la validez externa, ya que el diseño y análisis de los resul-
tados pueden ser correctos, pero las conclusiones solo pueden aplicarse a la muestra
estudiada. Este tipo de sesgos puede darse en diversas situaciones:
• S
elección incorrecta de los grupos de estudio: si evaluamos el efecto de un fac-
tor de exposición o intervención, los grupos comparados solo deberían diferenciarse
en el factor evaluado; sin embargo, estos grupos pueden presentar diferencias en
otros factores implicados en el efecto. Esta comparabilidad se consigue en los es-
tudios experimentales con la aleatorización, por lo que los estudios observacionales
son más susceptibles a este tipo de sesgos.
• P
érdidas durante el seguimiento: cuando los que se pierden son sistemáticamen-
te diferentes de los que no en variables relacionadas con el factor de estudio o la
variable respuesta. Es lo que se denomina pérdidas informativas.
• A
usencia de respuesta: esto es propio de los estudios transversales. Hay que tratar
de recoger información para saber si los que no contestan difieren en algo de los
que sí lo hacen.
• S
upervivencia selectiva: se produce cuando se seleccionan casos prevalentes en lugar
de incidentes. Este tipo de sesgo es típico de los estudios de casos y controles, en los
que los casos más graves o más leves están infrarrepresentados por exitus o curación.
• S
esgo de autoselección por participación de voluntarios: en general, existe
riesgo de que estos individuos tengan características diferentes a los no voluntarios.
136
Diseño y análisis en investigación
Sesgos de análisis
Mientras los sesgos de selección o clasificación solo pueden ser previstos y corregidos en
la fase de diseño, otros errores pueden ser controlados en la fase de análisis. De estos
sesgos de análisis, los principales son la confusión y la interacción.
Confusión
Cuando el efecto estimado de la relación exposición-enfermedad está distorsionado
por la presencia de algún factor extraño en el análisis de los datos, decimos que existe
confusión. El estimador del efecto de interés está distorsionado por estar mezclado con
el efecto producido por un factor extraño que llamamos factor (o variable) de confusión.
La presencia de tal factor de confusión altera los resultados y puede producir un aumen-
to o disminución del efecto, o incluso cambiar la dirección del mismo.
137
Capítulo 8
138
Diseño y análisis en investigación
Sí 50 (71,4 %) 20 70
Alta No 50 (62,5 %) 30 80
Sí 10 (38,4 %) 16 26
Lo primero que llama la atención es que la diferencia de riesgo entre los expuestos a
tabaco y los no expuestos ha descendido considerablemente en ambos estratos, aun-
que sigue siendo mayor en los expuestos. De hecho, en ninguno de los dos estratos la
diferencia es estadísticamente significativa (en ambos, el valor nulo “1” está incluido
en el intervalo): en el estrato de alta contaminación el RR del tabaco es 1,14 (IC 95 %:
0,91 a 1,43) y en el estrato de baja contaminación el RR es 1,30 (IC 95 %: 0,78 a 2,19).
Haciendo el cálculo combinado de ambos estratos, el RR ajustado es 1,18 (IC 95 %:
0,95 a 1,45). En este ejemplo, la contaminación ambiental se comporta como factor de
confusión en la relación entre tabaco y asma. Cuando el efecto observado en el análisis
crudo (sin ajustar) se modifica en ambos estratos en la misma dirección, habitualmente
atenuándose, respecto al valor nulo (en este caso al 1), será un factor de confusión.
Interacción
El otro sesgo de análisis que debemos controlar es el de modificación del efecto o inte-
racción. Este sesgo ocurre cuando el efecto producido por una determinada variable se
ve modificado en presencia de una tercera variable, produciéndose efectos de distinta
intensidad en la misma o distinta dirección. Este fenómeno debe ser distinguido del de
confusión y también controlado en el análisis.
139
Capítulo 8
140
Diseño y análisis en investigación
1,62
Ajustado
0,5 1 2
141
Capítulo 8
En los estudios de cohortes el principal error que podemos tener es la pérdida de suje-
tos en el seguimiento. Si las pérdidas son altas, se compromete la representatividad de
la muestra. Asimismo, en estos estudios estamos expuestos a sesgos de clasificación;
así ocurre si no se utilizan procedimientos de cegamiento de la evaluación del efecto.
Aunque en estos estudios la exposición no se controla y es conocida al inicio del segui-
miento, se puede planificar un procedimiento por el cual el responsable de evaluar el
efecto final desconozca el tipo de exposición.
En los estudios de casos y controles también se pueden cometer sesgos de selección,
especialmente en la inclusión de controles. Si los controles presentan características
diferentes a las de los sujetos de la población de la que proceden los casos, y estas
características se comportan como factores de confusión, pueden distorsionarse los re-
sultados. Por ello, en estos estudios resulta fundamental controlar los posibles factores
de confusión en el análisis.
En los ensayos clínicos también se pueden cometer sesgos de selección en el proceso de
aleatorización. Esto ocurrirá si no se utiliza un procedimiento correcto de aleatorización
que garantice la homogeneidad de los grupos a comparar; para ello se recomienda em-
plear procedimientos de ocultación de la secuencia de aleatorización. Al igual que en
los estudios de cohortes, otro error a controlar es el de las pérdidas en el seguimiento;
se acepta que pérdidas superiores al 20 % comprometen la validez del estudio. Si la
intervención no es ciega, también podremos incurrir en sesgos de clasificación al medir
el efecto. Otros errores propios de los ensayos clínicos se producen en el momento del
análisis, si se excluyen o se cambian de grupo los sujetos que no han seguido la inter-
vención a la que han sido asignados. Para evitar estos errores se utilizan estrategias de
análisis, como el análisis por intención de tratar, en el que cada sujeto es analizado en el
grupo al que se asignó, independientemente de que hiciera el tratamiento o no.
A continuación haremos unos ejercicios para practicar la comprensión de los diferentes
tipos de errores.
142
Diseño y análisis en investigación
Pregunta 8.4
a. S esgo de selección.
En un estudio para estimar el riesgo de asma en función de
la contaminación ambiental por tráfico se encontró que los b. S esgo de clasificación
expuestos a contaminación tenían un 50 % más de riesgo o información.
(RR: 1,50). Haciendo un análisis estratificado en función de c. S esgo de confusión.
la exposición a tabaco durante la gestación, se encontró
que el riesgo asociado a la contaminación era mayor entre d. S esgo de interacción
los expuestos a tabaco en la gestación (RR: 2,5) y menor o modificación
entre los no expuestos a tabaco (RR: 1,20). ¿Qué tipo de del efecto.
error se puede estar cometiendo?:
Pregunta 8.5
a. S esgo de selección.
En un estudio para estimar el riesgo de asma a los 7 años
de edad se encontró que los niños que habían acudido a b. S esgo de clasificación
guardería en el primer año de vida presentaron el doble o información.
de riesgo (RR: 2,00) que los que no habían acudido a c. S esgo de confusión.
guardería. Se hizo un análisis estratificado en función de la
exposición a tabaco en el hogar. En el análisis estratificado d. S esgo de interacción
no se encontró asociación entre guardería y asma, ni entre o modificación
los expuestos a tabaco (RR: 1,01) ni entre los no expuestos del efecto.
(RR: 0,97). ¿Qué tipo de error se puede estar cometiendo?:
Pregunta 8.6
a. E rror aleatorio.
En un estudio transversal en escolares se preguntó por la
existencia de síntomas de asma y la exposición a tabaco en b. Sesgo de selección.
el hogar. Se entrevistaron a 100 sujetos. De los no expuestos c. S esgo de clasificación
a tabaco, tenían síntomas de asma el 5 % (3/60), mientras o información.
que de los expuestos a tabaco, el 15 % (6/40). Se estimó una
razón de prevalencias de 3,00 (IC 95 %: 0,79 a 11,30). ¿Qué d. Sesgo de confusión.
tipo de error se puede estar cometiendo?:
143
Capítulo 8
Pregunta 8.7
a. S esgo de selección.
En un estudio se observó una asociación entre la toma de
paracetamol en el primer año de vida con el riesgo de asma b. S esgo de clasificación
a los 3-5 años. En el análisis global se encontró un aumento o información.
del 21 % del riesgo (odds ratio [OR]: 1,21; IC 95 %: 1,04 c. S esgo de confusión.
a 1,41). Se hizo un análisis estratificado separando a los
niños que tuvieron infecciones respiratorias frecuentes de d. S esgo de interacción
los que no. La estimación ajustada de OR, controlando por o modificación
infecciones respiratoria frecuentes, fue 1,03 (IC 95 %: 0,88 del efecto.
a 1,22). ¿Qué tipo de error se puede estar cometiendo?:
144
Diseño y análisis en investigación
BIBLIOGRAFÍA RECOMENDADA
• Arezina R, Duolao W. Source and control of bias. En: Duolao W, Bakhai A (eds.). Clinical trials. A practical
guide to design, analysis and reporting. Londres: Remedica; 2006;55-64.
• Argimón Pallás JM, Jiménez Villa J (eds.). Bases metodológicas de la investigación clínica y epidemiológica.
En: Métodos de investigación clínica y epidemiológica. Madrid: Elsevier; 2004;8-15.
• Argimón Pallás JM, Jiménez Villa J (eds.). Confusión y modificación del efecto. En: Métodos de investigación
clínica y epidemiológica. Madrid: Elsevier; 2004;278-88.
• Molina Arias M, Ochoa Sangrador C. Errores en epidemiología. Errores sistemáticos. Factores de confusión
y modificación del efecto. Evid Pediatr. 2016;12:16.
• Murray KW, Duggan A. Understanding confounding in research. Pediatr Rev. 2010 Mar;31(3):124-6.
• Sordillo JE, Scirica CV, Rifas-Shiman SL, Gillman MW, Bunyavanich S, Camargo CA Jr, et al. Prenatal and infant
exposure to acetaminophen and ibuprofen and the risk for wheeze and asthma in children. J Allergy Clin
Immunol. 2015 Feb;135(2):441-8.
• Wright AL, Holberg CJ, Taussig LM, Martínez FD. Factors influencing the relation of infant feeding to asthma
and recurrent wheeze in childhood. Thorax. 2001 Mar;56(3):192-7.
145
Formulario para la memoria
ANEXO
de un proyecto de investigación
TÍTULO PÁGINA XX DE
TÍTULO
Escribir el título: se recomienda que incluya de forma breve los componentes de la
pregunta de investigación (población, exposición o intervención, comparación, efecto
o resultado).
Tipo del Proyecto:
Individual / Coordinado / Multicéntrico
Duración: XX (años)
Investigador principal:
• Nombre, Apellidos • Servicio e institución de trabajo
Investigadores colaboradores:
• Nombre, Apellidos, NIF • Servicio e institución de trabajo
• ... • ...
146
MEMORIA DEL PROYECTO DE INVESTIGACIÓN FECHA:
TÍTULO PÁGINA XX DE
ANTECEDENTES Y JUSTIFICACIÓN
• A
ntecedentes fundamentados en citas bibliográficas. Cuando sea apropiado, descripción de la búsqueda
bibliográfica en la que se sustenta. Si existe experiencia previa por parte del grupo investigador, debe citarse.
• E ste apartado no debe ser extenso (limitado en la mayoría de los formularios oficiales).
• J ustificación de la pregunta de investigación: relevancia, interés, originalidad y factibilidad (ética y material).
¿Qué puedo aportar? (utilidad sobre el conocimiento, la práctica clínica, el paciente, el sistema sanitario o
la sociedad).
BIBLIOGRAFÍA
Referencias bibliográficas siguiendo el estilo Vancouver.
HIPÓTESIS
• F ormulación de la hipótesis de estudio siguiendo los componentes de la pregunta de investigación (PICoR)
(PECOt): Población, Exposición o Intervención, (Comparación), Resultado (outcome), (tiempo).
• E jemplos:
- E jemplo A (estudio observacional): en hermanos con enfermedad celíaca (E), respecto la población general
(C) el riesgo de desarrollar la enfermedad es superior (R).
- E jemplo B (estudios experimental): en pacientes con bronquiolitis aguda leve-moderada (P), el tratamiento
con aerosoles con suero salino hipertónico (I), en comparación con suero salino fisiológico (C), reduce el
riesgo de precisar suplemento de oxígeno (R).
• E n ocasiones, en estudios descriptivos exploratorios no se puede plantear una hipótesis previa. Puede plan-
tearse un contraste teórico con la información disponible en la literatura.
147
Anexo
TÍTULO PÁGINA XX DE
OBJETIVOS
• D
esarrollar la hipótesis de estudio en forma de objetivos: determinar frecuencia / riesgo / pronóstico /
eficacia / efectividad / validez / precisión.
• Opciones:
- F recuencia: Incidencia / Densidad de incidencia / Prevalencia.
iesgo: Riesgo relativo / Odds ratio / etc.
-R
- Impacto: Riesgo o proporción atribuible o prevenible.
- P ronóstico: Supervivencia.
- Eficacia / Efectividad de procedimientos terapéuticos: Reducción absoluta del riesgo, Número necesario a tratar.
-C
oste: Coste-efectividad, coste-utilidad, coste-beneficio.
-V
alidez: Sensibilidad, especificidad, cocientes de probabilidades.
- P recisión: Concordancia (kappa, coeficiente de correlación intraclase, etc.).
• Establecer el objetivo principal (medida de efecto principal) y los objetivos secundarios, enumerándolos.
• Los objetivos deben ser operativos concretando cada componente de la pregunta de investigación.
Ejemplo A: el riesgo de enfermedad celíaca es, al menos, el “doble” del de la población general a los 10 años
de seguimiento. Esta operativización permitirá posteriormente estimar el tamaño muestral.
MÉTODOS
Diseño:
• Tipo de estudio: Descriptivo / analítico (existe grupo de comparación), concurrente (prospectivo) / histórico
(retrospectivo), observacional / experimental.
• Diseño: Estudio transversal / Estudio ecológico / Estudio de casos y controles / Estudio de cohortes / Ensayo clínico.
• Otros estudios: Evaluación de pruebas diagnósticas / Revisión sistemática.
Sujetos de estudio:
• Población de estudio: descripción de la población accesible y susceptible de entrar en el estudio (diferente de
población objeto del estudio en general o población diana).
• Muestra de estudio:
- T amaño muestral: justificación del tamaño muestral en función de la hipótesis y objetivos del estudio; para
el cálculo del tamaño muestral se debe detallar (a partir de estudios previos) la medida principal de efecto,
su precisión o la diferencia esperada entre grupos.
E jemplo A: riesgo esperado de desarrollar enfermedad celíaca en hermanos de enfermos del 10 %. Precisión
requerida ± 5 %.
148
Diseño y análisis en investigación
TÍTULO PÁGINA XX DE
E jemplo B: diferencia esperada en el porcentaje de pacientes con bronquiolitis que requieren suplemento de
oxígeno en función de que sean tratados con aerosoles de suero salino hipertónico frente a suero fisiológico
del 15 % (riesgo basal en tratados con suero fisiológico del 30 %).
• Criterios de inclusión: deben describirse de tal manera que permitiera a una tercera persona reproducir el
estudio o juzgar si un determinado paciente estaría incluido en él.
• Criterios de exclusión.
• Sistemática de muestreo: en los estudios en los que se haga una selección de sujetos entre la población de
estudio debe detallarse el tipo de muestreo (muestreo sistemático o consecutivo / aleatorio simple / aleatorio
estratificado / aleatorio por conglomerados, etc.) y los procedimiento operativos.
Variables de estudio:
• Definir todas las variables de estudio: nombre de la variable; tipo de variable (cualitativa o discreta / cuan-
titativa-continua); escala de medida (nominal / ordinal / continua de intervalos o razones), valores posibles
(categorías o unidades de medida).
• Diferenciar las variables cuando corresponda en:
-V
ariables de Exposición / Intervención (variable independiente). Podrían ser más de una.
-V
ariables de Efecto / Resultado (variable dependiente):
· Principal. Debe haber una variable de efecto o resultado principal.
· Secundarias.
Ejemplo B:
-V
ariable de Exposición / Intervención: tipo de suero en el aerosol, variable cualitativa, discreta, de escala de
medida nominal dicotómica (1, suero hipertónico; 2, suero fisiológico).
-V
ariable de Efecto / Resultado principal: necesidad de oxígeno, variable cualitativa, discreta, de escala de
medida nominal dicotómica (1, precisa oxígeno; 2, no precisa).
-V
ariable de Efecto / Resultado secundaria: escala de gravedad de trabajo respiratorio (escala RDAI), variable
cuantitativa, discreta, de escala de medida ordinal (valores enteros entre 0 y 17).
• En los estudios experimentales debe haber un apartado en el que se detallen los procedimientos de
asignación aleatoria de tratamientos (ocultación de la secuencia de aleatorización) y de ocultación
o enmascaramiento (ciego) de su aplicación.
Recogida de datos:
• Sistemática de recogida de datos: indicar quién recoge los datos (investigador, colaborador, autocumplimen-
tado por el paciente, etc.), por qué medio (revisión de historias, registros informatizados, llamada telefónica,
etc.).
• Indicar si se emplea algún método de enmascaramiento en la recogida de datos. Esto es especialmente im-
portante en los estudios analíticos y, sobre todo, en los ensayos clínicos.
149
Anexo
TÍTULO PÁGINA XX DE
Análisis estadístico:
• Descriptivo: medidas de frecuencia de variables discretas y medidas de centralización y dispersión de varia-
bles continuas (media / mediana; desviación típica / rango intercuartílico):
-M
edidas de frecuencia: Prevalencia, Incidencia, Densidad de incidencia; Intervalos de confianza del 95 %.
- P ronóstico: Supervivencia.
-C
oste: Coste-efectividad, coste-utilidad, coste-beneficio.
• Analítico:
-M
edidas de riesgo / impacto / validez / precisión:
· Medidas de riesgo: Riesgo relativo / Odds ratio / etc.
· Medidas de impacto: Riesgo o proporción atribuible o prevenible.
· Eficacia / Efectividad de procedimientos terapéuticos: Reducción absoluta del riesgo, Número necesario
a tratar.
· Validez: Sensibilidad, especificidad, cocientes de probabilidades.
· Precisión: Concordancia (kappa, coeficiente de correlación intraclase, etc.).
-C
ontraste de hipótesis: opciones más frecuentes.
· Dos variables discretas: test de ji cuadrado o pruebas exactas (Fisher) (para grupos relacionados test de
McNemar).
· Contraste de medias: test de la t de Student para muestras no relacionadas o relacionadas, análisis de la
varianza o pruebas no paramétricas.
· Supervivencia: Log-rank test.
· Correlación entre variables cuantitativas: coeficiente de correlación de Pearson o Spearman.
· Métodos de ajuste multivariante: regresión lineal múltiple (variable dependiente continua), regresión
logística (variable dependiente discreta) o regresión de Cox (supervivencia).
150
Diseño y análisis en investigación
TÍTULO PÁGINA XX DE
151
Anexo
TÍTULO PÁGINA XX DE
Gastos de personal:
Subtotal: XXX.XXX,XX
Viajes y dietas:
Subtotal: XXX.XXX,XX
Material inventariable:
Subtotal: XXX.XXX,XX
Material fungible:
Subtotal: XXX.XXX,XX
Otros gastos:
Subtotal: XXX.XXX,XX
Total: XXX.XXX,XX
ANEXOS
• Cuestionario de recogida de datos.
• Escalas auxiliares de recogida de datos.
• Consentimiento informado.
• Hoja de firmas o Cartas de adhesión de los colaboradores.
• Permisos de responsables de instituciones.
• Aprobación por Comité Ético de Investigación Clínica (cuando corresponda).
• Currículum de los investigadores.
152
ABRIL 2019