Análisis de Poder en R
Análisis de Poder en R
Análisis de Poder en R
Opciones gratuitas y abiertas, con énfasis en los paquetes {pwr} y {Superpower} para R
08 septiembre, 2020
Descripción
Esta guía práctica acompaña la serie de videos Poder estadístico y tamaño de muestra en R, de
mi canal de YouTube Investigación Abierta, que recomiendo ver antes de leer este documento. Contiene
una explicación básica del análisis de poder estadístico y cálculo de tamaño de muestra, centrándose en el
procedimiento para realizar análisis de poder y tamaños de muestra en jamovi y particularmente en R, usando
los paquetes pwr (para diseños sencillos) y Superpower (para diseños factoriales más complejos). La sección
dedicada a pwr está ampliamente basada en este video de Daniel S. Quintana (2019).
Fuentes y citas: Con la intención de sustentar claramente, pero de forma sencilla, la información
presentada, incluyo varias citas a lo largo del documento que, creo, podrían servir a estudiantes, docentes e
investigadores para explorar un tema particular con mayor profundidad, o soportar una decisión en un proyecto
de investigación. Las referencias completas de todas las citas (incluyendo hipervínculos a las fuentes), están al
final del documento.
Elementos interactivos: Este documento tiene vínculos para facilitar la navegación. En rojo, apare-
cen los vínculos a citas, notas al pie de página y secciones dentro del texto (referencias cruzadas), y en azul, los
vínculos a páginas y documentos externos.
Contenidos
1 Análisis de poder y tamaño de muestra 2
1.1 ¿Qué es potencia o poder estadístico? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Cómo determinar el tamaño de muestra necesario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Cómo estimar un tamaño del efecto esperado para calcular el tamaño de muestra . . . . . . . . . . . 3
1.3.1 Por qué no es buena idea usar las definiciones de Cohen (tamaños de efecto “pequeños”,
“medios” o “grandes”) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3.2 Técnicas comunes y sus limitaciones: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.3 Alternativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2 G*Power 6
1
Análisis de Poder en R
8 Referencias 32
Agradecimientos 33
muestras. Este es uno de los factores de lo que en ciencia se conoce como Crisis de replicación (ver e.g. Baker,
2016; Loken & Gelman, 2017).
Es probable que la literatura, en muchas disciplinas científicas, esté llena de resultados falsos.
1.3 Cómo estimar un tamaño del efecto esperado para calcular el tamaño de muestra
Normalmente, determinar el α, y el poder estadístico deseado no es problemático. Se suele usar un α = 0.05, y un
poder mínimo de 80% (1 − β = 0.8), aunque siempre sería mejor usar 90% (1 − β = 0.9) si esto es posible, y teniendo
en cuenta que esto aumentará el tamaño de muestra necesario. Entonces, si ya tengo el α, y el poder estadístico
deseado, el único problema es saber qué tamaño del efecto usar (Figura 1). Para esto, sin embargo, no hay una
única respuesta, ni una que carezca de limitaciones.
1.3.1 Por qué no es buena idea usar las definiciones de Cohen (tamaños de efecto “pequeños”,
“medios” o “grandes”)
Cohen (1988, 1992) propuso unas definiciones para las medidas de tamaños del efecto (“tamaños de camiseta”:
efectos “pequeños”, “medios” y “grandes”). Consciente de las limitaciones, él mismo advierte que su uso debe ser
cuidadoso y que su utilidad es relativa. Cohen planteó estas definiciones solo como último recurso, cuando no hay
evidencia previa que permita al investigador estimar el tamaño de un efecto que va a estudiar. Sin embargo, el uso
indiscriminado y poco reflexivo de estas definiciones es terriblemente frecuente.
El uso indiscriminado de las definiciones de las “camisetas” es problemático por dos razones fundamentales: las
definiciones son arbitrarias y son inconsistentes.
1 Es triste decir esto, pero le ruego, especialmente a los colombianos, no confundir este concepto investigativo con la horrenda y mal
llamada práctica de falsos positivos (asesinato de civiles para luego clasificarlos como delincuentes), que se dio en el marco del conflicto
armado colombiano.
2 No confundir con el coeficiente estandarizado de una regresión.
Figura 1. Parámetros necesarios para calcular el tamaño de muestra necesario, para obtener un poder estadístico deseado.
A pesar de que la mayoría de los tests estadísticos comunes (pruebas-t, correlaciones, regresiones lineales simples y
múltiples, ANOVAs y demás), hacen parte del mismo grupo de tests (modelos lineales generales), existe una variedad
de tamaños de efecto estandarizados. Por ejemplo, típicamente se usa d de Cohen para pruebas t, r para correlaciones
y regresiones simples, f de Cohen o η 2 para ANOVAs, y f 2 para regresiones múltiples3 . Esta variedad de tamaños de
efecto hace que sea difícil su comparación y su comprensión4 , y cada una tiene definiciones de “pequeño”, “medio” y
“grande” no congruentes (ver Tabla 1), que incluso llevan a investigadores a calcular diferentes tamaños de muestra
para el mismo estudio, dependiendo de la prueba estadística que se va a usar5 (Correll et al., 2020). En la Tabla 1,
se ven las diferencias entre tamaños de efecto comunes, de acuerdo con el porcentaje de varianza explicada.
Tabla 1. Diferencias en la varianza explicada por las definiciones de Cohen para diferentes tamaños de efecto.
Recientemente, Correll et al. (2020) han hecho una profunda e interesante revisión de los análisis de poder y cálculo
de tamaño de muestra, resaltando las limitaciones de las técnicas comunes, así como sus alternativas.
2
3 El R
f 2 puede ser calculado de manera sencilla a partir del R2 de una regresión, con la ecuación f 2 = 1−R 2 (ver Selya et al., 2012).
4 Correll et al. (2020) han sugerido usar un único tamaño de efecto para todas estas pruebas, y sugieren que sea η 2 (eta al cuadrado)
dada su relativa facilidad para ser interpretado, su generalizabilidad, y que puede ser aplicado tanto a predictores continuos (problemáticos
para medidas como d y f ), como a predictores categóricos (problemáticos para r).
5 Es común que unos datos puedan ser analizados de más de una manera; por ejemplo, puedo hacer una prueba-t o una regresión,
que me darían el mismo resultado para los mismos datos, pero las definiciones de “pequeño”, “medio” y “grande” me sugerirían un
tamaño de muestra diferente para obtener el mismo poder estadístico. De hecho, por ejemplo, si quiero obtener un efecto “medio” con
una prueba-t (d de Cohen = 0.5), el análisis de poder me sugeriría un n = 128, muestras que una regresión (r = 0.30), me sugeriría un n
= 82. ¡Para analizar los mismos datos!
1.3.3 Alternativas
1. Ver la distribución de tamaños para un efecto particular: Daniel S. Quintana, investigador en
Psiquiatría Biológica de la Universidad de Oslo en Noruega propuso, cuando sea posible, ver la distribución
de tamaños del efecto en un campo de estudio (Quintana, 2017). En su artículo, Quintana analizó casi
300 estudios (y tamaños de efecto), para el campo de variabilidad de la frecuencia cardíaca, y calculó la
distribución con base en percentiles (25%, 50% o mediana, y 75%, a la manera de Cohen, pero aplicado
directamente a su campo de estudio). Sin embargo, como él mismo menciona en este video, esta técnica,
aunque tiende a ser menos sesgada que basarse en un único estudio previo, es todavía sujeta al sesgo que
tengan los artículos en los que se basa, al igual que ocurre con meta-análisis.
Entonces, aunque tiene limitaciones, esto es mejor que usar un único estudio publicado, usar un es-
tudio piloto, o las definiciones de Cohen para estimar el tamaño del efecto que estoy estudiando. Sin embargo,
puede no ser posible, cuando se trata de campos de estudio donde pocos estudios, o ninguno, han mirado el
efecto que quiero estudiar, con diseños comparables.
De nuevo, no hay una solución sencilla. Idealmente, el efecto que quiero usar para calcular el tamaño de
muestra, debería ser el mismo (o muy cercano) al que de hecho encuentre al analizar mis datos.
2. Determinar el “menor tamaño de efecto de interés”:. El “menor tamaño de efecto de interés” (en
inglés, smallest effect size of interest o SESOI ) es el tamaño mínimo de un efecto que se consideraría tiene
importancia real. Esto se puede hacer tanto de manera objetiva, como subjetiva (Lakens, Scheel, et al., 2018).
En ese caso, se deberían rechazar efectos menores a ese mínimo justificado6 .
Esta es posiblemente la mejor opción, pues tiene en cuenta no solamente cuál es el tamaño de efecto esperado,
sino también cuál es el mínimo tamaño de efecto que pueda resultar relevante para un efecto particular.
Por otra parte, es importante saber que muchos tamaños de efecto pueden ser comparables. Correll et al. (2020)
proponen usar siempre el eta al cuadrado (η 2 ) como tamaño del efecto, y presentan las ecuaciones, bastante sencillas7 ,
para transformar medidas comunes de tamaños de efecto propuestos por Cohen, desde o hacia η 2 (Tabla 2).
6 Esto, sin embargo, no permite encontrar soporte para una hipótesis nula para lo cual se deben hacer tests de equivalencia (ver
ejemplo.
f2 η2
Regresión Múltiple η2 = 1+f 2 f2 = 1−η 2
Nota:
Las ecuaciones de esta tabla reproducen las presentados en la Tabla 2 de
Correll et al. (2020).
A continuación, presentaré algunas opciones de Software gratuito para análisis de poder estadístico y tamaño de
muestra.
2 G*Power
Probablemente la opción más común para hacer análisis de poder estadístico y cálculos de tamaño de muestra es
G*Power (Faul et al., 2007, 2009), un software gratuito y relativamente sencillo. Sin embargo, la terminología y
documentación del programa son confusas y se prestan para errores. De hecho, Correll et al. (2020) afirman que
G*Power fomenta el uso de las definiciones de Cohen, pues permite al investigador seleccionar una definición de
tamaño con mínima consideración de los temas relevantes, y sin tener en cuenta sus numerosas y demostradas
limitaciones (para una discusión de las limitaciones de las definiciones de Cohen, ver sección 1.3.1 Por qué no es
buena idea usar las definiciones de Cohen). Esto, sin embargo, no es problema siempre y cuando el usuario del
programa entienda los problemas de usar las definiciones de Cohen, y evite o justifique muy bien su uso.
Adicionalmente, aunque menos importante, G*Power tiene limitaciones en cuanto a los diseños para los cuales se
pueden hacer análisis, en especial cuando se trata de diseños factoriales, para los cuales sólo se puede hacer análisis
para efectos principales, o para una interacción, pero solo para un efecto a la vez8 .
Sin embargo, como ventaja, permite hacer análisis para una variedad de pruebas estadísticas.
análisis los tamaños de muestra necesarios para efectos principales e interacciones. El uso de este paquete se describe en la sección 7
Paquete Superpower para R
conoce la distribución de los datos que se obtendrán, ni si los resultados serán analizados con pruebas paramétricas
o no paramétricas.
Adicionalmente, el δ de Cliff es sumamente intuitivo: si, por ejemplo, tenemos dos grupos (Grupo 1 y Grupo 2), y
los comparamos, el δ de Cliff es sencillamente la probabilidad de que un valor tomado aleatoriamente del Grupo 2,
sea mayor a un valor tomado aleatoriamente del Grupo 1, menos la probabilidad contraria (que un valor tomado
aleatoriamente del Grupo 1, sea mayor a un valor tomado aleatoriamente del Grupo 2).
Como indicación de la relación entre estas medidas de tamaño del efecto, en la Tabla 3 comparo valores del (δ)
de Cliff con los del d de Cohen, resaltando sin embargo las definiciones de referencia propuestas por Cohen, para
comparación de valores equivalentes. Como lo he discutido ampliamente, es importante tener en cuenta siempre que
pensar tamaños del efecto en términos de “Pequeños”, “Medios”, o “Grandes” tiene serias limitaciones y su uso
indiscriminado ha sido seriamente cuestionado (ver e.g. Bakker et al., 2019; Correll et al., 2020), y la importancia de
un tamaño de efecto cambia según la disciplina y el fenómeno estudiado (para una discusión de las limitaciones de
las definiciones de Cohen, ver sección 1.3.1 Por qué no es buena idea usar las definiciones de Cohen).
Definición de Cohen
d de Cohen Delta de Cliff (δ)
(¡solo como referencia!)
0.1 0.077
Pequeño 0.2 0.148
0.3 0.213
0.4 0.274
Medio 0.5 0.330
0.6 0.382
0.7 0.430
Grande 0.8 0.474
0.9 0.516
1.0 0.554
Nota:
Transformación hecha con la función cohd2delta del pa-
quete orddom.
En cualquier caso, existen calculadoras para el δ de Cliff disponibles, bien sea a partir de una base de datos, o para
convertir un d de Cohen en un δ de Cliff. Por ejemplo:
• En R, hay opciones como:
– La función cliff.delta del paquete effsize, que permite calcular el δ de Cliff a partir de una base de
datos.
– La función cohd2delta del paquete orddom que permite calcular un δ de Cliff a partir de un d de Cohen
(la comparación de se basa en el método descrito en Huberty & Lowman, 2000).
• Si prefieres no usar R:
– Cliff’s Delta Calculator (CDC), es una pequeña aplicación gratuita (ver Macbeth et al., 2011, que contiene
instrucciones para su descarga y uso), e incluso macros de Excel (ver Goedhart, 2016). Permite calcular
el δ de Cliff a partir de una base de datos.
– En esta página, Charles Zaiontz explica cómo calcular el δ de Cliff en Excel, a partir de una base de datos.
de datos, y con certeza supera por mucho a los software comerciales (como SPSS y Stata), que además suelen ser
costosos.
Primero, R es un software completamente libre y gratuito y, al ser abierto, sus avances y funciones no están
limitados por lo que una compañía implemente (típicamente con fines comerciales y sujeto a las leyes de oferta y
demanda), sino que depende directamente del trabajo colaborativo, y sin ánimo de lucro, de millones de personas
alrededor del mundo; por esto, avanza más rápido que cualquier software comercial, y siempre tiene opciones para
poder implementar las técnicas más novedosas9 . Segundo, al ser en últimas un lenguaje de programación, permite
hacer prácticamente cualquier cosa que se pueda hacer en un computador10 , explotando realmente sus capacidades.
No puedo enfatizar de manera suficiente cuánto recomiendo, a cualquier persona que trabaje con datos, aprender a
usar R (u otro lenguaje comparable, como Phyton), tanto por la calidad y eficiencia de los análisis, como por las
posibilidades y ventajas laborales que esto da en el mundo de hoy.
Para usar los paquetes de R, se necesita por supuesto tener el programa instalado. Así mismo, recomiendo instalar y
usar R a través de RStudio, pues facilita enormemente la interacción con R.
Para instalar R y/o RStudio, hay muchos tutoriales. Si tienes que hacerlo, te recomiendo buscar videos en YouTube,
donde hay variedad de opciones (ninguna creada por mí hasta ahora) para todos los sistemas operativos, incluyendo
Windows (por ejemplo este video), Mac (por ejemplo este video), y Ubuntu (por ejemplo este video).
En las siguientes secciones, el código de R está siempre resaltado sobre un fondo oscuro. Para correr estos códigos,
puedes sencillamente copiarlos y pegarlos en un script 11 , o directamente en la consola de R.
paquete para R.
10 Solo como un ejemplo, este documento en PDF, mi sitio web, y mi hoja de vida, fueron todos creados en R.
11 Este video, hecho por Juan Carlos Correa (2020), es un ejemplo de introducción al uso de scripts de R pero por supuesto hay muchos
disponibles.
Esto produce:
##
## Conventional effect size from Cohen (1982)
##
## test = r
## size = small
## effect.size = 0.1
Donde, como se ve, me dice que el valor de referencia es 0.1 (en el campo llamado “effect.size”).
Lo que produce:
##
## approximate correlation power calculation (arctangh transformation)
##
## n = 111.8068
## r = 0.3
12 Como discutí extensamente (ver sección 1.3.1 Por qué no es buena idea usar las definiciones de Cohen), Cohen (1988, 1992) propuso
definiciones de referencia para los tamaños de efecto (efectos “pequeños”, “medios”, y “grandes”), pero hay múltiples problemas con su
uso indiscriminado.
13 En realidad, como cualquier usuario habitual de R sabe, lo que he hecho no es realmente “guardar”, sino asignar el resultado de la
función a un objeto. Uso la palabra “guardar” para simplificar la explicación para personas que no estén familiarizadas con R, u otros
lenguajes de programación, ya que los objetos suelen estar ocultos en la mayoría de los programas comerciales, y no requieren que el
usuario los manipule directamente.
## sig.level = 0.05
## power = 0.9
## alternative = two.sided
Como se ve, en el campo llamado “n”, me dice que la muestra necesaria para obtener el poder deseado de 90% para
detectar como significativa una correlación con un r de 0.3, es de 111.8068. Por supuesto, yo no puedo tener un
número no entero de observaciones o participantes, por lo que el valor n (tamaño de muestra), debe aproximarse al
siguiente número entero superior (en este caso, 112).
Finalmente, puedo ver la asociación entre el tamaño de la muestra y el poder estadístico gráficamente con la función
plot14 , introduciendo como argumento mi objeto (en este caso pcorr) puedo ver una figura de este análisis (Figura
2).
plot(pcorr)
50%
25%
50 100 150
sample size
Figura 2. Asociación entre el tamaño de la muestra y el poder estadístico para una correlación de 0.3, con un α de 0.05,
producida con la función plot del paquete pwr. Como se puede ver, sugiere un n de 112 (línea azul), para alcanzar un poder
de 0.9 (90%).
6.3.1 Si hay hipótesis claras, pre-especificadas (a priori), se pueden hacer análisis de una cola
Cuando tengo una hipótesis precisa, como que la correlación que estudio será positiva, puedo hacer análisis de una
cola, lo que reduce substancialmente el tamaño de muestra requerido. Sin embargo, esto solo se debe hacer cuando
tengo una hipótesis clara, con sólido fundamento teórico, o empírico (por ejemplo, en el caso de una replicación).
Para hacerlo, el argumento alternative debe ser definido:
1. Para correlaciones positivas: alternative = "greater".
2. Para correlaciones negativas: alternative = "less" (en cuyo caso el argumento r debe ser negativo;
por ejemplo -0.3).
Por ejemplo, en este caso, al especificar que espero que el tamaño del efecto sea positivo, y al menos de r = 0.3, el
n se reduce de 112 a 92 observaciones o participantes.
14 Las figuras que produce la función plot para análisis hechos en el paquete pwr, son objetos de clase ggplot, por lo que alguien
familiarizado con el paquete ggplot2 puede modificar la figura para que, por ejemplo, los ejes, título y anotaciones estén en español, o
para cambiar el tema y colores.
##
## approximate correlation power calculation (arctangh transformation)
##
## n = 91.41024
## r = 0.3
## sig.level = 0.05
## power = 0.9
## alternative = greater
Es importante tener en cuenta que este análisis de poder de una cola únicamente tendrá sentido
si mi correlación es, de hecho, positiva.
Al igual que antes, con la función plot, puedo ver una figura de este análisis (Figura 3).
plot(pcorrgreater)
50%
25%
50 100
sample size
Figura 3. Asociación entre el tamaño de la muestra y el poder estadístico para una correlación positiva (de una cola), de al
menos 0.3, con un α de 0.05, producida con la función plot del paquete pwr. Como se puede ver, sugiere un n de 67 (línea
azul), para alcanzar un poder de 0.9 (90%).
La función pwr.t.test asume por defecto que se trata de un análisis de medidas independientes (type =
"two.sample"), a menos que se defina qué tipo de prueba-t responde a mi diseño, usando el argumento type:
1. Para pruebas-t de muestras independientes: type = "two.sample".
2. Para pruebas-t de medidas repetidas: type = "paired".
3. Para pruebas-t de una muestra: type = "one.sample".
Lo que produce:
##
## Two-sample t test power calculation
##
## n = 132.3105
## d = 0.4
## sig.level = 0.05
## power = 0.9
## alternative = two.sided
##
## NOTE: n is number in *each* group
Al igual que con las correlaciones, con la función plot, puedo ver una figura de este análisis (Figura 4).
plot(ptInd)
50%
25%
optimal sample size
n = 133
0% n is number in *each* group
Figura 4. Asociación entre el tamaño de la muestra y el poder estadístico para una prueba-t de 0.4, con un α de 0.05,
producida con la función plot del paquete pwr. Como se puede ver, sugiere un n de 133 por grupo (línea azul), para alcanzar
un poder de 0.9 (90%).
##
## One-sample t test power calculation
##
## n = 67.62138
## d = 0.4
## sig.level = 0.05
## power = 0.9
## alternative = two.sided
##
## Paired t test power calculation
##
## n = 67.62138
## d = 0.4
## sig.level = 0.05
## power = 0.9
## alternative = two.sided
##
## NOTE: n is number of *pairs*
Por ejemplo, en este caso, al especificar que espero que el tamaño del efecto de medidas repetidas (sección 5.4.3
Muestras repetidas o pareadas) sea positivo, y con un d de Cohen de al menos 0.4, el n se reduce de 68 a 55 pares
de observaciones (es decir, 55 participantes, cada uno medido 2 veces).
ptRepGreat <- pwr.t.test(d = 0.4,
sig.level = 0.05,
power = 0.9,
type = "paired",
alternative = "greater")
ptRepGreat
##
## Paired t test power calculation
##
## n = 54.90553
## d = 0.4
## sig.level = 0.05
## power = 0.9
## alternative = greater
##
## NOTE: n is number of *pairs*
Es importante tener en cuenta que este análisis de una cola análisis únicamente tendrá sentido si
mi correlación es, de hecho, positiva.
Al igual que antes, con la función plot, puedo ver una figura de este análisis (Figura 5).
plot(ptRepGreat)
75%
test power = 1 − β
50%
25%
20 40 60 80
sample size
Figura 5. Asociación entre el tamaño de la muestra y el poder estadístico para una prueba-t de al menos 0.4 (una cola),
con un α de 0.05, producida con la función plot del paquete pwr. Como se puede ver, sugiere un n de 55 (línea azul), para
alcanzar un poder de 0.9 (90%).
Lo que produce:
##
## Balanced one-way analysis of variance power calculation
##
## k = 4
## n = 57.67309
## f = 0.25
## sig.level = 0.05
## power = 0.9
##
## NOTE: n is number in each group
Al igual que con las demás funciones para calcular el poder estadístico del paquete pwr, con la función plot, puedo
ver una figura de este análisis.
plot(panova)
15 Laversión actual de pwr es la 1.3-0.
16 Paradiseños más complejos, incluyendo diseños factoriales de medidas independientes, repetidas, o mixtas (tanto factores de medidas
independientes como repetidas), la mejor opción actualmente es el paquete Superpower, descrito en la siguiente sección.
50%
25%
optimal sample size
n = 58
0% n is number in each group
25 50 75
sample size
Figura 6. Asociación entre el tamaño de la muestra y el poder estadístico para un ANOVA de 0.4, con un α de 0.05,
producida con la función plot del paquete pwr. Como se puede ver, sugiere un n de 58 participantes por grupo (línea azul),
para alcanzar un poder de 0.9 (90%).
Es importante tener en cuenta que, al aumentar el número de factores, independientemente del número de niveles
que tengan esos factores, el número de resultados (y valores p asociados) aumenta. Por ejemplo, mientras en el caso
de un diseño con dos factores hay 3 resultados, en un diseño con tres factores (voy a llamarlos A, B y C), hay 7:
1. Efecto principal del primer factor (A).
2. Efecto principal del segundo factor (B).
3. Efecto principal del tercer factor (C).
4. Interacción entre el primer y segundo factor (A × B).
5. Interacción entre el primer y tercer factor (A × C).
6. Interacción entre el segundo y tercer factor (B × C)..
7. Interacción entre los tres factores (A × B × C).
Dada la complejidad de estos cálculos, y la multiplicidad de efectos (principales e interacciones) y resultados asociados,
y dado que para detectar cada uno de esos efectos hay un poder estadístico distinto, la mayoría de los programas
para análisis de poder solamente permiten analizar un efecto a la vez. Por ejemplo, G*Power, aunque permite hacer
análisis de poder para diseños complejos, solo calcula un efecto a la vez.
En contraste, el paquete Superpower permite hacer análisis, no solo para diseños más complejos, sino calculando
simultáneamente el poder para cada efecto, y para posibles comparaciones post-hoc.
Este proceso es sumamente complejo, y no se puede solucionar de manera matemática sencilla 18 , por lo que
Superpower usa una estrategia interesante: simula una base de datos para el diseño propuesto (dadas una serie de
características de cada variable y su relación con las demás19 ), y empíricamente estima el poder, a partir de hacer
muchas iteraciones (repeticiones aleatorias) de esta simulación.
Dadas estas complejidades, en ocasiones no es posible tener la información suficiente para hacer las simulaciones,
pues se requiere de estudios previos (o pilotos) muy completos, con diseños idénticos, y que, o bien hayan reportado
toda esta información, o hayan abierto libremente sus bases de datos para poder hacer estos cálculos20 .
Por esto, la forma de usar Superpower y sus funciones, es muy distinta a la de pwr. En las siguientes secciones
mostraré ejemplos de análisis de poder para diseños factoriales de medidas independientes, repetidas y mixtas, pero
por simplicidad siempre usaré diseños 2 × 2. Para diseños más complejos la lógica es, en todo caso, la misma.
completa, e idealmente que los datos estén disponibles para poder re-analizarlos, o hacer este tipo de análisis descriptivos necesarios para
hacer un análisis de poder
(2 × 2)2 − (2 × 2) 16 − 4
ncomp = = =6
2 2
Para un diseño 3 × 2 (o un diseño con un solo factor con 6 niveles) hay 15 comparaciones posibles:
(3 × 2)2 − (3 × 2) 36 − 6
ncomp = = = 15
2 2
Para un diseño 2 × 2 × 2, hay 28 comparaciones posibles:
(2 × 2 × 2)2 − (2 × 2 × 2) 64 − 8
ncomp = = = 28
2 2
Para un diseño 3 × 2 × 2, hay 66 comparaciones posibles:
(3 × 2 × 2)2 − (3 × 2 × 2) 144 − 12
ncomp = = = 66
2 2
Y para un diseño 2 × 2 × 4 (que tendría el mismo número de comparaciones que un diseño 2 × 2 × 2 × 2), hay 120
comparaciones posibles:
(2 × 2 × 4)2 − (2 × 2 × 4) 256 − 16
ncomp = = = 120
2 2
Esto es muestra de cómo la complejidad de los diseños, especialmente factoriales, aumenta exponencialmente al
tener más factores, o más niveles por factor.
7.3.1 Cómo controlar la tasa de errores al hacer pruebas post-hoc. Correcciones de Bonferroni y
Holm-Bonferroni
Hacer pruebas post-hoc o cualquier tipo de comparaciones múltiples sobre la misma base de datos, aunque importante,
infla la tasa de errores Tipo I (falsos positivos), por lo que generalmente se hacen correcciones al α (nivel de
significación), para contrarrestar esta mayor posibilidad de encontrar diferencias que, en realidad, no existan.
En otras palabras, dado que si tengo un α = 0.05, estoy aceptando una probabilidad de que el 5% (o 1 de cada 20)
resultados sea falso, si hago dos análisis, la probabilidad de un falso positivo de dobla (10%), si hago 3 se triplica
(15%), etcétera. Si hago 20 análisis, estoy probabilísticamente asegurando que obtendré un falso resultado positivo. Y
si hago un ANOVA 2 × 2 × 4, con sus 120 comparaciones post-hoc, probabilísticamente obtendría seis falsos positivos.
Para contrarrestar este problema, existen varias opciones, de las cuales probablemente la más conocida es la corrección
de Bonferroni (Bonferroni, 1936), que consiste en reducir el α (típicamente de 0.05), dividiéndolo por el número de
comparaciones múltiples (o pruebas post-hoc) que se hagan.
Entonces, si por ejemplo hago dos comparaciones post-hoc, α = 0.052 = 0.025, y si hago seis, α = 6 = 0.0083. Esto,
0.05
por supuesto, hace que sea más difícil encontrar resultados significativos (en efecto, reduciendo el poder estadístico,
que es la probabilidad de detectar como significativo un efecto que sí existe). Por esto, aunque la corrección de
Bonferroni controla muy bien la tasa de errores Tipo I (falsos positivos), infla la tasa de errores Tipo II (falsos
negativos), dejando como única alternativa incrementar el tamaño de la muestra (y por consiguiente, el poder
estadístico).
Sin embargo, existen alternativas más modernas y versátiles (para una revisión y comparación, ver Blakesley et al.,
2009). De estas, una relativamente sencilla y popular, disponible en muchos paquetes estadísticos, es la corrección de
Holm-Bonferroni (Holm, 1979). Esta alternativa, que personalmente me gusta mucho, es una suerte de corrección de
Bonferroni pero aplicada secuencialmente.
Es decir, si por ejemplo hago seis comparaciones post-hoc, α = 0.05
6 = 0.0083 se aplicará para el efecto con el valor p
más pequeño, α = 0.055 = 0.01 al segundo más pequeño, α = 4 = 0.0125 al tercero más pequeño, α = 3 = 0.0167
0.05 0.05
al cuarto más pequeño, α = 2 = 0.025 al quinto más pequeño, y α = 1 = 0.05 al sexto más pequeño (que sería
0.05 0.05
Al hacer esta corrección secuencial, a corrección de Holm-Bonferroni tiene la ventaja de limitar la inflación de la
tasa de errores Tipo II (falsos negativos), en comparación a la corrección de Bonferroni (ver e.g. Streiner, 2015), sin
dejar de controlar la tasa de errores Tipo I (falsos positivos) .
Como explicaré en las siguientes secciones, el paquete Superpower permite calcular en un solo análisis el poder estadís-
tico, tanto de los efectos principales e interacciones, como también para las comparaciones post-hoc, implementando
al tiempo correcciones de Bonferroni, Holm-Bonferroni, u otras opciones disponibles.
documento. Para conocerlas, recomiendo ver la documentación del paquete, o la introducción hecha por los autores al mismo (Lakens &
Caldwell, 2020).
22 Estos nombres o etiquetas no deben contener espacios.
(becados de universidad privada), 53 (no becados de universidad pública), y 44 (no becados de universidad privada),
con una desviación estándar (sd) de 15.423 .
disenoB <- ANOVA_design(design = "2b*2b",
n = 80,
mu = c(57, 62, 53, 44),
sd = 15.4,
labelnames = c("Beca", "Sí", "No", "Universidad", "Púbica", "Privada"),
plot = TRUE)
70
60
Universidad
mu
Púbica
50 Privada
40
30
Sí No
Beca
Figura 7. Ejemplo de la distribución de medias y sus intervalos de confianza para el diseño definido con la función
ANOVA_design, al incluir el argumento plot = TRUE. Esto es muy útil para estar seguro de que las medias fueron concatenadas
en el orden correcto.
Definido el diseño y las características de los datos (“guardando” este diseño en un objeto que llamé disenoB), puedo
ver el poder que obtendría con esos 80 participantes por cada combinación de Beca y Universidad, con la función
ANOVA_power.
Esta función, además de requerir como argumento el diseño que acabo de definir (en este caso disenoB), requiere
que defina:
1. alpha_level: α (nivel de significación) deseado. Típicamente 0.05.
2. p.adjust: si se debe hacer un ajuste para comparaciones post-hoc (por ejemplo correcciones de Bonferroni con
la opción "bonferroni", Holm-Bonferroni con la opción "holm", o sin corrección, usando la opción "none";
para ver todas las opciones, recomiendo ver la documentación de la función p.adjust). En este caso definí
que quiero hacer una corrección de “holm”, que se refiere a la corrección de Holm-Bonferroni (Holm, 1979).
3. nsim: número de simulaciones hechas para determinar el poder; acá es importante tener en cuenta que un
número mayor de simulaciones me dará resultados más robustos y confiables, pero requerirá más tiempo. Los
autores del paquete recomiendan usar mínimo 100 simulaciones (Lakens & Caldwell, 2020).
4. seed (opcional): Adicionalmente, para el siguiente ejemplo usé el argumento seed para que las simulaciones
den siempre el mismo resultado24 .
23 Por supuesto, estos datos son hipotéticos y no representan ningún estudio real, ni diferencias entre estudiantes con y sin beca, ni
aleatoria, cada vez que corra la función obtendré un resultado ligeramente distinto, especialmente si el número de simulaciones (nsim)
es pequeño. Al darle una semilla (seed), que puede ser cualquier número, los datos simulados siempre serán los mismos, garantizando
Lo que produce:
## Power and Effect sizes for ANOVA tests
## power effect_size
## anova_Beca 100 0.116942
## anova_Universidad 22 0.007245
## anova_Beca:Universidad 99 0.050779
##
## Power and Effect sizes for pairwise comparisons (t-tests)
## power effect_size
## p_Beca_Sí_Universidad_Púbica_Beca_Sí_Universidad_Privada 49 0.3247
## p_Beca_Sí_Universidad_Púbica_Beca_No_Universidad_Púbica 46 -0.2751
## p_Beca_Sí_Universidad_Púbica_Beca_No_Universidad_Privada 100 -0.8418
## p_Beca_Sí_Universidad_Privada_Beca_No_Universidad_Púbica 96 -0.6013
## p_Beca_Sí_Universidad_Privada_Beca_No_Universidad_Privada 100 -1.1631
## p_Beca_No_Universidad_Púbica_Beca_No_Universidad_Privada 95 -0.5702
Este es un resultado muy interesante y completo, que incluye dos tablas; primero, una denominada "Power and
Effect sizes for ANOVA tests" para los efectos principales e interacciones del ANOVA. Y segundo, una tabla
denominada "Power and Effect sizes for pairwise comparisons (t-tests)" que muestra las comparaciones
entre niveles de mis factores25 (por ejemplo, la comparación entre estudiantes becados de universidad pública y
estudiantes becados de universidad privada). Ambas tablas tienen columnas que muestran:
1. El poder estadístico obtenido con el tamaño de muestra propuesto, bajo la columna denominada power.
2. El tamaño del efecto para cada efecto principal o interacción (primera tabla), o para cada comparación post-hoc
(segunda tabla), bajo la columna denominada effect_size.
Por ejemplo, en la primera tabla, bajo el título "Power and Effect sizes for ANOVA tests", el resultado muestra
que con el n y características propuestas, este estudio tendría un poder estadístico de 100%26 (o 1) para detectar el
efecto principal de Beca, si es que este existe (es decir, una diferencia en las calificaciones del examen entre becados
y no becados), cuyo tamaño del efecto se calculó en ηp2 = 0.116942. Así mismo, un poder de 0.22 (o 22%), que es
muy bajo, para detectar el efecto principal del tipo de universidad (Universidad: Pública, Privada), pues el efecto
es sumamente pequeño, y se estimó en ηp2 = 0.007245. Y, finalmente, un poder de 0.99 (99%) para detectar la
interacción entre Beca y Universidad, pues el efecto es muy grande (ηp2 = 0.050779).
Es importante tener en cuenta que, a diferencia de pwr, que usa como medida del tamaño del
efecto f de Cohen, el tamaño del efecto para ANOVAs usado por el paquete Superpower para efectos
principales e interacciones es ηp2 (eta parcial al cuadrado), en línea con lo recomendado por Correll
et al. (2020).
Adicionalmente, diseños tipo ANOVA, bien sean de una vía o factoriales27 , con frecuencia requieren de pruebas
post-hoc o contrastes planeados, para comparar niveles específicos de los factores.
Por esto, en la segunda tabla, el resultado muestra la información relevante para cada comparación post-hoc (prueba-t)
que se podría realizar, bajo el título "Power and Effect sizes for pairwise comparisons (t-tests)", con la
corrección deseada (en este caso, usando la corrección de Holm-Bonferroni; ver Holm, 1979). Acá también muestra
tanto el poder (power), como el tamaño del efecto (effect_size28 ). Por ejemplo, nos muestra que el tamaño del
que la respuesta sea la misma.
25 Ver sección 7.3 Acerca de comparaciones post-hoc.
26 En realidad, el poder no puede llegar a ser 100%, pero se puede aproximar infinitamente.
27 Por supuesto, en el paquete Superpower se pueden hacer análisis de poder estadísticos para ANOVAs de una vía y, a diferencia de
los análisis del paquete pwr, permiten estimar efectos para todas las comparaciones post-hoc en un solo análisis, sin pasos adicionales.
28 Dado que estas comparaciones post-hoc serían típicamente analizadas con pruebas-t, el tamaño del efecto es d de Cohen.
efecto (diferencia) entre becados de universidad pública y becados de universidad privada, tiene un tamaño de d =
0.3247, y que con la muestra planteada de 80 participantes en cada combinación de Beca y Universidad (320 en
total), tendríamos un poder 1 − β de 0.49 (49%).
Finalmente, para ver gráficamente el poder estadístico a diferentes tamaños de muestra, puedo usar la función
plot_power29 (Figura 8), definiendo tanto el n mínimo (min_n) y el n máximo (max_n) que deseo incluir en mi
figura:
plot_power(disenoB,
min_n = 10,
max_n = 250,
plot = TRUE)
100
90
80
70
60
Beca
50
40
30
20
10
0
100
90
80
Universidad
70
Power
60
50
40
30
20
10
0
100
Beca:Universidad
90
80
70
60
50
40
30
20
10
0
0 50 100 150 200 250
Sample size per condition
Figura 8. Ejemplo de la asociación entre el tamaño de la muestra y el poder estadístico para un ANOVA 2 × 2, producida
con la función plot_power del paquete Superpower. Como se puede ver, el poder obtenido según el tamaño de la muestra es
diferente para cada efecto principal o interacción, pues el tamaño del efecto es diferente en cada caso, por lo que se requeriría
un n diferente para alcanzar el mismo poder estadístico. En este ejemplo, un poder 1 − β de 0.9 (90%) se alcanza para el
efecto principal de la Beca (panel superior) con una muestra de apenas unos 24 participantes en cada combinación de Beca
y Universidad (96 en total), mientras que ese mismo poder para detectar un efecto principal del tipo de Universidad (panel
intermedio) no se logra ni siquiera con 250 participantes (1000 en total) por cada combinación de Beca y Universidad (de
hecho, solo se logra al tener cerda de 600 participantes por condición, ¡o unos 2400 en total!). La interacción entre Beca y
Universidad (panel inferior), logra un poder de 0.9 (90%) con unos 50 participantes (200 en total) por cada combinación de
Beca y Universidad.
objetos de clase ggplot, por lo que alguien familiarizado con el paquete ggplot2 puede modificar la figura para que, por ejemplo, los ejes,
título y anotaciones estén en español, o para cambiar el tema y colores.
El orden para ingresar estos coeficientes de correlación (r de Pearson), debe seguir un criterio específico. Este
orden, que debe ser respetado, es equivalente al “triángulo superior” (resaltado en amarillo ) de una matriz de
correlaciones (Tabla 4).
Tabla 4. Orden para ingresar los coeficientes de una matriz de correlación entre niveles de un estudio 2 × 2 de
medidas repetidas
A1 - B1 A1 - B2 A2 - B1 A2 - B2
A1 - B1 - 1 2 3
A1 - B2 1 - 4 5
A2 - B1 2 4 - 6
A2 - B2 3 5 6 -
Nota:
Los números representan el orden en el que deben
ser ingresados los coeficientes de correlación en el
argumento r de la función ANOVA_design. Se puede
usar en triángulo superior (resaltado en amarillo).
Teniendo esto en cuenta, podemos especificar este diseño en la función ANOVA_design, incluyendo los coeficientes de
correlación (Table 5) en el orden descrito (Tabla 4) en el argumento r. En total, los argumentos incluidos son:
1. design: en este caso, dado que tengo un diseño 2 × 2, donde ambos factores son de medidas repetidas, debo
ponerlo como "2w*2w", donde los números representan el número de niveles en cada factor, la letra w que ese
factor en de medidas repetidas (o intra sujetos, por lo cual usa la letra w, del inglés within-subjects).
2. n: el número de participantes que espero tener; como mis factores son de medidas repetidas o intra-sujetos, lo
importante es que para cada participante sea se hagan observaciones para cada condición (o, dicho de otro
modo, por combinación de niveles de mis factores; e.g. (1) tras tomar café con cafeína en un día laboral; (2)
tras tomar café con cafeína en un día no laboral, etcétera). Como lo mencioné anteriormente, a diferencia de
otros paquetes y programas, Superpower no calcula el n por mí, pero me permite cambiar el n hasta lograr el
poder deseado.
3. mu: las medias para cada interacción entre los niveles de mis factores. En este caso, la media de la ansiedad
para participantes al tomar (1) café con cafeína en un día laboral, (2) café con cafeína en un día no laboral, (3)
café descafeinado en un día laboral, y (4) café descafeinado en un día no laboral. Estos valores, como antes,
deben estar concatenados usando la función c.
4. sd: la desviación estándar para la población (por lo cual es un solo valor. En este caso, la desviación estándar
de los puntajes de ansiedad).
5. r: los coeficientes de correlación entre combinaciones de mis factores intra-sujetos o de medidas repetidas, en
el orden correcto (como fue descrito en la Tabla 4).
6. labelnames (Opcional): las etiquetas (nombres) de los factores y sus niveles. Al igual que con las medias, estas
etiquetas deben estar concatenadas usando la función c. Como expliqué en la sección 7.4 ANOVA factorial de
medidas independientes, para definirlos, se deben poner en el siguiente orden:
• Etiqueta del primer factor (en este caso “Cafeína”)
• Etiquetas de los niveles de ese factor (en este caso “Sí” y “No”)
• Etiqueta del segundo factor (en este caso “Día_laboral”, pues estos nombres NO pueden tener espacios).
• Etiquetas de los niveles de ese factor (en este caso “Sí” y “No”).
En este caso, el diseño lo guardaré como un objeto llamado disenoW, y usé la opción plot = TRUE para asegurarme
de que las medias fueron concatenadas en el orden correcto (Figura 9).
disenoW <- ANOVA_design(design = "2w*2w",
n = 100,
mu = c(25.1, 21.2, 26.3, 24.2),
sd = 3.5,
r <- c(0.384, 0.287, 0.302, 0.204, 0.402, 0.184),
labelnames = c("Cafeína", "Sí", "No", "Día_laboral", "Sí", "No"),
plot = TRUE)
27.5
25.0 Día_laboral
mu
Sí
22.5 No
20.0
17.5
Sí No
Cafeína
Figura 9. Ejemplo de la distribución de medias marginales estimadas y sus intervalos de confianza para el diseño definido
con la función ANOVA_design, al incluir el argumento plot = TRUE. Esto es muy útil para estar seguro de que las medias
fueron concatenadas en el orden correcto.
Del mismo modo, para asegurarme de que los coeficientes de correlación fueron concatenados en el orden correcto,
puedo pedir una matriz de correlaciones usando el nombre del objeto que contiene el diseño (en este caso disenoW)
y agregando $cor_mat, y confirmar que los valores y su orden corresponden con la matriz original (en este caso, en
la Tabla 5).
disenoW$cor_mat
100
90
80
70
Cafeína
60
50
40
30
20
10
0
100
90
80
Día_laboral
70
Power
60
50
40
30
20
10
0
Cafeína:Día_laboral
100
90
80
70
60
50
40
30
20
10
0
25 50 75 100
Sample size per condition
Figura 10. Ejemplo de la asociación entre el tamaño de la muestra y el poder estadístico para un ANOVA 2 × 2, producida
con la función plot_power del paquete Superpower. Como se puede ver, el poder obtenido según el tamaño de la muestra es
diferente para cada efecto principal o interacción, pues el tamaño del efecto es diferente en cada caso, por lo que se requeriría
un n diferente para alcanzar el mismo poder estadístico. En este ejemplo, un poder 1 − β de 0.9 (90%) se alcanza para el
efecto principal de la Cafeína (panel superior) con una muestra de apenas unos 20 participantes, mientras que ese mismo
poder para detectar un efecto principal del tipo de Día laboral (panel intermedio) se logra con alrededor de 13 participantes,
y la interacción entre Cafeína y Día laboral (panel inferior), logra un poder de 0.9 (90%) con unos 100 participantes. Si mi
interés principal es la interacción entre estas variables, debo entonces usar una muestra de unos 100 participantes, a los cuales
se les medirá la ansiedad en las cuatro condiciones en cada condición.
partidas jugadas, y quisiera saber si este efecto es diferente en personas según si son odontólogos o no, tendría un
diseño mixto 2 × 2, pues mis factores serían:
1. Factor 1 (medidas independientes): Profesión (Odontólogo, Otro)
2. Factor 2 (medidas repetidas): Ruido (NO, Sí)
En este caso, tendría que someter a cada uno de mis participantes, odontólogos o no, a dos rondas de 20 juegos de
ajedrez (una ronda con, y otra sin presencia del ruido).
Como siempre, con la información clara, puedo definir los argumentos del diseño, con la función ANOVA_design,
teniendo en cuenta que, como esta vez solo tengo un factor de medidas repetidas (Ruido), y este tiene solo dos
niveles (sí, No), solo debo especificar ese coeficiente de correlación.
En este caso, el diseño lo “guardaré” como un objeto llamado disenoM, y usé la opción plot = TRUE para asegurarme
de que las medias fueron concatenadas en el orden correcto.
Como se puede ver en el código a continuación, y en la Figura 11, según mis datos (inventados), tanto odontólogos
como no odontólogos ganan en promedio cerca de 12 partidas de 20 jugadas (≈ 60%), cuando las juegan sin ruido
(en morado), pero el desempeño de personas con profesiones distintas a la odontología se ve muy afectado al jugar
las partidas en presencia del ruido.
Dado que no sería fácil conseguir voluntarios para someterse a jugar, en total, 40 partidas de ajedrez, de las cuales 20
se jugarían con un ruido insoportable, pero que también espero un tamaño de efecto grande, voy a hacer el cálculo
solo con 10 participantes por grupo (10 odontólogos, 10 no odontólogos).
disenoM <- ANOVA_design(design = "2b*2w",
n = 10,
mu = c(13, 12, 14, 6),
sd = 3.12,
r = 0.3,
labelnames = c("Profesión", "Odontólogo", "Otro", "Ruido", "No", "Sí"),
plot = TRUE)
15
Ruido
mu
10 No
Sí
Odontólogo Otro
Profesión
Figura 11. Ejemplo de la distribución de medias marginales estimadas y sus intervalos de confianza para el diseño definido
con la función ANOVA_design, al incluir el argumento plot = TRUE. Esto es muy útil para estar seguro de que las medias
fueron concatenadas en el orden correcto.
También, como siempre, puedo pedir una matriz de correlaciones usando el nombre del objeto que contiene el diseño
(en este caso disenoM y agregando $cor_mat) para asegurarme de que los coeficientes de correlación están en el
orden correcto.
disenoM$cor_mat
100
90
80
Profesión
70
60
50
40
30
20
10
0
100
90
80
70
Power
Ruido
60
50
40
30
20
10
0
100
90
Profesión:Ruido
80
70
60
50
40
30
20
10
0
0 10 20 30
Sample size per condition
Figura 12. Ejemplo de la asociación entre el tamaño de la muestra y el poder estadístico para un ANOVA 2 × 2 mixto,
producida con la función plot_power del paquete Superpower. Como se puede ver, el poder obtenido según el tamaño de
la muestra es diferente para cada efecto principal o interacción, pues el tamaño del efecto es diferente en cada caso, por lo
que se requeriría un n diferente para alcanzar el mismo poder estadístico. En este ejemplo, un poder 1 − β de 0.9 (90%) se
alcanza para el efecto principal de la Profesión (panel superior) con una muestra de apenas unos 18 participantes por grupo,
mientras que ese mismo poder para detectar un efecto principal del tipo de Ruido (panel intermedio) se logra con al apenas
unos 8 participantes por grupo, y la interacción entre Profesión y Ruido (panel inferior), logra un poder de 0.9 (90%) con
unos 6 participantes por grupo. Si me interesan tanto los efectos principales como la interacción entre estas variables, debo
entonces usar una muestra de unos 18 participantes por grupo (18 odontólogos y 18 no odontólogos, para un total de 36
participantes), a los cuales se les medirá el número de partidas de ajedrez ganadas de 20 jugadas, en las dos condiciones de
ruido.
7.7 Extra: Cómo estima Superpower el poder estadístico con base en simulaciones de
bases de datos
El poder, como lo mencioné en la sección 1.1 ¿Qué es potencia o poder estadístico?, es la probabilidad de detectar,
como significativo (es decir, con un p < α, que típicamente se establece en 0.05), un efecto, cuando este existe. Si
aspiramos a tener un poder 1 − β de 0.9 (90%), en el 90% de los casos deberíamos encontrar un p < α (es decir,
significativo).
Como lo mencioné brevemente antes, la función ANOVA_power simula un número de bases de datos (que definimos
con el argumento nsims, para el que yo en todos los ejemplos he usado 1000 simulaciones). Estas bases de datos
tienden a seguir las características que definí al usar la función ANOVA_design, pero varían aleatoriamente, como
sucedería con datos reales, que difícilmente se ajustan exactamente a lo esperado.
Entonces, si al usar la función ANOVA_power pido 1000 simulaciones (nsims = 1000), se crearán 1000 bases de datos
aleatorias. Para cada una se hace el ANOVA y las comparaciones post-hoc, y sus valores p. Entonces, se mira la
probabilidad para cada uno de esos resultados de obtener un valor significativo (dado el α definido con el argumento
alpha_level, que suele definirse en 0.05). En otras palabras, ¿en cuántas de esas 1000 simulaciones se obtuvo un
resultado significativo? Ese porcentaje, es el poder calculado empíricamente.
Ahora, ¿cuál es la distribución de los valores p para cada efecto principal, interacción, o comparación post-hoc? Por
suerte, Superpower tiene opciones para ver esto gráficamente.
Si yo “guardo” cualquier análisis de poder con base en simulaciones creado con la función ANOVA_power, puedo usar
el nombre del objeto en el que grabé ese análisis de poder, y agregar $plot1 para ver la distribución de los valores p
para efectos principales e interacciones, o $plot2 para comparaciones post-hoc.
Por ejemplo, si “guardo” una de las simulaciones hechas (en este caso, usaré la simulación creada para el ANOVA
factorial mixto), en un objeto, que ahora llamaré simM:
simM <- ANOVA_power(disenoM,
alpha_level = 0.05,
p_adjust = "holm",
seed = 1985,
nsims = 1000)
Que produce:
1000
750
Profesión
anova
500
250
0
1000
750
Profesión
count
anova
Ruido
500
250
0
1000
750
anova
Ruido
500
250
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
p
Figura 13. Ejemplo de distribución (histograma) de valores p para efectos principales e interacciones, producto de 1000
simulaciones hechas con la función ANOVA_power del paquete Superpower. La línea roja determina el nivel de significación
estadística (α) definido (en este caso, el típico 0.05).
O la distribución de los valores p para las comparaciones post-hoc (Figura 14) con el comando:
simM$plot2
Que produce:
1000
750
Odontólogo
Odontólogo
Profesión
Profesión
Ruido No
Ruido Sí
500
p
250
0
1000
750
Odontólogo
Profesión
Profesión
Ruido No
Ruido No
Otro
500
p
250
0
1000
750
Odontólogo
Profesión
Profesión
Ruido No
Ruido Sí
Otro
500
p
250
count
0
1000
750
Odontólogo
Profesión
Profesión
Ruido No
Ruido Sí
Otro
500
p
250
0
1000
750
Odontólogo
Profesión
Profesión
Ruido Sí
Ruido Sí
Otro
500
p
250
0
1000
750
Profesión
Profesión
Ruido No
Ruido Sí
Otro
Otro
500
p
250
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
p
Figura 14. Ejemplo de distribución (histograma) de valores p para comparaciones post-hoc, producto de 1000 simulaciones
hechas con la función ANOVA_power del paquete Superpower. Al contrario de las distribuciones de valores p para ejectos
principales e interacciones (Figura 13), que tienen una tendencia clara, para comparaciones post-hoc como estas la distribución
puede verse extraña (aparecen, de repente, muchos unos) para comparaciones de efectos de tamaño pequeño, y que por
ende tienen bajo poder, dada la corrección solicitada de Holm-Bonferroni. La línea roja determina el nivel de significación
estadística (α) definido (en este caso, el típico 0.05).
8 Referencias
Albers, C., & Lakens, D. (2018). When power analyses based on pilot data are biased: Inaccurate effect size
estimators and follow-up bias. Journal of Experimental Social Psychology, 74, 187–195. https://doi.org/10.1016/j.
jesp.2017.09.004
Baker, M. (2016). 1,500 scientists lift the lid on reproducibility. Nature News, 533 (7604), 452. https://doi.org/10.
1038/533452a
Bakker, A., Cai, J., English, L., Kaiser, G., Mesa, V., & Van Dooren, W. (2019). Beyond small, medium, or
large: Points of consideration when interpreting effect sizes. Educational Studies in Mathematics, 102 (1), 1–8.
https://doi.org/10.1007/s10649-019-09908-4
Benjamin, D. J., Berger, J. O., Johannesson, M., Nosek, B. A., Wagenmakers, E.-J., Berk, R., Bollen, K. A., Brembs,
B., Brown, L., Camerer, C., Cesarini, D., Chambers, C. D., Clyde, M., Cook, T. D., De Boeck, P., Dienes, Z.,
Dreber, A., Easwaran, K., Efferson, C., . . . Johnson, V. E. (2018). Redefine statistical significance. Nature Human
Behaviour, 2 (1), 6–10. https://doi.org/10.1038/s41562-017-0189-z
Blakesley, R. E., Mazumdar, S., Dew, M. A., Houck, P. R., Tang, G., Reynolds III, C. F., & Butters, M. A. (2009).
Comparisons of methods for multiple hypothesis testing in neuropsychological research. Neuropsychology, 23 (2),
255–264. https://doi.org/10.1037/a0012850
Bonferroni, C. E. (1936). Teoria statistica delle classi e calcolo delle probabilità. Pubblicazioni Del R Istituto
Superiore Di Scienze Economiche E Commerciali Di Firenze.
Button, K. S., Ioannidis, J. P. A., Mokrysz, C., Nosek, B. A., Flint, J., Robinson, E. S. J., & Munafò, M. R. (2013).
Power failure: Why small sample size undermines the reliability of neuroscience. Nature Reviews Neuroscience,
14 (5), 365–376. https://doi.org/10.1038/nrn3475
Caldwell, A. R., & Lakens, D. (2020). Power Analysis with Superpower. https://aaroncaldwell.us/SuperpowerBook/.
Caldwell, A. R., Lakens, D., DeBruine, L., & Love, J. (2020). Superpower: Simulation-Based Power Analysis for
Factorial Designs.
Champely, S., Ekstrom, C., Dalgaard, P., Gill, J., Weibelzahl, S., Anandkumar, A., Ford, C., Volcic, R., & Rosario,
H. D. (2020). Pwr: Basic Functions for Power Analysis.
Chatham, K. (1999). Planned Contrasts: An Overview of Comparison Methods.
Cliff, N. (1996). Ordinal Methods for Behavioral Data Analysis. Psychology Press. https://doi.org/10.4324/
9781315806730
Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Erlbaum.
Cohen, J. (1992). A power primer. Psychological Bulletin, 112 (1), 155–159. https://doi.org/10.1037/0033-
2909.112.1.155
Correa, J. C. (2020). Scripts en R [Video]. In YouTube. https://www.youtube.com/watch?v=ejQ0BS2gVJI.
Correll, J., Mellinger, C., McClelland, G. H., & Judd, C. M. (2020). Avoid Cohen’s “Small”, “Medium”, and “Large”
for Power Analysis. Trends in Cognitive Sciences, 24 (3), 200–207. https://doi.org/10.1016/j.tics.2019.12.009
Faul, F., Erdfelder, E., Buchner, A., & Lang, A.-G. (2009). Statistical power analyses using G*Power 3.1: Tests for
correlation and regression analyses. Behavior Research Methods, 41 (4), 1149–1160. https://doi.org/10.3758/BRM.
41.4.1149
Faul, F., Erdfelder, E., Lang, A.-G., & Buchner, A. (2007). G*Power 3: A flexible statistical power analysis
program for the social, behavioral, and biomedical sciences. Behavior Research Methods, 39 (2), 175–191. https:
//doi.org/10.3758/BF03193146
Goedhart, J. (2016). Calculation of a distribution free estimate of effect size and confidence intervals using VBA/Excel.
bioRxiv, 073999. https://doi.org/10.1101/073999
Holm, S. (1979). A Simple Sequentially Rejective Multiple Test Procedure. Scandinavian Journal of Statistics, 6 (2),
65–70.
Huberty, C. J., & Lowman, L. L. (2000). Group Overlap as a Basis for Effect Size. Educational and Psychological
Measurement, 60 (4), 543–563. https://doi.org/10.1177/0013164400604004
Lakens, D. (2017). Equivalence Tests: A Practical Primer for t Tests, Correlations, and Meta-Analyses. Social
Psychological and Personality Science. https://doi.org/10.1177/1948550617697177
Lakens, D., Adolfi, F. G., Albers, C. J., Anvari, F., Apps, M. A. J., Argamon, S. E., Baguley, T., Becker, R. B.,
Benning, S. D., Bradford, D. E., Buchanan, E. M., Caldwell, A. R., Van Calster, B., Carlsson, R., Chen, S.-C.,
Chung, B., Colling, L. J., Collins, G. S., Crook, Z., . . . Zwaan, R. A. (2018). Justify your alpha. Nature Human
Behaviour, 2 (3), 168–171. https://doi.org/10.1038/s41562-018-0311-x
Lakens, D., & Caldwell, A. R. (2020). Introduction to Superpower. In The Comprehensive R Archive Network.
http://shorturl.at/fnDX6.
Lakens, D., Scheel, A. M., & Isager, P. M. (2018). Equivalence Testing for Psychological Research: A Tutorial. Ad-
vances in Methods and Practices in Psychological Science, 1 (2), 259–269. https://doi.org/10.1177/2515245918770963
Loken, E., & Gelman, A. (2017). Measurement error and the replication crisis. Science, 355 (6325), 584–585.
https://doi.org/10.1126/science.aal3618
Macbeth, G., Razumiejczyk, E., & Ledesma, R. D. (2011). Cliffs Delta Calculator: A non-parametric effect size
program for two groups of observations. Universitas Psychologica, 10 (2), 545–555. https://doi.org/10.11144/
Javeriana.upsy10-2.cdcp
Quintana, D. S. (2017). Statistical considerations for reporting and planning heart rate variability case-control
studies. Psychophysiology, 54 (3), 344–349. https://doi.org/10.1111/psyp.12798
Quintana, D. S. (2019). A non-technical guide to performing power analysis in R [Video]. In YouTube.
https://youtu.be/ZIjOG8LTTh8.
Selya, A. S., Rose, J. S., Dierker, L. C., Hedeker, D., & Mermelstein, R. J. (2012). A practical guide to calculating
Cohen’s f2 , a measure of local effect size, from PROC MIXED. Frontiers in Psychology, 3, 111. https://doi.org/10.
3389/fpsyg.2012.00111
Streiner, D. L. (2015). Best (but oft-forgotten) practices: The multiple problems of multiplicityWhether and
how to correct for many statistical tests. The American Journal of Clinical Nutrition, 102 (4), 721–728. https:
//doi.org/10.3945/ajcn.115.113548
Agradecimientos
Quiero agradecer especialmente a la Dra. Milena Vásquez-Amézquita, investigadora del Laboratorio de Psicología
Experimental de la Universidad El Bosque (Bogotá, Colombia) por la sugerencia de hacer un video acerca de este
tema, que derivó además en la creación de este documento. Además, quiero agredecer especialmente a la Dra. Maria
Fernanda Reyes por sus aportes críticos y comentarios a este trabajo.
Por esto, este trabajo está bajo una licencia Creative Commons Atribución 4.0 Internacional (CC BY 4.0) c b. Esta
licencia te permite copiar y redistribuir este trabajo libremente, pero debes dar crédito de manera adecuada.
Para más información, puedes ver el resumen de la licencia CC BY 4.0.
Para cumplir con esto, por favor cita este documento correctamente. Por ejemplo, en algunos estilos comunes:
APA (7a edición)
Leongómez, J. D. (2020). Análisis de poder estadístico y cálculo de tamaño de muestra en R: Guía práctica. Zenodo.
https://doi.org/10.5281/zenodo.3988776
MLA
Leongómez, Juan David. “Análisis de poder estadístico y cálculo de tamaño de muestra en R: Guía práctica”.
Zenodo, Zenodo, agosto de 2020, doi:10.5281/zenodo.3988776.
Chicago
Leongómez, Juan David. 2020. “Análisis de poder estadístico y cálculo de tamaño de muestra en R: Guía práctica”.
Zenodo, agosto. https://doi.org/10.5281/zenodo.3988776.
Aunque he sido tan meticuloso como el tiempo me lo ha permitido, te ruego me hagas saber si encuentras un error,
escribiéndome al correo [email protected]. Trataré de corregirlo inmediatamente.