Ud3 Metodologia Avanzada Investigacion
Ud3 Metodologia Avanzada Investigacion
Ud3 Metodologia Avanzada Investigacion
3.3. Indicadores del tamaño del efecto como complemento a las pruebas estadísticas de
contraste de hipótesis nula .......................................................................................... 18
Homogeneidad de varianzas......................................................................................... 29
Resumen ...................................................................................................................... 35
2
Recursos bibliográficos ................................................................................................... 38
3
UD 3. Estadística inferencial, contraste de hipótesis nula y
análisis univariados
Para aumentar la validez de este proceso inductivo, es necesario planificar y ejecutar las
investigaciones con el máximo rigor posible (lo que atañe al diseño de investigación), pero, incluso
con el máximo control experimental, siempre van a existir efectos y fuentes de variación
aleatorios e impredecibles vinculados al hecho de estudiar pequeños fragmentos de una
totalidad. En este sentido, los investigadores pueden encontrar en la disciplina denominada
estadística inferencial herramientas y procedimientos que les permita analizar los datos
recogidos y alcanzar conclusiones inductivas que contemplen y tengan en cuenta este relativo
grado de incertidumbre.
Sabías que:
El origen del término estadística se atribuye al académico prusiano Gottfried Achenwall, que
en el siglo XVIII designó como statistik el análisis de datos vinculados únicamente a lo
concerniente al gobierno y gestión de los Estados (de aquí la etimología del término), siendo
su acepción transdisciplinar algo posterior del siglo XIX.
Dado que se presupone que el lector ya está familiarizado con las bases esenciales de la
estadística debido a su formación anterior, en esta unidad se van repasar brevemente los
4
conceptos más importantes para la comprensión de la lógica de las herramientas inferenciales
que esta disciplina provee al investigador, para, a continuación, presentar los principales métodos
de contraste de hipótesis nula con el fin de estudiar relaciones simples entre variables (solo dos
variables). De la misma forma, en las siguientes unidades, se va a priorizar un enfoque
pragmático y utilitarista en la exposición de estos procedimientos, reduciendo al mínimo
indispensable su justificación matemática y los planteamientos puramente algebraicos, por lo
que, si se quiere profundizar más en estos aspectos, se recomienda al alumno que recurra a la
bibliografía recomendada, destacando especialmente para la materia específica de esta unidad el
manual introductorio de Pardo et al. (2009).
De forma general, se puede señalar la estadística como una rama de las matemáticas que trata
de proveer herramientas para resumir, organizar, analizar y sacar conclusiones sobre conjuntos
de datos empíricos (Elorza, 2008). Aunque una definición más específica de su rol en la
investigación científica la recogen Pardo et al. (2009, p. 17), que la conciben como una disciplina
que «recoge, ordena y analiza datos de una muestra extraída de una determinada población,
para hacer inferencias acerca de esa población valiéndose del cálculo de probabilidades». En
esta definición, se recogen de forma simultánea las dos facetas principales del análisis estadístico:
la parte descriptiva y la parte inferencial.
5
Dimensiones de descriptivas de las variables
Centro de distribución
Son aquellos índices que tratan de identificar un único valor central representativo de un
conjunto de observaciones (los valores que presentan los sujetos de la muestra). Para encontrar
este valor representativo, existen diferentes métodos, pero la mayoría implican localizar el valor
alrededor del cual cabe esperar que se agrupen más sujetos de la muestra (algo así como el
centro de gravedad de la distribución). Por ejemplo, en una variable categórica, este centro lo
podrá representar la categoría (valor) más frecuente en la muestra y en una variable
cuantitativa, lo podrá ser el promedio aritmético de los diferentes valores manifestados en la
muestra. Indicadores de este tipo son la media, la moda y la mediana.
Dispersión de valores
Forma de la distribución
Es una dimensión que refleja las frecuencias con las que se repite cada valor o rango de valores.
Al ordenar de menor a mayor todo el rango de valores manifestados a una misma variable
representando sus frecuencias, se puede observar fácilmente las características de la
manifestación de la variable en la muestra (valores anómalos, inconsistencias, concentración de
frecuencias, etc.). A nivel numérico, se pueden destacar los índices de asimetría y curtosis que
representan en qué grado la distribución se aleja de la forma mesocúrtica simétrica propia, de
una distribución normal (forma de campana de Gauss). Pero es a nivel gráfico como se representa
mejor este elemento: con histogramas, polígonos de frecuencias, diagramas de caja y
diagramas de tallo y hoja.
6
Figura 3. Diferentes representaciones graficas de SPSS de la distribución de la variable edad en una misma muestra.
Fuente: Elaboración propia con IBM SPSS Statistics Versión 21.
Aunque resumir y describir los datos empíricos siempre va a ser necesario, rara vez va a ser
suficiente en la investigación científica. Independientemente de si el fin de la investigación es
descriptivo, predictivo o explicativo, lo que se pretende es sacar conclusiones sobre las variables
en la población, a partir de lo registrado en su manifestación particular en la muestra de estudio
(generalizar). El problema es que no se puede asumir que los índices descritos en la muestra van
a corresponderse directamente con sus valores poblacionales.
Para realizar este salto inductivo, el investigador tiene que recurrir a la parte de la estadística
que se denomina inferencial. A su vez la estadista inferencial se sirve de los desarrollos de la
teoría de la probabilidad, que es una disciplina matemática que estudia el comportamiento de
los sucesos aleatorios no determinísticos. De hecho, las variables registradas en una muestra
particular se consideran valores observados de variables aleatorias, ya que sus valores se ven
condicionados por la aleatoriedad del muestreo. Esta lógica inferencial hace necesario diferenciar
dos tipos de elementos:
7
de su verdadero valor en la población, se denomina estimador puntual. Para designar estos
estadísticos se utilizan letras latinas como 𝑋̅, S o P.
Para poder realizar el salto inductivo de la muestra a la población, la estadística inferencial recurre
a otro constructo también relacionado con las distribuciones de probabilidad: la distribución
muestral de los estadísticos. Es importante subrayar que este término no señala a la
distribución empírica de los datos concretos de una sola muestra ni tampoco la distribución teórica
de la población, sino la distribución teórica de un determinado estadístico en todas las muestras
del mismo tamaño que es posible extraer de una determinada población.
8
Por ejemplo, el estadístico media de una variable se puede calcular con los datos de una muestra,
y es una estimación del parámetro en la población, pero esta media, al contrario que el valor
constate del parámetro, podrá variar su valor, cuando se calcule en otra muestra extraída de la
misma población (que es en sí mismo una variable aleatoria), por lo que, si hipotéticamente
extrajésemos todas las posibles muestras del mismo tamaño de una población y calculásemos la
media en cada una, tendríamos un conjunto de valores de la variable aleatoria media, con los
que se podría plantear una distribución de probabilidad. Sobre esta distribución de medias (si
conociesen todos los valores), se podría calcular tanto su centro como su dispersión y tendría una
forma determinada. El centro de este tipo de distribuciones se denomina esperanza
matemática, que este caso sería el promedio de todas las medias, y su dispersión se denomina
error típico o estándar, que sería la desviación típica de los valores de ese estadístico en la
distribución.
Play
En este vídeo del canal Estadística Útil se explica de forma breve y concisa el teorema del
central del límite con el ejemplo del estadístico media en una hipotética distribución muestral.
Es un concepto probabilístico que simplifica en gran medida las pruebas de inferencia
estadística.
Si quieres saber más acerca del enfoque bayesiano, puedes consultar este artículo
introductorio de Rendón-Macías y colaboradores (2018).
Sabías que:
Las controversias de Fisher con Neyman y Pearson no solo atañían del plano académico-
científico, sino que alcanzaba también al terreno personal. Esto hace aún más paradójica la
amalgama actual de sus posturas en el NHST. En este artículo, Rodríguez-Arias (2005)
sintetizan esta confrontación.
10
y cálculo de tamaño de muestra idóneo), el eje fundamental del NHST es el propio contraste de
hipótesis nula que propuso Fisher, por lo que, a continuación, se revisará este elemento, dentro
de la propuesta original de prueba de significación de este autor.
11
Pasos del procedimiento de prueba de significación de Fisher:
1 Formular una hipótesis nula (H0) respecto a la población de origen de la muestra, las
variables no están relacionadas y/o no existe diferencia entre los grupos comparados.
4 Comparar con umbral de significación prefijado (cuanto más pequeño sea p menos
verosímil será la H0) con el valor p y tomar una decisión sobre la H0 (rechazar o no
poder rechazar pero aceptarla).
12
Figura 7. Elección de prueba de contraste de hipótesis nula.
El otro elemento determinante para la selección del tipo de prueba de contraste es la forma en la
que están registradas métricamente las variables: categóricas o cuantitativas. Siendo además
relevante el número de categorías o niveles que tienen las variables categóricas, ya que son
las que pueden generar criterios de agrupación de los datos muestrales. En siguiente tabla, se
presentan los principales tipos contrastes en situaciones univariadas-bivariadas según este
criterio métrico.
13
Figura 8. Tipos de contraste estadísticos según la naturaleza métrica de dos variables.
El proceso de contraste de hipótesis estadísticas implica poder afirmar que la distribución muestral
del estadístico de contraste, se aproxima a una distribución teórica de referencia ya
especificada. Esto se traduce en que al realizar una determinada prueba estadística se debe
cumplir una serie de condiciones para que la distribución de probabilidad en la que se basará
la decisión sobre la H0 sea válida para este fin. Estos requisitos se denominan supuestos, y es
necesario explorar los datos de la muestra de forma previa al propio contraste para detectar
posibles vulneraciones de estos supuestos.
14
Figura 9. Representación de distribución normal de variable.
Por defecto, las pruebas paramétricas tienen mayor potencia estadística, lo que redunda en
una mayor capacidad para poder rechazar la hipótesis nula, cuando realmente no es cierta
(valores p más bajos) y, por ello, si es posible, se debe priorizar realizar el contraste con este
tipo de pruebas. Por otro lado, las pruebas no paramétricas se deberán aplicar cuando las
variables implicadas sean todas categoriales (como χ²) o cuando se considere que las variables
cuantitativas vulneran significativamente los supuestos poblacionales vinculados a su distribución.
En este segundo caso, las alternativas no paramétricas trasformarán las variables cuantitativas
en variables ordinales para su contraste (W de Wilcoxon o Kruskal-Wallis).
Pero, cuando se trata de muestras pequeñas, es necesario analizar de forma más exhaustiva el
cumplimiento supuesto de normalidad. Para este fin, existen contrastes estadísticos específicos
sobre la forma de la distribución que siguen una lógica similar a los contrastes de hipótesis nula
presentados anteriormente: prueba Kolmogorov-Smirnov y prueba Shapiro-Wilk. De forma
resumida, se puede afirmar que las dos pruebas permiten contrastar la hipótesis nula de que la
muestra procede de una población distribuida normalmente (no difiere de la distribución teórica
normal):
15
pueden complementar observando algunos indicadores descriptivos y gráficos de la distribución
de los datos empíricos de la muestra (Pardo y San Martín, 2010):
• Índices de asimetría y curtosis: cuanto más aleje de 0, más difieren los datos de
una distribución normal.
• Valores atípicos en diagrama de caja: son aquellos sujetos que se alejan tanto
de la distribución que se marcan con puntos por abajo o por arriba de las pestañas
del diagrama de caja.
• Gráficos Q-Q: en Q-Q normal cuando los puntos se agrupan alrededor de la línea
diagonal, los valores se aproximan a los valores esperados en una distribución
normal, mientras que en el Q-Q normal sin tendencias, las puntuaciones podrán
proceder de una población normal, si los puntos oscilan de forma aleatoria (sin
patrón) alrededor de la línea horizontal.
16
Figura 10. Salida de resultados de SPSS pruebas de normalidad de la variable gravedad de depresión. Fuente:
Elaboración propia con IBM SPSS Statistics Versión 21.
Este supuesto requiere que las poblaciones teóricas desde las que se han extraído los grupos que
se comparan tengan la misma varianza, ya que, si la variabilidad de valores no es constante entre
grupos, el estadístico de contraste perderá precisión. Además, si los grupos que se comparan no
son del mismo tamaño y/o la muestra es pequeña, la falta de homogeneidad tendrá mayor
impacto en el estadístico. Para la comprobación de este supuesto, se puede recurrir a la prueba
estadística de Levene, que contrasta la hipótesis nula de igualdad de varianzas en la población
de origen de los grupos. Aunque se puede utilizar el umbral de significación habitual de p<0,05,
hay autores que sugieren un umbral algo mayor p<0,10, por lo conservadora que resulta la
prueba en muestra reducidas (Domenech y Granero, 2013):
17
• p pequeña (p<0,05 o p<0,10) existe una diferencia estadísticamente significativa, lo
que provoca que se tenga que rechazar a hipótesis nula de igualdad de varianzas.
• p grande (p>0,05 o p>0,10) no hay divergencia significativa, por lo que no se puede
rechazar hipótesis nula de igualdad de varianzas.
3.3. Indicadores del tamaño del efecto como complemento a las pruebas
estadísticas de contraste de hipótesis nula
Otro elemento relevante a la hora de interpretar correctamente los resultados de las pruebas de
significación es la gran influencia en estos procedimientos que tiene el tamaño de la muestra.
El número de sujetos (n) del estudio particular afecta a los estadísticos de contraste a través del
error estándar. El error estándar se entiende como la desviación estándar de un determinado
estadístico en su distribución muestral teórica, pero, al ser desconocido este dato, se estima a
partir de la varianza empírica y el tamaño de la muestra concreta de estudio. Cuanto mayor sea
el tamaño muestral, menor será el error estándar, por lo que una misma magnitud de diferencia
o relación puede resultar significativa en una muestra pequeña, pero sí estadísticamente
significativa en una muestra más grande.
18
Nota
Al margen de la justificación algebraica y probabilística del efecto del tamaño muestral sobre
la prueba de significación, de forma intuitiva se puede entender que, cuanto más parte de la
población se incluya la muestra de estudio, menos nos estamos arriesgando al realizar
inferencias sobre esta (el fragmento se parece más a la totalidad).
En los últimos años, en el ámbito académico, se ha señalado que, pese a la popularidad de las
pruebas estadísticas del paradigma NHST, la información cuantitativa que estas reflejan puede
ser insuficiente o limitada para poder llegar a conclusiones de relevancia práctica, por lo que se
han sugerido algunas medidas adicionales para complementar los resultados de estos análisis,
en los informes científicos, entre las que se destacan, indicadores que sí señalen la magnitud de
los resultados de forma específica. De hecho, este tipo de elementos, son cada vez más
frecuentemente exigidos en las revistas científicas contemporáneas (American Psychological
Association APA, 2008; 2010; International Committee of Medical Journal Medical Journal Editors,
2019; National Center for Education Statistics, 2002).
Para este fin, una de las principales estrategias complementarias es el cálculo de los denominados
índices de tamaño del efecto. Estos índices son el resultado de estandarizar o normalizar el
efecto (diferencia o relación) encontrado en los datos del estudio (con los estadísticos descriptivos
de la muestra). De forma genérica, estos tienen la ventaja de poder establecerse en una escala
común independiente al tipo de medida utilizado en el estudio particular y a su tamaño muestral.
También es destacable la posibilidad de transformación matemática de un tipo de índices de
tamaño del efecto en otros. Todo esto facilita la realización de estudios de revisión sistemática
(de investigaciones de diseños equivalentes) y es indispensable para realizar análisis
metaanalíticos.
Existen diferentes estrategias para obtener esta estandarización de las magnitudes, pero se
pueden destacar principalmente tres categorías: los basados en la normalización de las
diferencias entre grupos (como d de Cohen), los que se concretan en coeficientes de
correlación (r de Pearson) y los que son ratios sobre datos categoriales (como odd ratio). Los
dos primeros son los más frecuentes en el ámbito de la psicología, mientras que los terceros
19
son más frecuentes en el ámbito de la biomedicina. Estos indicadores tratan de cuantificar la
fuerza del fenómeno estudiado en los datos muestrales en una escala numérica reducida (la
mayoría entre 0 y 1). En la psicología, han sido especialmente influyentes los desarrollos de
Cohen (1988) al respecto que estableció además umbrales orientativos para interpretar este
tipo de índices en el contexto de las ciencias sociales.
En los siguientes apartados, junto con las pruebas estadísticas específicas, se sugerirán índices
de tamaño del efecto adecuados para complementar esos contrastes.
Por ejemplo, si en una muestra de adultos jóvenes con antecedentes penales, quisiéramos
comprobar si existe relación entre el sexo del sujeto (hombre/mujer) y la gravedad de los delitos
cometidos (leves, moderadamente graves y graves), podríamos obtener la siguiente tabla de
contingencia.
20
3.4.1. Prueba de contraste de hipótesis nula con χ² de Pearson
El estadístico chi-cuadrado computa todos los residuos de las casillas de intersección, para
comprobar si esta discrepancia es estadísticamente significativa y comprobar si se puede rechazar
la hipótesis nula de independencia entre variables que se enuncia formalmente como H0 = las
distribuciones condicionales de las ambas variables a sus respectivas distribuciones
marginales. El estadístico será más elevado cuanta más discrepancia exista, y para hallar el valor
p, se contrastará con una distribución teórica de referencia χ² con los grados de libertad
resultantes de multiplicar el número de categorías menos de una variable por el número de
categorías menos uno de la otra, interpretándose el resultado de P (sig. asintótica bilateral en
SPSS):
21
3.4.2. Ejecución de χ² de Pearson en SPSS
➢ Seleccionar para filas una de las variables categoriales y para columnas la otra
variable categorial.
Figura 14. Salida de resultados de SPSS prueba chi cuadrado situación extrema de independencia sexo y psicopatología.
Fuente: Elaboración propia con IBM SPSS Statistics Versión 21.
22
3.5. Comparación de dos medias: Pruebas t de Student
Las pruebas t de Student sirven para comparar dos medias, concretamente, para realizar
contrastes respecto a la diferencia entre esas dos medias. Las medias necesariamente tienen
que realizarse sobre una variable cuantitativa. En esta comparación de dos medias se pueden
dar dos situaciones diferentes:
• Muestras independientes: las dos medias que se comparan son de dos grupos de
sujetos diferentes, es decir, o que pertenecen a un grupo o a otro de forma excluyente
(en una categoría u otra), por lo que se contrasta la relación entre una variable cuantitativa
y una variable categorial dicotómica.
• Muestras relacionadas: las dos medias que se comparan son del mismo grupo (los
mismos sujetos), pero en momentos diferentes, de forma que el factor en esta
circunstancia se limita a componerse de dos momentos diferentes de medida (en términos
de paso por diferentes condiciones experimentales o de seguimiento temporal). Lo que se
comprueba, es la existencia de cambio en la variable cuantitativa entre los dos momentos.
Pero, si en vez de usar un grupo control, lo que se plantea es comparar el promedio grupal
preintervención con el promedio grupal posintervención del mismo grupo, los mismos sujetos
habrán sido medidos en la condición sin intervención (antes) y con intervención (después),
y nos encontraríamos en una situación que desde la prueba t se denomina de muestras
relacionadas.
23
Tabla 1. Situaciones de t de Student para comparar dos medias y sus alternativas no paramétricas.
Por otro lado, la t de Student para muestras independientes requiere un supuesto poblacional
adicional que es la homogeneidad de varianzas. La prueba de Levene referida anteriormente
es necesaria para contrastar este supuesto y si esta resulta estadísticamente significativa será
necesario realizar algunos ajustes (corrección de grados de libertad) para poder realizar el
contraste con el estadístico t.
Estadístico de contraste t Diferencia entre las dos Media de las diferencias entre
medias dividido un error los dos momentos (coincide
estándar. con la diferencia de medias)
dividido un error estándar
24
también la varianzas de
ambos grupos.
Tabla 2. Procedimientos de comparación de medias con muestras independientes y muestras relacionadas. Fuente:
Elaboración propia
Nota
El SPSS no calcula directamente la d de Cohen, pero sí ofrece los datos necesarios para
poder hacerlo de forma externa al programa. Aunque las fórmulas no son muy complejas se
puede recurrir a calculadoras online de tamaño del efecto como esta.
25
3.5.2. Ejecución de t de Student en SPSS
Figura 15. Salida de resultados de SPSS de prueba t de Student muestras independientes diferencias sexo respecto a
depresión. Fuente: Elaboración propia con IBM SPSS Statistics Versión 21.
26
Prueba t de Student para muestras relacionadas en SPSS:
➢ En «Contrastar pares» seleccionar las dos medidas igual que con t. Tipo
de prueba: Wilcoxon.
El análisis de la varianza (ANOVA por su acrónimo en inglés) es una técnica general que permite
estudiar la relación de uno o más factores (variables categóricas), con una o más variables
cuantitativas. Dada la flexibilidad de esta estrategia de análisis, existe gran diversidad de
modelos de ANOVA que se ajustan a diferentes necesidades de diseño experimental. En la
siguiente unidad (Unidad didáctica 4), se plantearán más permutaciones del marco general de
ANOVA, pero en este apartado solo se presentará brevemente su planteamiento más simple:
ANOVA de un factor.
En este sentido el ANOVA permite dar respuesta las situaciones en las que se pretende contrastar
hipótesis sobre diferencias de promedios grupales entre más de dos grupos (y por tanto, ya no
se podría usar la t de Student), lo que implica estudiar la relación entre una variable categorial
(factor) de más de dos categorías y una variable cuantitativa. Como no es posible comparar
directamente las medias de los grupos mediante la simple diferencia entre ellas, lo que se podrá
hacer, es realizar la comparación desde sus varianzas. Para ello, se contrastan dos tipos
estimaciones de la varianza poblacional, que representan las dos fuentes potenciales de la
variabilidad total de las puntuaciones de los sujetos:
• Intragrupo o residual: que asume que las muestras extraídas (grupos en el análisis),
provienen de poblaciones con una misma varianza y, por tanto, su estimación se puede
realizar a través de una media ponderada de las varianzas particulares de cada grupo. Y sobre
la que no influyen las posibles diferencias entre diferentes niveles del factor y, por eso, se
denomina residual o no explicada (por el factor).
• Intergrupos o explicada: que asume que las muestras extraídas provienen de una
población que no solo tiene la misma varianza, sino también la misma media, por lo en
27
realidad se puede suponer que los grupos provienen de una única y misma población. Por ello,
la estimación de la varianza se realiza a partir de las medias de los grupos en la que influyen
las diferencias de promedios entre las diferentes categorías, por lo que se denomina explicada
(por el factor).
Figura 16. Relación de conceptos elementales de un ANOVA de un factor. Fuente: Elaboración propia.
De esta forma, para contrastar la hipótesis nula de igualdad de medias (origen teórico común de
los grupos) en la población, se podrá calcular el estadístico F, que es el resultado del cociente
entre MSg y MCr. Cuanto más se aleje F de la unidad, mayor será la discrepancia de los datos
con la H0. Para contrastar que las posibles discrepancias observadas entre MSg y MCr sean
debidas al azar del muestreo y no a diferencias reales en la población, se contrastará el estadístico
F con la distribución teórica de referencia F de Snedecor, pero atendiendo a dos cifras diferentes
de grados de libertad (que son también los denominadores de las dos medias cuadráticas):
categorías de la variable categorial menos uno y número de sujetos total de la muestra de estudio
(de todos los grupos) menos el número de categorías de la variable categorial. Con el valor p
resultante se concluirá que:
p grande (p>0,05) las diferencias no son estadísticamente significativas, por lo que no se puede
rechazar hipótesis nula de no diferencias de medias en la población.
Como el valor del estadístico F no depende únicamente la magnitud de la relación entre factor y
variable cuantitativa, no es un indicador valido del tamaño del efecto. Para ello, Pearson y Fisher
28
propusieron un índice que expresa el grado de asociación entre ambas variables, denominado
eta-cuadrado. Este indicador consiste en dividir la variabilidad intergrupo entre la cuantificación
de la variabilidad total (para su cómputo se utilizan los numeradores de las medias cuadráticas
llamados suma de cuadrados) y puede interpretarse como la proporción de varianza que
comparten ambas variables. El eta-cuadrado que se puede solicitar en SPSS se denomina eta al
cuadrado parcial, y cuando solo hay un factor (como es el caso), es equivalente a la propuesta
original. Según los umbrales de Cohen (1988), un valor de eta cuadrado igual o superior 0,14 se
puede considerar una magnitud elevada, mientras que uno que alcance el umbral de 0,06 se
puede considerar moderado.
La prueba ANOVA de un factor es una prueba paramétrica y como tal tiene dos supuestos
poblacionales para poder realizar el contraste con la distribución teórica de referencia: distribución
normal de variable cuantitativa y homogeneidad de varianzas. La prueba ANOVA se ve mucho
más afectada por el no cumplimiento del supuesto de homogeneidad de varianzas que el de la no
normalidad, pero aun así, para muestras pequeñas será necesario tenerlo en cuenta. Respecto al
contraste de igualdad de varianzas, la prueba de Levene en SPSS se puede solicitar al mismo
tiempo que la prueba ANOVA (véase más abajo). Ante el incumplimiento de alguno de los dos
supuestos, se puede recurrir a pruebas robustas alternativas, tal y como muestra la siguiente
tablas.
Tabla 3. Alternativas de contraste de hipótesis nula ante cumplimiento de supuestos ANOVA de un factor.
La prueba de significación realizada con el estadístico F contrasta una hipótesis nula global,
respecto al conjunto de medias de todas las categorías de la variable categorial, es decir, su
rechazo permite concluir que no todas las medias poblacionales son iguales, pero no permite
concretar qué medias son las que difieren de otras. Así que después de rechazar esta H0 general,
todavía falta aclarar dónde se encuentran esas diferencias. Sin embargo, sería un error
metodológico importante simplemente comparar los pares de categorías por separado mediante
varias pruebas t de Student de muestras independientes, ya que este tipo de comprobaciones
múltiples aumentan la probabilidad de rechazar la H0 cuando esta es falsa (error tipo I según
Neyman y Pearson). Para este propósito, existen una serie de pruebas agrupadas en lo que se
denomina contrastes a posteriori o comparaciones post hoc (como se las denomina en el
SPSS), que tienen en cuenta la situación de comparación múltiples para realizar los contrastes.
Aunque existen varias opciones, se pueden destacar que, para explorar todas la posibles
diferencias, son recomendables (Pardo y San Martín, 2010) los procedimientos de Tukey y
Sheffé, aunque estos asumen el supuesto de homogeneidad de varianzas, por lo que, si este no
se cumple, será necesario recurrir a alternativas como Games-Howell y T3 de Dunnet. La
interpretación de estos análisis es sencilla: ubicar qué pares de categorías se comparan y su valor
p (Sig. en SPSS) para comprobar si la diferencia entre los dos grupos es estadísticamente
significativa (p<0,05).
29
3.6.2. Ejecución de ANOVA de un factor en SPSS
➢ Para cálculo de tamaño del efecto eta al cuadrado, ejecutar ANOVA desde: Analizar
-> Modelo lineal general -> Univariante -> Seleccionar «Variable dependiente»
(variable cuantitativa) y «Factor fijo» (variable categorial) -> Botón «Opciones» ->
Seleccionar «Variable categorial»- Marcar «Estimaciones del tamaño del
efecto». En vista de resultados mirar tabla de ANOVA, la fila que se corresponde
con «Modelo y pie de tabla para eta2».
30
Figura 12: Salida de resultados de SPSS prueba ANOVA de un factor para diferencias según gravedad antecedentes
delictivos (variables categorial) respecto a nivel apoyo percibido (variable cuantitativa). Fuente: Elaboración propia con
IBM SPSS Statistics Versión 21.
Figura 17. Salida de resultados de SPSS análisis post hoc por prueba Tukey de ANOVA de figura 8. Fuente: Elaboración
propia con IBM SPSS Statistics Versión 21.
31
3.7. Correlación bivariada: Coeficiente r de Pearson
Figura 18. Representación gráfica de diferentes estados de correlación lineal entre dos variables cuantitativas. Fuente:
Elaboración propia.
32
• p grande (p>0,05) las relación lineal no es estadísticamente significativa, por lo que
no se puede rechazar hipótesis nula de no relación en la población.
33
Figura 19. Salida de resultados de SPSS correlación r de Pearson entre apoyo social y asertividad, y representación
gráfica de relación. Fuente: Elaboración propia con IBM SPSS Statistics Versión 21.
34
Resumen
Para contrastar esta hipótesis con los datos de estudio, se disponen de diferentes pruebas de
contraste con sus respectivos estadísticos, dependiendo de la naturaleza de las variables
implicadas. Existen pruebas que requieren del cumplimiento de una serie de supuestos
poblacionales (paramétricas) y pruebas que no tienen esos requisitos poblacionales (no
paramétricas), siendo los más habituales los supuestos de normalidad de distribución e
homogeneidad de varianza, de las variables cuantitativas en la población. Estos estadísticos
sirven para contrastar la discrepancia de los datos con la hipótesis nula, pero no son adecuados
para informar de la magnitud de las relaciones y diferencias, ya que están muy condicionados por
el tamaño muestral. Para este fin, se han desarrollaron los llamados indicadores de tamaño del
efecto que son complementarios a las pruebas de significación y que actualmente, se exigen
también para la publicación de informes científicos. Los contrastes univariados-bivariados
reflejados en la unidad se pueden resumir en la siguiente tabla:
35
Relación variable ANOVA de un factor: - Kurskal-Wallis. Eta al cuadrado.
cuantitativa con Estadístico F
- Welch.
variable categorial
politómicas. - Brown-Forsythe.
Tabla 4. Resumen de pruebas de contraste de hipótesis nula recogidas en la unidad. Fuente: Elaboración propia.
36
Mapa de contenidos
37
Recursos bibliográficos
Bibliografía básica
Cohen, J. (1988). Statistical power analysis for the behavioral sciences. Erlbaum.
Elorza, H. (2008). Estadística para la ciencias sociales, del comportamiento y de la salud (3ª
ed.). Cengage Learning.
Fisher, R. A. (1925). Statistical methots for research workers. Oliver and Boyd.
Pardo, A. y San Martín, R. (2010). Análisis de datos en ciencias sociales y de la salud (vol. 2).
Editorial Síntesis.
Pardo, A., Ruiz M. A. y San Martín, R. (2009). Análisis de datos en ciencias sociales y de la
salud (vol. 1). Editorial Síntesis
Bibliografía complementaria
National Center for Education Statistics. (2002). NCES statistical standards. U.S. Department
of Education.
Neyman, J. y Pearson, E. S. (1928). On the problema of the most efficient test of statistical
hypotheses. Philosophical transactions of the royal society: Mathematical, Physical and
Engineering Science, 231(694-706), 289-337. https://doi.org/10.1098/rsta.1933.0009
Nuzzo, R. (2014). Statistical errors. P value, the “gold standard” of statistical validity, are not
as reliable as many scientists asume. Nature, 506(7487), 150-152.
https://doi.org/10.1038/506150a
Otros recursos
38
Alergia México, 65(3), 285-298. http://www.scielo.org.mx/pdf/ram/v65n3/2448-9190-ram-
65-03-205.pdf
39