Ud3 Metodologia Avanzada Investigacion

Máster en Psicología Forense
Metodología Avanzada de Investigación
Unidad didáctica 3. Estadística inferencial, contraste de hipótesis nula y

análisis univariados y bivariados.
UD 3. Estadística inferencial, contraste de hipótesis nula y análisis univariados ....................... 4
3.1. Conceptualización de la estadística ........................................................................... 5
3.1.2 Estadística descriptiva ........................................................................................ 5
3.1.3. Estadística inferencial ........................................................................................ 7
3.2. Enfoque frecuentista de la estadística inferencial ........................................................ 9
3.2.1. Prueba de significación de hipótesis nula ............................................................ 11
3.2.2. Clasificación de pruebas estadísticas de contraste de hipótesis ............................. 12
3.2.3 Pruebas paramétricas/no paramétricas y supuestos poblacionales .......................... 14
Supuesto de distribución normal .............................................................................. 15
Supuesto de homogeneidad de varianzas.................................................................. 17
3.3. Indicadores del tamaño del efecto como complemento a las pruebas estadísticas de
contraste de hipótesis nula .......................................................................................... 18
3.4. Relación entre dos variables categóricas: prueba χ² de Pearson ................................. 20
3.4.1. Prueba de contraste de hipótesis nula con χ² de Pearson ..................................... 21
3.4.2. Ejecución de χ² de Pearson en SPSS ................................................................. 22
3.5. Comparación de dos medias: Pruebas t de Student .................................................. 23
3.5.1. Prueba de contraste de hipótesis nula con t de Student ....................................... 23
3.5.2. Ejecución de t de Student en SPSS ................................................................... 26
3.6. Análisis de la varianza: ANOVA de un factor ............................................................ 27
3.6.1. Prueba de contraste de hipótesis nula con ANOVA de un factor ............................. 28
Supuesto poblacional no cumplido ................................................................................ 29
Alternativa a prueba con estadístico F ........................................................................... 29
Distribución normal ..................................................................................................... 29
Prueba no paramétrica Kurskal-Wallis ........................................................................... 29
Homogeneidad de varianzas......................................................................................... 29
Modificaciones de estadístico F: Welch o Brown-Forsythe. ................................................ 29
3.6.2. Ejecución de ANOVA de un factor en SPSS ......................................................... 30
3.7. Correlación bivariada: Coeficiente r de Pearson ........................................................ 32
3.7.1. Prueba de contraste de hipótesis nula con coeficiente r de Pearson ....................... 32
3.7.2. Ejecución de correlación r de Pearson en SPSS ................................................... 33
Resumen ...................................................................................................................... 35
Mapa de contenidos ....................................................................................................... 37
2
Recursos bibliográficos ................................................................................................... 38
3
UD 3. Estadística inferencial, contraste de hipótesis nula y
análisis univariados
Como se ha expuesto en las unidades anteriores, en el proceso de investigación de las ciencias

empíricas se hace inevitable el momento de realizar el salto lógico desde eventos particulares a
patrones generales, ya que los estudios empíricos no dejan observaciones limitadas y puntuales
de amplios fenómenos sujetos a numerosas fuentes de variación. Estas generalizaciones implican
un riesgo y un grado de incertidumbre significativo, que se tiene que asumir e intentar
gestionar en muchas ciencias empíricas (como la psicología o la medicina), en las que la
complejidad e interacción de sus objetos de estudio provocan que existan variaciones entre las
observaciones repetidas, incluso manteniendo constantes las condiciones de investigación.
Para aumentar la validez de este proceso inductivo, es necesario planificar y ejecutar las
investigaciones con el máximo rigor posible (lo que atañe al diseño de investigación), pero, incluso
con el máximo control experimental, siempre van a existir efectos y fuentes de variación
aleatorios e impredecibles vinculados al hecho de estudiar pequeños fragmentos de una
totalidad. En este sentido, los investigadores pueden encontrar en la disciplina denominada
estadística inferencial herramientas y procedimientos que les permita analizar los datos
recogidos y alcanzar conclusiones inductivas que contemplen y tengan en cuenta este relativo
grado de incertidumbre.
Figura 1. Uso de la estadística en la investigación cuantitativa.
Sabías que:
El origen del término estadística se atribuye al académico prusiano Gottfried Achenwall, que
en el siglo XVIII designó como statistik el análisis de datos vinculados únicamente a lo
concerniente al gobierno y gestión de los Estados (de aquí la etimología del término), siendo
su acepción transdisciplinar algo posterior del siglo XIX.
Dado que se presupone que el lector ya está familiarizado con las bases esenciales de la
estadística debido a su formación anterior, en esta unidad se van repasar brevemente los
4
conceptos más importantes para la comprensión de la lógica de las herramientas inferenciales
que esta disciplina provee al investigador, para, a continuación, presentar los principales métodos
de contraste de hipótesis nula con el fin de estudiar relaciones simples entre variables (solo dos
variables). De la misma forma, en las siguientes unidades, se va a priorizar un enfoque
pragmático y utilitarista en la exposición de estos procedimientos, reduciendo al mínimo
indispensable su justificación matemática y los planteamientos puramente algebraicos, por lo
que, si se quiere profundizar más en estos aspectos, se recomienda al alumno que recurra a la
bibliografía recomendada, destacando especialmente para la materia específica de esta unidad el
manual introductorio de Pardo et al. (2009).
3.1. Conceptualización de la estadística
De forma general, se puede señalar la estadística como una rama de las matemáticas que trata
de proveer herramientas para resumir, organizar, analizar y sacar conclusiones sobre conjuntos
de datos empíricos (Elorza, 2008). Aunque una definición más específica de su rol en la
investigación científica la recogen Pardo et al. (2009, p. 17), que la conciben como una disciplina
que «recoge, ordena y analiza datos de una muestra extraída de una determinada población,
para hacer inferencias acerca de esa población valiéndose del cálculo de probabilidades». En
esta definición, se recogen de forma simultánea las dos facetas principales del análisis estadístico:
la parte descriptiva y la parte inferencial.
Figura 2. Recoger, ordenar y analizar datos.
3.1.2 Estadística descriptiva
La estadística descriptiva plantea procedimientos para describir de forma agregada conjuntos de

datos, siendo su utilidad en una investigación la capacidad de caracterizar de forma precisa y
resumida los datos recogidos sobre las variables de una muestra de estudio, tanto de forma
numérica como gráfica. La descripción de una variable en una muestra, implica el cálculo de
distintos índices estadísticos que responden a tres perspectivas: centro, dispersión y forma de
distribución.
5
Dimensiones de descriptivas de las variables
Centro de distribución
Son aquellos índices que tratan de identificar un único valor central representativo de un
conjunto de observaciones (los valores que presentan los sujetos de la muestra). Para encontrar
este valor representativo, existen diferentes métodos, pero la mayoría implican localizar el valor
alrededor del cual cabe esperar que se agrupen más sujetos de la muestra (algo así como el
centro de gravedad de la distribución). Por ejemplo, en una variable categórica, este centro lo
podrá representar la categoría (valor) más frecuente en la muestra y en una variable
cuantitativa, lo podrá ser el promedio aritmético de los diferentes valores manifestados en la
muestra. Indicadores de este tipo son la media, la moda y la mediana.
Dispersión de valores
Hace referencia al grado de concentración o alejamiento de los valores de la variable en la

una muestra respecto a su centro. Esta dimensión es necesaria y complementaria a los
indicadores centrales, ya que estos no informan de esta dispersión de valores (el grado de
parecido entre los valores registrados). Por ejemplo, en las variables cuantitativas, es frecuente
el cálculo del indicador de la desviación típica, que representa una especie de promedio de las
diferencias de los valores muestrales, respecto a la media de la variable expresada en las
mismas unidades de medida que esta media. Indicadores de este tipo son el índice de
variación cualitativa, la amplitud intercuartil, la varianza y la desviación típica.
Forma de la distribución
Es una dimensión que refleja las frecuencias con las que se repite cada valor o rango de valores.
Al ordenar de menor a mayor todo el rango de valores manifestados a una misma variable
representando sus frecuencias, se puede observar fácilmente las características de la
manifestación de la variable en la muestra (valores anómalos, inconsistencias, concentración de
frecuencias, etc.). A nivel numérico, se pueden destacar los índices de asimetría y curtosis que
representan en qué grado la distribución se aleja de la forma mesocúrtica simétrica propia, de
una distribución normal (forma de campana de Gauss). Pero es a nivel gráfico como se representa
mejor este elemento: con histogramas, polígonos de frecuencias, diagramas de caja y
diagramas de tallo y hoja.
6
Figura 3. Diferentes representaciones graficas de SPSS de la distribución de la variable edad en una misma muestra.
Fuente: Elaboración propia con IBM SPSS Statistics Versión 21.
3.1.3. Estadística inferencial
Aunque resumir y describir los datos empíricos siempre va a ser necesario, rara vez va a ser
suficiente en la investigación científica. Independientemente de si el fin de la investigación es
descriptivo, predictivo o explicativo, lo que se pretende es sacar conclusiones sobre las variables
en la población, a partir de lo registrado en su manifestación particular en la muestra de estudio
(generalizar). El problema es que no se puede asumir que los índices descritos en la muestra van
a corresponderse directamente con sus valores poblacionales.
Para realizar este salto inductivo, el investigador tiene que recurrir a la parte de la estadística
que se denomina inferencial. A su vez la estadista inferencial se sirve de los desarrollos de la
teoría de la probabilidad, que es una disciplina matemática que estudia el comportamiento de
los sucesos aleatorios no determinísticos. De hecho, las variables registradas en una muestra
particular se consideran valores observados de variables aleatorias, ya que sus valores se ven
condicionados por la aleatoriedad del muestreo. Esta lógica inferencial hace necesario diferenciar
dos tipos de elementos:
• Parámetros: son valores numéricos que describen y resumen características de la

población. Por ejemplo, el salario medio de las mujeres en España. Dado que las
poblaciones de interés en investigación son inabarcables, este tipo de valores
poblacionales, son en principio desconocidos, ya que no se pueden calcular directamente
teniendo en cuenta todos sus elementos. Para designar estos parámetros y diferenciarlos
de los estadísticos que los estiman, se utilizan letras griegas minúsculas como  (media),
 (desviación típica) o  (proporción).
• Estadísticos: son valores numéricos que describen y resumen características de una
muestra particular de población, por ejemplo, el salario medio de las mujeres de muestra
de 250 trabajadoras españolas. Cuando se pretende utilizar el estadístico como estimación
7
de su verdadero valor en la población, se denomina estimador puntual. Para designar estos
estadísticos se utilizan letras latinas como 𝑋̅, S o P.
Otro concepto clave de la estadística inferencial es el de distribución de probabilidad, que se

concreta en una función matemática, que asigna a cada suceso posible de una variable aleatoria
(sus diferentes valores) una probabilidad de ocurrencia. Esta distribución se representa
gráficamente con una curva, y especifica la probabilidad de que la variable aleatoria presente un
valor real igual o menor que cada nivel posible de la variable. Cuando esta distribución se genera
a partir de las frecuencias relativas (proporciones) de los valores en los datos reales de una
muestra particular, se designa como distribución empírica, pero también existen las llamadas
distribuciones teóricas que no se generan a partir de datos concretos, pero que sirven para
interpretar mejor estos datos y, además, realizar inferencias más allá de las propias muestras.
Las distribuciones de probabilidad teóricas son modelos matemáticos de referencia sobre cómo
se distribuyen las variables en la población atendiendo a su naturaleza métrica (categórica,
cuantitativa discreta o cuantitativa). Se pueden diferenciar diferentes patrones de distribución
teóricos que se ajustan mejor a un tipo de datos u otros. Algunas de las distribuciones teóricas
más usadas en estadística inferencial son binomial-multinomial, chi cuadrada, normal,
distribución t y distribución F.
Para poder realizar el salto inductivo de la muestra a la población, la estadística inferencial recurre
a otro constructo también relacionado con las distribuciones de probabilidad: la distribución
muestral de los estadísticos. Es importante subrayar que este término no señala a la
distribución empírica de los datos concretos de una sola muestra ni tampoco la distribución teórica
de la población, sino la distribución teórica de un determinado estadístico en todas las muestras
del mismo tamaño que es posible extraer de una determinada población.
Figura 4. Representación de relación entre conceptos básicos de estadística inferencial.
8
Por ejemplo, el estadístico media de una variable se puede calcular con los datos de una muestra,
y es una estimación del parámetro en la población, pero esta media, al contrario que el valor
constate del parámetro, podrá variar su valor, cuando se calcule en otra muestra extraída de la
misma población (que es en sí mismo una variable aleatoria), por lo que, si hipotéticamente
extrajésemos todas las posibles muestras del mismo tamaño de una población y calculásemos la
media en cada una, tendríamos un conjunto de valores de la variable aleatoria media, con los
que se podría plantear una distribución de probabilidad. Sobre esta distribución de medias (si
conociesen todos los valores), se podría calcular tanto su centro como su dispersión y tendría una
forma determinada. El centro de este tipo de distribuciones se denomina esperanza
matemática, que este caso sería el promedio de todas las medias, y su dispersión se denomina
error típico o estándar, que sería la desviación típica de los valores de ese estadístico en la
distribución.
Play
En este vídeo del canal Estadística Útil se explica de forma breve y concisa el teorema del
central del límite con el ejemplo del estadístico media en una hipotética distribución muestral.
Es un concepto probabilístico que simplifica en gran medida las pruebas de inferencia
estadística.
Lo que resulta de especial interés para la inferencia estadística es la existencia de ciertos

principios y patrones probabilísticos, que relaciona e identifica los parámetros
poblacionales, con las características de la distribución muestral de estadísticos (como el teorema
central del límite), lo que va a permitir realizar inducciones probabilísticas desde los datos
particulares de una muestra para realizar estimaciones o contrastar hipótesis poblaciones. Como
normalmente se desconocen tanto los valores de los parámetros poblacionales, como los
correspondientes a las distribuciones muéstrales de los estadísticos, estas inferencias se
realizarán bajo el cumplimiento de ciertos supuestos y condiciones con mucha importancia del
tamaño de la muestra.
3.2. Enfoque frecuentista de la estadística inferencial
La investigación cuantitativa requiere de herramientas estadísticas que permitan tomar decisiones

respecto a hipótesis poblacionales sobre las variables a partir de datos muestrales. Dentro de la
estadística inferencial, se pueden diferenciar principalmente dos enfoques que dan soporte
probabilístico a la comprobación de hipótesis: el bayesiano y el frecuentista. El enfoque
frecuentista ha sido la postura dominante en la investigación científica durante el siglo XX, y
no ha sido hasta los últimos años cuando la alternativa bayesiana ha empezado a ser reivindicada
en algunos sectores de investigación. La principal diferencia entre ambos enfoques es que en el
planteamiento bayesiano se tiene en cuenta información previa a la propia investigación, lo que
implica una estimación a priori de las probabilidades de las hipótesis planteadas, mientras que
en el enfoque frecuentista se limita a utilizar los datos empíricos de cada estudio particular, sin
tener en cuenta informaciones o estimaciones previas ajenas al mismo. Dado que actualmente el
9
enfoque frecuentista sigue siendo el hegemónico en la investigación en psicología actual, esta
asignatura se centrará en los métodos derivados del mismo.
Llega más lejos
Si quieres saber más acerca del enfoque bayesiano, puedes consultar este artículo
introductorio de Rendón-Macías y colaboradores (2018).
La postura frecuentista se asienta de forma singular en el desarrollo de la denominada prueba

de significación por parte de Fisher (1925), que articuló su propuesta con el fin de dar a los
investigadores una herramienta estadística que sirviera para valorar la credibilidad de una
hipótesis concreta, a partir de los datos empíricos con una lógica puramente inductivista. Poco
después, a partir de los planteamientos de Fisher, Neyman y Pearson (1933) desarrollaron su
propio procedimiento de contrastación de hipótesis estadísticas, que designaron prueba de
hipótesis. Ambos procedimientos mantienen cierta concordancia algebraica y ambos se basan
en someter a prueba la denominada hipótesis de nula, pero discrepan en la lógica subyacente del
proceso y en el alcance de las conclusiones a las que se puede llegar. A pesar de lo anterior,
ambas propuestas en los manuales contemporáneos de estadística, se integran bajo un mismo
paradigma denominado Null Hypothesis Significance Testing (NHST).
Figura 5. Paradigma NHST de estadística inferencial.
Sabías que:
Las controversias de Fisher con Neyman y Pearson no solo atañían del plano académico-
científico, sino que alcanzaba también al terreno personal. Esto hace aún más paradójica la
amalgama actual de sus posturas en el NHST. En este artículo, Rodríguez-Arias (2005)
sintetizan esta confrontación.
Aunque, del planteamiento de hipótesis complementarias de Neyman y Pearson, añade algunos

conceptos relevantes (hipótesis alternativa H1, error tipo I α, error tipo II β, potencia estadística
10
y cálculo de tamaño de muestra idóneo), el eje fundamental del NHST es el propio contraste de
hipótesis nula que propuso Fisher, por lo que, a continuación, se revisará este elemento, dentro
de la propuesta original de prueba de significación de este autor.
3.2.1. Prueba de significación de hipótesis nula
La prueba de significación de Fisher implica evaluar la verosimilitud de una determinada

hipótesis estadística (hipótesis nula), contrastando los datos descubiertos en una muestra, con
las probabilidades de una distribución teórica de referencia, que supone que en la población de
origen de esa muestra, esa hipótesis se cumple. En este punto, es importante subrayar que la
hipótesis nula que se contrasta NO es la hipótesis de estudio de los investigadores, sino un
constructo matemático que va ayudar a tomar decisiones respecto a la hipótesis de estudio, pero
que, de hecho, se suele enunciar de forma contraria a esta. Esta cuestión es tal vez la parte más
contraintuitiva del proceso, ya que la fundamentación probabilística, solo permite contrastar
estadísticamente la hipótesis de no relación o no diferencia en la población. Es decir, por este
procedimiento no podemos contrastar si es probable que dos variables están relacionadas, sino
todo lo contrario: cómo de posible es que teniendo en cuenta los datos de la muestra las dos
variables no estén relacionadas en la población.
Figura 6. Poder rechazar o no poder rechazar hipótesis nula.
El procedimiento consiste, por tanto, en estimar la probabilidad de que la diferencia o relación

observada en la muestra, en realidad, no exista en la población y, por tanto, no pueda descartarse
que lo observado se pueda deber al azar del muestreo. Fisher asigna esta probabilidad como
grado de significación o valor p, y establece que el criterio a partir del cual se puede considerar
ese valor p bajo, se debe haber establecido antes del estudio. Aunque el autor considera este
criterio flexible y no necesariamente fijo a todas las situaciones experimentales, realizó la mención
al valor de p = 0,05 como sugerencia. Si p es menor que el criterio establecido, el
experimentador podrá descartar que los resultados observados se deban al azar del muestreo,
estadísticamente significativo; si no, no podrá hacerlo y será necesario seguir investigando,
estadísticamente no significativo. Fisher advierte que el valor de significación no puede ser
utilizado como una inferencia de la probabilidad de error, en caso de repetir el estudio (solo sirve
para la toma de decisiones sobre le evidencia de este estudio particular). Por otro lado, no poder
rechazar la hipótesis nula tampoco implica aceptarla (que efectivamente la diferencia no exista
en la población), solo que con los datos del estudio actual no se puede descartar esa posibilidad.
11
Pasos del procedimiento de prueba de significación de Fisher:
1 Formular una hipótesis nula (H0) respecto a la población de origen de la muestra, las
variables no están relacionadas y/o no existe diferencia entre los grupos comparados.
2 Calcular un estadístico de contraste que recoja el grado de discrepancia con la

hipótesis nula, teniendo en cuenta los datos de la muestra y su tamaño.
3 Contrastar el estadístico con una distribución muestral teórica de referencia, que

suponga cierta la H0 para obtener grado de significación p (nivel credibilidad de
hipótesis nula).
4 Comparar con umbral de significación prefijado (cuanto más pequeño sea p menos
verosímil será la H0) con el valor p y tomar una decisión sobre la H0 (rechazar o no
poder rechazar pero aceptarla).
Independientemente del tipo de estadístico de contraste que se esté utilizando, en el momento

de obtener el grado de significación de la hipótesis nula desde la distribución teórica de referencia,
siempre es necesario calcular los grados de libertad para ese contraste (normalmente abreviado
gl). A nivel técnico, los grados de libertad se definen como el número de unidades de información
(número de observaciones), que son libres de variar en un conjunto de datos, y en el contexto
específico de la prueba de significación, se hallan restando al número de elementos, el número
de parámetros que se están estimando en el contraste. Dependiendo del tipo de variables y la
prueba, esto se concretará con el tamaño de los grupos de la muestra (n) y/o el número de
categorías/grupos que se comparan (k). Los grados de libertad determinan junto con el valor del
estadístico, las probabilidades de la distribución teórica de referencia y, por tanto, el valor p
resultante.
3.2.2. Clasificación de pruebas estadísticas de contraste de hipótesis
Aunque desde el enfoque frecuentista, el proceso de contraste de hipótesis estadísticas, de forma

general, sigue la secuencia que se ha descrito en el anterior apartado, la concreción de sus
procedimientos será diferente dependiendo del tipo de hipótesis y variables que se contemplen.
Por lo que respecta a los estadísticos de contraste y a las distribuciones teóricas de referencia,
por ejemplo no será lo mismo comparar proporciones que explorar la significación de
correlaciones. Una clasificación pragmática de pruebas de contraste, puede atender a dos
elementos clave referidos a las variables (Pardo et al., 2009): el número de variables que se
contemplan simultáneamente y la naturaleza métrica (categórica o cuantitativas) de las
variables que se analizan.
12
Figura 7. Elección de prueba de contraste de hipótesis nula.
Respecto al número de variables, es necesario realizar algunas aclaraciones terminológicas.

Aunque la estadística inferencial permite realizar estimaciones puntuales de los valores de una
única variable en la población, lo habitual en las investigaciones cuantitativas, es hipotetizar y
explorar relaciones entre dos o más variables y/o diferenciar sus valores entre dos o más
poblaciones teóricas. En este sentido, se suelen designar técnicas univariadas las pruebas que
sirven para analizar situaciones donde solo se contemple una variable dependiente-respuesta (Y)
de interés, pero en posible relación con un factor exposición o variable independiente (es decir,
que en realidad, pese a la etimología de la designación, se estudia la dependencia entre dos
variables), mientras que el término de técnica bivariada se suele reservar para las situaciones
donde se trata de relacionar dos variables de forma simétrica, sin diferenciar entre rol
independiente y rol dependiente. Por otro lado, cuando el contraste implica contemplar más de
dos variables de forma simultánea, se designa multifactorial cuando hay más de una variable
independiente o factor, y como multivariado cuando hay más de una variable dependiente o
respuesta (Catena et al., 2003). En la presente unidad, se repasarán los contrastes
univariados-bivariados, mientras que en las siguientes, ya se presentarán situaciones de
contraste multivariable (multifactorial y/o multivariado).
El otro elemento determinante para la selección del tipo de prueba de contraste es la forma en la
que están registradas métricamente las variables: categóricas o cuantitativas. Siendo además
relevante el número de categorías o niveles que tienen las variables categóricas, ya que son
las que pueden generar criterios de agrupación de los datos muestrales. En siguiente tabla, se
presentan los principales tipos contrastes en situaciones univariadas-bivariadas según este
criterio métrico.
13
Figura 8. Tipos de contraste estadísticos según la naturaleza métrica de dos variables.
3.2.3 Pruebas paramétricas/no paramétricas y supuestos poblacionales
El proceso de contraste de hipótesis estadísticas implica poder afirmar que la distribución muestral
del estadístico de contraste, se aproxima a una distribución teórica de referencia ya
especificada. Esto se traduce en que al realizar una determinada prueba estadística se debe
cumplir una serie de condiciones para que la distribución de probabilidad en la que se basará
la decisión sobre la H0 sea válida para este fin. Estos requisitos se denominan supuestos, y es
necesario explorar los datos de la muestra de forma previa al propio contraste para detectar
posibles vulneraciones de estos supuestos.
En los contrastes de hipótesis estadísticas donde se involucren variables cuantitativas, es habitual

que estos supuestos hagan referencia al tipo de distribución de la variable cuantitativa en la
población de origen de la muestra y a su varianza. Las pruebas que requieren de este tipo de
supuestos poblacionales son denominadas paramétricas por sus exigencias respecto a las
características de la población (como sucede con los contrastes de t de Student para muestras
independientes, ANOVA de un factor o r de Pearson), mientras que las pruebas estadísticas que
no requieren de este tipo de supuestos poblacionales se denominan no paramétricas (como
χ², W de Wilcoxon o Kruskal-Wallis).
14
Figura 9. Representación de distribución normal de variable.
Por defecto, las pruebas paramétricas tienen mayor potencia estadística, lo que redunda en
una mayor capacidad para poder rechazar la hipótesis nula, cuando realmente no es cierta
(valores p más bajos) y, por ello, si es posible, se debe priorizar realizar el contraste con este
tipo de pruebas. Por otro lado, las pruebas no paramétricas se deberán aplicar cuando las
variables implicadas sean todas categoriales (como χ²) o cuando se considere que las variables
cuantitativas vulneran significativamente los supuestos poblacionales vinculados a su distribución.
En este segundo caso, las alternativas no paramétricas trasformarán las variables cuantitativas
en variables ordinales para su contraste (W de Wilcoxon o Kruskal-Wallis).
Supuesto de distribución normal

El supuesto poblacional que siempre tienen las pruebas paramétricas es el supuesto de que la
variable cuantitativa en la población, sigue una distribución normal. Es importante recordar
que este supuesto hace referencia a la población y no a la muestra extraída, aunque se tenga
que estimar desde los datos de la muestra. Cuando la muestra es suficientemente grande, se
puede aceptar una aproximación satisfactoria de la distribución, sin más contrastes, a menos
que existan anomalías muy llamativas en los datos de la muestra (visualizar asimetrías muy
marcadas y valores atípicos). Para este fin, el umbral habitual de muestra grande se ubica en que
en cada uno de los grupos que se comparen tenga un mínimo de 30 sujetos.
Pero, cuando se trata de muestras pequeñas, es necesario analizar de forma más exhaustiva el
cumplimiento supuesto de normalidad. Para este fin, existen contrastes estadísticos específicos
sobre la forma de la distribución que siguen una lógica similar a los contrastes de hipótesis nula
presentados anteriormente: prueba Kolmogorov-Smirnov y prueba Shapiro-Wilk. De forma
resumida, se puede afirmar que las dos pruebas permiten contrastar la hipótesis nula de que la
muestra procede de una población distribuida normalmente (no difiere de la distribución teórica
normal):
• p pequeña (p<0,05) existe una divergencia significativa lo que pone en duda el

supuesto de que la muestra proceda de un distribución normal.
• p grande (p>0,05) no hay divergencia significativa, por lo que no se puede rechazar el
supuesto de que proceda de una distribución normal.
La prueba de Shapiro-Wilk es más potente que la prueba Kolmogorov-Smirnov cuando la

muestra es pequeña (n<30), por lo que a nivel práctico será el contraste de elección en la
mayoría de las ocasiones que se requiera realizar este tipo de análisis. Estos análisis también se
15
pueden complementar observando algunos indicadores descriptivos y gráficos de la distribución
de los datos empíricos de la muestra (Pardo y San Martín, 2010):
• Índices de asimetría y curtosis: cuanto más aleje de 0, más difieren los datos de
una distribución normal.
• Valores atípicos en diagrama de caja: son aquellos sujetos que se alejan tanto
de la distribución que se marcan con puntos por abajo o por arriba de las pestañas
del diagrama de caja.
• Gráficos Q-Q: en Q-Q normal cuando los puntos se agrupan alrededor de la línea
diagonal, los valores se aproximan a los valores esperados en una distribución
normal, mientras que en el Q-Q normal sin tendencias, las puntuaciones podrán
proceder de una población normal, si los puntos oscilan de forma aleatoria (sin
patrón) alrededor de la línea horizontal.
Pruebas de normalidad en SPSS:
➢ Analizar -> Estadísticos descriptivos ->explorar:
➢ Seleccionar en lista de dependientes: variable cuantitativa. Por ejemplo,

nivel de gravedad de sintomatología de depresión, medido con un test
psicométrico.
➢ Lista de factores: variable cualitativa. La que genera grupos a comparar.

Por ejemplo, sexo.
➢ Botón «Gráficos»-> «Gráficos con pruebas de normalidad».
➢ La salida de resultados muestra ambas pruebas de normalidad:
➢ Kolmogorov-Smirnov (si n de grupos es grande).
➢ Shapiro-Wilk (n de grupos pequeña, algunos matemáticos la señalan

como la prueba de elección).
➢ Lo relevante en el valor es comprobar el valor «sig» (que es el valor

p).
➢ Al ir por esta ruta, también se generan los principales estadísticos descriptivos de

la variable cuantitativa respecto a cada categoría, así como la representación
gráfica de la distribución de valores.
16
Figura 10. Salida de resultados de SPSS pruebas de normalidad de la variable gravedad de depresión. Fuente:
Elaboración propia con IBM SPSS Statistics Versión 21.
Supuesto de homogeneidad de varianzas

En situaciones en las que se pretenda realizar una prueba de significación que implique comparar
grupos independientes (categorías excluyentes de una variable categórica) respecto a una
variable cuantitativa, las pruebas paramétricas de elección (como la t de Student para muestra
independientes o la ANOVA de un factor), se requiere, además, del supuesto de normalidad,
cumplir también el supuesto de homogeneidad de varianzas también llamado
homocedasticidad.
Figura 11. Homocedasticidad de varianzas.
Este supuesto requiere que las poblaciones teóricas desde las que se han extraído los grupos que
se comparan tengan la misma varianza, ya que, si la variabilidad de valores no es constante entre
grupos, el estadístico de contraste perderá precisión. Además, si los grupos que se comparan no
son del mismo tamaño y/o la muestra es pequeña, la falta de homogeneidad tendrá mayor
impacto en el estadístico. Para la comprobación de este supuesto, se puede recurrir a la prueba
estadística de Levene, que contrasta la hipótesis nula de igualdad de varianzas en la población
de origen de los grupos. Aunque se puede utilizar el umbral de significación habitual de p<0,05,
hay autores que sugieren un umbral algo mayor p<0,10, por lo conservadora que resulta la
prueba en muestra reducidas (Domenech y Granero, 2013):
17
• p pequeña (p<0,05 o p<0,10) existe una diferencia estadísticamente significativa, lo
que provoca que se tenga que rechazar a hipótesis nula de igualdad de varianzas.
• p grande (p>0,05 o p>0,10) no hay divergencia significativa, por lo que no se puede
rechazar hipótesis nula de igualdad de varianzas.
En SPSS, la opción de realizar la prueba de Levene, se establece en la propia ejecución de los

estadísticos paramétricos que requieran en el supuesto de homocedasticidad (como se presentará
posteriormente), por lo que no es necesario realizarla por otras rutas de menús diferentes.
3.3. Indicadores del tamaño del efecto como complemento a las pruebas
estadísticas de contraste de hipótesis nula
Las pruebas de significación estadística reflejadas en los anteriores apartados estudian la

verosimilitud de una determinada hipótesis nula contrastándola con los datos empíricos de la
muestra. Esto sirve al investigador para tomar una decisión dicotómica (rechazar o no poder
rechazar H0) en relación con la posibilidad de si lo observado en la muestra se puede deber al
azar del muestreo. Fisher planteó este tipo de pruebas como una herramienta más en el proceso
de investigación científica para este punto específico de la inferencia inductiva. Sin embargo,
posteriormente se llegaron a generalizar una serie de interpretaciones erróneas del significado
del valor p en la comunidad científica que han desvirtuado su propuesta original (Nuzzo, 2014).
Fundamentalmente, se pueden señalar dos errores recurrentes que evitar:
• El rechazo de la H0 (resultado de contraste estadísticamente significativo) no implica

necesariamente que se demuestra la causalidad entre las variables analizadas. De hecho,
esta cuestión atañe más bien a la validez del propio diseño de investigación.
• El valor p no es una medida de la magnitud de las relaciones entre las variables o las
diferencias entre grupos. Por ejemplo, una diferencia minúscula entre grupos puede llegar
a resultar estadísticamente significativa, ya que solo indica que esa diferencia no se debe
al azar del muestreo.
Otro elemento relevante a la hora de interpretar correctamente los resultados de las pruebas de
significación es la gran influencia en estos procedimientos que tiene el tamaño de la muestra.
El número de sujetos (n) del estudio particular afecta a los estadísticos de contraste a través del
error estándar. El error estándar se entiende como la desviación estándar de un determinado
estadístico en su distribución muestral teórica, pero, al ser desconocido este dato, se estima a
partir de la varianza empírica y el tamaño de la muestra concreta de estudio. Cuanto mayor sea
el tamaño muestral, menor será el error estándar, por lo que una misma magnitud de diferencia
o relación puede resultar significativa en una muestra pequeña, pero sí estadísticamente
significativa en una muestra más grande.
18
Nota
Al margen de la justificación algebraica y probabilística del efecto del tamaño muestral sobre
la prueba de significación, de forma intuitiva se puede entender que, cuanto más parte de la
población se incluya la muestra de estudio, menos nos estamos arriesgando al realizar
inferencias sobre esta (el fragmento se parece más a la totalidad).
En los últimos años, en el ámbito académico, se ha señalado que, pese a la popularidad de las
pruebas estadísticas del paradigma NHST, la información cuantitativa que estas reflejan puede
ser insuficiente o limitada para poder llegar a conclusiones de relevancia práctica, por lo que se
han sugerido algunas medidas adicionales para complementar los resultados de estos análisis,
en los informes científicos, entre las que se destacan, indicadores que sí señalen la magnitud de
los resultados de forma específica. De hecho, este tipo de elementos, son cada vez más
frecuentemente exigidos en las revistas científicas contemporáneas (American Psychological
Association APA, 2008; 2010; International Committee of Medical Journal Medical Journal Editors,
2019; National Center for Education Statistics, 2002).
Para este fin, una de las principales estrategias complementarias es el cálculo de los denominados
índices de tamaño del efecto. Estos índices son el resultado de estandarizar o normalizar el
efecto (diferencia o relación) encontrado en los datos del estudio (con los estadísticos descriptivos
de la muestra). De forma genérica, estos tienen la ventaja de poder establecerse en una escala
común independiente al tipo de medida utilizado en el estudio particular y a su tamaño muestral.
También es destacable la posibilidad de transformación matemática de un tipo de índices de
tamaño del efecto en otros. Todo esto facilita la realización de estudios de revisión sistemática
(de investigaciones de diseños equivalentes) y es indispensable para realizar análisis
metaanalíticos.
Figura 12. Homocedasticidad de varianzas.
Existen diferentes estrategias para obtener esta estandarización de las magnitudes, pero se
pueden destacar principalmente tres categorías: los basados en la normalización de las
diferencias entre grupos (como d de Cohen), los que se concretan en coeficientes de
correlación (r de Pearson) y los que son ratios sobre datos categoriales (como odd ratio). Los
dos primeros son los más frecuentes en el ámbito de la psicología, mientras que los terceros
19
son más frecuentes en el ámbito de la biomedicina. Estos indicadores tratan de cuantificar la
fuerza del fenómeno estudiado en los datos muestrales en una escala numérica reducida (la
mayoría entre 0 y 1). En la psicología, han sido especialmente influyentes los desarrollos de
Cohen (1988) al respecto que estableció además umbrales orientativos para interpretar este
tipo de índices en el contexto de las ciencias sociales.
En los siguientes apartados, junto con las pruebas estadísticas específicas, se sugerirán índices
de tamaño del efecto adecuados para complementar esos contrastes.
3.4. Relación entre dos variables categóricas: prueba χ² de Pearson
La prueba χ² de Pearson, también denominada ji-cuadrado o chi-cuadrado (esta última

denominación es como le identifica en el SPSS), es una prueba no paramétrica que permite
analizar de forma inferencial, la relación entre dos variables categóricas. Para poder
representar de forma descriptiva esta relación, es necesario recurrir a las denominadas tablas
de contingencia. Estas tablas son tablas de frecuencias conjuntas que cruzan las categorías de
ambas variables, presentando en cada casilla de intersección el número de sujetos que presentan
esas dos categorías «frecuencias conjuntas» y en las casillas externas los totales de cada fila y
columna de la tabla «frecuencias marginales». Lo que se pone a prueba con esta prueba es la
independencia entre ambas variables (hipótesis nula), es decir, si el comportamiento de una de
ellas no es afectado por los valores de la otra variable. En la tabla de contingencia, esta
independencia se traduce a que las frecuencias conjuntas observadas estén determinadas por sus
frecuencias marginales y no por la interacción entre ambas variables. La discrepancia entre las
frecuencias teóricas esperadas según la distribución de las marginales (total fila x total columna/
total de sujetos) y la frecuencia real observada en la muestra puede evidenciar cierto grado de
asociación entre variables y por tanto, ser una prueba en contra de la independencia entre ambas.
A esta diferencia entre las frecuencias observadas y las esperadas se le denomina residuos.
Por ejemplo, si en una muestra de adultos jóvenes con antecedentes penales, quisiéramos
comprobar si existe relación entre el sexo del sujeto (hombre/mujer) y la gravedad de los delitos
cometidos (leves, moderadamente graves y graves), podríamos obtener la siguiente tabla de
contingencia.
Figura 13. Tabla de contingencia de ejemplo entre sexo y gravedad de delito.
20
3.4.1. Prueba de contraste de hipótesis nula con χ² de Pearson
El estadístico chi-cuadrado computa todos los residuos de las casillas de intersección, para
comprobar si esta discrepancia es estadísticamente significativa y comprobar si se puede rechazar
la hipótesis nula de independencia entre variables que se enuncia formalmente como H0 = las
distribuciones condicionales de las ambas variables a sus respectivas distribuciones
marginales. El estadístico será más elevado cuanta más discrepancia exista, y para hallar el valor
p, se contrastará con una distribución teórica de referencia χ² con los grados de libertad
resultantes de multiplicar el número de categorías menos de una variable por el número de
categorías menos uno de la otra, interpretándose el resultado de P (sig. asintótica bilateral en
SPSS):
• p pequeña (p<0,05) existe una discrepancia estadísticamente significativa, lo que

posibilita rechazar la hipótesis nula de independencia entre variables.
• p grande (p>0,05) la discrepancia no es estadísticamente significativa por lo que no
se puede rechazar hipótesis nula de independencia con los datos de la muestra.
Si el resultado es estadísticamente significativo, también será relevante reflejar la intensidad de

la asociación con un indicador de tamaño del efecto. El estadístico χ² no sirve directamente para
este fin, ya que su magnitud aumenta también con el número de sujetos de la muestra, por lo
que se tiene que recurrir a indicadores que apliquen algún tipo de corrección que tengan en cuenta
este hecho. Aunque existen diversas alternativas, la más flexible y fácil de interpretar es el
coeficiente V de Cramer, que es un indicador que se ubica entre 0 (ninguna relación) y 1
(relación perfecta), considerando el umbral 0,50 como relación moderada y el umbral 0,70 como
alta.
Aunque la prueba χ² no requiere de supuestos poblacionales, sí tiene para su uso un importante

supuesto respecto a las datos muestrales. Para que el estadístico se ajuste bien a la distribución
de referencia, es necesario contar con una muestra lo suficientemente grande para que las
frecuencias esperadas de las frecuencias conjuntas (casillas internas de la tabla de
contingencia), sean iguales o mayores que 5. Se puede llegar aceptar un 20 % de casillas con
una frecuencia esperada menor que 5, pero no menos (este el criterio que señala el SPSS si no
se cumple), por lo que, si no se cumple esta condición, será necesario recurrir a la alternativa del
estadístico exacto de Fisher (con valor p en «sig. exacta bilateral»), aunque una alternativa más
aconsejable en caso de tener muchas categorías por variable es agrupar los datos en menos
categorías.
21
3.4.2. Ejecución de χ² de Pearson en SPSS
Prueba Chi cuadrado en SPSS:
➢ Analizar -> Estadísticos descriptivos -> Tablas de contingencia:
➢ Seleccionar para filas una de las variables categoriales y para columnas la otra
variable categorial.
➢ Botón «Estadísticos» -> marcar: «Chi-cuadrado» y «Phi y V de Cramer».

«Continuar».
➢ Botón «Casillas» marcar: «Observado», «Esperado» y «Residuos no

tipificados». «Continuar». Opcionalmente «Porcentajes Fila» y
«Porcentajes columna» para contrastar probabilidades.
➢ Aceptar y comprobar valores p (sig.) del contraste y tamaño del efecto.
Figura 14. Salida de resultados de SPSS prueba chi cuadrado situación extrema de independencia sexo y psicopatología.
Fuente: Elaboración propia con IBM SPSS Statistics Versión 21.
22
3.5. Comparación de dos medias: Pruebas t de Student
Las pruebas t de Student sirven para comparar dos medias, concretamente, para realizar
contrastes respecto a la diferencia entre esas dos medias. Las medias necesariamente tienen
que realizarse sobre una variable cuantitativa. En esta comparación de dos medias se pueden
dar dos situaciones diferentes:
• Muestras independientes: las dos medias que se comparan son de dos grupos de
sujetos diferentes, es decir, o que pertenecen a un grupo o a otro de forma excluyente
(en una categoría u otra), por lo que se contrasta la relación entre una variable cuantitativa
y una variable categorial dicotómica.
• Muestras relacionadas: las dos medias que se comparan son del mismo grupo (los
mismos sujetos), pero en momentos diferentes, de forma que el factor en esta
circunstancia se limita a componerse de dos momentos diferentes de medida (en términos
de paso por diferentes condiciones experimentales o de seguimiento temporal). Lo que se
comprueba, es la existencia de cambio en la variable cuantitativa entre los dos momentos.
Ejemplo de diferencias entre t muestras relacionadas y t muestras independientes:
Si quisiéramos comprobar si una intervención psicoeducativa mejora el nivel de asertividad

(medidos en términos cuantitativos) en una muestra de adolescentes agresivos, podríamos
plantear el contraste de las medias del grupo intervenido, con respecto a la media de un
grupo control equivalente no intervenido después de la intervención del grupo experimental.
En esta primera comparación, en realidad contrastamos la variable cuantitativa asertividad
con la variable dicotómica tratamiento (no intervenido/sí intervenido), en una situación que
se considera de muestras independientes respecto a la prueba t.
Pero, si en vez de usar un grupo control, lo que se plantea es comparar el promedio grupal
preintervención con el promedio grupal posintervención del mismo grupo, los mismos sujetos
habrán sido medidos en la condición sin intervención (antes) y con intervención (después),
y nos encontraríamos en una situación que desde la prueba t se denomina de muestras
relacionadas.
3.5.1. Prueba de contraste de hipótesis nula con t de Student
La prueba t es una prueba paramétrica independientemente de la situación, por lo que siempre

requiere del supuesto poblacional de distribución normal de la variable cuantitativa. Como se
ha comentado anteriormente, si los grupos que se comparan alcanzan el umbral de 30 sujetos y
no muestran una distribución muy anómala en la muestra, se podrá asumir una correcta
aproximación sin contraste estadístico. Pero si la muestra es más pequeña, sí se tendrá que
comprobar el supuesto como se ha explicado anteriormente, y, si este contraste resulta
estadísticamente significativo, lo correcto será recurrir a las alternativas no paramétricas robustas
basadas en ordenaciones señaladas en la siguiente tabla:
23
Tabla 1. Situaciones de t de Student para comparar dos medias y sus alternativas no paramétricas.
Por otro lado, la t de Student para muestras independientes requiere un supuesto poblacional
adicional que es la homogeneidad de varianzas. La prueba de Levene referida anteriormente
es necesaria para contrastar este supuesto y si esta resulta estadísticamente significativa será
necesario realizar algunos ajustes (corrección de grados de libertad) para poder realizar el
contraste con el estadístico t.
La hipótesis nula se concreta en los dos tipos de contraste t, como la no diferencia o el no

cambio entre medias en la población, siendo en ambos casos, la esperanza matemática (el
promedio) de distribución muestral de referencia igual a 0 (H0), pero la lógica teórica subyacente
es algo diferente en cada una. En una situación de muestras independientes los grupos se
suponen (para el contraste) extraídos de dos poblaciones cuyas medias son iguales, mientras que
en muestras relacionadas las dos medidas, se suponen extraídas de una misma población donde
no existe cambio. Esta cuestión matiza algunas importantes diferencias procedimentales en su
cómputo e interpretación pese a los evidentes paralelismos.
Muestras independientes Muestras relacionadas
Estadístico de contraste t Diferencia entre las dos Media de las diferencias entre
medias dividido un error los dos momentos (coincide
estándar. con la diferencia de medias)
dividido un error estándar
Error estándar Calculado a partir de las Calculado a partir de la

varianzas de la variable varianza de las diferencias
cuantitativa en los dos grupos entre ambos momentos y el
y sus respectivos tamaños (n1 tamaño de la muestra (n).
+ n2)
Contraste con distribución Asumiendo varianzas iguales:

teórica de referencia t con Grados de libertad = la suma
grados de libertad del número de sujetos de
ambas muestras menos 2. Grados de libertad = número
de sujetos de la muestra
No asumiendo varianzas
menos 1.
iguales: Grados de libertad =
aplicación de corrección que
implica en su cómputo
24
también la varianzas de
ambos grupos.
Conclusión prueba de p pequeña (p<0,05) existe una diferencia estadísticamente

significación significativa entre lo que posibilita rechazar la hipótesis nula.
p grande (p>0,05) la diferencia no es estadísticamente

significativa por lo que no se puede rechazar hipótesis nula.
Tabla 2. Procedimientos de comparación de medias con muestras independientes y muestras relacionadas. Fuente:
Elaboración propia
Nota
El SPSS no calcula directamente la d de Cohen, pero sí ofrece los datos necesarios para
poder hacerlo de forma externa al programa. Aunque las fórmulas no son muy complejas se
puede recurrir a calculadoras online de tamaño del efecto como esta.
La significación de la prueba t no se puede interpretar como un indicador de la magnitud de la

diferencia, ya que lo que realmente refleja es la posibilidad de que las diferencias encontradas en
la muestra se deban al azar del muestreo y no que estas sean más grandes o más pequeñas.
Para esta cuestión se propuso el indicador del tamaño del efecto d de Cohen (1988). Este
indicador pretende estandarizar las diferencias de medias (anulando la unidad de medida
particular de la variable en el estudio) para expresar la magnitud de la diferencia en número de
desviaciones estándar, por lo que la propuesta original es bastante parsimoniosa y consiste en
dividir la diferencia de las medias dos grupos entre una estimación de la desviación estándar de
la variable cuantitativa en los dos grupos. Sin embargo, el cálculo de esa desviación estándar
conjunta puede variar dependiendo de si los grupos son del mismo tamaño o no, o de si se trata
de una situación de muestras independiente o de medidas repetidas. Por eso, los índices de
tamaño del efecto g de Hedges y delta de Glass no dejan de ser ampliaciones o correcciones
de la d de Cohen original para su aplicación en diferentes circunstancias. Al contrario que otros
indicadores de tamaño del efecto, la d de Cohen es un valor que puede resultar mayor que 1,
aunque los umbrales generales que propuso Cohen para su interpretación estén ubicados por
debajo de la unidad: 0,20 (diferencia pequeña), 0,50 (diferencia moderada) y 0,80 (diferencia
grande).
25
3.5.2. Ejecución de t de Student en SPSS
Prueba t de Student de muestras independientes en SPSS:
➢ Analizar- Comparar medias- Prueba T para Muestras independientes:
➢ Variables para contrastar: seleccionar variable cuantitativa (medias).
➢ Variable de agrupación: seleccionar variable categórica (grupos).
➢ Botón «Definir grupos»: numerar tal y como lo tenemos codificado en la base

de datos a las dos categorías de la variable categorial que queremos comparar.
➢ Aceptar y visualizar salida de resultados: elegir una fila u otra de la prueba t

según resultado de prueba de Levene (primera fila si sig. de Levene es p>0,05,
segunda fila si sig. de Levene p< 0,05). Después solo consultar sig. (bilateral)
de la prueba t de la fila que le corresponde para concluir significación o no.
➢ Alternativa no paramétrica (no poder asumir supuesto de normalidad):
➢ «Analizar»- «Pruebas no paramétricas»-(cuadros de diálogo antiguos)- 2

Muestras independientes.
➢ Lista de contraste y variable de agrupación igual que con t. Tipo de prueba: U de

Mann-Whitney.
➢ Salida de resultados: fijarse en sig. asintótica bilateral (valor p), pero no

interpretar rango promedio como medias (aquí se utilizan trasformaciones
ordinales no medias).
Figura 15. Salida de resultados de SPSS de prueba t de Student muestras independientes diferencias sexo respecto a
depresión. Fuente: Elaboración propia con IBM SPSS Statistics Versión 21.
26
Prueba t de Student para muestras relacionadas en SPSS:
➢ Analizar -> Comparar medias -> prueba T para muestras relacionadas:
➢ En «Variables emparejadas»: seleccionar como variable 1 la primera medida de

la variables cuantitativa y como variable 2 la segunda medida.
➢ Aceptar y visualizar salida de resultados: comprobar sig. (bilateral) en la tabla

de prueba t (que se corresponde con el valor p).
➢ Analizar-> Pruebas no paramétricas (cuadros de diálogo antiguos) 2

Muestras relacionadas.
➢ En «Contrastar pares» seleccionar las dos medidas igual que con t. Tipo
de prueba: Wilcoxon.
➢ Salida de resultados Fijarse en sig. asintótica bilateral (valor p), pero

no interpretar rangos como medias (aquí se utilizan trasformaciones
ordinales no medias).
3.6. Análisis de la varianza: ANOVA de un factor
El análisis de la varianza (ANOVA por su acrónimo en inglés) es una técnica general que permite
estudiar la relación de uno o más factores (variables categóricas), con una o más variables
cuantitativas. Dada la flexibilidad de esta estrategia de análisis, existe gran diversidad de
modelos de ANOVA que se ajustan a diferentes necesidades de diseño experimental. En la
siguiente unidad (Unidad didáctica 4), se plantearán más permutaciones del marco general de
ANOVA, pero en este apartado solo se presentará brevemente su planteamiento más simple:
ANOVA de un factor.
En este sentido el ANOVA permite dar respuesta las situaciones en las que se pretende contrastar
hipótesis sobre diferencias de promedios grupales entre más de dos grupos (y por tanto, ya no
se podría usar la t de Student), lo que implica estudiar la relación entre una variable categorial
(factor) de más de dos categorías y una variable cuantitativa. Como no es posible comparar
directamente las medias de los grupos mediante la simple diferencia entre ellas, lo que se podrá
hacer, es realizar la comparación desde sus varianzas. Para ello, se contrastan dos tipos
estimaciones de la varianza poblacional, que representan las dos fuentes potenciales de la
variabilidad total de las puntuaciones de los sujetos:
• Intragrupo o residual: que asume que las muestras extraídas (grupos en el análisis),
provienen de poblaciones con una misma varianza y, por tanto, su estimación se puede
realizar a través de una media ponderada de las varianzas particulares de cada grupo. Y sobre
la que no influyen las posibles diferencias entre diferentes niveles del factor y, por eso, se
denomina residual o no explicada (por el factor).
• Intergrupos o explicada: que asume que las muestras extraídas provienen de una
población que no solo tiene la misma varianza, sino también la misma media, por lo en
27
realidad se puede suponer que los grupos provienen de una única y misma población. Por ello,
la estimación de la varianza se realiza a partir de las medias de los grupos en la que influyen
las diferencias de promedios entre las diferentes categorías, por lo que se denomina explicada
(por el factor).
Estas estimaciones, se concretan a nivel procedimental en el cálculo de la media cuadrática

entre grupos para la fuente intergrupo-explicada «MSg» y media cuadrática residual o error
para la fuente intragrupo-residual «MSr». Si MSg y MSr se calculan a partir de los datos de
muestras que provienen de una misma población (misma media y misma varianza), sus valores
serán muy parecidos. Pero si MSg y MSr se calculan en muestras que han sido extraídas de
poblaciones con distintas medias, el valor de MSs será mayor que el de MSr, ya que en este caso,
estará reflejando también la variabilidad debida a las diferencias entre categorías en la población.
Figura 16. Relación de conceptos elementales de un ANOVA de un factor. Fuente: Elaboración propia.
3.6.1. Prueba de contraste de hipótesis nula con ANOVA de un factor
De esta forma, para contrastar la hipótesis nula de igualdad de medias (origen teórico común de
los grupos) en la población, se podrá calcular el estadístico F, que es el resultado del cociente
entre MSg y MCr. Cuanto más se aleje F de la unidad, mayor será la discrepancia de los datos
con la H0. Para contrastar que las posibles discrepancias observadas entre MSg y MCr sean
debidas al azar del muestreo y no a diferencias reales en la población, se contrastará el estadístico
F con la distribución teórica de referencia F de Snedecor, pero atendiendo a dos cifras diferentes
de grados de libertad (que son también los denominadores de las dos medias cuadráticas):
categorías de la variable categorial menos uno y número de sujetos total de la muestra de estudio
(de todos los grupos) menos el número de categorías de la variable categorial. Con el valor p
resultante se concluirá que:
p pequeña (p<0,05) de forma global se constatan diferencias estadísticamente significativas

entre los grupos, por lo que se puede rechazar la hipótesis nula, aunque no se puede señalar
aún entre qué categorías existen diferencias (como mínimo entre dos categorías).
p grande (p>0,05) las diferencias no son estadísticamente significativas, por lo que no se puede
rechazar hipótesis nula de no diferencias de medias en la población.
Como el valor del estadístico F no depende únicamente la magnitud de la relación entre factor y
variable cuantitativa, no es un indicador valido del tamaño del efecto. Para ello, Pearson y Fisher
28
propusieron un índice que expresa el grado de asociación entre ambas variables, denominado
eta-cuadrado. Este indicador consiste en dividir la variabilidad intergrupo entre la cuantificación
de la variabilidad total (para su cómputo se utilizan los numeradores de las medias cuadráticas
llamados suma de cuadrados) y puede interpretarse como la proporción de varianza que
comparten ambas variables. El eta-cuadrado que se puede solicitar en SPSS se denomina eta al
cuadrado parcial, y cuando solo hay un factor (como es el caso), es equivalente a la propuesta
original. Según los umbrales de Cohen (1988), un valor de eta cuadrado igual o superior 0,14 se
puede considerar una magnitud elevada, mientras que uno que alcance el umbral de 0,06 se
puede considerar moderado.
La prueba ANOVA de un factor es una prueba paramétrica y como tal tiene dos supuestos
poblacionales para poder realizar el contraste con la distribución teórica de referencia: distribución
normal de variable cuantitativa y homogeneidad de varianzas. La prueba ANOVA se ve mucho
más afectada por el no cumplimiento del supuesto de homogeneidad de varianzas que el de la no
normalidad, pero aun así, para muestras pequeñas será necesario tenerlo en cuenta. Respecto al
contraste de igualdad de varianzas, la prueba de Levene en SPSS se puede solicitar al mismo
tiempo que la prueba ANOVA (véase más abajo). Ante el incumplimiento de alguno de los dos
supuestos, se puede recurrir a pruebas robustas alternativas, tal y como muestra la siguiente
tablas.
Supuesto poblacional no cumplido Alternativa a prueba con estadístico F
Distribución normal Prueba no paramétrica Kurskal-Wallis
Homogeneidad de varianzas Modificaciones de estadístico F: Welch o Brown-

Forsythe.
Tabla 3. Alternativas de contraste de hipótesis nula ante cumplimiento de supuestos ANOVA de un factor.
La prueba de significación realizada con el estadístico F contrasta una hipótesis nula global,
respecto al conjunto de medias de todas las categorías de la variable categorial, es decir, su
rechazo permite concluir que no todas las medias poblacionales son iguales, pero no permite
concretar qué medias son las que difieren de otras. Así que después de rechazar esta H0 general,
todavía falta aclarar dónde se encuentran esas diferencias. Sin embargo, sería un error
metodológico importante simplemente comparar los pares de categorías por separado mediante
varias pruebas t de Student de muestras independientes, ya que este tipo de comprobaciones
múltiples aumentan la probabilidad de rechazar la H0 cuando esta es falsa (error tipo I según
Neyman y Pearson). Para este propósito, existen una serie de pruebas agrupadas en lo que se
denomina contrastes a posteriori o comparaciones post hoc (como se las denomina en el
SPSS), que tienen en cuenta la situación de comparación múltiples para realizar los contrastes.
Aunque existen varias opciones, se pueden destacar que, para explorar todas la posibles
diferencias, son recomendables (Pardo y San Martín, 2010) los procedimientos de Tukey y
Sheffé, aunque estos asumen el supuesto de homogeneidad de varianzas, por lo que, si este no
se cumple, será necesario recurrir a alternativas como Games-Howell y T3 de Dunnet. La
interpretación de estos análisis es sencilla: ubicar qué pares de categorías se comparan y su valor
p (Sig. en SPSS) para comprobar si la diferencia entre los dos grupos es estadísticamente
significativa (p<0,05).
29
3.6.2. Ejecución de ANOVA de un factor en SPSS
Prueba de ANOVA de un factor en SPSS:
➢ Analizar -> Comparar Medias -> ANOVA de un factor:
➢ Lista de dependientes: seleccionar variable cuantitativa.
➢ Factor: seleccionar variable categórica (la que genera los grupos).
➢ Botón «Opciones»: «Descriptivos»; «Prueba de homogeneidad de varianzas

(Levene)»; «Brown-Foresythe y Welch» (por si Levene es p>0,05).
➢ Botón «Post hoc»: «Tukey», «Scheffe» y alternativas (si Levene es p>0,05)

«Games-Howell» y «T3 de Dunnet».
➢ Aceptar y visualizar salida de resultados: comprobar Sig. (valor p) en los

contrastes mostrados.
➢ Para cálculo de tamaño del efecto eta al cuadrado, ejecutar ANOVA desde: Analizar
-> Modelo lineal general -> Univariante -> Seleccionar «Variable dependiente»
(variable cuantitativa) y «Factor fijo» (variable categorial) -> Botón «Opciones» ->
Seleccionar «Variable categorial»- Marcar «Estimaciones del tamaño del
efecto». En vista de resultados mirar tabla de ANOVA, la fila que se corresponde
con «Modelo y pie de tabla para eta2».
➢ Analizar-> Pruebas no paramétricas -> (cuadros de diálogo antiguos) -> k

muestras independientes-> Seleccionar variable cuantitativa en «Lista
Contrastar variables» -> Seleccionar variables agrupación (categoría) y
marcar rango de puntuaciones de las categorías en la base de datos-> Tipo
de prueba H de Krukal-Wallis-Aceptar.
➢ Salida de resultados Fijarse en sig. asintótica bilateral (valor p), pero no

interpretar rangos como medias.
30
Figura 12: Salida de resultados de SPSS prueba ANOVA de un factor para diferencias según gravedad antecedentes
delictivos (variables categorial) respecto a nivel apoyo percibido (variable cuantitativa). Fuente: Elaboración propia con
IBM SPSS Statistics Versión 21.
Figura 17. Salida de resultados de SPSS análisis post hoc por prueba Tukey de ANOVA de figura 8. Fuente: Elaboración
propia con IBM SPSS Statistics Versión 21.
31
3.7. Correlación bivariada: Coeficiente r de Pearson
El coeficiente de correlación rxy de Pearson es en sí mismo un indicador de tamaño del

efecto de la relación entre dos variables cuantitativas, independiente de las unidades de
medida en las que fueron registradas. Su propiedad fundamental, es expresar la relación lineal
entre dos variables cuantitativas, con valores que siempre oscilan entre +1 y -1, siendo +1 una
asociación lineal perfecta (cuando una variable aumenta, la otra lo hace en la misma
medida); −1, una asociación negativa lineal perfecta (cuando una variable aumenta la
otra disminuye en la misma medida), y 0 la ausencia de relación lineal (aunque puede
existir otro tipo de relación). Su cálculo consiste en estandarizar la covarianza de las dos
variables. Es importante comprender que este coeficiente indica la fuerza de la relación de forma
simétrica entre ambas variables, es decir, no establece el efecto de una sobre la otra. Por ejemplo,
con este indicador se podría expresar la magnitud de la correlación entre dos variables con los
datos recogidos sobre las variables cuantitativas apoyo social percibido y asertividad, pero no que
el cambio de una provoca el cambio de la otra (no se expresa direccionalidad de esa relación).
La interpretación del coeficiente de correlación es sencilla, existirá una mayor intensidad de

relación cuanto más se aleje el coeficiente de 0 hacia 1 o −1. Basándose en la observación de
las investigaciones en ciencias sociales y en sus tamaños del efecto, Cohen (1988) propone que
un valor igual o inferior a +0,1 sea considerado bajo o de débil relación, un valor de entre +0,3
y +0,5 sea considerado moderado o medio, y que un valor superior a +0,5 sea considerado un
alto grado de relación. Esta relación lineal entre las dos variables se puede llegar a constatar
incluso gráficamente si representan la función de las puntuaciones de ambas variables.
Figura 18. Representación gráfica de diferentes estados de correlación lineal entre dos variables cuantitativas. Fuente:
Elaboración propia.
3.7.1. Prueba de contraste de hipótesis nula con coeficiente r de Pearson
Para contrastar la H0 de no relación de las variables se puede calcular un estadístico t de

contraste a partir del coeficiente rxy, teniendo en cuenta además el tamaño de la muestra. Este
estadístico se contrasta con una distribución teórica de referencia que sigue el modelo t de
Student con tantos grados de libertad como sujetos de la muestra menos 2. Con el valor p
(significación) resultante se concluirá que:
• p pequeña (p<0,05) la relación lineal es estadísticamente significativa, por lo que se

puede rechazar la hipótesis nula de no relación en la población.
32
• p grande (p>0,05) las relación lineal no es estadísticamente significativa, por lo que
no se puede rechazar hipótesis nula de no relación en la población.
El coeficiente rxy de Pearson y su correspondiente prueba de contraste de H 0 son pruebas

paramétricas, que suponen distribución normal de las distribuciones poblacionales de ambas
variable cuantitativas. Como en anteriores estadísticos, la comprobación de este supuesto va
perdiendo a medida que el tamaño de la muestra es más elevado. En caso de contar con una
muestra pequeña y no cumplirse el supuesto de normalidad, lo adecuado será utilizar una
alternativa no paramétrica como el coeficiente Rho de Spearman, cuya interpretación es
similar a la rxy de Pearson, aunque considerando las variables como ordinales en vez de
cuantitativas.
3.7.2. Ejecución de correlación r de Pearson en SPSS
Correlación r de Pearson en SPSS :
➢ Analizar-> Correlaciones -> Bivariadas:
➢ «Variables»: seleccionar variables cuantitativas que correlacionar.
➢ «Coeficiente de correlación»: seleccionar «Pearson».
➢ Aceptar y visualizar salida de resultados: comprobar en intersección de las

dos variables sig. bilateral (valor p.) y correlación de Pearson (tamaño del
efecto).
➢ Alternativa no paramétrica (no poder asumir supuesto de normalidad): misma

ruta que r de Pearson, pero marcar en «Coeficiente de correlación» «Spearman».
33
Figura 19. Salida de resultados de SPSS correlación r de Pearson entre apoyo social y asertividad, y representación
gráfica de relación. Fuente: Elaboración propia con IBM SPSS Statistics Versión 21.
34
Resumen
La disciplina matemática de la estadística provee de herramientas al investigador para resumir,

organizar y sacar conclusiones sobre los datos registrados en las investigaciones
cuantitativas. En su faceta descriptiva permite caracterizar con indicadores numéricos y de
forma agregada las variables de interés de las muestras. Pero su mayor interés para el científico,
radica en su faceta inferencial que permite realizar conclusiones inductivas desde las muestras
de estudio a su población de origen. Para ello, se vale de los principios y desarrollos de la teoría
de la probabilidad. A través de ciertas herramientas y conceptos estadísticos (distribución de
probabilidad muestral, distribuciones teóricas y error estándar, etc.), el investigador puede tomar
decisiones sobre hipótesis poblacionales con los datos recogidos.
Aunque existen otros enfoques inferenciales en la estadística (como el bayesiano), en el área de

la investigación en psicología, sigue siendo hegemónica la postura denominada frecuentista o
clásica y su paradigma de Null Hypothesis Significance Testing (NHST). El eje de este
enfoque es el contraste de hipótesis nula. Esta es una hipótesis estadística (que no de estudio),
que recoge la posibilidad de la no existencia de diferencia o relación entre variables en la población
de origen de la muestra de estudio, no pudiendo rechazar la posibilidad de que las relaciones
observadas en la muestra se deban al azar del muestreo.
Para contrastar esta hipótesis con los datos de estudio, se disponen de diferentes pruebas de
contraste con sus respectivos estadísticos, dependiendo de la naturaleza de las variables
implicadas. Existen pruebas que requieren del cumplimiento de una serie de supuestos
poblacionales (paramétricas) y pruebas que no tienen esos requisitos poblacionales (no
paramétricas), siendo los más habituales los supuestos de normalidad de distribución e
homogeneidad de varianza, de las variables cuantitativas en la población. Estos estadísticos
sirven para contrastar la discrepancia de los datos con la hipótesis nula, pero no son adecuados
para informar de la magnitud de las relaciones y diferencias, ya que están muy condicionados por
el tamaño muestral. Para este fin, se han desarrollaron los llamados indicadores de tamaño del
efecto que son complementarios a las pruebas de significación y que actualmente, se exigen
también para la publicación de informes científicos. Los contrastes univariados-bivariados
reflejados en la unidad se pueden resumir en la siguiente tabla:
Situación Estadístico/prueba Alternativas Tamaño del efecto
Relacionar dos Prueba χ² de Pearson Prueba exacta de V de Cramer.

variables categoriales Fisher
Relación variable T de Student. D de Cohen.

cuantitativa con
- Muestras - U de Mann-Whitney.
factor dicotómico
independientes.
- W de Wilcoxon.
- Muestras
relacionadas.
35
Relación variable ANOVA de un factor: - Kurskal-Wallis. Eta al cuadrado.
cuantitativa con Estadístico F
- Welch.
variable categorial
politómicas. - Brown-Forsythe.
Relacionar dos Correlación r de Rho de Spearman. R de Pearson.

variables Pearson: estadístico T
cuantitativas. a partir de r.
Tabla 4. Resumen de pruebas de contraste de hipótesis nula recogidas en la unidad. Fuente: Elaboración propia.
36
Mapa de contenidos
37
Recursos bibliográficos
Bibliografía básica
Cohen, J. (1988). Statistical power analysis for the behavioral sciences. Erlbaum.
Domenech, J. M. y Granero, R. (2013). Fundamentos del diseño y estadística. Volumen 7.

Comprobación de hipótesis: Pruebas de significación, pruebas de hipótesis y tamaño de grupos.
Signo.
Elorza, H. (2008). Estadística para la ciencias sociales, del comportamiento y de la salud (3ª
ed.). Cengage Learning.
Fisher, R. A. (1925). Statistical methots for research workers. Oliver and Boyd.
Pardo, A. y San Martín, R. (2010). Análisis de datos en ciencias sociales y de la salud (vol. 2).
Editorial Síntesis.
Pardo, A., Ruiz M. A. y San Martín, R. (2009). Análisis de datos en ciencias sociales y de la
salud (vol. 1). Editorial Síntesis
Bibliografía complementaria
American Psychological Association. (2008). Reporting Standards for Research in Psychology.

American Psychologist, 63(9), 839-851. 10.1037/0003-066X.63.9.839
Catena, A., Ramos, M. M. y Trujillo, H. M. (2003). Análisis multivariado. Un manual para

investigadores. Biblioteca Nueva.
National Center for Education Statistics. (2002). NCES statistical standards. U.S. Department
of Education.
Neyman, J. y Pearson, E. S. (1928). On the problema of the most efficient test of statistical
hypotheses. Philosophical transactions of the royal society: Mathematical, Physical and
Engineering Science, 231(694-706), 289-337. https://doi.org/10.1098/rsta.1933.0009
Nuzzo, R. (2014). Statistical errors. P value, the “gold standard” of statistical validity, are not
as reliable as many scientists asume. Nature, 506(7487), 150-152.
https://doi.org/10.1038/506150a
Otros recursos
International Committee of Medical Journal Medical Journal Editors. (2019). Recommendations

for the conduct, reporting, editing and publication of scholarly work in medical Journals.
http://www.icmje.org/icmje-recommendations.pdf
Lenhard, W. y Lenhard, A. (2016). Calculation of Effect Sizes. Psychometrica.

https://www.psychometrica.de/effect_size.html.
Calculadora online de tamaños del efecto.
Rendón-Macías, M. E., Riojas-Garza, A. Contreras-Estrada, D. y Martínez-Ezquerro, J. D.

(2018). Análisis bayesiano. Conceptos básicos y prácticos para su interpretación y uso. Revista
38
Alergia México, 65(3), 285-298. http://www.scielo.org.mx/pdf/ram/v65n3/2448-9190-ram-
65-03-205.pdf
Rodríguez-Arias, E. (2005). Estadística y psicología: Análisis histórico de la inferencia

estadística. Perspectivas Psicológicas, 5, 165-171.
http://pepsic.bvsalud.org/pdf/pp/v6e7n10/a22.pdf
39

Ud3 Metodologia Avanzada Investigacion

Cargado por

Copyright:

Formatos disponibles

Ud3 Metodologia Avanzada Investigacion

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Ud3 Metodologia Avanzada Investigacion

Cargado por

Copyright:

Formatos disponibles

Máster en Psicología Forense

Metodología Avanzada de Investigación

Unidad didáctica 3. Estadística inferencial, contraste de hipótesis nula y

3.1. Conceptualización de la estadística ........................................................................... 5

3.1.2 Estadística descriptiva ........................................................................................ 5

3.1.3. Estadística inferencial ........................................................................................ 7

3.2. Enfoque frecuentista de la estadística inferencial ........................................................ 9

3.2.1. Prueba de significación de hipótesis nula ............................................................ 11

3.2.2. Clasificación de pruebas estadísticas de contraste de hipótesis ............................. 12

3.2.3 Pruebas paramétricas/no paramétricas y supuestos poblacionales .......................... 14

Supuesto de distribución normal .............................................................................. 15

Supuesto de homogeneidad de varianzas.................................................................. 17

3.4. Relación entre dos variables categóricas: prueba χ² de Pearson ................................. 20

3.4.1. Prueba de contraste de hipótesis nula con χ² de Pearson ..................................... 21

3.4.2. Ejecución de χ² de Pearson en SPSS ................................................................. 22

3.5. Comparación de dos medias: Pruebas t de Student .................................................. 23

3.5.1. Prueba de contraste de hipótesis nula con t de Student ....................................... 23

3.5.2. Ejecución de t de Student en SPSS ................................................................... 26

3.6. Análisis de la varianza: ANOVA de un factor ............................................................ 27

3.6.1. Prueba de contraste de hipótesis nula con ANOVA de un factor ............................. 28

Supuesto poblacional no cumplido ................................................................................ 29

Alternativa a prueba con estadístico F ........................................................................... 29

Distribución normal ..................................................................................................... 29

Prueba no paramétrica Kurskal-Wallis ........................................................................... 29

Modificaciones de estadístico F: Welch o Brown-Forsythe. ................................................ 29

3.6.2. Ejecución de ANOVA de un factor en SPSS ......................................................... 30

3.7. Correlación bivariada: Coeficiente r de Pearson ........................................................ 32

3.7.1. Prueba de contraste de hipótesis nula con coeficiente r de Pearson ....................... 32

3.7.2. Ejecución de correlación r de Pearson en SPSS ................................................... 33

Mapa de contenidos ....................................................................................................... 37

Como se ha expuesto en las unidades anteriores, en el proceso de investigación de las ciencias

Figura 1. Uso de la estadística en la investigación cuantitativa.

3.1. Conceptualización de la estadística

Figura 2. Recoger, ordenar y analizar datos.

3.1.2 Estadística descriptiva

La estadística descriptiva plantea procedimientos para describir de forma agregada conjuntos de

Hace referencia al grado de concentración o alejamiento de los valores de la variable en la

3.1.3. Estadística inferencial

• Parámetros: son valores numéricos que describen y resumen características de la

Otro concepto clave de la estadística inferencial es el de distribución de probabilidad, que se

Figura 4. Representación de relación entre conceptos básicos de estadística inferencial.

Lo que resulta de especial interés para la inferencia estadística es la existencia de ciertos

3.2. Enfoque frecuentista de la estadística inferencial

La investigación cuantitativa requiere de herramientas estadísticas que permitan tomar decisiones

Llega más lejos

La postura frecuentista se asienta de forma singular en el desarrollo de la denominada prueba

Figura 5. Paradigma NHST de estadística inferencial.

Aunque, del planteamiento de hipótesis complementarias de Neyman y Pearson, añade algunos

3.2.1. Prueba de significación de hipótesis nula

La prueba de significación de Fisher implica evaluar la verosimilitud de una determinada

Figura 6. Poder rechazar o no poder rechazar hipótesis nula.

El procedimiento consiste, por tanto, en estimar la probabilidad de que la diferencia o relación

2 Calcular un estadístico de contraste que recoja el grado de discrepancia con la

3 Contrastar el estadístico con una distribución muestral teórica de referencia, que

Independientemente del tipo de estadístico de contraste que se esté utilizando, en el momento

3.2.2. Clasificación de pruebas estadísticas de contraste de hipótesis

Aunque desde el enfoque frecuentista, el proceso de contraste de hipótesis estadísticas, de forma

Respecto al número de variables, es necesario realizar algunas aclaraciones terminológicas.