Validez Vaiman

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 18

Normas Técnicas:

Validez
Lic. Marcelo Vaiman
Sofía se encuentra en la sala de espera de un consultorio
psicológico y mientras aguarda su turno, encuentra en una de las
revistas de moda y actualidad disponibles en la sala, un test denominado
“¿Qué tan osada eres?”. Responde a las 7 preguntas que lo conforman y
puntúa sus respuestas de acuerdo a una tabla de equivalencia de
puntajes. El resultado obtenido señala que es una persona “altamente
osada, que no teme a los desafíos ni a los riesgos”. Sorprendida con el
resultado obtenido, se lo comenta a su psicólogo con quien justamente
se encontraba trabajando ciertos miedos vinculados a tomar decisiones
financieras y a realizar un viaje de mochilera por el país. En base a ello y
para clarificar el diagnóstico, el psicólogo le administra el Test de
Propensión al riesgo (Meertens & Lion, 2008). Los resultados de esta
administración indican que Sofía tiene una personalidad que tiende a
evitar los riesgos. Entonces ¿a qué se deben estas diferencias en los
resultados? ¿en qué test hay que creer? ¿En qué se parecen y en qué se
diferencian un test publicado en una revista de entretenimientos y de
difusión masiva respecto a uno que utiliza un psicólogo y que ha sido
publicado en alguna revista científica o por alguna casa editorial?
Probablemente las semejanzas recaigan en que los autores de
ambos tests han tenido las mejores intenciones y han dado su mejor
esfuerzo para crear los ítems más representativos para evaluar tendencia
al riesgo u osadía. Las diferencias, sin embargo, están asociadas a que
para el primero, el test no ha sido sometido a un proceso de evaluación
que permita determinar si efectivamente las conclusiones que se
obtengan de las puntuaciones del test, realmente den cuenta del nivel
que la persona posee en ese rasgo o atributo. Es decir, ¿el test está
sirviendo a su propósito? ¿Es indicador del real nivel de propensión al
riesgo de la persona? ¿Puede predecir que esa persona se involucrará en
actividades, situaciones y decisiones de riesgo?
El conjunto de estas preguntas, apuntan a evaluar si efectivamente
el test sirve a su propósito. Más precisamente, si las puntuaciones que
se obtengan en el test, sirven en su propósito de evaluar y predecir. Estos
interrogantes son contemplados dentro del concepto de Validez. Un
concepto que tiene varios años en la historia de la psicometría y que
forma parte de las normas técnicas que rigen la construcción, adaptación
y uso de lo tests psicológicos.
La última edición de los “Standards for Educational and
Psychological Testing” define a la validez como el grado en que la teoría y
la evidencia empírica apoyan las interpretaciones que se hagan de los
puntajes de un test para un determinado propósito (AERA, APA & NCME,
2014). Como puede observarse, en esta definición se hace referencia a
que la validez no sería una propiedad del test en sí mismo, sino de las
inferencias que puedan realizarse de las puntuaciones que se obtengan
del test para propósitos específicos. Por ejemplo, la validez de las
interpretaciones que se realicen de las puntuaciones de una escala para
evaluar Desesperanza dependerá de la evidencia acumulada que avale,
por ejemplo, que los ítems que componen la escala, efectivamente
evalúan ese constructo y no otro similar o bien que las puntuaciones
permiten predecir la aparición o no, de conductas o cogniciones
asociadas con la desesperanza (ideaciones suicidas, pesimismo, intentos
suicidas). En este sentido, Messick (1989), considera que la validación es
un proceso continuo, que involucraría acumular evidencia científica de
tipo empírica, conceptual y estadística que apoye estas u otras
inferencias. Es por ello que la validez no sería una cuestión absoluta
(valido, no valido) sino de grado. Asimismo, los procesos de validación de
los tests, siempre se restringen a una población particular, que es la que
se utiliza en la muestra para realizar el estudio. En este sentido no es
adecuado generalizar la validación de un test a cualquier población que
no haya sido puesta a prueba en el estudio. Tampoco sería correcto
generalizar el uso del test para propósitos que no hayan sido evaluados
en estudios particulares.
En ésta última edición de los Standards se continúa sosteniendo a
la validez como un concepto unitario, a la vez que se siguen distinguiendo
fuentes de evidencias de validez y no tipos de validez (AERA, APA &
NCME, 2014). Estas distintas fuentes aluden a distintos aspectos de la
validez y son presentadas a continuación.

Fuentes de evidencia de validez


Evidencia basada en el Contenido del Test
Se trata de recolectar evidencia que avale la representatividad del
contenido del test. Al hablar del contenido del test, se está haciendo
referencia a los elementos que lo componen, es decir, los ítems
(preguntas, tareas, afirmaciones), la forma de presentación de los
estímulos, las instrucciones, el formato de respuesta, entre otros. Existen
distintos recursos para evaluar el contenido del test. Entre los más
utilizados se encuentran, los juicios de expertos, los cuales pretenden
evaluar el grado en qué el contenido resulta relevante, pertinente,
congruente, claro y representativo del dominio o constructo que se
pretende medir (Messick, 1989).
El primer paso para obtener esta fuente de evidencia, es realizar
una definición minuciosa del dominio o atributo que se pretende evaluar.
Para ello es necesario una exhaustiva revisión bibliográfica sobre el
constructo y sobre los modelos teóricos que lo abordan. Una vez realizada
la revisión, es necesario elegir una de las posiciones teóricas y desde ella
delimitar y definir el dominio de interés.
Tradicionalmente la recogida de evidencia de validez de contenido,
solía realizarse únicamente en test aplicados en ámbitos educativos como
exámenes de asignaturas o pruebas de suficiencia de un determinado
tema (Martinez Arias, 1995), no obstante, en la actualidad se ha
incrementado esta clase de estudios para pruebas que evalúan otro tipo
de dominios como estados de ánimo, rasgos de personalidad, atributos
cognitivos, rasgos psicopatológicos, entre otros.
Uno de los recursos más comunes para garantizar la validez de
contenido, es la construcción de tablas de especificación. Éstas
constituyen un mapa de la estructura del futuro test. En ellas se
consignan los contenidos más relevantes para evaluar del dominio o
constructo de interés. Por ejemplo, en el caso que se pretenda desarrollar
un test que permita evaluar depresión, será necesario identificar desde
un modelo teórico, los componentes de la misma (tristeza, abulia, apatía,
sentimientos de culpa, etc.) y luego decidir cuantos ítems se redactaran
para evaluar cada uno de sus componentes. En este sentido, se habla de
lograr una muestra de ítems que sea representativa del constructo que
se está midiendo. Decimos muestra porque existiría una población
infinita de ítems que se podrían redactar para evaluar cada uno de los
componentes de la depresión, pero a los fines de la construcción del test,
solo se elabora una muestra de ítems, que deberían representar de
manera correcta a toda esa población. De lo contrario podrían
presentarse problemas como la sub representación del constructo o
varianza irrelevante del constructo. (Messick 1989). Siguiendo el ejemplo
del test para evaluar depresión, en el caso de que solo se evalúen algunos
de los síntomas, y no se incluyan dimensiones importantes del
constructo, se estaría produciendo lo que se llama sub-representación
del constructo. O si, por el contrario, se introducen ítems que no resultan
relevantes o congruentes con el constructo, o bien algunos aspectos
formales del test, o el nivel de complejidad de los vocablos utilizados en
los ítems genera varianza en las puntuaciones que no responden a
variaciones en el constructo medido, sino a otras variables irrelevantes
pero que pueden aumentar o disminuir las puntuaciones, se estaría
frente a la varianza irrelevante del constructo.
Estos dos fenómenos, pueden otorgar injustas ventajas o
desventajas a subgrupos a los que se le administra el test. Por ejemplo,
el uso de un vocabulario más complejo que el necesario para un conjunto
de ítems puede ser fuente de varianza irrelevante para personas con un
menor nivel del desarrollo del vocabulario, pues puede generar que se
otorguen respuestas a los items, no habiendo comprendido
correctamente los enunciados. Haciendo de la tarea irrelevantemente
dificultosa para algunos individuos o grupos
Cuando se trata de construir pruebas de suficiencia o exámenes en
contextos educativos, es frecuente observar el uso de taxonomías que
permiten contar con preguntas que requieren distintas competencias
cognitivas para poder ser resueltas. Una de ellas es la clásica taxonomía
de Bloom (Bloom, Englehart, Hill, Furst & Krathwohl, 1956; Krathwohl,
2002) que permite organizar objetivos de aprendizaje y evaluación en
diferentes niveles de complejidad, distinguiendo distintas habilidades
cognitivas que van desde evocar información previamente aprendida
(hechos, conceptos o procedimientos), interpretar, analizar, aplicar, a la
posibilidad de realizar juicios críticos. De esta forma en un examen de
una asignatura los distintos contenidos pueden estar equitativamente
representados en términos de cantidad, nivel de dificultad y procesos
cognitivos que involucra. Por ejemplo, si el objetivo es construir una
prueba que evalúe los conocimientos que estudiantes poseen sobre
distintos tipos de test, incluyendo los constructos que evalúan, las
subescalas que los componen, sus autores, como así también los modos
de interpretar sus puntuaciones y las situaciones en que podrían ser
aplicados, se podría construir una tabla de especificaciones como la
siguiente:

Proceso cognitivo
Identificar/memorizar/recordar Análisis Juicio

Total de ítems
Ejercicios en
que debe Situaciones
transformar en que
Contenido del
Nombres Autores Subescalas el puntaje debe
ítem
bruto de un decidir que
test a test usar
puntaje z
Test de
2 2 3 3 3 13
inteligencia
Tipo de test

Inventarios de
2 2 3 3 3 13
personalidad
Test
1 1 2 2 2 8
neuropsicológicos
Inventarios de
1 1 2 2 2 8
intereses
Total de ítems 6 6 10 10 10 42

Como se puede observar, hay una mayor cantidad de ítems


destinados a evaluar conocimientos sobre test de inteligencia y de
personalidad, por encima de los neuropsicológicos y los de intereses.
Asimismo, se preferencia ítems cuya resolución involucran procesos
cognitivos de análisis y evaluación junto con ítems dirigidos a identificar
las subescalas de los tests. En el caso en que el cursado de la asignatura
hubiese puesto mucho más peso en las clases o en las actividades a test
neuropsicológicos o a inventarios de intereses, debería revisarse la
distribución de la cantidad de preguntas, para que estos dos últimos
temas presenten mayor cantidad de preguntas que los dos primeros. De
esa forma se puede asegurar una congruencia no sólo con la curricula
planteada para esa unidad de estudio, sino también con lo que en clase
se dio mayor importancia.
Una vez construida la tabla de especificación, se puede continuar
con la redacción de los ítems o las preguntas, respetando la cantidad
planteada en la tabla. No obstante, es recomendable elaborar un número
mayor de ítems que el planteado inicialmente, pues durante el proceso
de validación muchos de ellos pueden requerir ser eliminados por mal
funcionamiento.
El estudio más común para aportar evidencia de validez de
contenido es el juicio de expertos o estudio de jueces. Este tipo de estudios
focaliza en la experiencia y en el conocimiento que poseen personas
referentes en la temática que evalúa el test. Por ejemplo, en el caso del
desarrollo de un banco de ítems para evaluar aptitudes mecánicas, los
expertos o jueces pueden ser supervisores u operarios con mucha
experiencia en industrias metalúrgicas, ingenieros industriales o bien
técnicos con conocimientos en aquellas destrezas mecánicas que resulta
relevante evaluar con el test. Frecuentemente se suele incluir en el
conjunto de expertos a personas que, si bien pueden no conocer mucho
sobre el dominio evaluado, si tienen mucha experiencia en el trato o
trabajo con la población meta a la que están dirigidos los ítems. Esto
garantiza tener una valoración de alguien que puede hacer observaciones
respecto a qué tan comprensibles cognitivamente pueden ser ese
conjunto de preguntas para la población de interés.
Los expertos, de manera independiente pueden evaluar la
congruencia de los ítems con el dominio que se desea evaluar, su
relevancia, aspectos formales de los estímulos y adecuación a la
población meta. Cuando se habla de congruencia, se hace referencia al
grado en que cada ítem evalúa el dominio de interés. Puede ser que una
pregunta haya sido redactada con el propósito de evaluar aptitudes
mecánicas, pero los jueces consideran que estaría evaluando más
conocimientos de química, que de mecánica. También puede ser que se
plantee un ítem que es congruente con el dominio, pero que quizás no es
el más relevante. Es decir, se podría estar tratando de una aptitud muy
poco frecuente o de muy poco uso en el contexto laboral, siendo que
habría otras más relevantes. En relación a los aspectos formales y la
adecuación a la población meta, los jueces pueden considerar que se
presentan palabras o expresiones que no resultan de fácil comprensión
para esa población, o bien que ciertos modos de plantear las consignas
tampoco resultan claros. Toda la evaluación que realizan los jueces, es
procesada por el investigador y le permite modificar, eliminar o agregar
preguntas.
En general, las evaluaciones que hacen los expertos, suelen
consignarse en una grilla como la siguiente, en donde la persona tiene
que calificar con un puntaje del 1 al 5 que tanto cada ítem cumple cada
uno de las dimensiones de análisis. También podría haberse
confeccionado una planilla en la que en lugar de calificar con una escala
del 1 al 5, el experto simplemente dijera si se cumple o no la dimensión
planteada (SI/NO).
Respecto a la cantidad de expertos, suele ser un número bastante
variable. Es común encontrar trabajos de investigación que reportan
haber convocado a 4 o 5 jueces. Pero más importante que la cantidad, es
la pertinencia del experto para realizar la valoración. Mientras más
conozca acerca del dominio evaluado, mayor peso tendrá su valoración.
Poco importará obtener la calificación de 16 personas que conozcan sobre
mecánica, si muchos de ellos tienen poca experiencia en el campo.

Experto: Supervisor de industria automotriz


Adecuación
Congruencia Relevancia Claridad a la
Observaciones
(1-5) (1-5) formal (1-5) población
meta (1-5)
La pregunta esta bien
formulada, es
entendible para esta
Item 1 3 2 5 5
población, pero no es
algo que nos interese
evaluar en este trabajo.
Es una buena
pregunta, es parte de lo
que entendemos como
aptitud mecánica, pero
Item 2 5 2 5 5 no es lo más relevante
en la industria
automotriz. Hay otras
cosas más importantes
para evaluar
Item 3 5 4 5 4
La pregunta es buena,
pero probablemente la
población tenga
Item 4 5 5 5 2 problemas para
comprenderla. Tiene un
lenguaje demasiado
técnico y formal.

Como se puede observar, el primer experto que revisó el conjunto


de 4 preguntas parece haber encontrado dificultades en la mayoría de los
ítems a excepción del ítem 3.
El proceso continúa obteniendo las grillas de evaluación de los
otros expertos y comparando los resultados obtenidos para cada ítem.
Por ejemplo, en caso de haber obtenido la evaluación de 6 expertos, se
puede llegar a encontrar que el ítem 2 en congruencia obtuvo
calificaciones de 5, 5, 4, 5, 4, 5, lo que indica cierta consistencia en las
evaluaciones y un elevado nivel de congruencia del ítem con el constructo
que se pretende medir. No obstante, habrá que observar que sucede con
los otros expertos en la dimensión de relevancia, pues se parte de un
valor bajo en el primero de ellos.
En relación a los métodos para analizar los resultados obtenidos
de los expertos, hay distintas opciones:
- Obtener la media o la mediana en cada una de las dimensiones
para cada ítem, teniendo en cuenta los puntajes proporcionados
por cada uno de los expertos.
- Obtener las frecuencias absolutas (cantidad de veces que…)
cada ítem es evaluado con un determinado valor (del 1 al 5) en
cada una de las dimensiones. Por ejemplo, del ítem 2 podría
decirse que 4 expertos puntuaron con 5 su congruencia y 2 lo
puntuaron con 4.

Una vez obtenidos estos análisis, el investigador procederá a


decidir si mantiene la forma original de algunos ítems, si los modifica o
bien los elimina. También puede suceder que de las devoluciones surjan
ideas para redactar nuevas preguntas que cumplan con los
requerimientos. El paso siguiente sería volver a realizar el estudio de
expertos con los ítems modificados o agregados. El análisis final de las
calificaciones de los jueces constituye la evidencia de validez de
contenido.
Evidencia basada en el Proceso de Respuesta
Otra de las fuentes de validez de un test implica obtener evidencias
que demuestren que cuando la persona se encuentra respondiendo al
test, realiza procesos cognitivos que se supone deberían ser elicitados,
dado el constructo que se está midiendo con esos reactivos. Cuando se
intenta recoger este tipo de evidencia se les pregunta a quien responde
acerca de los procesos o las estrategias que utiliza para responder y cómo
comprende cada uno de los reactivos. De nada servirá saber que la
persona respondió con un puntaje de 4 en una escala Likert, si en el
fondo eligió el 4 de manera azarosa por no comprender la pregunta. Esto
es muy común cuando se administran ítems a una población con baja
escolaridad o que tiene un vocabulario diferente al del test.
Para recoger estas evidencias, se utilizan distintos recursos,
algunos que focalizan en el modo en que la persona procesa
cognitivamente la información de los tests, y para tal fin se utilizan las
entrevistas cognitivas, mientras que otros focalizan en aspectos
observables o medibles del examinador mientras la persona responde al
test, como lo son medir el tiempo que tarda en dar cada respuesta, ver
que preguntas decide responder primero, los gestos faciales que realiza,
las verbalizaciones que manifiesta, entre otros.
Las entrevistas cognitivas pueden contribuir a revelar cómo las
personas comprenden un ítem determinado en un cuestionario y porqué
responden de la manera en que lo hacen. Las palabras que pronuncian
durante el proceso de resolución de los ítems, proveen valiosa
información acerca de qué es lo que se está pensado cuando se responde
a las consignas. La riqueza de los datos derivada de la entrevista cognitiva
puede ayudar a los investigadores a comprender por qué los ítems del
test funcionan de determinada manera en una población específica
(Almond et al, 2009). Los datos de las entrevistas cognitivas son
principalmente cualitativos y proveen un amplio espectro de información.
Por ejemplo, el conteo de la frecuencia de una respuesta o de una
actividad particular (“no estoy seguro”, pasar las hojas del cuestionario
una y otra vez para estimar cuanto tiempo le falta, etc.) puede iluminar
aspectos de interés de los ítems. (Campanelli, 1997)
A continuación, se presentan una serie de recomendaciones para
llevar a cabo una entrevista cognitiva a los fines de evaluar la calidad de
los ítems que componen una escala o un test.
En función del interés que tenga el investigador respecto a las
distintas estrategias cognitivas utilizadas para responder a una
pregunta, las entrevistas cognitivas pueden focalizarse, siguiendo a
Tourangeau (1984) en: la comprensión de la pregunta, las estrategias de
memoria para evocar información importante para responder, el proceso
de decisión de la respuesta y el proceso de dar la respuesta.
En relación al proceso de comprensión de la pregunta,
generalmente el foco se hace en evaluar la intencionalidad de la pregunta,
es decir, ¿a qué cree el examinado que la pregunta está dirigida? y en el
significado atribuido a los términos empleados en la pregunta; ¿cuál es
el significado especifico de las palabras y frases a las que el examinado
debe responder?
Las estrategias de memoria utilizadas para evocar información
importante para responder a las preguntas resultan de interés para saber
por ejemplo, el tipo de información que la persona debe recordar para
poder responder a la pregunta y el tipo de estrategia de evocación de la
información, como puede ser la de contar mentalmente cada uno de los
eventos que le han sucedido en relación a la pregunta formulada, o bien
la de responder de manera estimativa o aproximada.
Cuando el foco de interés recae en el proceso de decisión de la
respuesta, el investigador se está preguntando por la motivación del
participante, la deseabilidad social, entre otras. Es decir, en qué medida
el examinado está mostrando un esfuerzo mental para responder a la
pregunta de manera precisa y reflexiva, y en qué grado está dando
determinadas respuestas para “parecer una mejor persona” o para
intentar complacer al examinador.
Por último, en relación al proceso de respuesta, se intenta
examinar el proceso de búsqueda de respuesta de la persona, es decir, lo
procesos internos que está llevando a cabo para responder. Siendo este
tipo de procesos de carácter complejo, algunos pueden ser conscientes,
mientras que otros pueden ser automáticos, por lo que la persona no es
consciente de su operación.
Existen dos metodologías que han resultado de gran utilidad en las
entrevistas cognitivas para evaluar la calidad de los ítems que componen
un cuestionario; el método de pensar en voz alta y el método del sondeo
verbal.
El método de pensar en voz alta se deriva de los procedimientos
psicológicos descriptos por Ericsson y Simon (1980). En ésta técnica, los
examinados son instruidos para responder a las preguntas pensando en
voz alta. De esta manera, el entrevistador lee cada pregunta al sujeto y
luego graba o toma notas del proceso que está llevando a cabo el
examinado para responder a la pregunta. Las intervenciones del
entrevistador son del tipo “dígame en que está pensando” en caso de que
la persona no realice ningún comentario mientras responde. A modo de
ejemplo del uso de esta técnica, se presenta a continuación el extracto de
una entrevista.
Entrevistador: (lee la pregunta) “¿Cuántas veces ha hablado con un doctor en
los últimos 12 meses?
Examinado: creo que depende de lo que usted quiera decir con “hablar”. Yo hablo
con mi vecino que es doctor, pero usted probablemente no se refiera a eso. Yo voy a mi
doctor algo así como una vez al año para un chequeo general, por lo que le respondería
“una vez”. Pero también he visitado a un especialista un par de veces el año pasado por
un problema en la rodilla y también vi a un especialista por un problema de tos crónica
que tengo, el cual estoy casi seguro que fue el año pasado, aunque no podría jurarlo.
También he hablado con doctores varias veces cuando he llevado a mis hijos al pediatra.
Aunque asumo que no es eso tampoco a lo que se refiere. También vi a un quiropráctico,
pero no sé si lo considera un doctor. En síntesis, lo que estoy tratando de decir es que
creo que no estoy seguro de que numero darle, sobre todo porque no entiendo bien que
quiere.
En ésta entrevista se puede observar por ejemplo que el
razonamiento de la persona es más del tipo de buscar cada instancia
particular que lo relaciona con una visita al médico y no del tipo
estimativo. La dificultad que muestra la persona para determinar si
realmente ha visitado a uno o más médicos en los últimos 12 meses
permite hipotetizar posibles causas de la misma, como por ejemplo, la
poca precisión de la pregunta al incluir la palabra “hablar”, el hecho de
que el periodo de referencia (1 año) puede resultar demasiado extenso
para generar respuestas adecuadas o quizás también pueda aportar
elementos para pensar los procesos internos que realiza la persona
cuando responde.
Las técnicas de sondeo verbal están dirigidas a realizar una
indagación más profunda por parte del investigador, de las respuestas de
la persona. Algunas de ellas son:
- Compresión: en donde se le pide a la persona que explique cómo
comprende una determinada palabra o frase. Por ejemplo, ¿Qué
significa para usted “paciente ambulatorio? (siendo la pregunta
original ¿Es usted un paciente ambulatorio?)
- Parafraseo: consiste en pedirle a la persona que repita la pregunta
que se le formuló, pero apelando a sus propias palabras. De esta
manera se puede observar cuales son los elementos de la pregunta
a los que la persona le atribuye una mayor importancia o considera
como ejes, como así también permite ver cómo los comprende.
- Sondeo de recuerdos: esta técnica permite indagar los elementos a
los que apela la persona para responder. Por ejemplo, ¿Cómo se
acuerda de que fue al doctor cinco veces en los últimos doce meses?
De esta manera se puede observar a que elementos de su
autobiografía, por ejemplo, recurre para responder.
- Sondeo específico: con esta técnica se busca obtener los
argumentos que la persona tiene para responder a una pregunta.
Por ejemplo, si la pregunta fuera ¿Considera que el cáncer es un
problema muy serio para la salud de la población?, se podría
preguntar para hacer un sondeo más profundo ¿Por qué piensa
que el cáncer es el problema más serio de la salud?
- Sondeo general: es la técnica menos precisa, pero a la vez más
abierta de todas. Generalmente utiliza preguntas del tipo ¿Cómo
llegó a esa respuesta?, ¿Le fue fácil o difícil responder?

Evidencia basada en la estructura interna


Otra posible fuente de validez de un test, es obtener evidencias que
demuestren que las distintas partes del instrumento, mantienen las
relaciones que teóricamente se esperan para el constructo medido. Esto
es, que la estructura planteada para el test sea verificada por evidencia
empírica. Cuando se habla de partes y de estructura de un test, nos
referimos a las distintas dimensiones, factores, facetas o sub escalas que
lo componen y a los distintos ítems que conforman cada una de ellas. Por
ejemplo: un test que evalúa autoestima, pudo haber sido construido para
obtener medidas tanto de la autoestima física como intelectual de la
persona. En ese sentido el test permitiría evaluar dos dimensiones o
factores, la autoestima física y la intelectual. Y lo hará con por ejemplo
un conjunto de 10 ítems para cada una de las 2 dimensiones. Es decir,
habría una estructura de dos factores, con 10 items cada uno. Para
verificar empíricamente esa estructura que se planteó teóricamente
cuando se diseñó el test y se redactaron los items, existe un
procedimiento por excelencia para realizar el estudio, el Análisis
Factorial. Para entender de qué se trata este procedimiento, a
continuación se presenta un ejemplo para comenzar a intuitivamente
entender su propósito.
Supongamos que tenemos una serie de items que evalúan
autoestima y que fueron administrados a 4 personas que tienen que
responder con valores del 1 al 5, qué tan cierta es la afirmación, desde 1
(para nada cierto de mi) hasta 5 (muy cierto de mi)
Sujeto Sujeto Sujeto Sujeto
1 2 3 4
a) Me gusta mi contextura física 1 1 5 4
b) Me gustan los rasgos de mi cara 1 1 5 4
c) Me gusta el pelo que tengo 2 2 5 5
d) Tengo buena memoria 4 1 1 2
e) Soy bueno/a para los números 4 1 1 2
f) Me considero una persona inteligente. 5 1 1 1

Si se observa con detalle, se puede ver que las personas que tienden
a responder con puntajes altos en los items d, e y f, tienden a responder
con puntajes bajos en los items a, b y c. Y viceversa. Aunque también
puede ser como el caso 2, que se tiendan a responder a todos los items
con puntajes bajos. Esta pequeña muestra de participantes, en caso de
que si se ampliara el tamaño, mantuviera este tipo de distribución de las
respuestas, nos estaría mostrando que algo tienen en común los items a,
b y c, que las personas tienden a responder con puntajes semejantes en
ellos (ya sean valores altos o bajos). Al mismo tiempo, se tiende también
a responder con valores semejantes en los items d, e y f. En ese sentido,
se podría hipotetizar que habría dos factores latentes que incidirían en
las respuestas a esos 6 items. Claramente se trataría de autoestima física
para los primeros 3 y de una autoestima intelectual para los últimos 3.
De esa forma hemos hecho “a ojo” un análisis factorial de esos 6 items,
indicándonos la presencia de dos factores. Pero en la práctica esto es
imposible, pues las matrices suelen tener cientos de casos (no solo 6),
suele haber mucha mayor cantidad de items, y las resultantes no son tan
claras como la que se presentó. Es por ello que existen procedimientos
como el Análisis Factorial que nos ayudan a ese propósito.
Existen distintos tipos de Análisis Factorial, uno de los más
tradicionales es el exploratorio, que consiste en un conjunto de
procedimientos estadísticos que permite agrupar o reducir un número
determinado de variables. Para ello se parte de matriz de correlaciones
de las variables, que en este caso serían los items que componen al test,
y se evalúa si en esas correlaciones subyace algún patrón de relaciones
de manera tal que las variables puedan ser reordenadas en un conjunto
menor de factores, que serían variables latentes que resumen o explican
esas interrelaciones entre los datos (Pérez, 2004). En este tipo de análisis
factorial, el investigador no conoce la estructura subyacente al conjunto
de variables, aunque a veces puede suponerla y hasta tener expectativas
al respecto y su interés está en encontrar un número, en principio
indeterminado de factores comunes. De esta forma se agrupan ítems que
se correlacionan fuertemente entre sí, y cuyas correlaciones con las
variables de otros agrupamientos es menor, permitiendo de esta manera,
inferir la existencia de rasgos (factores) comunes (Aiken, 2003).

Para el caso de este tipo de evidencia de validez, nos interesa


indagar si efectivamente, siguiendo el ejemplo del test de autoestima, los
10 items que evalúan su dimensión física, se agrupan entre si y se
diferencian del grupo de los otros 10 items que evalúan la dimensión
intelectual. De esa manera tendríamos la seguridad de que, si obtenemos
la sumatoria de los puntajes que la persona examinada obtiene en cada
uno de los 10 items, podremos tener una medida valida de la autoestima
física de la persona.
A continuación, se presenta una estructura factorial ficticia para
nuestro test de autoestima. Entre los elementos que pueden identificarse
en la tabla, se observan los 20 items y la carga factorial que tiene cada
uno de ellos en cada factor. Las cargas factoriales suelen arrojar valores
que van desde 0 a 1. Mientras más alto es el valor, más se supone que
ese ítem pertenece a ese factor o agrupamiento. Entre un ítem y un factor
se espera una correlación de al menos 0.40 y al mismo tiempo, no debería
correlacionar más de 0.30 con otro factor. Hay ocasiones en que se
observan cargas con números negativos. En ese caso habrá que hacer un
análisis del ítem, pero es muy común que eso se deba a que ese ítem en
comparación a los otros ítems tiene un formato de respuesta inverso.
Factor 1 Factor 2
Item 1 0,82 0,09
Item 2 0,78 0,12
Item 3 0,75 0,04
Item 4 0,72 0,21
Item 5 0,7 0,32
Item 6 0,69 0,02
Item 7 0,56 0,22
Item 8 0,55 0,11
Item 9 0,45 0,25
Item 10 0,44 0,26
Item 11 0,04 0,67
Item 12 0,06 0,78
Item 13 0,11 0,83
Item 14 0,07 0,02
Item 15 0,2 0,55
Item 16 0,29 0,45
Item 17 0,67 0,43
Item 18 0,78 0,48
Item 19 0,12 0,68
Item 20 0,02 0,77

Como se puede observar los 10 primeros items que fueron


redactados para evaluar autoestima física, presentan saturaciones o
cargas factoriales superiores a 0,40 en el factor 1. Mientras que
presentan saturaciones bajas en el factor 2, siendo la más alta en el factor
2, 0.32. Asimismo, puede observarse que los items del 11 al 20, que
fueron redactados para evaluar autoestima intelectual, tienden a
presentar saturaciones factoriales altas en el factor 2, a excepción del
ítem 14, que presenta cargas factoriales muy bajas en ambos factores.
También puede observarse que los items 17 y 18 presentan cargas
superiores a 0,40 en ambos factores. En ese sentido, los items 14, 17 y
18 deberían revisarse pues el primero de ellos no estaría agrupándose
con ninguno de los dos conjuntos de items, o lo que es lo mismo, no
estaría evaluando ninguno de los dos factores. Mientras que los items 17
y 18 estarían teniendo saturaciones compartidas en ambos factores. Lo
que indica que lo que evalúan no es claro y se confunde entre la
autoestima física e intelectual.

Otro tipo de Análisis Factorial es el confirmatorio, el cual se inserta


dentro de los denominados Modelos de Ecuaciones Estructurales (Hoyle,
1995). A diferencia del exploratorio, en el confirmatorio el investigador
tiene alguna hipótesis explícita acerca de la estructura de las variables
latentes. Los conocimientos para la formulación de estas hipótesis
pueden estar basados en la teoría, en la investigación empírica previa o
en la combinación de ambas. Además, postula a priori qué variables
deben saturar en cada uno de los factores o variables latentes, ya que se
tienen hipótesis claras de la naturaleza de los constructos (Martínez
Arias, 1995). Esta estructura factorial propuesta se contrasta con los
datos obtenidos de la muestra seleccionada (Sireci, Bastari & Allalouf,
1998) y a partir de ello se realiza una valoración de la correspondencia
entre las características del constructo planteado y los datos obtenidos
sobre dicho constructo a través de sus indicadores (Hoyle, 1995).

Evidencia basada en las relaciones con otras variables.


Hasta ahora se han presentado procedimientos que buscan obtener
evidencias de validez apelando a fuentes internas al test. Es decir,
evaluando si los ítems efectivamente evalúan el constructo de interés
(contenido), si los ítems propician procesos cognitivos esperables para el
constructo medido (proceso de respuesta) o si se obtiene de manera
empírica la estructura que teóricamente se espera para el constructo,
evaluando la agrupación y la correlación de los ítems (estructura interna).
Pero es también necesario obtener fuentes de evidencia externas al test,
otras medidas o criterios que nos permitan verificar que efectivamente el
test cumple a su propósito. Los propósitos pueden ser diversos, por
ejemplo, sería factible preguntarse si un test ¿tiene la capacidad para
discriminar (diferenciar) entre un grupo de personas que presentan
rasgos psicopáticos y un grupo que no? O bien, ¿tiene la capacidad de
predecir quienes van a ser excelentes operarios en una industria
metalúrgica y quienes no? Este tipo de preguntas son las que se buscará
responder con este tipo de estudios.
Un primer grupo de estos estudios se ubican dentro de las
evidencias de validez test-criterio. Expresión que hace referencia a evaluar
la relación entre los puntajes del test y un criterio externo al mismo.
Dentro de estas evidencias, se encuentra la valide concurrente y la validez
predictiva.
Los diseños de validez concurrente, implican administrar el test
que se pretender validar a una muestra de sujetos y correlacionar en ese
momento los puntajes que obtienen con un criterio externo al test. Por
ejemplo, se puede administrar un test que evalúe depresión y
correlacionar esos puntajes con la valoración clínica que pueden hacer
de esas personas, profesionales de la Psicología o Psiquiatría.
En el caso de la validez predictiva, la evaluación mediante el test y
el criterio no se hace en el mismo momento, sino que se toma el test, se
deja pasar el tiempo y se evalúa con algún criterio externo, si la
predicción que hizo el test fue acertada o no. Por ejemplo, administrar
una muestra una prueba que evalué ideación suicida y en el tiempo
evaluar si efectivamente sus puntajes demuestren ser un buen predictor
de los intentos de consumación de actos suicidas. O administrar a una
muestra de estudiantes una prueba de razonamiento matemático al
inicio del semestre y evaluar al finalizar el semestre si los puntajes fueron
un buen predictor de las notas obtenidas en la materia Matemática. En
este tipo de estudios el test se denomina variable predictora y el criterio
externo se denomina variable predictanda.
Otro tipo de estudios que aportan a la validez test-criterio, son los
denominados grupos contrastados. En estos, la variable criterio está
dada por la pertenencia de un grupo de personas a una condición criterio.
Por ejemplo, si nos interesa validar un test que evalúa indicadores de
Trastorno del Espectro Autista (TEA), necesitaremos un grupo de sujetos
que ya posean un diagnóstico confirmado de TEA y se buscará comparar
sus puntaciones en el test, con otro grupo de personas que no posea el
diagnóstico. En la medida en que los puntajes obtenidos por ambos
grupos en la prueba, sean significativamente diferentes, habremos
obtenido evidencia de validez test-criterio, pues se pudo verificar que lo
que mide el instrumento es sensible a diferenciar a ambos grupos
Es importante mencionar que, en ocasiones, es muy difícil obtener
el criterio externo. Existen constructos evaluados por los test, que no
siempre resulta accesible para el investigador el acceso a los criterios que
darían cuenta si el test efectivamente está cumpliendo a su propósito.
Dentro de los estudios de validez con variables externas, también
están aquellos que permiten obtener las denominadas evidencias
convergentes y discriminantes. En esto caso el criterio externo al test es
otro test que evalúa el mismo constructo (convergente) o uno diferente
pero que es necesario que no se confunda con el que se está midiendo
(discriminante). La lógica de este procedimiento para aportar validez a la
prueba es que si al administrar el test a una muestra, junto con otro que
evalúa el mismo constructo, pero que ya ha acumulado evidencias de
validez, se obtiene una correlación significativa y alta, se podría suponer
que nuestro test estaría midiendo lo mismo que el otro. Respecto a la
evidencia discriminante, al correlacionar con un test que evalúa un
constructo distinto, estaríamos obteniendo evidencia que muestra que
nuestro test no mide ese constructo distinto, sino otra cosa. Esto es muy
útil cuando hay constructos que son semejantes y es necesario poder
discriminar entre ellos (el diagnóstico diferencial).
Para realizar los estudios de convergencia-disriminancia, es muy común
el uso de matrices multirrasgo-multimétodos. Se trata de un recurso
originalmente propuesto por Campbell y Fiske (1954) que consiste en la
elaboración de una matriz de correlaciones en donde se incluyen como
variables los puntajes de distintas pruebas que miden rasgos diferentes
mediante diferentes métodos. Los atributos pueden ser, por ejemplo,
sintomatología propia una anorexia nerviosa y sintomatología propia de
una bulimia nerviosa. Los métodos pueden ser un inventario de
autoinforme, entrevistas clínicas, test proyectivos, entre otros. Un
ejemplo de la matriz resultante a puede ser:
Anorexia Bulimia
Anorexia Anorexia Bulimia Bulimia
Test Test
Autoinforme Entrevista Autoinforme Entrevista
proyectivo proyectivo
Anorexia
Test 1
proyectivo
Anorexia r= .45 1
Autoinforme
Anorexia r= .68 r=.85 1
Entrevista
Bulimia Test r= .09 r=.12 r=.14 1
proyectivo
Bulimia r= .11 r=.14 r= .11 r=.54 1
Autoinforme
Bulimia r= .15 r=.14 r= .11 r=.30 r=.84 1
Entrevista

Como se puede observar, las medidas de anorexia nerviosa


correlacionan bajo con las medidas de bulimia mediante los distintos
métodos, en ese sentido se ha obtenido evidencia de validez
discriminante. Al mismo tiempo, se observan convergencias entre las
medidas de anorexia a través de distintos métodos, siendo la mayor la
convergencia entre los autoinformes y la entrevista clínica, obteniendo
así validez convergente. En general para hablar de la presencia de
convergencia, se esperan correlaciones estadísticamente significativas al
menos de intensidad moderada, y se puede verificar la discriminancia
con correlaciones negativas o menores a .30
Evidencias de validez y consecuencias de la administración.
La última de las evidencias de validez que pueden recogerse que se
plantean en los Standards, implica otorgar evidencia para evaluar el eco
de las interpretaciones propuestas para los usos pretendidos. Anticipar
consecuencias esperadas y no esperadas. Los test en general son
administrados con la expectativa de que algún beneficio se va a obtener
de la interpretación y el uso de esas puntuaciones. Por ejemplo: selección
de la terapia mas adecuada para la persona con un determinado
diagnóstico, ubicación de empleados en el mejor lugar para trabajar para
ellos, prevención de individuos no cualificados para entrar a una
profesión (AERA, APA & NCME, 2014).
Un propósito fundamental de la validación es indicar si estos
beneficios, efectivamente suceden. Decisiones y acciones que se toman a
partir de los resultados del test, todos tienen un impacto directo en esos
que están siendo evaluados y en otras personas y sistemas (maestros,
pacientes, escuelas). Por ejemplo, una certificación otorgada a partir de
una evaluación de contenidos disciplinares, puede proteger a pacientes
de médicos o psicólogos incompetentes y fomenta que la gente estudie.

Aiken, L. (2003) Tests psicológicos y evaluación. Undécima edición. Pearson


Educación: Mexico.
Almond, P. J., Cameto, R., Johnstone, C. J., Laitusis, C., Lazarus, S., Nagle,
K., Parker, C. E., Roach, A. T., & Sato, E. (2009). White paper: Cognitive
interview methods in reading test design and development for alternate
assessments based on modified academic achievement standards (AA-
MAS). Dover, NH: Measured Progress and Menlo Park, CA: SRI
International.
American Educational Research Association; American Psychological
Association & National Council on Measurement in Education (2014)
Standards for Educational and Psychological Testing. Washington, DC:
AERA.
Bloom, B. M., Englehart, E., Furst, E. H., Hill, W., & Krathwohl, D.
(1956). Taxonomy of educational objectives: The classification of
educational goals. New York: McKay.
Campanelli, P. (1997). Testing survey questions: New directions in cognitive
interviewing. Bulletin de Methodologie Sociologique, 55, 5 17.
Ericsson, K.A., & Simon, H.A. (1980). Verbal reports as data. Psychological
Review, 87, 215-250.
Hoyle, R. H. (1995). Structural equation modeling: Concepts, issues, and
applications. Thousand Oaks, California: Sage.
Krathwohl, D. R. (2002). A revision of Bloom's taxonomy: An overview. Theory
into practice, 41(4), 212-218.
Martínez Arias, R. (1995). Psicometria: Teoría de los Tests Psicológicos y
Educativos. Madrid: Síntesis.
Meertens, R. M. & Lion, R. (2008). Measuring an individual's tendency to take
risks: The risk propensity scale1. Journal of Applied Social
Psychology, 38(6), 1506-1520.
Messick S. (1989) Validity. En: Linn R.L. (Ed). Educational Measurement. 3rd
ed. New York, NY: American Council on Education and Macmillan, pp
13–103
Pérez, C. (2004). Técnicas de Análisis Multivariante de Datos. Pearson
Educación.
Sireci, S. G.; Bastari, B. & Allalouf, A. (1998). Evaluating construct
equivalence across adapted tests. Invited paper presented at the meeting
of the American Psychological Association, San Fransisco.

Tourangeau, R. (1984). Cognitive sciences and survey methods. In T. Jabine,


M. Straf, J. Tanur, & R. Tourangeau (Eds.), Cognitive Aspects of Survey
Methodology: Building a Bridge Between Disciplines, pp. 73-100.
Washington, DC: National Academy Press.

También podría gustarte