Resumen 4

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 8

Nombre: Kassandra silvestre

Matrícula: 21-MPSS-2-118
Sección : 593
Materia : teorías de los test
Profesor: reina selpuveda

Introducción
En este siguiente tema estaremos hablando sobre lo que es el análisis
de reactivos y estandarización de la prueba .
Estos hace referencia a como ellos evalúan y programa el tiempo de la
prueba a realizar , además Este capítulo aborda dos temas en cierta
medida técnicos, pero importantes: el análisis de reac- tivos y la
estandarización de pruebas. Ambos temas tienen que ver con el cálculo
de ciertos aná- lisis estadísticos que deben revisarse con detalle para
determinar si todos los reactivos de una prueba están funcionando como
deberían, y cómo pueden interpretarse las calificaciones de las
pruebas. El análisis de reactivos se centra en el funcionamiento de
reactivos individuales, mientras que la estandarización de pruebas se
ocupa de la interpretación normativa de los resul- tados de la prueba
en su conjunto o de algunas de las partes o subpruebas que la integran.

Desarrollo

• ANÁLISIS DE REACTIVOS
Incluso después de haber sido administrada y calificada una prueba, no siempre es seguro
que haya funcionado bien. Cuando se pilotea una prueba en un principio, es posible que
surjan va- rios problemas. Ésta es una de las razones de que las pruebas que se distribuyen
comercialmen- te se administren primero a una muestra de personas representativas del
grupo que las pruebas están destinadas a medir. Entonces pueden analizarse las respuestas
de esa muestra piloto para determinar si los reactivos están funcionando de manera
adecuada.

Cualquiera que sea el tipo de prueba, estandarizada o elaborada por el maestro, de habili-
dad o de personalidad, un análisis post mortem o post hoc de los resultados es tan necesario
co- mo en medicina o en cualquier otra empresa humana. Entre las preguntas que es preciso
contestar figuran las siguientes: ¿fueron adecuados los límites de tiempo? ¿Los examinados
en- tendieron las instrucciones? ¿Fueron apropiadas las condiciones en que se administró la
prueba? ¿Se manejaron de manera adecuada las situaciones de emergencia? Es inusual que
puedan anti- ciparse todos los problemas o contingencias que surgen durante un piloteo,
pero un análisis pos- terior puede proporcionar información y motivación para prever y
manejar situaciones similares al administrar pruebas en el futuro.

• Pruebas con referencias a criterios y de dominio


El procedimiento empleado en evaluar la eficacia de los reactivos de prueba depende, en
cierta medida, del propósito de la misma. Por ejemplo, el examinador puede estar interesado
sólo en determinar qué tanto sabe un examinado sobre el material de la prueba, no en
comparar su de- sempeño con el de otras personas. En este caso, el desempeño se mide
contra un criterio o están- dar establecido por el maestro del aula o por una política
institucional. El objetivo de tal evaluación con referencias a criterio (o a un área) no es
descubrir qué calificación obtiene una persona en relación con otras, sino en qué nivel se
encuentra en cuanto a determinados objetivos de una lección, curso o programa.

• Diferencias individuales y validez de los reactivos


Dado que suele ser difícil llegar a un acuerdo sobre cuánto debe saber una persona sobre una
ma- teria en particular o en qué consiste dominarla, tradicionalmente las calificaciones se
han inter- pretado comparándolas con las obtenidas por otras personas. Las pruebas
psicológicas se han diseñado, sobre todo, para evaluar diferencias entre individuos en cuanto
a características. Las habilidades y la personalidad de la gente difieren, y los psicólogos
intentan evaluar estas dife- rencias mediante diversos tipos de pruebas. Mientras mayor sea
el cuidado con que se lleva a ca- bo dicha evaluación, mayor será la precisión con que podrá
predecirse el comportamiento a partir de los resultados de las pruebas.

• Dificultad de los reactivos e índices de discriminación


Por lo general, no hay un criterio externo fácilmente disponible contra el cual validar los
reactivos de las pruebas de aprovechamiento en el aula, de modo que a menudo se emplea
un procedimiento distinto, el de consistencia interna. Al igual que con cualquier otra prueba,
el análisis de reacti- vos de una prueba de aula conlleva determinar el porcentaje de
examinados que pasan el reactivo y la correlación del reactivo con una medida de criterio.
No obstante, en el caso de una clase de apro- vechamiento de aula, el criterio consiste en
calificaciones totales sobre la prueba misma. Suponiendo que la serie de reactivos en
conjunto es una medida adecuada de aprovechamiento en el sujeto, la suma de las
calificaciones se usa como el criterio para determinar la consistencia interna de la prueba.
• El índice de dificultad del reactivo tiene un rango de .00 a 1.00. Un reactivo con p =
.00 es uno que nadie contestó correctamente, y un reactivo de p = 1.00 es el que
todos respondieron en forma acertada. El valor p óptimo para un reactivo depende
de varios factores, incluyendo los objetivos de la prueba y la cantidad de opciones de
respuesta. Si el propósito de una prueba es identificar o seleccionar sólo un pequeño
porcentaje de los mejores candidatos, entonces la prue- ba debe ser bastante difícil,
como se refleja en un valor promedio inferior de p. Si la prueba es- tá diseñada para
rechazar sólo a algunos candidatos muy deficientes, entonces es mejor un valor
promedio de p elevado.

• El índice de discriminación del reactivo (D) es una medida de la eficacia de un


reactivo para discriminar entre quienes obtienen altas y bajas calificaciones en una
prueba. Mientras más elevado sea el valor de D, resulta más eficaz para establecer
dicha distinción. Cuando (D) es igual a 1.00, todos los examinados del grupo superior
y ninguno del grupo inferior en las califi- caciones totales de la prueba respondieron
el reactivo en forma adecuada.

• Factores que afectan el funcionamiento de los reactivos


Los resultados de un análisis de reactivos a menudo varían considerablemente dependiendo
del grupo específico que se somete a la prueba, en particular cuando la cantidad de
examinados es reducida. Algunos reactivos pueden responderse de manera diferente por
hombres y por mu- jeres o por algún grupo étnico, de edad o socioeconómico en
comparación con otro. Al elaborar una prueba estandarizada, en la actualidad es frecuente
revisar cada reactivo y los análisis esta- dísticos correspondientes para buscar indicios de
falta de discriminación o sesgo por grupo. Pa- ra facilitar este proceso, a menudo se calculan
surgen problemas en el análisis de reactivos de las pruebas de velocidad, en las que los
límites de tiempo son breves y no todos los examinados pueden terminar. En una prueba de
velocidad, los reactivos cercanos al final de la prueba intentan resolverse por relativamente
pocas personas. Si quienes alcanzan y por consiguiente tratan de resolver un reactivo final
son los exa- minados más capaces, el índice de discriminación (D) probablemente será mayor
del que resulta- ría si el límite de tiempo fuera más generoso. ndices estadísticos.

• Consistencia interna contra validez


El concepto de validez del reactivo, en general, se refiere a la relación entre un reactivo y un
cri- terio externo. Pero D es una medida de la relación de los resultados de reactivos con un
criterio interno (total de calificaciones de la prueba) más que con un criterio externo.
Seleccionar reac- tivos con valores D altos dará como resultado una prueba internamente
consistente en la que las correlaciones entre reactivos son muy positivas. Sin embargo, las
calificaciones de una prueba internamente consistente no siempre están muy
correlacionadas con las calificaciones de un cri- terio externo.
Consistencia interna contra validez
El concepto de validez del reactivo, en general, se refiere a la relación entre un reactivo y un
cri- terio externo. Pero D es una medida de la relación de los resultados de reactivos con un
criterio interno (total de calificaciones de la prueba) más que con un criterio externo.
Seleccionar reac- tivos con valores D altos dará como resultado una prueba internamente
consistente en la que las correlaciones entre reactivos son muy positivas. Sin embargo, las
calificaciones de una prueba internamente consistente no siempre están muy
correlacionadas con las calificaciones de un cri- terio externo.

• Análisis de distractores
El análisis de los reactivos de opción múltiple suele empezar con el cálculo de índices de
discri- minación y dificultad para cada reactivo. Un análisis secundario se ocupa del
funcionamiento de los distractores k 􏰃 1 para cada reactivo. El índice de discriminación de
reactivos (D) propor- ciona cierta información sobre el funcionamiento de los distractores en
conjunto. Un D positivo indica que los examinados en el grupo superior (en la calificación
total de la prueba) tendieron a seleccionar uno de los distractores; la magnitud de D indica la
medida de esta tendencia. Por otra parte, un D negativo indica que los distractores se
eligieron con mayor frecuencia por exa- minados del grupo superior que por los del grupo
inferior y que el reactivo debe revisarse.

• Curvas características de los reactivos


Incluso los valores aceptables de p y D no garantizan que un reactivo esté funcionando de
ma- nera efectiva a lo largo de todos los niveles de desempeño de la prueba. Para ser más
efectivo, la proporción de las personas que contestan un reactivo correctamente debería
aumentar en forma continua con el incremento de las calificaciones totales en la prueba o
subprueba. El que un reac- tivo de prueba funcione de esta manera puede determinarse
mediante la curva característica del reactivo (ICC).

• Teoría de respuesta al Ítem


A diferencia de la atención más bien superficial que otorgan la teoría y los métodos
tradiciona- les sobre pruebas a las respuestas a reactivos individuales, tales respuestas son el
núcleo de la teoría y metodología de respuesta a los ítemes. La teoría de respuesta al Ítem
(IRT) se basa en la relación funcional teórica entre un continuo de capacidad latente
supuesto y las respuestas a reactivos individuales en una prueba. Los cálculos que conlleva
son muy complicados y en ge- neral deben realizarse con la ayuda de un programa de
cómputo como LOGIST, BILOG, AS- CAL o BIGSTEPS (vea Mislevy y Stocking, 1989; Vale, 1985;
Wright y Linacre, 1991).

• ESTANDARIZACIÓN Y NORMAS DE LAS PRUEBAS


Los datos sobre el desempeño de un grupo numeroso de individuos, como aquellos en
quienes se basa el diseño de un instrumento, son útiles para propósitos de interpretación de
calificacio- nes. Con el fin de cumplir esta tarea, deben estandarizarse la prueba, el
inventario, la escala de clasificación y cualquier otro instrumento psicométrico.
Toda prueba estandarizada tiene instrucciones estándar de aplicación y calificación que de-
ben seguirse estrictamente, sin dejar lugar a la interpretación personal o al sesgo. La
estandarización también incluye aplicar la prueba a una muestra grande de personas (la
muestra de estandarización) seleccionada como representante de la población meta a la que
está destinada la prueba.

• Selección de una muestra de estandarización


Para funcionar con eficacia en la interpretación de calificaciones de pruebas, las normas
deben ser apropiadas para el grupo o los individuos por evaluar. Por ejemplo, una
calificación particu- lar de un alumno de cuarto grado puede sobrepasar la del 80% de los
niños de cuarto grado y la del 60% de los de sexto. Aunque puede ser de interés comparar la
calificación de un estudiante de cuarto con las calificaciones de niños de tercero y sexto, la
posición del alumno en su propio grupo (cuarto) es prioritaria. Siempre que se transforma
una calificación con referencia a una ta- bla de normas, es importante tomar nota de las
características de la muestra (edad, sexo, grupo étnico, educación, nivel socioeconómico,
región geográfica) del grupo de norma en particular, e incluir esta información en todos los
comunicados sobre el desempeño de la persona en las eva- luaciones.

• Normas de edad y grado


Entre los tipos de normas más populares, sobre todo debido a que son bastantes fáciles de
com- prender para los usuarios, figuran las normas de edad y grado. Una norma de edad
(equivalente de edad, edad educativa) es la calificación media de una prueba obtenida por
las personas en una edad cronológica determinada; una norma de grado (equivalente de
grado) es la calificación media obtenida por los estudiantes en un nivel de grado específico.
Las normas de edad se ex- presan en doce intervalos de un mes que van, por ejemplo, para el
décimo año, de 10 años, 0 me- ses, a 10 años, 11 meses.

• Normas percentilares
Las normas percentilares consisten en una tabla de percentiles que corresponden a
puntuaciones crudas particulares. Las puntuaciones crudas se transforman como percentiles,
y el porcentaje del grupo de norma inferior a una calificación en particular es el rango
percentilar de dicha ca-lificación. Las columnas 2 y 5 de la distribución que aparece en la
tabla 4.2 muestran que, para este grupo de calificaciones, el rango percentilar de una
calificación de 625 es aproximadamen- te 82, y el rango percentilar de una calificación de
475 es aproximadamente 23. Alternativamente, puede decirse que el octagésimo segundo
percentil es 625 y el vigésimo tercero es 475.

• Normas de calificación estándar


A diferencia de los rangos percentilares, las calificaciones estándar representan la medición
en una escala de intervalos. Las normas de calificación estándar son puntuaciones
convertidas que tienen cualesquier media y desviación estándar deseadas. Hay muchos tipos
de calificaciones estándar, los cuales incluyen a las calificaciones z, Z, CEEB, de CI de
desviación, estaninas, T y NCE.

• Calificaciones Wechsler. Las puntuaciones crudas en las subpruebas de las escalas de


inteli- gencia de Wechsler se transformaron para tener una media de 10 y desviación
estándar de 3. No obstante, las puntuaciones verbales, de ejecución y de escala total
(CIs de desviación) en las pruebas de Wechsler se convirtieron a una distribución con
una media de 100 y desviación es- tándar de 15 (vea las últimas dos líneas de la
figura 4.3).

• Calificaciones estándar normalizadas Las normas de calificaciones estándar descritas


arri- ba son simples transformaciones lineales de puntuaciones crudas. La media y las
desviaciones estándar de las calificaciones transformadas son distintas de las de la
distribución de la puntua- ción cruda, pero la forma de las dos distribuciones es
idéntica. Si la distribución de la calificación es simétrica, también lo será la
distribución de las calificaciones transformadas.

• IGUALACIÓN DE PRUEBAS
En muchas situaciones que implican la aplicación y la investigación de pruebas psicológicas,
se requiere más de una versión de prueba. Las formas paralelas de una prueba son
equivalentes en el sentido de que pueden contener los mismos tipos de reactivos de igual
dificultad y que están altamente correlacionadas. Por lo tanto, las calificaciones que se
obtienen en una forma son muy similares a las obtenidas por los mismos examinados en una
segunda forma en el mismo nivel de edad o de grado que la primera forma.
Desafortunadamente, elaborar pruebas paralelas es un proceso bastante caro y laborioso.
Al proceso de igualar, o más bien de hacer comparables, dos pruebas del mismo nivel de
dificultad (por ejemplo, el mismo grado) se le conoce como igualación horizontal. Esto
también puede realizarse verticalmente, como cuando se igualan las calificaciones de dos
pruebas con distintos niveles de dificultad (grados diferentes). En general, el proceso de
igualar incluye su- jetar las pruebas a reactivos comunes o a un banco, como se realizó cada
año con la Prueba de Aptitud Académica (SAT) estadounidense. Al usar un conjunto de
reactivos en común que eran los mismos que un subconjunto de reactivos en por lo menos
una forma anterior de la prueba, las calificaciones de cada forma nueva de la SAT que se
aplicaba cada año se igualaban estadística- mente a formas previas en la prueba.

La teoría de respuesta al ítem (IRT), que prescribe métodos de calibración para un con- junto
de reactivos de pruebas en un continuo de rasgos latente definidos de modo operativo (por
lo común representados mediante calificaciones estándar en el eje horizontal de una curva
de respuesta a ítemes), también se ha aplicado a la tarea de igualar pruebas. La propiedad
de inva- rianza de la muestra en los parámetros de reactivos en la IRT, que se abordó en la
explicación previa sobre análisis de reactivos, facilita el proceso de determinar calificaciones
equivalentes o igualadas en distintas pruebas.

Conclusión

En conclusión El principal objetivo de un análisis de reactivos es


mejorar una prueba modificando o descartan- do los reactivos
ineficaces. Los reactivos de pruebas pueden analizarse comparan- do
respuestas a reactivos con calificaciones de criterio externo, como las
notas asignadas por el maestro o las clasificaciones de los jefes, o de
criterio interno, como calificaciones de prueba to- tales.

Dos sencillos coeficientes que pueden calcularse al analizar los


reactivos de una prueba elaborada por maestros son el índice de
dificultad de reactivos (p) y el índice de discriminación de reactivos (D).
Estos índices se aplican a reactivos tanto con referencias a normas
como con re- ferencias a criterios. El valor óptimo de p depende de los
propósitos de la prueba y de la canti- dad de opciones por reactivo. En
la mayoría de los casos se requiere un valor D de .30 o mayor para que
un reactivo sea aceptable.

Las normas de calificaciones estándar se convierten en calificaciones


que tienen una me- dia y una desviación estándar designadas. A
diferencia de las medidas ordinales representadas por la edad, el
grado y las normas de rango percentilar, las calificaciones estándar
(z, T, CEEB y otras) son medidas de nivel de intervalo. No todas las
calificaciones estándar se distribuyen nor- malmente, pero pueden
convertirse con facilidad en calificaciones estándar normalizadas.
Las calificaciones de pruebas paralelas pueden escalarse para
lograr igualdad, si no se igualan estrictamente, de varias maneras.
Tradicionalmente, las pruebas se han igualado por el método
equipercentil, pero los métodos más recientes acarrean modelos de
respuesta a reactivos técnicamente más complejos

También podría gustarte