Cómo Seleccionar Un Instrumento para Evaluar Aprendizajes Estudiantiles - PDF 7
Cómo Seleccionar Un Instrumento para Evaluar Aprendizajes Estudiantiles - PDF 7
Cómo Seleccionar Un Instrumento para Evaluar Aprendizajes Estudiantiles - PDF 7
Interamericano de
Desarrollo
Divisin de Educacin
(SCL/EDU)
Cmo seleccionar un
instrumento para evaluar
aprendizajes
estudiantiles
NOTA TCNICA
# IDB-TN-738
Catalina Covacevich
Diciembre 2014
Catalina Covacevich
http://www.iadb.org
Las opiniones expresadas en esta publicacin son exclusivamente de los autores y no
necesariamente reflejan el punto de vista del Banco Interamericano de Desarrollo, de su Directorio
Ejecutivo ni de los paises que representa.
Se prohbe el uso comercial no autorizado de los documentos del Banco, y tal podra castigarse de
conformidad con las polticas del Banco y/o las legislaciones aplicables.
Copyright 2014 Banco Interamericano de Desarrollo. Todos los derechos reservados; este
documento puede reproducirse libremente para fines no comerciales.
Resumen Ejecutivo
La implementacin de prcticas y polticas educativas est muy vinculada a la evaluacin de los
aprendizajes de los estudiantes, ya que sta permite monitorear avances y logros, mejorar la
enseanza en el aula, perfeccionar las polticas y evaluar la efectividad de programas, entre
muchos otros objetivos. Para que la evaluacin logre sus propsitos, es esencial hacer una
adecuada eleccin de los instrumentos de evaluacin de aprendizaje que sern utilizados. En este
contexto, docentes, implementadores de poltica, investigadores y personal de los ministerios de
educacin se ven frecuentemente enfrentados a la necesidad de seleccionar instrumentos de
evaluacin de aprendizajes, sin necesariamente tener mayores conocimientos sobre el tema. Por
lo tanto, esta nota tcnica est orientada a personas que trabajan en el sector educacin y no
tienen formacin en el rea de evaluacin de aprendizajes, y tiene como objetivo entregar
orientaciones tcnicas, prcticas y ticas sobre los elementos que deben ser tomados en cuenta al
seleccionar o construir un instrumento de evaluacin de aprendizaje.
La autora agradece el apoyo de Daniela Jimnez en la obtencin de bibliografa, los valiosos aportes de Hugo
opo (SCL/EDU) y los comentarios y gua recibidos durante la preparacin del documento de Emiliana Vegas
(SCL/EDU), Jefa de la Divisin de Educacin.
Contenido
Introduccin ................................................................................................................................................ 1
I
B.
Validez............................................................................................................................................... 8
Confiabilidad .................................................................................................................................. 13
V.
B.
Introduccin
El Marco Sectorial de Educacin y Desarrollo Infantil Temprano del Banco Interamericano de
Desarrollo destaca la necesidad de que los sistemas educativos de aseguramiento de la calidad
tengan definidas metas altas de aprendizaje que guen su quehacer. Tan importante como la
definicin de estas metas es su monitoreo, el que se puede realizar a distintos niveles del sistema;
ya sean evaluaciones de aprendizaje a gran escala, subnacionales, nacionales, regionales o
internacionales; o evaluaciones locales, implementadas por los responsables de las escuelas o por
los docentes con fines formales, diagnsticos o formativos. Todas estas evaluaciones son
insumos para para monitorear el aprendizaje, informar la enseanza, e incorporar esta
informacin en las actualizaciones de las prcticas y polticas existentes y en el diseo de las
nuevas. Por lo tanto, evaluar es parte inherente de un proceso de mejoramiento continuo (Banco
Interamericano de Desarrollo, 2013).
Adems, cada vez que se implementan programas y polticas educativas, y sobre todo cuando
existen recursos limitados, una pregunta crucial es si los programas que se estn implementando
son efectivos, por lo que la evaluacin educativa ha cobrado cada vez ms importancia en este
contexto. En los ltimos aos las evaluaciones de impacto, que buscan medir el efecto de un
programa comparando grupos equivalentes, en que uno fue beneficiario del programa y otro no,
han recibido especial inters.
Tambin se evala aprendizajes para la rendicin de cuentas, certificacin de competencias
obtenidas en un determinado ciclo de enseanza, identificacin del nivel de conocimientos de un
estudiante para asignarle la formacin ms apropiada y para seleccin acadmica.
La efectividad de todas estas evaluaciones depende en gran parte de la adecuacin y calidad de
los instrumentos de evaluacin de los aprendizajes estudiantiles que se utilicen. Decidir cmo
medir el aprendizaje requiere considerar diversos factores, evaluar los pros y contras de cada
instrumento disponible, y decidir cul es el ms adecuado para la situacin especfica. Es poco
probable que exista un instrumento ideal, por lo que hay que estar preparado para soluciones de
compromiso. Para asegurarse de que se tom la mejor decisin posible, es necesario asegurarse
de haber revisado la mayor cantidad de instrumentos disponibles y de haber recogido la
suficiente informacin sobre cada instrumento (Center for Assessment and Research, James
Madison University, 2014).
La presente nota est dirigida a todos aquellos docentes, polticos, diseadores e
implementadores de programas educativos que se ven enfrentados a la necesidad de escoger un
instrumento de evaluacin de aprendizajes2 para alguno de los objetivos recin descritos. Tiene
En esta nota de usa el trmino aprendizaje de manera genrica, abarcando habilidades, competencias, dominio
de contenidos y cumplimiento de objetivos.
un nfasis en los instrumentos estandarizados a gran escala, pero la mayora de los principios son
aplicables tambin a instrumentos diseados y aplicados de manera local. Asimismo, aunque el
nfasis es en los instrumentos de evaluacin de aprendizajes estudiantiles, muchos de los
elementos abordados son aplicables a otros tipos de instrumentos, por ejemplo de evaluacin
docente.
Algunas de las preguntas que surgen frecuentemente durante el proceso de eleccin de un
instrumento y que sern abordadas en esta nota, son: Para qu queremos evaluar? El
instrumento se ajusta a mis necesidades? Qu mide el instrumento? Qu tan til es este
instrumento comparado con otros y en trminos de costo y de ahorro de tiempo? Los puntajes
son consistentes? Es fcil de administrar? Tiene sesgos culturales o de gnero? (Cohen y
Swerdlik, 2009; Bart, 2009). Una ltima pregunta muy relevante es si el test necesario est
disponible comercialmente o ser necesario desarrollar un test propio.
La primera seccin de la nota, Coherencia entre el objetivo de evaluacin y el instrumento
escogido, destaca la importancia de que el instrumento seleccionado sea coherente con el
objetivo de la evaluacin, describe los diversos propsitos evaluativos que existen e identifica las
caractersticas del instrumento que es necesario contrastar con el objetivo que se tiene en mente.
La seccin II Calidad de los instrumentos aborda la importancia de la calidad tcnica de los
instrumentos, describiendo las dos principales caractersticas tcnicas que es necesario tener
presentes: la confiabilidad y la validez. La seccin III Consideraciones prcticas describe temas
prcticos importantes de tener en cuenta, tales como el costo del instrumento, que sea de un largo
apropiado y fcil de administrar y puntuar. La seccin IV Tipos de instrumentos presenta
diferentes maneras de clasificar los instrumentos de evaluacin de aprendizajes, describiendo los
distintos tipos de instrumentos que existen segn cada clasificacin. En la seccin V
Consideraciones ticas y justicia de los instrumentos se discuten una serie de elementos relativos
a la tica, el sesgo y la justicia de los instrumentos de evaluacin de aprendizajes y cmo estos se
relacionan con la validez. La ltima seccin Crear un instrumento o utilizar uno ya existente
presenta una breve discusin sobre determinar si ya existe un instrumento que sea adecuado a la
situacin evaluativa, o es ms conveniente disear un instrumento nuevo, y analiza los pros y
contras de ambas situaciones. Por ltimo, se cierra con las conclusiones.
Tomar una fotografa de cmo est un sistema educativo. Para poder tomar decisiones de
poltica educativa, un sistema educativo, ya sea a nivel nacional, estatal o municipal, puede
necesitar informacin sobre cmo los estudiantes estn logrando los objetivos de aprendizaje
propuestos. Para esto, lo ms apropiado es disear una prueba que evale el currculo nacional (o
local), en las asignaturas y grados que se consideren ms relevantes. En general estas pruebas se
aplican al final de los ciclos escolares, para medir los logros esperados para cada ciclo, pero en
algunas ocasiones puede ser apropiado tener alguna medicin intermedia, para conocer el grado
de avance en las metas de aprendizaje y poder intervenir a tiempo, por ejemplo en etapas
tempranas de la adquisicin de la lectoescritura.
Si solo se desea obtener informacin agregada de lo que est sucediendo con el conjunto de
escuelas o estudiantes, basta con realizar una evaluacin muestral, es decir, no es necesario
aplicar las pruebas a todas las escuelas ni estudiantes sino solo a una muestra representativa de
ellos, lo que hace la evaluacin ms barata y simplifica los procesos logsticos. Si tambin se
desea informacin especfica a nivel de escuela o de estudiante, y no solo del sistema educativo
en su totalidad, la evaluacin debe ser censal, es decir, aplicada a todos los estudiantes y
escuelas.
En general las pruebas nacionales demoran varios meses en entregar los resultados, por lo que no
permiten tener informacin de manera inmediata, sino al ao escolar siguiente.
Comparar con otros pases. En ocasiones, ms que querer evaluar el desempeo de los
estudiantes de un pas contra su currculo nacional, se desea tener informacin de cunto estn
aprendiendo los estudiantes del pas en comparacin con los de otros pases. Para esto, un pas o
subsistema nacional puede participar de los estudios internacionales tales como PISA 3, TIMSS4,
3
4
En otras ocasiones se desea obtener informacin de los aprendizajes que se estn logrando a
nivel de cada escuela. Esto puede deberse a objetivos muy diferentes, tales como retroalimentar
al equipo docente y directivo para mejorar los aprendizajes, la rendicin de cuentas de quienes
son responsables del desempeo de la escuela, informar a los padres y comunidad del desempeo
de una escuela, o evaluar el impacto de determinados programas en ciertas escuelas. Muchas
veces las evaluaciones a nivel de escuela son conducidas por el gobierno nacional o local, pero
tambin pueden ser ejecutadas por otros organismos, por ejemplo universidades que son
contratadas para evaluar la efectividad de algn programa, o incluso por una escuela o grupo de
escuelas, que quieren evaluarse a s mismas para poder monitorear su desempeo y mejorar sus
prcticas. Segn el objetivo que se tenga en mente, puede ser o no relevante para la evaluacin
poder realizar comparaciones entre las escuelas evaluadas.
El contenido de las evaluaciones a nivel escuela vara segn el objetivo evaluativo: en la mayora
de los casos probablemente se quiera evaluar el currculo nacional, pero en otros puede ser
relevante poner el foco con ms detalle en algn elemento especfico del currculo en que se sabe
que hay debilidades, o en el caso de la evaluacin de algn programa, puede ser pertinente
focalizarse en los elementos especficos que ese programa buscaba promover.
En ocasiones las pruebas nacionales estn diseadas para entregar informacin por escuela, en
otras puede ser necesario disear pruebas especiales, ya sea porque esta informacin no est
disponible o porque el foco de la evaluacin nacional no es el ms adecuado para el objetivo de
evaluacin.
Obtener informacin a nivel de estudiante
En algunos casos se busca obtener informacin a nivel del estudiante. Esto puede darse como
parte del proceso de mejoramiento continuo del sistema, para poder identificar las debilidades de
un determinado estudiante y que sus profesores y padres lo puedan apoyar. En otros contextos se
aplican pruebas que certifican los aprendizajes logrados, por ejemplo pruebas de fin de ciclo,
como podra ser el caso de una licencia de secundaria o un examen profesional, o una prueba que
certifique un determinado nivel de dominio de un idioma extranjero. Los instrumentos de
aprendizaje individuales tambin pueden ser utilizados para seleccionar estudiantes, por ejemplo
las pruebas de seleccin universitaria. En otras ocasiones, se evala a los estudiantes al comienzo
de un ao escolar o programa educativo, para tener un diagnstico de sus debilidades y fortalezas
y poder reforzar los elementos necesarios o hacer cursos de nivelacin.
B.
Research, James Madison University, 2014). Para esto, se debe revisar el objetivo, contenido y
poblacin objetivo declarados por el instrumento y asegurarse que se alinean con el propsito de
evaluacin.
Alineacin de los propsitos
Una primera pregunta es para qu propsito fue diseado el test, y si calza con el propsito de
evaluacin (Ministerio de Educacin de Nueva Zelandia, 2014). Los propsitos de un
instrumento pueden ser varios, tales como realizar un diagnstico, medir logro, medir potencial o
aptitud, o identificar preparacin para un cierto programa o etapa escolar (llamado placement
testing en ingls), que tambin se pueden utilizar para ubicar a un estudiante en un cierto
programa o track de aprendizaje (Cohen, Manion y Morrison, 2000).
Algunos instrumentos estn diseados para realizar evaluaciones diagnsticas, formativas, o
sumativas. La evaluacin diagnstica es una evaluacin en profundidad en las debilidades y
fortalezas de un estudiante. En general incluye muchos tems que profundizan en un solo tema,
para poder identificar con exactitud las dificultades de aprendizaje, y es referida a criterios7. La
evaluacin formativa, en cambio, ocurre durante un ao escolar o programa y est diseada para
para monitorear el progreso del estudiante durante ese periodo, para medir logros de secciones
especficas del currculo, para diagnosticar debilidades y fortalezas. En general est referida a
criterios. La evaluacin sumativa se aplica al final del curso o programa, y est diseada para
medir logros o outcomes. Puede ser referida a normas o a criterios, dependiendo hasta cierto
punto del uso que se le dar a la evaluacin (por ejemplo, entregar certificados o grados) (Cohen,
Manion y Morrison, 2000). Por lo tanto, si el objetivo de evaluacin es realizar un diagnstico,
probablemente un instrumento diseado como evaluacin formativa no sea lo ms apropiado.
Alineacin de los contenidos
Una segunda pregunta es qu es lo que el instrumento mide y si esto calza con lo que se quiere
evaluar. Este anlisis no es algo general, como por ejemplo, habilidades matemticas en
primaria. Hay que mirar en detalle el contenido del test, los niveles de aprendizaje que cubre, y
el o los grupos etarios a los que est orientado, y compararlo minuciosamente con los objetivos
de evaluacin. Por ejemplo, para una evaluacin el propsito puede ser evaluar la
implementacin del currculo nacional de matemtica, el que puede o no tener elementos en
comn con una prueba de matemtica diseada para su uso universal, ya que el currculo puede
tener ver con medir aprendizajes de geometra, mientras que un test puede tenerlo en aritmtica.
Es muy importante analizar en detalle el contenido de la prueba, y ver si cubre adecuadamente
los contenidos que se quieren evaluar, y adems comprobar que no evale elementos que no son
parte del objetivo de evaluacin. Este anlisis se vuelve a abordar en la seccin referida a los
En la seccin Tipos de instrumentos se explica la diferencia entre la evaluacin referida a criterios y aquella
referida a normas.
Validez
Se ha llamado argumento interpretativo a la declaracin explcita de las inferencias y supuestos a la base de los
usos e interpretaciones propuestas. Y argumento de la validez, a la evaluacin de la coherencia del argumento
interpretativo y de la plausibilidad de sus inferencias y usos. Por lo tanto, es necesario que la interpretacin y
los usos deben estar explicitados (Brennan, 2006).
Esta nueva manera de entender la validez est muy relacionada con la evaluacin de programas,
en que es necesario especificar el programa que se evaluar, los contextos en que se
implementar, se deben descartar variables externas que puedan afectar los resultados, y porque
muchas veces los programas se evalan ms con un conjunto de evaluaciones que con un estudio
aislado. De la misma manera, se puede entender la validez como una evaluacin integral de los
usos propuestos para la evaluacin, generando un anlisis coherente de toda la evidencia a favor
y en de dicho uso y si es posible, sobre explicaciones alternativas (Cohen y Wollak, 2006).
Algunas preguntas relativas a la validez de un test se cuestionan la calidad de sus tems: Los
tems son una muestra adecuada del constructo que se quiere evaluar? Tambin hay preguntas
relativas a la interpretacin de los resultados: Qu nos dicen estos puntajes? Cmo se
relacionan los puntajes altos o bajos con el comportamiento de los evaluados? Cmo se
relacionan estos puntajes con los de otros instrumentos que dicen medir lo mismo? (Cohen y
Swerdlik, 2009).
La validez debera estar como prioridad al disear o seleccionar instrumentos para la evaluacin
de aprendizajes. Es crtico que la evaluacin permita hacer juicios sobre los progresos de los
estudiantes que sean robustos y tiles, y tengan consecuencias positivas. Estar consciente de la
validez y de cmo esta se puede ver amenazada puede ayudar a tomar decisiones sobre qu
evaluaciones vale la pena hacer y qu usos se les puede dar a estas evaluaciones (Darr, 2005).
Juzgar si un instrumento es vlido no es algo que pueda ser medido en una escala absoluta.
Frecuentemente se categoriza la validez como dbil versus aceptable lo que refleja un juicio
sobre qu tan adecuadamente el test mide lo que se supone que mide (Cohen y Swerdlik, 2009).
Otros autores, como Darr (2005), sugieren que se categorice como dbil, moderada, o fuerte.
Ya que la validez est referida a inferencias y decisiones hechas para un grupo especfico en un
contexto especfico, para juzgar la validez de un instrumento se requiere reunir mucha
informacin (Darr, 2005). Existen diferentes enfoques, orientados a probar diferentes tipos de
validez. Estos enfoques no son mutuamente excluyentes, y todos contribuyen a la validez total,
aunque segn el uso que se le quiera dar al test pueden tener distinta relevancia (Cohen y
Swerdlik, 2009). Clsicamente, se habla de validez de constructo, contenido y criterio. Distintos
autores hacen distintas clasificaciones de los tipos de validez que se deben considerar, por
ejemplo validez de constructo, contenido, tem, predictiva, face, relativa a criterios,
concurrente, etc, aclarando que no es necesario usar siempre todas las formas de validez (Wilson,
2005).
En este documento se utilizar el enfoque propuesto en los Estndares para la Evaluacin
Educativa y Psicolgica (Joint Committee on Standards for Educational and Psychological
Testing, 1999), en que ms que hablar de tipos de validez, se habla de tipos de evidencia sobre la
validez, o lneas de evidencia, basadas en el contenido del test, los procesos de respuesta, la
estructura interna, las relaciones con otras variables, y las consecuencias (Joint Committee on
Standards for Educational and Psychological Testing, 1999; Wilson, 2005). Estos tipos de
evidencia se describen en el siguiente cuadro.
10
En los tests no se pueden evaluar todos los conocimientos de los estudiantes, sino solo una
muestra de ellos, por lo tanto es muy importante que esta sea una muestra adecuada del rea
de aprendizaje que interesa evaluar. Si esto se logra, aumenta nuestra posibilidad de hacer
inferencias vlidas sobre los logros de aprendizaje en un cierto dominio (Darr, 2005).
Este tipo de evidencia requiere mirar el contenido del instrumento para analizar la relacin con
el constructo que se quiere medir (Joint Committee on Standards for Educational and
Psychological Testing, 1999; Cohen y Swerdlik, 2009). Para saber qu es lo que un test mide,
no basta con guiarse por el nombre, es fundamental mirar los tems que lo componen (Center
for Assessment and Research, James Madison University, 2014). Se puede analizar cada tem
en relacin con el dominio, o pedir la opinin de expertos sobre qu tan adecuadamente estos
abordan el dominio (Joint Committee on Standards for Educational and Psychological Testing,
1999). Si un instrumento es bueno, tendr tems que evalen diferentes aspectos del tema
evaluado, y expertos en el rea, que no estn familiarizados de antemano con los tems,
estarn de acuerdo en qu evala cada tem.
Existen dos riesgos que deben ser evitados. Uno es la sub-representacin del constructo, es
decir, que elementos importante del constructo que se quiere evaluar no estn siendo
evaluados. El otro es la varianza relacionada con constructos que son irrelevantes para lo que
se est midiendo, por ejemplo en una prueba de lectura, el conocimiento previo del tema o la
respuesta emocional frente al texto, o en un test de matemtica, la velocidad de lectura o el
vocabulario (Joint Committee on Standards for Educational and Psychological Testing, 1999).
Evidencia
basada en los
procesos
de
respuesta
Los anlisis tericos y empricos sobre los procesos de repuesta de los examinados pueden
entregar informacin sobre la relacin entre estos procesos y los constructos que se desean
evaluar. Por ejemplo, si un test busca evaluar razonamiento matemtico, es importante que el
test efectivamente evale eso y no simplemente la aplicacin de algoritmos. Observar
estrategias de respuesta o entrevistar a los examinados sobre los procesos puede entregar esta
informacin (Joint Committee on Standards for Educational and Psychological Testing, 1999).
Evidencia
basada en la
estructura
interna
Este anlisis busca recoger evidencia sobre el grado en que las relaciones entre los tems de un
test y sus componentes se adecan al constructo que supuestamente buscan evaluar, el que
puede implicar una sola dimensin, o varias. Para mirar esto se puede revisar si los tems
efectivamente cumplen con el mapa de contenidos. Si el constructo tiene una sola dimensin,
esto tambin se puede probar a travs del anlisis de tems (por ejemplo, que a los estudiantes
con un buen desempeo en el total de la prueba, obtengan un buen desempeo en el tem).
Otra forma de mirarlo es comprobar que los tems funcionen de manera diferente en distintos
grupos, de acuerdo a lo que predice la teora (Joint Committee on Standards for Educational
and Psychological Testing, 1999).
11
Evidencia
basada en las
consecuencias
9
10
12
Confiabilidad
Qu es la confiabilidad?
La confiabilidad se refiere a la consistencia con que el instrumento mide, o visto de otro modo, al
grado de error presente en la medida (Cohen y Swerdlik, 2009). Un test confiable entrega
resultados consistentes a lo largo del tiempo. Por ejemplo, estudiantes con el mismo nivel de
comprensin lectora que toman un test de compresin lectora tendrn puntajes similares o
idnticos, sin importar cundo lo tomen, asumiendo que su nivel de comprensin lectora no ha
variado (Timmons, Podmostko, Bremer, Lavin y Wills, 2005).
En teora, un instrumento perfectamente confiable mide siempre de la misma manera (Cohen y
Swerdlik, 2009). Por ejemplo, un termmetro. Sin embargo, en realidad la evaluacin educativa
nunca est libre de algn grado de error, ya que un mismo individuo no siempre rinde de la
misma manera y las condiciones externas tambin pueden inducir a error (Joint Committee on
Standards for Educational and Psychological Testing, 1999).
Para mirar la confiabilidad, al igual que la validez, hay que entenderla en contextos y propsitos
evaluativos especficos. Sin embargo, ya que la confiabilidad remite a cunta variacin es
esperable entre una medicin y otra, se entiende de una manera ms estrechamente estadstica
que la validez, que refiere a la naturaleza de los atributos siendo medidos11 (Haertel, 2006).
Los sitios web o los manuales de los instrumentos deben especificar su confiablidad. Si no lo
hacen sus resultados deben tomarse con mucha cautela y no usarse para tomar decisiones de alto
impacto (Timmons et al, 2005).
La informacin que debe presentarse es la identificacin de las principales fuentes de error,
resmenes estadsticos que cuantifiquen el tamao de estos errores, y el grado de
generalizabilidad de los puntajes entre distintas formas, puntuadores, administradores, y otras
dimensiones relevantes. Tambin una descripcin de la poblacin con el que fueron hechas estas
estimaciones. Es necesario que haya bastante detalle para juzgar si la confiabilidad es adecuada,
ya que no existe un ndice nico, aplicable a cualquier situacin (Joint Committee on Standards
for Educational and Psychological Testing, 1999)12.
11
12
Ya que este documento est dirigido a personas que no necesariamente tienen conocimientos de estadstica o
psicometra, solo se describirn los mtodos para estimar la confiabilidad de manera muy general. Para
profundizar en el tema, se sugiere consultar Reliability de Haertel, E. y Item Response Theory, de Yen, W.
& Fitzpatrick, A., ambos en el libro Educational Measurement, (4th edition). 2006. Brennan R., Ed. Sponsored
jointly by the National Council on measurement in Education and American Council on Education. Praeger
Publishers, Westport.
Es importante ver si los anlisis fueron hechos con puntajes brutos o no.
13
Desde la teora clsica, los enfoques ms tpicos para analizar la confiabilidad son: coeficientes
derivados de la administracin de formas paralelas en sesiones independientes, coeficientes
obtenidos por la administracin del mismo instrumento en ocasiones separadas (conocido
tambin como test re-test, o coeficiente de estabilidad ) y coeficientes basados en la
relacin entre puntajes derivados de tems individuales o subtests dentro de un test, informacin
que es obtenida de la misma administracin (conocido tambin como coeficiente interno, o
inter tem) (Joint Committee on Standards for Educational and Psychological Testing, 1999;
Cohen y Swerdlik, 2009).
El coeficiente de confiabilidad ms usado en teora clsica es el Alpha de Cronbach, que
pertenece a esta ltima categora. Alpha se desarroll en 1951 para entregar una medida de la de
la consistencia interna de un test o una escala, es decir, identificar cunto los tems miden el
mismo concepto, por lo tanto si un test tiene varias escalas puede ser ms apropiado usar alpha
en forma separada para cada escala. Si los tems se correlacionan entre s, al valor de alpha
aumenta. Pero este valor puede aumentar tambin por la cantidad de tems (Webb, Shavelson &
and Haertel, 2006). Sus valores posibles se mueven entre 0 y 1. En general un alpha de .7 o ms
se considera aceptable (Institute for Digital Research and Education, UCLA, n.d.), por ejemplo
para la evaluacin de programas (Center for Assessment and Research, James Madison
University, 2014), pero si los resultados tendrn consecuencias individuales es mejor obtener
valores superiores a .8 (Webb, Shavelson & and Haertel, 2006).
Teora de
generalizabilida
d
La teora clsica asume que el puntaje observado es la suma del puntaje verdadero y algn error
residual especfico de ese puntaje. En cambio, la teora de generalizabilidad en vez de usar el
puntaje verdadero, asume un universo de generalizacin compuesto por todas las posibles
observaciones consideradas equivalentes (Brenan, 2006, Haertel, 2006).
Los coeficientes utilizados por la teora de generalizabilidad permiten especificar y estimar los
diversos componentes de la verdadera varianza del puntaje, la varianza del error, y varianza del
puntaje observado (Joint Committee on Standards for Educational and Psychological Testing,
1999). Se pueden realizar dos tipos de estudios, de generalizabilidad (G-Study) y de decisin
(D-Study). Una herramienta de anlisis habitualmente utilizada es ANOVA, as como el
programa computacional GENOVA.
14
La TRI es una familia de modelos estadsticos usados para analizar los datos de tems de tests,
entregando un proceso estadstico unificado para estimar caractersticas de los tems y los
individuos examinados y definir cmo estas caractersticas interactan en el desempeo en los
tems y el test. IRT tiene muchos posibles usos en evaluacin, entre ellos construccin de tems,
escalamiento, equating, estndar setting, y puntuacin. A partir de los '90 ha sido utilizada en la
mayora de las evaluaciones estudiantiles a gran escala.
Existen diferentes modelos TRI pero su esencia comn es una descripcin estadstica de la
probabilidad de que un examinado con determinadas caractersticas tenga una determinada
respuesta a un tem individual, que a su vez tiene caractersticas particulares. Las maneras de
calcular la confiabilidad bajo TRI toman en cuenta las caractersticas del individuo y de los
tems (Yen & Fitzpatrick, 2006). Al usar TRI muchas veces se utiliza la funcin de informacin
del test como medida de confiabilidad. Esta resume qu tan bien el test discrimina entre
individuos de diversos niveles en el rasgo siendo evaluado (Joint Committee on Standards for
Educational and Psychological Testing, 1999).
Estos tres enfoques se refieren a la confiabilidad del instrumento, pero las fuentes de varianza en
la medicin tambin pueden darse en la puntuacin e interpretacin de los instrumentos. Por
ejemplo, cuando el proceso de puntuacin requiere mucha participacin de puntuadores (lo que
sucede en los tems de respuesta abierta), en general se obtienen puntajes de consistencia entre
jueces, que es otra forma de analizar la confiablidad (Joint Committee on Standards for
Educational and Psychological Testing, 1999; Cohen y Swerdlik, 2009).
Hay que tener en cuenta que cmo se implemente y analice un instrumento tambin puede
afectar su validez y confiabilidad (Joint Committee on Standards for Educational and
Psychological Testing, 1999; Cohen y Swerdlik, 2009). Para que un test sea vlido, no basta con
que las caractersticas tcnicas del instrumento lo sean, tambin es fundamental que todos los
instrumentos hayan sido administrados bajo las mismas condiciones estandarizadas de
aplicacin. Esto significa que las instrucciones, el contexto de aplicacin y los procedimientos de
puntuacin han sido exactamente los mismos para todos los examinados. Eso asegura que los
datos puedan ser adecuadamente, interpretados, comparados, y usados de acuerdo al principio de
que cada usuario fue tratado de manera justa. Por lo tanto, cualquier alteracin en la
estandarizacin de la aplicacin afecta la comparabilidad y la validez de la prueba (McCallin,
2006).
Esto nos lleva al concepto estandarizacin. Lo que hace que un test sea estandarizado no es el
uso de puntajes estandarizados, o que sea de respuesta mltiple, sino que las condiciones de
aplicacin hayan sido estandarizadas, es decir, las instrucciones, condiciones de administracin,
y puntuacin son claramente definidas y son las mismas para todos los examinados (Ministerio
15
16
Costos
Un elemento central en este anlisis es el tema costos, que puede ser un factor decisivo a la hora
de escoger un instrumento. Para cada instrumento potencial hay que saber cuntos recursos se
necesita tener para implementar la evaluacin en su totalidad (Center for Assessment and
Research, James Madison University, 2014; Ministerio de Educacin de Nueva Zelandia, 2014;
Timmons et al, 2005). Existen varios tipos de costos asociados a los instrumentos: para comprar
los derechos de los tests mismos, las hojas de respuesta, el procesamiento, y puntuacin y
anlisis de los datos por parte del dueo del test o algn proveedor independiente. Adems hay
costos asociados al pago de sueldos al personal que administre y punte, costos legales o de
licencias de estas contrataciones, y el arriendo de un lugar para la evaluacin, almacenaje de
material y correccin de preguntas abiertas, si corresponde (Cohen y Swerdlik, 2009).
Con respecto a los derechos de los instrumentos, algunos estn disponibles sin costo, pero otros
deben ser comprados a sus autores o publicadores (Center for Assessment and Research, James
Madison University, 2014). Los instrumentos por los cuales hay que pagar tienen un amplio
rango de precios y es importante considerar que el mejor instrumento no es necesariamente el
ms caro. La mayora de los publicadores de tests de lpiz y papel cobran por manuales y otros
materiales de administracin, adems de por cada test individual, hojas de respuestas, y servicios
de puntuacin. Si se quiere hacer un anlisis de costo-efectividad hay una serie de factores que
deben considerarse. Por ejemplo, algunos tests baratos pueden ser tiles o instrumentos muy
caros tener una utilidad muy acotada a determinada poblacin. Tambin es importante considerar
cuntas veces se planea usar el instrumento y si es posible asociarse con otra institucin para
compartir costos (Timmons et al, 2005).
17
Tiempos de aplicacin
Los manuales de los instrumentos siempre especifican el tiempo (o los rangos de tiempo) de su
aplicacin. Esto puede determinar la adecuacin del instrumento para un cierto uso (Ministerio
de Educacin de Nueva Zelandia, 2014). Por ejemplo, puede que el programa no cuente con
suficiente tiempo y dinero para una administracin larga. En nios muy pequeos, los exmenes
muy largos pueden ponerlos ansiosos y hacer los puntajes menos vlidos que los de exmenes
ms cortos. En otros casos, la fatiga puede ser un factor que influya en los resultados. Es
importante escoger instrumentos cuya validez no se vea afectada por este tipo de variables
(Timmons et al, 2005).
Otra consideracin prctica es que a veces las evaluaciones deben ajustarse a la duracin de los
bloques escolares. Por ejemplo, si hay bloques de 90 minutos entre recreos, quizs es
logsticamente complejo aplicar un instrumento que dure 120 minutos (Bart, 2009).
Por lo tanto, hay que evaluar los tiempos de aplicacin contra el tiempo disponible y el tipo de
estudiante al que se le aplicar el test, para evaluar si es adecuado o no al contexto particular.
Los administradores de los instrumentos juegan un rol esencial. Los tests varan en el nivel de
experticia y entrenamiento requeridos por los administradores o puntuadores (Ministerio de
Educacin de Nueva Zelandia, 2014; Timmons et al, 2005).Cuando se requiere experiencia o
formacin especfica, esto se especifica en los manuales o los sitios webs de los instrumentos. En
algunas ocasiones, incluso es necesario enviar documentacin que respalde la formacin de los
examinadores antes de poder acceder a los tests. La administracin o puntuacin de tests por
parte de personal sin las calificaciones necesarias es una serie violacin tica y adems puede
afectar la validez de los resultados (Timmons et al, 2005).
Para algunos instrumentos se requiere una capacitacin especfica para la administracin del test
(ms all de que se requiera o no una cierta formacin previa). Es fundamental tener esta
informacin de antemano, y en el caso de exigirse un entrenamiento, saber cunto cuesta y
cunto tiempo toma (Ontario Ministry of Training, Colleges and Universities, 2011). Tambin es
importante saber si se cuenta con entrenadores adecuados para poder realizar las capitaciones.
Algunos instrumentos requieren tiempo y/o un entrenamiento especial para ser puntuados o para
analizar los datos, lo que puede involucrar contratar y entrenar a personas para que lo hagan.
Esto es especialmente comn en aquellos que evalan escritura. Es necesario considerar el
tiempo necesario y los costos asociados a la seleccin y capacitacin de correctores, lo que
18
Algunos instrumentos requieren una administracin uno a uno (un examinador por evaluado)
mientras otros son de aplicacin grupal. En trminos prcticos, lo ms fcil es ocupar
instrumentos de aplicacin grupal, es decir, que implican tener solo uno o dos examinadores por
sala.
Sin embargo, muchos instrumentos que requieren observacin por parte del examinador, o que
evalan a nios muy pequeos, son de administracin individual, es decir, uno a uno entre el
examinador y el examinado. Esto puede ser inviable desde el punto de vista prctico, por costos
y limitaciones de tiempo. En otras ocasiones quizs lo que se quiere medir solo se puede evaluar
a travs de un instrumento de administracin individual, en este caso es necesario contar con los
recursos suficientes. La mayora de los instrumentos que han sido diseados para administracin
individual no se pueden usar fcilmente en un grupo (Ministerio de Educacin de Nueva
Zelandia, 2014).
Es fcil/difcil de usar
Los test deberan ser lo ms fciles de usar posible, ya que los desempeos de los estudiantes se
pueden ver afectados si no entendieron las instrucciones. Sobre todo los nios pequeos pueden
gastar tiempo valioso tratando de entender el proceso y no en el contenido. Por ejemplo, hojas de
respuesta complejas pueden confundir al usuario y un estudiante puede darse cuenta en medio
del test que ha estado respondiendo en la seccin equivocada (Timmons et al, 2005). Para nios
de primer y segundo grado la experiencia recomienda no utilizar hojas de respuesta, porque la
instruccin los puede confundir. Es mejor que respondan directamente sobre la prueba.
19
Las pruebas paramtricas estn diseadas para representar a la poblacin general, por ejemplo a
la de un determinado pas, o de un cierto grupo etario dentro de un pas. Normalmente los tests
paramtricos estn disponibles comercialmente, han sido piloteados y estandarizados en la
poblacin completa y ofrecen muchos datos sobre su muestreo, validez y confiabilidad. Los tests
13
Cueto tambin plantea que hay grandes crticas a los sistemas de altas implicancias por cuestiones de validez de
las inferencias que se pueden realizar. Las objeciones giran alrededor de temas como hasta qu punto son justas
las comparaciones entre centros educativos que atienden a poblaciones diferentes, en contextos diferentes, con
recursos humanos y materiales diferentes.
20
Las evaluaciones referidas a normas son aquellas en que el puntaje obtenido por un individuo se
compara con el puntaje obtenido por un grupo, lo que permite definir cmo se ubica el
rendimiento de un estudiante o grupo de estudiantes frente a otros (de la misma edad, grado de
estudios u otro rasgo en comn) (Cueto, 2007; Cohen y Swerdlik, 2009). Entonces, el puntaje se
entiende de manera relativa, en comparacin a los puntajes obtenidos por otros15. Un objetivo
importante de este tipo de evaluacin es ordenar, o hacer rankings (Cohen y Swerdlik, 2009). Un
ejemplo clsico son las pruebas de admisin universitaria, tal como las pruebas SAT.
En este contexto, norma se entiende como el comportamiento usual, habitual, esperado, o
tpico. En el contexto psicomtrico, las normas son los datos sobre el desempeo de un grupo
14
15
Las pruebas paramtricas hacen dos grandes supuestos sobre la poblacin general y sus caractersticas: i) que
hay una curva normal de distribucin en la poblacin (lo que se observa por ejemplo, en puntajes estandarizados
de coeficiente intelectual, o en los logros en lectura de la poblacin en total), y ii) que hay un cero real e
intervalos continuos y equivalentes entre los puntajes (a diferencia de los puntajes no ordinales tpicos de los
cuestionarios, donde no se pueden asumir distancias iguales entre intervalos). Las no paramtricas, en cambio,
hacen pocos o ningn supuesto sobre la distribucin de la poblacin o sus caractersticas, y no asumen una
distribucin normal, por lo que no permiten comparar con la poblacin general. Por lo tanto, en este caso se
debe trabajar con estadsticas no paramtricas (Cohen, Manion y Morrison 2000).
Este modelo proviene de la psicologa, donde a menudo las variables de inters, tales como inteligencia, se
miden en niveles de intensidad y no por su carencia o dominio absoluto. Aplicado a la educacin, este modelo
llev al desarrollo de pruebas que procuraban lograr una distribucin normal en el rendimiento y presentaban
los datos analizando la posicin relativa de un grupo de estudiantes frente a otro. As, se presentaban resultados
indicando en qu percentil se encontraba el rendimiento de un estudiante o grupo de estudiantes y con esto se
poda saber qu porcentaje se encontraba por encima y por debajo del grupo descrito (Cueto, 2007).
21
especfico que se usan como referencia para evaluar o interpretar puntajes individuales. Los
miembros de esta muestra con que se calcula el puntaje son considerados tpicos del grupo, y la
distribucin de puntajes de este grupo se utiliza como las normas del test contra los cuales se
comparan los puntajes individuales (pueden ser puntajes brutos puntajes brutos16 o
estandarizados). El grupo especfico (los otros, con que se comparar el puntaje individual)
puede ser tan amplio como la poblacin de un pas, o tan especfico como los pacientes
femeninos de un determinado hospital (Cohen y Swerdlik, 2009).
Existen muchos tipos de normas: por edad, grado, nacionales, locales, de subgrupo, referidas a
un grupo de referencia, y de percentil (los datos brutos de la muestra estandarizada convertidos a
percentiles) (Cohen y Swerdlik, 2009).
Normar un test a nivel nacional es muy caro, por lo que algunos tests no usan una muestra
representativa a nivel nacional para determinar sus normas, sino que solo usan los estadsticos
descriptivos de un grupo de individuos en un contexto especifico, a esto se les llama normas de
usuarios o programas (Cohen y Swerdlik, 2009).
El puntaje bruto es el primer resultado cuantitativo que se obtiene al corregir un test. Generalmente corresponde
al nmero de respuestas correctas obtenidas. Los puntajes brutos, en s mismos, carecen de significacin y
deben ser transformados en puntajes derivados para ser interpretados. Un puntaje bruto slo puede ser
interpretado al ser contrastado con uno o varios grupos normativos, lo que permitir su transformacin a
Normas en Puntaje Estndar, Percentiles o Puntaje T.
22
objetivos de aprendizaje, e incluso puede referirse a la relacin entre ciertos puntajes en un test y
niveles de desempeo esperados en un cierto criterio (Urbina, 2004).
Este tipo de tests puede entregar datos cuantitativos, por ejemplo porcentajes de respuestas
correctas. Tambin puede haber categorizaciones cualitativas, ya sea un todo o nada con respecto
a un determinado nivel de logro (por ejemplo, se aprueba o no el examen de conducir), u
ofreciendo varios posibles niveles de desempeo intermedio (Urbina, 2004), como sucede en la
prueba internacional PISA.
Este tipo de evaluacin requiere una cuidadosa descripcin de cul es el estndar esperado y de
dnde poner los puntajes de corte (Cohen y Swerdlik, 2009). Es importante tener muy definido el
contenido de lo que se desea evaluar y asegurarse de que el test efectivamente evala todos los
elementos definidos como importante. Para esto, se pueden hacer tablas de especificaciones que
detallan la cantidad de tems por contenido u objetivo de aprendizaje (Urbina, 2004). Estos
elementos son muy importantes de considerar si se escoge un test referido a criterios: los
criterios y puntos de corte del test se deben relacionar con los objetivos y contenidos de
evaluacin.
Las ventajas o desventajas de una evaluacin referida a criterios o normas tienen que ver con el
objetivo de evaluacin.
En general la evaluacin centrada en los aprendizajes est ms relacionada con la evaluacin
referida a criterios, ya que se liga directamente a objetivos de aprendizaje y a una serie de
objetivos de desempeo, en otras palabras, permite evaluar cunto los estudiantes han logrado
los objetivos propuestos, permite medir competencias con respecto a un objetivo instruccional.
Tambin la informacin obtenida puede servirle al mismo estudiante o a los docentes para
mejorar en los aspectos identificados como dbiles (Virginia Tech, School of Education, 2014).
La referida a normas, en cambio, es particularmente til si lo que se desea es ordenar a
estudiantes, escuelas o pases, ya sea para rankear o para seleccionar a los mejores. Sin embargo,
es difcil establecer de manera absoluta cunto saben los estudiantes en relacin con un
determinado estndar o nivel mnimo aceptable (Cueto, 2007).
En la evaluacin referida solamente a criterios, una desventaja es que no se tiene informacin del
desempeo relativo del estudiante respecto al resto, y si el test no est diseado para recoger esta
informacin, se puede perder informacin sobre los alumnos que estn en los extremos, ya sea
los ms avanzados o los menos avanzados. Por ejemplo, un test podra estar enfocado en medir
habilidades bsicas de lectura, pero no permitira identificar a los estudiantes que tienen
habilidades lectoras muy avanzadas. En cambio un test referido a normas s permitira identificar
al estudiante que destaca de entre los dems (Virginia Tech, School of Education, 2014). O al
revs, una prueba diseada para describir aprendizajes avanzados de matemtica entrega muy
23
poca informacin sobre qu saben hacer los estudiantes que caen bajo el nivel de logro ms
bsico. Segn el objetivo de evaluacin que se tenga, esto puede ser o no un problema.
Es importante destacar que aunque muchos instrumentos pertenecen a una u otra categora,
ambos enfoques no son necesariamente excluyentes (Cohen y Swerdlik, 2009). Un ejemplo de
esto es la prueba PISA, que permite rankear los puntajes y tambin describe el porcentaje de
estudiantes que se ubica en cada nivel de desempeo.
Los instrumentos que se usan para medir aprendizaje pueden separarse en los que son de
respuesta abierta y los de respuesta cerrada. Estos ltimos implican escoger alternativas dentro
de una serie de opciones provistas. El ejemplo ms conocido son las pruebas estandarizadas de
tems de seleccin mltiple. Los instrumentos de respuesta construida, en cambio, son las
evaluaciones en que se debe crear la respuesta, tales como ensayos, reportes, u exmenes orales
(Center for Assessment and Research, James Madison University, 2014). Tambin caen en esta
categora las pruebas de pregunta abierta, tambin conocidas como de desarrollo.
Las ventajas de los instrumentos de seleccin mltiple son que se pueden administrar rpida y
fcilmente a grandes nmeros de estudiantes y abordan muchos temas. Sin embargo, ofrecen
menos riqueza, menos profundidad y tienden a enfocarse en la capacidad de recordar y otras
habilidades cognitivas bajas. Las ventajas de los de respuesta construida son que proveen una
informacin ms profunda de los que los estudiantes saben y pueden hacer, pero son caros
porque deben ser puntuados por puntuadores entrenados especialmente para ello, lo que adems
toma bastante tiempo, y en general requieren tiempos de aplicacin ms largos (Center for
Assessment and Research, James Madison University, 2014). Adems, si la puntuacin no es
efectuada correctamente y de la misma manera por todos los correctores, la comparacin de los
puntajes se ve afectada, lo que no ocurren en el caso de los de respuesta cerrada.
Existen algunas pruebas que combinan tems de ambos tipos. Por ejemplo, un test puede estar
conformado principalmente por tems de seleccin mltiple, pero complementar la informacin
recogida con una o dos preguntas abiertas, que requieran que el estudiante redacte un texto y
exponga argumentos, lo que permite evaluar habilidades que no se pueden recoger de la misma
manera con solo tems de seleccin mltiple.
que tienen la particularidad de escoger el grado de dificultad de los tems que le corresponden a
cada estudiante a partir de las respuestas que ya ha dado. Esto logra mucha mayor precisin en la
medida y adems soluciona el problema de que si el estudiante sabe muy poco, la mayora de los
tems sea muy difcil para l y tenga que adivinar las respuestas, y que si sabe mucho, la mayora
sean demasiado fciles. Otras ventajas son que permiten reducir la cantidad de tems que
responde cada estudiante, permiten a los examinados avanzar a su propio ritmo, y los estudiantes
sienten que la tarea es desafiante pero realizable.
Los tests adaptativos necesariamente se administran en un computador, y no con lpiz y papel.
Al responderse en el computador, no se utilizan hojas de respuesta por lo que el anlisis de datos
es ms fcil (no hay que digitar los datos) y la seguridad de la informacin es mayor. Son
particularmente tiles en evaluaciones a gran escala, en que es esperable que los estudiantes
posean una amplia gama de habilidades.
Dentro de las desventajas est que las habilidades requeridas para manejar el computador pueden
ser diferentes de las evaluadas por la prueba; el hecho de usar computador puede aumentar o
disminuir el nivel de motivacin de los examinados; y hay ms elementos externos que puede
influir en los resultados, como la lentitud del computador, su brillo, etc. Tambin puede haber
factores tcnicos en el anlisis de los datos, relacionados con el clculo del error estndar 17.
Otras dificultades tcnicas son que se requiere un pool de tems muy grande y que sean de
diversos grados de dificultad, lo que puede afectar su calidad, y que es necesario calcular muy
bien las reglas de asignacin de los tems a partir de rigurosos pilotajes que informen sobre la
dificultad de los tems (Cohen, Manion y Morrison, 2000).
Para ms informacin sobre cmo calcular este error, ver Thissen, D. (1990) Reliability and measurement
precision. In H. Wainer (ed.) Computer Adaptive Testing: A Primer. Hillsdale, NJ: Erlbaum, 16186.
25
pre test (Virginia Tech, School of Education, 2014). Por ejemplo, si el objetivo es certificar los
aprendizajes obtenidos, basta con un pos test, ya que no es parte del objetivo de evaluacin
identificar cuntos de los aprendizajes se obtuvieron gracias al curso. En otros casos esta
pregunta s es relevante, y para saber cuntos de los aprendizajes se debieron al programa o curso
especfico sera necesario tambin aplicarle el pos test a un grupo de control. De lo contrario, no
se sabra si los resultados se debieron al programa o curso o a otras variables, tales como el paso
del tiempo. Otra alternativa es que algunos proveedores muy especializados proveen pruebas
llamadas de valor agregado, que se administran al principio y al final del ao escolar y
permiten identificar cunto de los aprendizajes logrados se debieron al efecto de la escuela o
profesor18.
18
Para calcular el valor agregado, se deben tener datos agregados, de estudiantes equivalentes, contra los cuales
comparar los resultados, para poder estimar cual hubiera sido el desempeo si no se hubiese hecho esa
intervencin.
26
Mientras mayores son las consecuencias de una evaluacin, ms se presentan conductas poco
ticas por partes de quienes estn siendo evaluados o sern responsables por los resultados
(Cohen, Manion y Morrison, 2000). Se pueden distinguir tres tipos de fraude: a) que el
examinado haga trampa al responder, b) el robo de tems, y c) cuando un tercero cambia los
puntajes, ya sea hacindose pasar por otro para rendir la prueba en su lugar, o cambiando las
respuestas dadas por el examinado (Impara y Foster, 2006).
a. La trampa puede manifestarse de distintas maneras: interactuar con otros durante el test a
travs de celulares u otros medios, usar resmenes u material prohibido, utilizar ms
tiempo del permitido, usar calculadoras si estn prohibidas, etc. (Impara y Foster, 2006).
b. El robo de tems consiste en reproducir las preguntas para para luego prestarlas a
regalarlas (esto lo pueden hacer los examinados o cualquiera que haya tenido acceso al
material). En algunos contextos existen piratas que rinden un test solo para memorizar
tems y venderlos: si trabajan en grupo, logran abordar muchos tems con solo una
aplicacin (Cohen y Wollak, 2006; Impara y Foster, 2006). Tambin hay casos de
27
docentes que entrenan a sus alumnos para que memoricen ciertos tems y poder as
reconstruir una prueba.
c. Con respecto al cambio de las respuestas, existen muchos casos de profesores e incluso
de directores que, por presin por tener buenos resultados, cambian las respuestas dadas
por los estudiantes en las hojas de respuesta (Cohen y Wollak, 2006; Phillips y Camara,
2006). Otro fenmeno bastante comn por parte de las escuelas es pedirle a algunos
estudiantes de bajo rendimiento que no asistan el da que hay que rendir el test o
directamente entregarle las respuestas correctas durante la evaluacin (Cohen y Wollak,
2006).Y aunque es menos comn, tambin hay casos en que estudiantes de cursos
mayores rinden un test en lugar del curso que realmente debe rendirlo, es decir, casos
grupales de suplantacin.
Otra importante fuente de distorsin de los datos relacionados con el rol del docente y director es
la preparacin que los estudiantes hayan podido recibir para rendir la prueba, tambin conocido
como teaching to the test (Cohen y Wollak, 2006). Esto puede manifestarse de muchas maneras,
entre ella: Asegurarse de la cobertura de los contenidos y objetivos del programa que sern
incluidos en la evaluacin; restringir la cobertura solo a aquellos elementos que sern evaluados;
preparar a los estudiantes para rendir ese tipo de examen; practicar con exmenes similares;
decirle a los estudiantes con anticipacin que entrar en el examen, y practicar con el mismo con
el mismo test, sin apoyo del profesor o revisar el test con el profesor (Cohen, Manion y
Morrison, 2000).
Ha habido mucho debate sobre qu tan apropiado es el teaching to the test. La barrera entre qu
es preparacin legtima para un test, y qu no, es difusa. Por ejemplo, en tests con consecuencias
para los estudiantes se les deja en desventaja si no se les prepara (Cohen, Manion y Morrison,
2000). De hecho, en pruebas de admisin universitaria parte de las reglas del juego es que los
estudiantes se preparan. Sin embargo, la preparacin no es algo deseable en la evaluacin de
programas. Una definicin de prcticas poco tica (Gipps, 1994, en Cohen, Manion y Morrison,
2000) es cuando los puntajes aumentan pero las inferencias confiables sobre el desempeo no, y
cuando diferentes grupos de alumnos son preparados de manera diferente para el test, dando a
algunos ventajas injustas sobre otros. Gipps sugiere que es correcto que los profesores enseen
contenidos ms all de los que sern incluidos en el test, y no preparen para el test: idealmente,
solo la mejor instruccin es aceptable. Algunos autores proponen que es inapropiado si hay
mucha preparacin o ensayo, y es apropiado si se ensean los contenidos (Phillips y Camara,
2006).
Desde el punto de vista tcnico, cuando hay fraude se afecta la validez de los puntajes, ya que los
puntajes no reflejan adecuadamente las habilidades medidas por el test. Es decir, son fuente de
varianza irrelevante para el constructo siendo medido. Adems, el fraude tiene problemas
relacionados con la reputacin de la evaluacin, y con la justicia para quienes no hicieron
trampa. En el caso que hay que replicar una prueba, puede ser daino o agotador para los
evaluados tener que ser re evaluados (Impara y Foster, 2006).
28
Los elementos que han sido descritos en esta nota como temas tcnicos a tomar en cuenta, junto
con otros temas relativos a la calidad que no han sido incluidos aqu, pueden tambin
considerarse deberes ticos (Cronbach 1970; Hanna 1993; Cunningham 1998, todos en Cohen,
Manion y Morrison, 2000). Por ejemplo, para que una evaluacin sea tica, los instrumentos
deben ser vlidos y confiables; su administracin, puntuacin y anlisis solo debe ser realizado
por personas preparadas y sin intereses creados; se debe controlar el acceso al material; los
procesos de puntuacin debe ser transparentes.
Al seleccionar instrumentos, es responsabilidad de quien selecciona asegurar que los contenidos
estn alineados con los objetivos de evaluacin y que el formato sea relevante. En el caso de
pruebas referidas a normas, la poblacin usada para la muestra a partir de la cual se construy la
norma debe ser representativa a la de la poblacin a la que se quiere generalizar. En el caso de
estar evaluando nios pequeos, se debe asegurar que el test sea apropiado a su edad (MCME
Code, en Phillips y Camara, 2006).
Muchas veces tambin est en manos de quien implementa la evaluacin prevenir el fraude,
poniendo estrictos controles de calidad en el manejo del material antes, durante y despus de la
aplicacin, definiendo que quienes tengan acceso al material no se vean afectados por los
resultados y no sean responsables por los resultados que estn siendo medidos. Para esto, es
esencial seleccionar examinadores apropiados, que no tengan conflictos de inters. Por ejemplo,
un error comn es usar como examinador al profesor del curso que est siendo evaluado, porque
sale barato. Tambin hay que asegurarse que los examinadores seguirn rigurosamente las
instrucciones y tienen las capacidades requeridas, por ejemplo, deben poder leer bien en voz alta
las instrucciones (McCallin, 2006). Prevenir la distribucin de los tems de los tests previo a su
aplicacin y desincentivar prcticas poco ticas de preparacin para el test son responsabilidad
del estado en los casos en que la evaluacin es implementada por el estado (Phillips y Camara,
2006).
Otra relevante consideracin tica son los derechos de los estudiantes siendo evaluados. Algunos
se basan en la legislacin nacional o en reglamentos escolares, otros en el sentido comn, los
estndares ticos comnmente aceptadas, y el respeto. En algunos casos, se requiere permiso
otorgado por los padres o apoderados. Por lo tanto es importante informarse sobre el contexto
legal del lugar en que se aplicar la evaluacin, junto con considerar el contexto cultural de los
estudiantes al seleccionar el mtodo de evaluacin, y proveer las adaptaciones necesarias en
estudiantes con necesidades educativas especiales (The Joint Committee on Standards for
Educational Evaluation, 2003). Tambin es importante respetar su privacidad y dignidad,
asegurar que la evaluacin no les haga dao, y se debiera solicitar su consentimiento informado
antes de participar (Cohen, Manion y Morrison, 2000).
29
Existen cdigos de tica aplicables a los investigadores que hacen evaluacin educativa, como
los del American Educational Research Association, que incluyen elementos tales como dar
informacin a los participantes de la investigacin (Phillips y Camara, 2006). En Estados Unidos
existe legislacin al respecto, que puede ser considerada como gua para aplicaciones en otras
partes. Por ejemplo, El National Research Act de 1974 exige que el estudio haya sido aprobado
por una organizacin externa previo a su implementacin, no hacer dao, consentimiento
informado, y permiso de los padres o apoderados. El Family Educational Rights and Privacy Act
exige privacidad de los registro de los estudiantes, lo que se puede lograr asignndoles un cdigo
no ligado a su identidad real. El National Council on Measurement in Education (NCME) ha
establecido un cdigo para guiar a sus miembros involucrados en la evaluacin en educacin y
para ofrecer gua a quienes no estn afiliados (http://ncme.org). La seccin dirigida a quienes
seleccionan instrumentos menciona:
B.
Otro tema muy relacionado con la tica en la evaluacin, es la justicia. Cmo asegurar que un
test sea justo? Cmo se relaciona la justicia con el sesgo y con la validez? Cmo se pueden
hacer evaluaciones que sean justas para estudiantes con necesidades educativas especiales?
Desde la dcada de los '60 la justicia, entendida como el no sesgo de los tems, ha sido un tema
mayor en la sicometra (Zieky, 2006). El sesgo entendido estadsticamente es un error
sistemtico entre dos medidas cuando estas debieran ser iguales (Camilli, 2006). O, dicho de otro
modo, cuando factores irrelevantes o arbitrarios sistemticamente afectan las inferencias y
juicios realizados a partir de una evaluacin de una manera que afecta de manera diferente a un
estudiante o grupo de estudiantes. Estos factores pueden ser diferencias culturales, de lenguaje,
dificultades en el desarrollo o fsicas, nivel socioeconmico, gnero o raza (The Joint Committee
on Standards for Educational Evaluation, 2003). Entonces, un test justo busca identificar
diferencias, si las hay; y si hay diferencias, estas se deben a las diferencias en la habilidad, no a
diferencias en el modo de medir. Es decir, si ambos grupos efectivamente presentan diferencias
en su nivel de habilidad, y el test lo detecta, eso no es un test injusto 19 (Camilli, 2006). El sesgo
se puede calcular matemticamente, usando una medida mtrica del desempeo de distintos
grupos, por ejemplo el DIF (differential item functioning), que permite comparar desempeos en
el tem de dos grupos que tienen el mismo nivel de habilidad20 (Camilli, 2006; Zieky, 2006).
An hoy algunos autores utilizan el trmino justo como sinnimo de sin sesgo. Entendido as, un
test es injusto cuando dos grupos de sujetos obtienen medidas distintas en un instrumento, a
pesar de que poseen la misma habilidad en el dominio siendo medido (Camilli, 2006).
Para otros autores, los trminos validez, justicia y sesgo de los tests son conceptos diferentes.
Mientras que sicomtricamente el sesgo es una caracterstica de un test que sistemticamente
impide evaluaciones precisas e imparciales, y se calcula de manera matemtica, la justicia es
hasta qu punto el texto es usado de manera imparcial, justa y equitativa (Cohen y Swerdlik,
19
20
Popularmente se entiende que un test justo es aquel que entrega los mismos puntajes para diferentes grupos, por
ejemplo de hombres y mujeres. Sin embargo, esta definicin est errada. Como se acaba de explicar, para los
sicometristas la diferencia entre puntajes de grupos no dice nada sobre qu tan justo es el test: por ejemplo, un
grupo de hombres puede medir ms que uno de mujeres, pero eso no refleja una injusticia del instrumento que
se us para medir altura, sino que refleja diferencias efectivas entre los grupos. Juzgar la justicia de un tem por
si parece favorecer algunos grupos tambin es errado, ya que es una percepcin subjetiva y no necesariamente
correlaciona con el desempeo real de la gente (Zieky, 2006).
Para este anlisis es fundamental haber identificado dos grupos que efectivamente tengan el mismo nivel de
habilidad, de lo contrario un tem puede mostrar DIF porque no fue bien hecho el match de habilidad entre
ambos grupos, y no porque realmente tenga sesgo
31
2009). Para otros, los tests justos son aquellos libres de sesgo y que adems cumplen con
estndares reconocidos de administracin y tica. Por ejemplo, los tests estandarizados deben ser
administrados exactamente de acuerdo a sus instrucciones de aplicacin y que todos deben
recibir mismas instrucciones (Zieky, 2006; Timmons et al, 2005). Y, ya que la calidad de los
puntajes que se obtengan dependern de la calidad de las normas, se debe averiguar todo lo
posible sobre los grupos con los cuales o para los cuales se calcularon las normas. Las normas
representan a su muestra de estudiantes? (Bart, 2009).
Zieky (2006) propone que la definicin tcnica ms til es aquella que liga la justicia con la
validez. Cualquier elemento que no es relevante para el constructo, es invlido. Por lo tanto, la
justicia requiere que caractersticas irrelevantes al constructo de los examinados no afecten los
resultados (esto tambin incluye respuestas emocionales). Es decir, cualquier cosa que reduzca la
validez de un tem reduce su justicia. Ligar la justicia con la validez tambin implica tomar en
cuenta el propsito del test y el uso que se le est dando. Un test justo puede ser usado
injustamente. Bajo esta mirada, los fairness reviews debe fijarse en la validez de los tems, no en
si son polticamente correctos. Para poder determinar qu es irrelevante al constructo se hace
necesario tener una muy buena definicin del constructo a medir (Zieky, 2006).
La justicia tambin se puede ver afectada si el usuario tiene poca familiaridad con el proceso de
evaluacin, por ejemplo, una persona que nunca ha usado una hoja de respuesta y no entiende su
funcionamiento puede ver afectado su puntaje. Otros factores pueden ser la familiaridad con el
idioma del test, con su modo de administracin (lpiz y papel o computador) y experiencias
previas o de su familia con la evaluacin. Realizar sesiones de prctica puede ser til en estos
casos. Los administradores de los tests tambin debieran a estar pendiente de si algn nio,
especialmente los ms pequeos, presentan dificultades con las hojas de respuesta (Timmons et
al, 2005).
Para que un test sea usado de manera justa un elemento esencial es considerar las diferencias
culturales y lingsticas de los evaluados. En Estados Unidos, ha habido un nfasis en asegurar
justicia para distintos grupos: razas, minoras, gnero, discapacidad, religin, nivel
socioeconmico y edad. No se puede dar por hecho que a los miembros de diversas comunidades
les parecer que ciertos elementos o tems son adecuados; ni asumir que una misma prueba sirve
para todos, cuando se est evaluando a personas de distintos backgrounds culturales y
lingsticos, ni que porque un test ha sido traducido a otro idioma, es exactamente igual al
original en todos los otros aspectos, ni que los supuestos a la base de un test afectarn a los
grupos de distintas culturas de la misma manera (Cohen y Swerdlik, 2009). El fairness review
guidelines (www.ets.org) propone como lineamientos tratar a la gente con respeto; minimizar el
efecto de habilidades irrelevantes al constructo; evitar material ofensivo o innecesariamente
controversial; usar terminologa apropiada para referirse a la gente; evitar estereotipos, y
representar diversidad de personas en los ejemplos. Estas guas sirven para cualquier cultura,
pero deben interpretarse de acuerdo a cada cultura. Por ejemplo, algo puede ser inapropiado en
Arabia Saudita y aceptable en Suecia (Zieky, 2006). Siempre es una buena idea analizar los
32
tems disponibles para ver si para los estudiantes especficos puede contener material ofensivo o
las palabras puedan tener ms de un significado (Bart, 2009).
Acomodaciones
Un elemento muy relacionado con la justicia de las evaluaciones son los cambios a las
condiciones de aplicacin para permitir que estudiantes con necesidades educativas especiales
(NEE) puedan participar de las mismas evaluaciones de sus compaeros y sean evaluados de
manera justa.
Estos cambios, ya sean acomodaciones o modificaciones, han sido controversiales porque es
difcil hacerlo sin interferir con el constructo siendo evaluado (Zieky, 2006; Thurlow,
Thompson, y Lazarius, 2006; Phillips y Camara, 2006).
Tanto las acomodaciones como modificaciones implican cambios a la situacin estandarizada de
administracin. Las acomodaciones no interfieren con el constructo siendo evaluado, y pueden
referirse a la presentacin (por ejemplo, braile en vez de palabra escrita); tiempos de respuesta
para estudiantes con dificultades con el lenguaje; ayuda para marcar las hojas de respuesta en el
caso de nios que no puedan marcarlas por s mismos; o cambios a la locacin (hacerlo en un
primer piso para que pueda acceder un estudiante con movilidad reducida). Para que sean
correctas, estas acomodaciones deben ser necesarias para la persona con NEE para poder rendir
la prueba y no se debe afectar la validez y comparabilidad de sus puntajes. Estas acomodaciones
no deben relacionarse con habilidades relativas al constructo siendo medido. Por ejemplo, ayudar
a un parapljico a marcar las respuestas en una prueba de matemtica es solo una acomodacin
(Phillips y Camara, 2006). Sin embargo, existe poca evidencia investigativa sobre los efectos de
las acomodaciones. Es difcil saber si lo que se elimina es irrelevante al constructo ya que no se
sabe qu afecta o no el constructo. Por ejemplo, todas las pruebas tienen un componente de
comprensin lectora (Thurlow, Thomposn, Lazarius, 2006). Las modificaciones, en cambio, s
cambian el constructo siendo evaluado, por lo tanto se pierde la estandarizacin y la
comparabilidad.
Este es un tema que no slo tiene aristas tcnicas, sino tambin polticas y legales. Muchas veces
existe presin por grupos de opinin para que las evaluaciones cuenten con acomodaciones
apropiadas para no excluir ni perjudicar a estudiantes con NEE.
33
Adems, en Estados Unidos existe mucha legislacin sobre este tema, que es necesario tomar en
cuenta si se administran evaluaciones en ese pas, y que si se est en otro pas, es recomendable
revisar si existe legislacin nacional al respecto (Thurlow, Thompson & Lazarius, 2006).
34
VI
Existen muchos instrumentos disponibles para su uso comercial que pueden ser usados para
propsitos evaluativos. Desde el punto de vista prctico, utilizar un test que ya existe permite
ahorrar mucho tiempo y recursos (Center for Assessment and Research, James Madison
University, 2014; Cohen, Manion y Morrison, 2000). Otras ventajas son que en general son
instrumentos tcnicamente slidos, es decir, han sido piloteados y estandarizados en una
poblacin detalladamente descrita, declaran su validez y confiablidad, cubren una amplia gama
de contenidos, tienden a ser tests paramtricos por lo que se pueden hacer anlisis sofisticados,
incluyen instrucciones detalladas para su administracin, en general son fciles de administrar y
puntuar, y en general incluyen orientaciones para la interpretacin de los resultados (Cohen,
Manion y Morrison, 2000).
Dentro de las posibles desventajas estn: son caros, muchas veces estn dirigidos a una
poblacin muy especfica y pueden no adecuarse al propsito evaluativo requerido; algunos
tienen una disponibilidad restringida por lo que puede ser necesario afiliarse a cierta institucin
para usarlo, lo que puede exigir cumplir con ciertos requisitos; y los tests disponibles por
definicin estn pensados para una poblacin general y no hechos a medida para necesidades
locales.
Para utilizar uno de estos tests se debe estar seguro que los objetivos, propsitos y contenidos de
dicho test estn alineados con los objetivos de evaluacin. Los Standards for Educational and
Psychological Testing declaran que para que un investigador decida si le conviene usar un
instrumento ya existente, la regla de oro es que debe poder demostrar adecuacin al propsito
(Cohen, Manion y Morrison, 2000). Sin embargo, es difcil encontrar un instrumento que se
ajuste exactamente a los objetivos especficos de un programa (Center for Assessment and
Research, James Madison University, 2014).
Algunos errores comunes que se cometen al seleccionar instrumentos, que afectan su validez y
por lo tanto deben evitarse, son: usar determinado instrumento porque tiene buena fama o ha sido
usado antes; usar informacin porque est disponible; usar mtodos con los que no se est
familiarizado, sin capacitarse adecuadamente; no proveer de adecuaciones a estudiantes con NEE
o que no hablan el idioma (Joint Committee on Standards for Educational and Psychological
Testing, 1999).
Si se decide disear un instrumento, la principal ventaja es que se crea a medida para estar
perfectamente alineado con los objetivos del programa (Center for Assessment and Research,
James Madison University, 2014) y se adecuar con precisin al contexto local e institucional
(Cohen, Manion y Morrison, 2000). Otro factor a considerar es que aunque disear un
instrumento implica mucha inversin de recursos, el instrumento le pertenece a quien lo
construye, por lo que puede ser una buena inversin si se quiere aplicar a muchos estudiantes o
por un periodo largo de tiempo, mientras que si se usa uno ya existente muchas veces hay que
35
pagar por cada aplicacin (Center for Assessment and Research, James Madison University,
2014).
Sin embargo, elaborar instrumentos es caro, lento, y porque probablemente ser no paramtrico,
el rango de posibles anlisis ser ms limitado que en el caso de un test paramtrico (Cohen,
Manion y Morrison, 2000). Adems, muchas veces no se cuenta con personal especializado que
pueda disear un instrumento tcnicamente riguroso (Center for Assessment and Research,
James Madison University, 2014).
En Estados Unidos existen una serie de organizaciones que han desarrollado estndares o
recomendaciones con prcticas para la elaboracin de tests, su interpretacin y uso. Tal vez los
ms famosos son los estndares para los tests psicolgicos y educativos, esfuerzo conjunto de
The American Psychological Association y el National Council on Measurement in Education,
siendo su ltima versin la del 1999 (Buckendahl & Plake, 2006). Un captulo de los Estndares
para la Evaluacin Educativa y Psicolgica (Joint Committee on Standards for Educational and
Psychological Testing, 1999) se refiere a la informacin que deben dar los elaboradores de los
tests, que en general es tomado como gua por los tests disponibles comercialmente. El objetivo
de estas recomendaciones es proveer a los usuarios de la informacin relevantante (Buckendal y
Plake, 2006). Destaca la necesidad de declarar:
a. El propsito del test, los usos sugeridos de sus resultados, incluyendo el grupo etario y
cualificaciones de quienes interpretan los datos. Este propsito se debe comparar con el
de la evaluacin (Buckendal y Plake, 2006).
b. informacin sobre cmo se construy el test
c. informacin tcnica sobre normas, escalamiento, informacin detallada sobre la muestra
con la que se construy la norma (hay que compararlo con el grupo). Evidencia sobre la
generalizabilidad de los puntajes y validez (Buckendal y Plake, 2006).
36
VII
Conclusiones
Bibliografa
Banco Interamericano de Desarrollo, Divisin de Educacin, 2013. Documento de Marco
Sectorial de Educacin y Desarrollo Infantil Temprano.
Bart, M. 2009. What You Need to Know When Evaluating Assessment Instruments. Available at
http://www.facultyfocus.com/articles/educational-assessment/what-you-need-to-knowwhen-evaluating-assessment-instruments/
Brennan, R. 2006. Perspectives on the Evolution and Future of Educational Measurement. In
Educational Measurement (4th edition). 2006. Brennan R., Ed. Sponsored jointly by the
National Council on measurement in Education and American Council on education.
Praeger publishers, Westport.
Buckendahl C., & Plake, B., 2006. Evaluating tests. In Handbook of Test Development.
Downing, S., & Haladyna, T., Ed. Mahwah, New Jersey: Lawrence Erlbaum Associates
Inc., Publishers.
Camilli, G., 2006. Test Fairness. En Educational Measurement, (4th edition). 2006. Brennan R.,
Ed. Sponsored jointly by the National Council on measurement in Education and
American Council on Education. Praeger Publishers, Westport.
Center for Assessment and Research, James Madison University. 2014. The Programme
Assessment
Support
Services.
Downloaded
September
10th
from
http://www.jmu.edu/assessment/pass/assmntresources/instruments.htm#ExistingInstrume
nts
Cueto, S. 2007. Las evaluaciones nacionales e internacionales de rendimiento escolar en el Per:
balance y perspectivas. En Investigacin, polticas y desarrollo en el Per. Lima:
GRADE.
p.
405-455.
Available
at
http://www.grade.org.pe/download/pubs/InvPolitDesarr-10.pdf
Cohen, A. & Wollak, J. 2006. Test Administration, Security, Scoring, and Reporting. In Test
Administration, Scoring and Reporting. Brennan R., Ed. Sponsored jointly by the
National Council on measurement in Education and American Council on Education.
Praeger publishers, Westport.
Cohen, L., Manion, L., & Morrison, K. 2000. Research Methods in Education (6th edition).
London, RoutledgeFalmer.
Cohen, R. & Swerdlik, M. 2009. Psychological Testing and Assessment: An Introduction to Tests
and Measurement (7th Edition). Boston: McGraw-Hill Higher Education
Darr,
C.,
2005.
A
Hitchhikers
Guide
to
Validity.
Available
http://toolselector.tki.org.nz/Assessment-fundamentals/Criteria-for-choosing-anassessment-tool
at:
Haertel, E. 2006. Reliability. In Educational Measurement, (4th edition). 2006. Brennan R., Ed.
Sponsored jointly by the National Council on measurement in Education and American
Council on education. Praeger publishers, Westport.
38
Joint Committee on Standards for Educational and Psychological Testing, 1999. Standards for
Educational and Psychological Testing. American Educational Research Association,
Washington DC.
Indiana University Southeast. 2006. The Indiana University Southeast Faculty Assessment
Handbook. Available at: http://www.ius.edu/oie/program-assessment/assessmenthandbook.html
Institute for Digital Research and Education, UCLA (n.d.). SPSS FAQ. What does Cronbach's
alpha mean? Available at: http://www.ats.ucla.edu/stat/spss/faq/alpha.html
Impara, J. & Foster, D., 2006. Item and Test Development Strategies to Minimize Fraud. In
Handbook of Test Development. Downing, S., & Haladyna, T., Ed. Mahwah, New Jersey:
Lawrence Erlbaum Associates Inc., Publishers.
McCallin, R., (2006). Test Administration. In Handbook of Test Development. Downing, S., &
Haladyna, T., Ed. Mahwah, New Jersey: Lawrence Erlbaum Associates Inc., Publishers.
Ministry of Education of New Zealand, 2014. Criteria for choosing an assessment tool.
Downloaded July 20th, 2014 from http://toolselector.tki.org.nz/Assessmentfundamentals/Criteria-for-choosing-an-assessment-tool
National Council on Measurement in Education (NCME), 2104. Code of professional
responsabilties in educational measurement. Available at: http://ncme.org/resourcecenter/code-of-professional-responsibilities-in-educational-measurement/
Ontario Ministry of Training, Colleges and Universities, 2011. Selected assessment Tools.
Downloaded July 20th, 2014 from
http://www.tcu.gov.on.ca/eng/eopg/publications/OALCF_Selected_Assessment_Tools_
Mar_11.pdf
Phillips, S., & Camara, W., 2006. Legal and Ethical Issues. In Educational Measurement, (4th
edition). 2006. Brennan R., Ed. Sponsored jointly by the National Council on
measurement in Education and American Council on education. Praeger publishers,
Westport.
The Joint Committee on Standards for Educational Evaluation, 2003. The Student Evaluation
Standards. Corwin Press Inc. Thousand Oaks, California
Timmons, J., Podmostko, M., Bremer, C., Lavin, D., & Wills, J. (2005).
Career planning begins with assessment: A guide for professionals serving youth
with educational & career development challenges (Rev. Ed.). Washington, D.C.
Downloaded from http://www.ncwd-youth.info/career-planning-begins-with-assessment
Thurlow, M., Thompson, S., & Lazarius, S., 2006. Considerations for the administration of tests
to special needs students: accommodations, modifications, and more. In Handbook of
Test Development. Downing, S., & Haladyna, T., Ed. Mahwah, New Jersey: Lawrence
Erlbaum Associates Inc., Publishers.
Urbina, S. 2004. Essentials of Psychological Testing. John Wiley & Sons, Inc., Hoboken, New
Jersey.
39
40