Estrategias de Medición (Dembo)

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 9

0

0
0

;
;

"
0

O
O
I
4

'

'

ACUERDO ENTRE OBSERVADORES

- ri

Dembo, m. (1983). Dos estrategias de Estrategias


de Medicin en Psicologa. Psicologa, X, 1, 2, 4157

Volumen X

Encro-Junio 1983

Nos. 1-2

-Crear un pool de items homogneos. Los items deben ser rrpresentanter Igitiiiios del doniiiiio circunwrito por el esquema
descriptivo. Si bien los terns debeii tener homogeneidad derivativa, no es iiecesario que tengan liomogenriclad funcional,
en el sentido de que los siijrtos los deben contest~rtodos COrrectaniente o todos incorrectamente.
-Determinar la loiigitiid del test. Esto ~ u e d edepender del nivel
de competencir deseado. Si se desea, por ejeiiiplo, un nivel
de 95 o nis el test deber ser ms largo que si se exige un
50 por ciento de competencia. Tambin se toma en cuenta Ir
gravedad de una decisin equivocada en bare al test Aqui
se conteiiiplan dos posibles errores: a ) Promover a1 estudiante a otros niveles sin tener competencia en el anterior, y b)
Retener a un estudiante en el nivel en que se encuentra cuando, en redid.id, ya L., comprte~itey puede ser proinovido al

Volumen X

Estudio de confiabilidad, por el procedimiento dc test re-test, con el


fin d e determinar 'el porcentaje d e consistenci~ en la, decisiones. Las
decisiones se refieren al grado d e competencia alcin7ado en el aominio
conductual que el test representa. (Popiiun, 1 9 7 n ) .

Porrerdajc
d e rerpur~rar
rorrerrus

-Desarrollar un sistema de puiitajes que preserve informacin


sobre las tareas en las cuales el individuo muestra compekencia y aquellas en las cuales no es competente. Los puntajes
perceptibles o los puiitajes tpicos lineales o normalizados
no son adecuados para expresar los resultados obtenidos por
un individuo en un test criterial.
Tales puntajes transformados preservan informacin acerca
de la ubicacin relativa del iiTdivid~lorespecto a un grupo
normativo de referencia, pero no proporcionan infonnacibn
acerca de las tareas que el individuo puede ejecutar.
50

Primera

dm itiirrraridn.
NYmrro
dd J U ~ ~

O J
-----

dmis~traridn.
Por, =nr.ijede JY;P;OJ
:fa
ificado~dr
1 d ~ formj
1

Con~pelrnles:
80% 6 ms

-Determinar los criterios a usarse para juzgar, seleccionar, mejorar tems. Los criterios a priori estiii basadas en la aplici~cin del jnicio Iiumaiio sisteinitico, con el fin de determinar
si un iteni es o no congruente con el esquema descriptivo. No
existe acuerdo an sobre los criterios empricos que podran
utilizarse. Uno de ellos podra ser un ndice de seiisitividad
a la ensefianza como, por ejemplo, la diferencia entre la proporcin de iiidividuos que aprueba el item uutri de la ensetniiza y la proporcin de individuos que lo aprueba desplis
del entrenainiento.

Enero-juni

- 24%

Total :

25
100

-7

20%
7

Procediwientos para d e r e ~ n h a rla confi~tiih~id


eo r z ~ t ;
norttzafivor y tests criterides
En los tests normativos se usan, fundanicntalmeiite, tres ndices para establecer la confiabilidad de las mediciones: ndice de
estabilidad, ndice de equivalencia e ndice- de crmistrr~ciainterna.
Todos ellos se obtienen mediante el cmputo J e coeficientes de
correlacin. Como se sube, el monto de un ~urficientede correla6n se ve afectado por la variabilidad (variriicii) de los puntdjes en un grupo. Cuanto menor la variabilithd, ms bajo el c w ficiente de correlacin. Si e l g u p o es muy I i < i i i i i ~ g t hrespecto
~
3
la variable medida, los coeficientes de correlaciii arrojarn resultados espurios.
En aquellos casos en que los tests criteri~lejarrojen una variabilidad adecuada para el cmputo de cor fic ieritcs de carrelacin.
los mtodos tradicionales de test re-test o forriids paralelas pucdm
ser adecuadas para establecer su confiabilidad 1.0s procedimieritor
de consistencia interna serviran fundunerit3inriite prra verificar
la homogeneidad derivativa de un conjunto de tcins.

Volumen X-

Enero-Juiiio 1983

Nos. 1-2

Pero, en principio, los pruccdimientos de instruccin indiviilualizados tratan de ssegurar que todos los individuos de la poblaci6n alcancen ciertos niveles de competencia en el doiiiinio objeto
de enseanza, si bien no excluyt'i~ diferencias en ejecucin ms
alli del nivel general de conipeteiicia obtenido. De resultar efectiva la ir~strucciii,los puiitajcs obtenidos al finalizar la rnseanza despliegsn escasa variabilidad. En tales casos, se puede aii
obterier ndices de estabi1id:itl (tests-re-test) o de equivalencias
(formas paralelas) a travs 'le estadisticos n o pammtricos como
el coeficiente phi, o un simple porcentaje que refleja la consistencia de las decisiones tornadas en base al test. La Tabla 1 ilustra el
procedimiento para determinar, en trminos de porcentaje, la consistencia de las decisiones tomadas. El procedimiento fue de testre-test y, en el ejemplo que se ilustra, Iiubo un 79 por ciento de acurrdos acerca del nivel de competencia alcanzado por un individuo segn los resultados obtenidos en ambas administraciones del test.
En el caso ,de tests criteriales, el procetlimiento de formas paralelas es particularnlente adecuado, ya que se puede generar gran
cantidad de tems a partir de las especificaciones bien delimitadas
del dominio y elaborar formas piralelas seleccioiiai~do aleatoriamente los ten-is que han de integrarlas (formas paralelas al azar).
Glaser y Nitko (1971) sugieren que tcnicas tdes como las
desarrolladas por Lindgren y McElrath ( ~ 9 6 6 )pueden ser tiles
para estimar la confiabilidad de tests cdteriales. Se tmta aqu de
determinar si el criterio est;iblecido para inferir "coniptencia" en
el dominio es adecuado; en otrm palabras, si la proporcin de
tareas correctamente realizidas es suficiente, para considerar al
individuo "conpetente" y terminar la iristmccin o el trtaiiiiento
en el doniinio ea cuestin, o si la proporcin de items correctamente contestado? n o es suficiente para acreditar "competencia".
Los errores pueden ser de dos tipos: 1 ) Inferir que un individuo es
competente cuando no lo es, y 2 ) Inferir que no es competente y no
debe avanzar a uri nuevo dominio de tareas cuando en realidad s
lo es. El procedimiento requiere determinar de antemano la proporcin mnima de tenis bien contestados o tareas bien realizadas
para clasificar al iiidividuo como "competente" en e1 dominio.
En realidad, las tcnicas para la elaboracin y evaluacin de
instruri-ientos de rnedicin referidos a criterios son muy incipien-

Volumen X

Enero-Junio 1983

Nos. 1-2

tes y los procedimientos para la estimacin emprica de la confiabilidad de un test as como de la bondad de un tem no estn bien ,
desarrollados.
Procediniieritcis pnm destrrrollar la validez de tests r~orrna:ivos
y tests criteriales
En 1966, la American Psychological Association (APA) aprob las recomendaciones formula*das por un g r u p de expertos en
relaciones con normas a seguir en la elaboracin de pruebas y publicaciones d e Manuales para dichas pruebas. Ertas recomendaciones fueron recopiladas en una publicacin: Stmrdards for Educatio))al ami Psychological Tesis a ~ i dA1u)iuals (AP.4, 1966). En cuanto
a validez se refiere, los expertos agrupaion los numercsos prop.
sitos para los cuales se usan los tests, en tres propsitos globales
(APA, 1966, pp. 12-13) :
1.

"El usuario desea determinar cmo se comporta un individuo, en el presente, en un universo de shacioncs que el
test pretende representar".

2.

"El usuario desea pre,decir la ubjcacitin fiitura de un individuo, o estimar su ubicacin preseiite, en una variable
de particular significacin que es diferente al test".

3.

"El usuario desea inferir el grado cri que cl individuo


posee una caracterstica o rasgo h ~ p f i t i o (~onstructo)
que presumiblemente se refleja e,) ,u actuacin en e l
test".

El comit redactor de las normas de la APA dilerencib, a


continuacin, tres aspectos de la validez, que torresponJen a estos
tres propsitos: Validez de contenido, validtz rrlacwnada con
un criterio (eficiencia predictiva) y validez d e constructo, respectivamente. ' L a validez de contenido requiere !a (!cmomacin de
que el contenido del test constituye una muestra de l a clase de
situaciones o de la materia en la cual se va a cvaluu al individuo.
La validez criterial o eficiencia predictiva se ~.lc.inuctrar o m ~ a r a n d o
los puntajes del test con una o m s variables externas que,'se considera, proporcionan una medida directa de la :ararierstica o conduda en cuestin. La validez de ccnstructo se evdla iiivestigando
j3

Volunien

):

Enero-Junio 1983

Nos. 1-2

cul es la caractersL.ica o variable psirolgica que el test mide; es


decir, inv4ganclo el grado en que ciertos conceptos .explicativos o
constructos determinan la ejecucin en el test.
Los conceptos de validez descritos se refieren a tests normativos. Topham (1978) ha intentado desarrollar conceptos anlogos
p a n los tests criteriales, dndoles nombres diferentes pues, si bien
los conceptos 'de validez que propone tienen alguna similitud con
los que se aplican a los tests normativos, cada uno de ellos tiene
algunas caracteristicas distintivas. A continuacin se describen, brevemente, estos tres conceptos de validez.
La udidez descriptiva es la ms importante en el caso de 10s
tests criteriales. Este concepto se aproxima mucho al de validez de
contenido en los tests normativos. Un test tiene validez descrip
tiva, si proporciona una clara descripcin del dominio conductual
que el tests mide. El roce di miento para evaluar este tipo de validez
requerira dos etapas: a) Determinar si el "esquema descriptivo"
proporciona clwa informacin sobre el dominio que el test mide,
y b) Dcterminar si los tems son congruentes con el "esquema descriptivo". Como se recordar, el esquema descriptivo constituye el
primer paso en la elaboracin de un test criterial. En el procedimiento propuesto por Popharn (1378) para determinar la validez descriptiva de un test, ambas etapas requieren la participacin de expertos eii la conducta a medir, los cuales actan en calidad de
jueces. El acuerdo entre jueces, es decir, la consistencia en los jiiicios emitidos, es la evidencia requerida para establecer este tipo de
validez. En los tests normativos, la validez de contenido generalmente se aplica a las pruebas de rendimiento basadas en un curso
especfico de estudios. La validez desctiptiva es aplicable a cualquier test criterial y no necesariamente a uno referido a un curso
de eskudios que delimita el contenido del test.
La vdidez frrncio~tcd es el equivalente, en los tests criteriales,
al concepto de eficieiicia predirtiva. La diferencia aqu reside, fundamentalmente, en la importancia que se asigna a este tipo de
validez. En el caso de los tests normativos, la eficiencia predictiva es
esencial y a menudo, quienes elaboran este tipo de pmebas han considerado justificable sacrificar algunas caractersticas deseables en
todo test (unidimensionalidtid, especificidad respecto a la variable
que el test mide, por ejemplo) en aras de La eficieiicia predictiva. En

los tests criteriales lo ms importante es la descripcin del 'domini3


conductual y el tipo de validez que recibe mayor atencih es la
validez descriptiva.
El concepto d e valjdez en 10 seleccir del domittio que POPharn (1978) propone, se aproxima mucho al conccpto de validez
de constructo. Sin embargo, no se trata aqu de determinar la existencia de un constructo hipottico como la inteligencia o alguna
*dimensin de la personalidad sino que se trata de juzgar si la
eleccin del dominio fue acertada. En los tests criteriales, las especificacion~spara la elabracin del test que constituyen el esquema descriptivo, delimitan la clase de conductas o el dominio a medir. 1.a kleccin de algunos dominios puede resultar ms afortunada que la de otros, lo cual se evala a travs de la posibilidad
de generalizar. Dados varios dominios de conductas a elegir,
vinculados todos ellos con algn doniinio ms amplio O ms
complejo, se plantea la necesidad de elegir entre ellos. Si la competencia de un individuo en un dominio o clase de conducta permite
inferir o generalizar su con~petencia en los otros dominios, la
eleccin de dicho dni;nio puede juzgane acertada. El dominio
qiie mejor permita generalizar a los restantes dominios sera considerado el ms vlido en este sentido.

El propsito para e l
crilerider

cual se

u s m os Ierts ~:ormativosy lor tests

Ya se ha dicho que los tests normativos suden ser ms tiles


para la toma de decisiones relativas a grupos tales como la seleccin y clasificacin de individuos y tod;is aquellas situ~ciones
que requieran comparaciones entre bidividuos. En sistemas educativos en los cuales todos los individuos son tratados en igual
forma y hay poca cabilla para la atencin in(lividualizada, los tests
normativos son tiles en la toma de decisiones relativas a la admisin. A medida que se hace posible 1;i iiistrucciii individualizada, el conocimie'nto ,de la posicin que oc'ulu i!ii iidividuo en un
grupo se h:ice menos importante que el c o n ~ i i n i e n t ode las tareas
que es y que no es capaz de realizar. En el c;irnw de la educacibn,
por consiguiente, ambos tipos de tets i i r ~ p d t ~ i ~ > ninformacin
nn
til y la aplicabilidad de iinos u otros Jt:jb,ri& dr la estructura
del sistema educativo.
55

Volumen X

Enero-Junio 1983

Nos. 1-2

Cuando los tests criteriales son administrados antes de iniciarse un curso de enseanza o u1 tratamiento, los resultados definen la competencia 'del individuo rn una clase de tareas o un rea
particular y constituyen su lne~lbdse de ejecucin. Una comparacin de los resultados pre y postinstruccin o tratamiento definen
sus logros o adquisiciones en ese dominio. Bijou (1976) resea
tres tipos de aplicaciones para los tests criteriales en los servicios
educativos y clnicos:
-Diagnstico de conductas problema
-Planificacin de la enseanza
-Evaluacin de competencia o apresto con fines de ubicacin
en un programa educacional prescrito, como el primer
grado.
En clnica, los tests criteriales se usan para el diagnstico conductual ya que permiten inventariar los repertorios del individuo
pertinentes al problema para luego recomendar los proce'dimientos
remediales.
En la planificacin de la enseanza, los tests criteriales se
usan principalmente en el diseo de programas individualizados
en los cuales los materiales se jerarquizan segn su dificultad y
los procedimientos de la enseanza se modifican en base a observaciones o resultados de evaluaciones. As, los tests criteriales
permiten evaluar no slo los logros y adquisiciones del aprendiz,
sino tambin la efectividad de los procedimientos de enseanza.
En sntesis, puede decirse que los tests normativos son tiles
en seleccin, clasificacin y prediccin relativa a grupos de individuos. Los tests criteriales son tiles en decisiones de t i p individual referentes al entrenamiento, educacin o tratamiento que
un sujeto particular debe recibir.
BIBLIOGRAFIA

ANASTASI,
A.: Psy~hologicalTesting. Tliird edition. New York. T h e Macrnillan Cornpany, 1968.

BIJOU,S. W.: Child Drvelopment: The Basir Stage o f Early Childbood.


Englewood Cliffs, N. J.: Prentice-Hall, 1976,
56

Volumen X

Enero-Junio 1983

--- .-.-

Nos.

1-2
--

GLASER,
R.: "Instructional Technology and the kf:asuremcnt of h r n i n g
Outcomes. Sorne Questions". Ameriran Psp-bologirt 18 (1963): >lo21.

GLASER,
R. y NITKO,A. J.: "Measurement in learning and Instmction".
En: Edurdional Meascrernent, 2nd. edition. Editrd by R. L. Thorndike.
Washington, D. C.: Arnerican Counci! on Educrtion, 1971.

KAMIN,
L. J.: Tbe Sriencc

& Politirs of I.

Q . Middlesex England: Penguin

Books Ltd. 1974.


LINDGREN,B. W & MCELRATH,
G. W.: In~rodurtionto Probrlbility m d
Statistics. (2nd ed.) New York: MacMillan, 1966.
~~AGNU&SON
D.:
,

Test theory. Reading, Mas;: Addison-Wesley, 1967.

NUNNALLY,
J. C.: Tests a t ~ dMeasurements. New York, N . Y.: McGrawHill, 1959.

POPHAM,
W. J. (Ed.) : CriteNon-Referenced Mearrrrernent: An Introduction. Englewood Cliffs, N. J. Educational Technology Publications,
197 1.

POPHAM,
W. J.: Criterio~zReferenred Measuremen~.Engl,swood Cliffs, N.
J.: Prentice-Hall, 1978.
Standards for educational and psychological tests and manuals. Washington: American Psychologicai Assoaation, 1966.

También podría gustarte