Introduccion A Escala - En.es
Introduccion A Escala - En.es
Introduccion A Escala - En.es
com
David L. Streiner
Para citar este artículo:David L. Streiner (2003) Comenzando desde el principio: una introducción al
coeficiente alfa y la consistencia interna, Journal of Personality Assessment, 80: 1, 99-103, DOI:
10.1207/S15327752JPA8001_18
David L. Streiner
Centro Baycrest de atención geriátrica
Departamento de Psiquiatría
Universidad de Toronto
El α de Cronbach es el índice más utilizado de la fiabilidad de una escala. Sin embargo, su uso e
interpretación pueden estar sujetos a una serie de errores. Este artículo analiza el desarrollo histórico
de α a partir de otros índices de consistencia interna (fiabilidad de dos mitades y Kuder–Richardson 20)
y analiza cuatro mitos asociados con α: (a) que es una propiedad fija de la escala, (b) que mide solo la
consistencia interna de la escala, (c) que los valores más altos siempre son preferibles a los más bajos,
y (d) que está restringida al rango de 0 a 1. Brinda algunas recomendaciones para valores aceptables
de α en diferentes situaciones
Quizás la medida más utilizada de la fiabilidad de una escala es el α esto es que la puntuación total de una persona variará en cierta medida
de Cronbach (1951). Una razón para esto es obvia; es el único índice alrededor de la puntuación real. Entonces, una forma de pensar acerca de la
de confiabilidad que no requiere dos administraciones de la escala, confiabilidad es que es la razón de la varianza de las puntuaciones verdaderas
o dos o más evaluadores, por lo que puede determinarse con (σ2Verdadero )a las puntuaciones totales (σ2Total):
mucho menos esfuerzo que la confiabilidad test-retest o entre
evaluadores. Desafortunadamente, la ubicuidad de su uso solo se
compara con el grado de malentendido con respecto a lo que α
σ2
Fiabilidad= Verdadero.
(2)
mide y no mide. Este artículo pretende ser una introducción básica σ2Total
sobre α. Abordará estos temas desde una perspectiva conceptual y
estadística e ilustrará tanto las fortalezas como las debilidades del
índice. Sin embargo, en un momento dado, la puntuación real de una persona será la
Comienzo discutiendo qué se entiende por confiabilidad en mismo de una prueba a otra, de modo que undel individuo
general y cómo α y otros índices de “consistencia interna” σ2Verdaderosiempre será cero. Por lo tanto, la Ecuación 2 se refiere sólo a un
determinan esto. En la teoría clásica de las pruebas, la puntuación grupode personas que difieren con respecto a la característica
total de una persona (es decir, la puntuación que una persona que se mide.
recibe en una prueba o escala, que a veces se denomina puntuación Sin embargo, antes de continuar con los problemas de medición
observada) se compone de dos partes: la puntuación real más algún de la confiabilidad, valdría la pena hacer una digresión por un
error asociado con la medición. Eso es: momento y ampliar lo que se entiende por puntaje "verdadero". En
muchos aspectos, es una mala elección de palabras y un término
potencialmente engañoso (aunque nos quedamos con uno), porque
PuntajeTotal=PuntajeVerdadero+PuntajeError, (1)
“verdadero”, en la teoría psicométrica, no significa ni “preciso” ni
“inmutable”. Simplemente significa una puntuación que escoherente
Se supone que el error es aleatorio con una media de cero, por lo en un nivel dado del rasgo subyacente; es decir, una partitura libre
que a veces actúa para aumentar el puntaje total y otras veces para dealeatorioerror. Sin embargo, no necesariamente puede estar libre
disminuirlo, pero no lo sesga de manera sistemática. Debido a que desistemáticoerror o sesgo, y cambiará (espero) si el rasgo
cada escala tiene algún grado de error de medición, nunca podemos subyacente lo hace. Tres ejemplos pueden ayudar a ilustrar estos
determinar la puntuación real; es el promedio de todos los puntajes puntos.
que recibiría una persona si tomara la prueba un número infinito de A una persona se le administra la Escala de inteligencia para adultos de
veces (Allen & Yen, 1979). una consecuencia de Wechsler-III (WAIS-III) repetidamente y obtiene una puntuación promedio de
100 STREINER
80. Sin embargo, si la prueba se realiza en inglés, que la persona Además de estas dos fuentes de error (tiempo y observador),
aprendió hace solo 2 años, la puntuación "verdadera" de 80 podemos agregar una tercera fuente, la asociada a la
probablemente no sea un reflejo exacto de su inteligencia. De manera homogeneidad de los ítems que componen la escala.1
similar, una persona que se somete a una evaluación con fines de acceso Si una escala aprovecha un solo constructo o dominio, como la
y custodia de niños puede subestimar deliberadamente el grado en que ansiedad o la habilidad matemática, entonces, para garantizar la validez
usa el castigo corporal. Las evaluaciones repetidas pueden generar del contenido, queremos que la escala (a) consista en elementos que
puntuaciones similares en la prueba y el significado será una buena muestreen todo el dominio y (b) no incluya elementos que toquen otras
aproximación de la puntuación real (debido al bajo error aleatorio), pero habilidades. o construcciones. Por ejemplo, una prueba de matemáticas
el estilo de respuesta defensiva, que produce un sesgo, significa que la debe mostrar todo lo que se espera que un niño sepa en un nivel de
puntuación real no será precisa. Finalmente, una persona deprimida grado dado, pero no debe consistir en pasajes escritos extensos que
puede tener unaTpuntuación de alrededor de 75 en numerosas puedan reflejar la capacidad de lectura del niño tanto como sus
administraciones de una prueba de personalidad. Sin embargo, si habilidades matemáticas. De manera similar, un inventario de ansiedad
responde bien a la terapia, tanto su depresión como su puntaje real debe aprovechar todos los componentes de la ansiedad (p. ej., cognitivo,
deberían acercarse al rango promedio. conductual, afectivo) pero no incluir elementos de otros ámbitos, como la
Los diferentes efectos del error aleatorio y sistemático se fuerza del ego o la deseabilidad social. Debido a que la teoría clásica de
capturan en la expansión de la Ecuación 1 de Judd, Smith y las pruebas supone que los elementos de una escala son una muestra
Kidder (1991): aleatoria del universo de todos los elementos posibles extraídos del
dominio, entonces deberían estar altamente correlacionados entre sí. Sin
embargo, esto puede no ser siempre cierto. Por ejemplo, la Persona A
PuntajeTotal=PuntajeCI+PuntajeSE+PuntajeRE, (3)
puede respaldar dos elementos en un inventario de ansiedad (p. ej., "Me
siento tenso la mayor parte del tiempo"; "Tengo miedo de salir de la casa
donde CI es el constructo de interés, SE el error sistemático y RE por mi cuenta"), mientras que la Persona B puede decir Fiel al primero
es el error aleatorio. En esta formulación,PuntajeCI+ PuntajeSEes pero No a la segunda. Esta diferencia en el patrón de respuesta afectaría
lo mismo quePuntajeVerdaderoen la Ecuación 1. Dos ventajas de las correlaciones entre los ítems y, por lo tanto, laconsistencia interna de
expresar el puntaje verdadero como la suma del constructo y el la escala Es deseable un alto grado de consistencia interna, porque
error sistemático es que ilustra la relación entre confiabilidad y “habla directamente de la capacidad del médico o del investigador para
validez, y muestra cómo los diferentes tipos de error afectan a interpretar la puntuación compuesta como un reflejo de los ítems de la
cada uno de ellos: prueba” (Henson, 2001, p. 178).
El método original para medir la consistencia interna se llama
confiabilidad de "dividir por la mitad". Como su nombre lo indica, se
σ2CI+ σ2 SE,
Confiabilidad = (4) calcula dividiendo la prueba por la mitad (por ejemplo, todos los
σ2O elementos impares en una mitad y los pares en la otra mitad) y
correlacionando las dos partes. Si la escala como un todo es
internamente consistente, entonces dos mitades derivadas al azar
mientras
deberían contener elementos similares y, por lo tanto, arrojar
puntajes comparables. Rulon (1939) propuso una modificación de
σ2CI. esto, que se basa en el cálculo de la varianza de la diferencia.
Validez= (5)
σ2O puntuación de coincidencia entre las dos medias pruebas (σ2 d )y la varianza
de la puntuación total (σ2 Total)entre personas:
k- Σpag
kq k -
CR–20 = -1 – -, (7) cualquier valor medido de la confiabilidad es una estimación y, como
k–1 - σ2Total - con todas las estimaciones de parámetros, sujetas a algún grado de error. Finalmente, la
Ecuación 8 refleja el hecho de que la confiabilidad depende de la varianza del puntaje total, y
esto va a diferir de una muestra de personas a otra. Cuanto más heterogénea sea la muestra,
dóndekes el número de artículos,pagkla proporción de personas que
mayor será la varianza de las puntuaciones totales y mayor la fiabilidad. Caruso (2000) realizó
respondieron afirmativamente al ítemk,qkes la proporción de personas
un metanálisis de estudios de confiabilidad realizados con NEO y encontró, por ejemplo, que
que respondieron negativamente (es decir,qk=1 -pagk) y σ2 Total
la confiabilidad media de la subescala de Amabilidad era .79 cuando se usaba en estudios
es la varianza de las puntuaciones totales. KR–20 se puede considerar como la media
con la población general, pero solo .62 en estudios clínicos. muestras De manera similar, el
de todas las posibles confiabilidades divididas por la mitad.
metanálisis de las escalas de eficacia docente de Henson, Kogan y Vacha-Haase (2001)
La limitación de manejar solo ítems dicotómicos fue resuelta
encontró que las estimaciones de confiabilidad para la escala de falla interna oscilaron entre .
por Cronbach (1951), en su generalización de KR-20 en el
51 a .82, y de .55 a .82 para la escala de Eficacia Docente General. La confiabilidad se vio
coeficiente α, que se puede escribir como:
afectada por una serie de atributos de las muestras, incluida, como era de esperar, la
heterogeneidad de los maestros. En consecuencia, una escala que puede tener una
k- Σσ2k--, confiabilidad excelente con un grupo puede tener solo una confiabilidad marginal en otro.
α= -1 – (8)
k–1 - σ2Total- Una implicación de esto es que no es suficiente confiar en los informes de confiabilidad
publicados si la escala se va a usar con otro grupo de personas; puede ser necesario
donde Σσ2kes la suma de las varianzas de todos los elementos. Co- respecta a su homogeneidad. Una implicación de esto es que no es suficiente confiar en los
α eficiente tiene la misma propiedad que KR–20, en términos de ser el informes de confiabilidad publicados si la escala se va a utilizar con otro grupo de personas;
promedio de todas las divisiones posibles.3 puede ser necesario determinarlo nuevamente si el grupo es suficientemente diferente,
Eso describe bastante bien lo que α es y puede hacer. En la especialmente en lo que respecta a su homogeneidad. Una implicación de esto es que no es
siguiente sección, miro el otro lado de la ecuación y discuto lo suficiente confiar en los informes de confiabilidad publicados si la escala se va a usar con
que α no es y no puede hacer, o no hace. otro grupo de personas; puede ser necesario determinarlo nuevamente si el grupo es
El mito principal que rodea a α (y todos los demás índices de Es cierto que cuanto mayores sean las correlaciones entre los ítems
confiabilidad, para el caso) es que una vez que se determina en de una escala, mayor será el valor de α. Pero lo contrario de esto,
un estudio, se conoce la confiabilidad de la escala en todas las que un alto valor de α implica un alto grado de consistencia interna,
circunstancias. Como han señalado varios autores, cómo- no siempre es cierto. La razón es que α también se ve fuertemente
afectada por la longitud de la escala. Por ejemplo, Cortina (1993)
demostró que una escala de seis ítems con una correlación de ítem
2El número de divisiones posibles es la mitad de la combinación dek
promedio de .30 tiene un valor de α de .72. Manteniendo la
artículos tomadosk–2 a la vez.
3Como señaló Cortina (1993), esto es estrictamente cierto solo si todos los correlación promedio igual, pero aumentando el número de ítems a
ítems tienen la misma desviación estándar; en la medida en que difieran, α 12 y 18 aumentó α a .84 y .88, respectivamente. Esto no fue
será menor que la confiabilidad promedio dividida por la mitad. Debe sorprendente y se conoce desde hace muchos años para las escalas
mencionarse de paso que algunos programas de computadora calculan tanto
unidimensionales (p. ej., Lord y Novick, 1968). Pero, Cortina luego
α como “α estandarizado”, en el que todos los elementos se han convertido
mostró que cuando se analizaba una escala con dos dimensiones no
para tener una media de 0 y una desviación estándar de 1. El α estandarizado
es más alto que el α, pero debe no debe usarse a menos que se pretenda que correlacionadas, manteniendo las mismas correlaciones de ítems
todos los ítems se estandaricen en el uso real de la escala. dentro de cada "subescala", α era .45 con seis ítems (es decir,
102 STREINER
tres de cada subescala), .65 con 12 ítems y .75 con 18 ítems. rasgo para algunos artículos, ymuy en desacuerdopara otros artículos)
Una escala compuesta por tres subescalas ortogonales (es para minimizar el sesgo de decir Sí (p. ej., Streiner & Norman, 1995). No
decir, no correlacionadas) tuvo un α de .64 con 18 ítems. hace falta decir que la puntuación de los elementos invertidos también
Concluyó que debe invertirse. Si esto no se hace, los elementos se correlacionarán
negativamente, lo que llevará a un valor de α inferior a cero. Por
si una escala tiene más de 14 ítems, entonces tendrá un α de .70 o supuesto, si los elementossonpuntuado correctamente y algunas
mejor incluso si consta de dos dimensiones ortogonales con correlaciones siguen siendo negativas, entonces apunta a serios
intercorrelaciones de ítems modestas (es decir, .30). Si las problemas en la construcción original de la escala.
dimensiones están correlacionadas entre sí, como suele ser,
Una causa menos frecuente de un valor negativo de α es cuando
entonces αes aún mayor. (pág. 102)
la variabilidad de los ítems individuales excede su varianza
compartida, lo que puede ocurrir cuando los ítems aprovechan una
En otras palabras, aunque una escala puede constar de dos o más
variedad de constructos diferentes (Henson, 2001). Debido a que los
constructos independientes, α podría ser sustancial siempre que la
valores negativos de α son teóricamente imposibles, Henson
escala contenga suficientes ítems. La conclusión es que un valor alto
recomendó reportarlos como cero, pero negativos o cero, las
de α es un requisito previo para la consistencia interna, pero no la
conclusiones son las mismas: lo más probable es que los elementos
garantiza; las escalas largas y multidimensionales también tendrán
no midan lo que pretenden.
valores altos de α.
Para la mayoría de los índices de confiabilidad, cuanto mayor sea el valor, mejor. Nos gustaría tener No todos los índices de confiabilidad pueden usarse en todas las
altos niveles de acuerdo entre evaluadores independientes y una buena estabilidad de las situaciones. Por ejemplo, es imposible evaluar la confiabilidad entre
puntuaciones a lo largo del tiempo en ausencia de cambios. Esto también es cierto acerca de α, pero evaluadores para escalas autoadministradas y es difícil determinar la
solo hasta cierto punto. Como acabo de señalar, α mide no solo la homogeneidad de los ítems, sino confiabilidad test-retest para condiciones que cambian en breves
también la homogeneidad de lo que se evalúa. En muchos casos, incluso las construcciones períodos de tiempo (lo que no quiere decir que algunos de nuestros
aparentemente unidimensionales pueden conceptualizarse teniendo varios aspectos diferentes. Lang estudiantes no lo hayan probado). De manera similar, hay ciertos tipos
(1971), por ejemplo, afirmó que la ansiedad se puede dividir en tres componentes: cognitivo, de escalas para las cuales α es inapropiado. No debe usarse para
fisiológico y conductual, mientras que Koksal y Power (1990) agregaron una cuarta dimensión, pruebas de "potencia" que miden cuántos elementos se completan en un
afectiva. Además, estos no siempre responden de manera concertada y las correlaciones entre ellos período de tiempo fijo (como la subprueba de codificación de símbolos
pueden ser bastante modestas (Antony, 2001). Como consecuencia, cualquier escala que se diseñe de dígitos de WAIS-III). El problema aquí es que se supone que las
para medir la ansiedad como un todo debe necesariamente tener algún grado de heterogeneidad personas diferirán solo en términos de la cantidad de elementos
entre los ítems. Si la escala de ansiedad tiene tres o cuatro subescalas, cada una de ellas debería ser completados, y que todos estarán en lo correcto en la mayoría o en todos
más homogénea que la escala en su conjunto, pero incluso aquí, α no debería ser demasiado alto los elementos completados. Entonces, para cualquier persona dada, las
(más de 0,90 aproximadamente). Los valores más altos pueden reflejar una duplicación innecesaria de correlaciones entre los artículos dependerán de cuántos artículos se
contenido entre elementos y apuntar más a la redundancia que a la homogeneidad; o, como lo terminaron,
expresó McClelland (1980), “hacer la misma pregunta de muchas maneras diferentes” (p. 30). En la Estrechamente relacionado con esto están muchas de las otras
sección final, ampliaré esto un poco más. Los valores más altos pueden reflejar una duplicación subpruebas de las escalas de Wechsler y tipos de índices similares,
innecesaria de contenido entre elementos y apuntar más a la redundancia que a la homogeneidad; o, donde los ítems se presentan en orden de dificultad. Una vez más, el
como lo expresó McClelland (1980), “hacer la misma pregunta de muchas maneras diferentes” (p. 30). patrón esperado de respuestas es que todas serán correctas hasta que el
En la sección final, ampliaré esto un poco más. Los valores más altos pueden reflejar una duplicación nivel de dificultad supere la capacidad de la persona y el resto de las
innecesaria de contenido entre elementos y apuntar más a la redundancia que a la homogeneidad; o, preguntas sean incorrectas; o debe haber varias respuestas de dos
como lo expresó McClelland (1980), “hacer la misma pregunta de muchas maneras diferentes” (p. 30). puntos, seguidas de algunas respuestas de un punto y luego ceros. Si se
En la sección final, ampliaré esto un poco más. calcula α para este tipo de pruebas, dará como resultado un valor muy
alto, que está solo marginalmente por debajo de 1,0.
Mito 4: Alpha oscila entre 0 y 1 En tercer lugar, α es inapropiado si la respuesta a un ítem
depende de la respuesta a uno anterior, o cuando más de un
Debido a que la confiabilidad es una razón de dos varianzas, a primera vista ítem trata un solo problema. Esto surgiría, por ejemplo, si la
parecería que siempre debería ser un número entre 0 y 1. Sin embargo, hay persona tiene que leer un pasaje y responder a una serie de
momentos en que α es negativo. Esto sucede principalmente cuando algunos preguntas sobre el mismo. La razón es que si la persona no
de los ítems se correlacionan negativamente con otros en la escala. La causa entiende o comprende mal el párrafo, esto afectará una serie de
principal de esto, afortunadamente, es un descuido por parte de los elementos. Cuando estos elementos terminen en las diferentes
desarrolladores de pruebas y se soluciona fácilmente. Muchos textos sobre la mitades, inflará falsamente la correlación entre ellos.
construcción de escalas recomiendan que se invierta la puntuación de
aproximadamente la mitad de los ítems (p. ej., tener que respaldarTotalmente Finalmente, como he discutido anteriormente, α no debe
de acuerdopara indicar la presencia de un usarse si se sospecha que la escala es multifacética. si hay mas
COEFICIENTE ALFA 103
de 20 o más ítems, α puede ser bastante respetable, dando la Caruso, JC (2000). Generalización de la confiabilidad de la personalidad NEO
escamas.Medición Educativa y Psicológica, 60,236–254. Clark, LA y Watson,
impresión engañosa de que la escala es homogénea.
D. (1995). Construcción de la validez: Cuestiones básicas en ob-
Entonces, ¿qué tan alto debería ser α? En la primera versión de su libro,
desarrollo de la escala de yectiva.Evaluación psicológica, 7, 309–319.
Nunnally (1967) recomendaba de 0,50 a 0,60 para las primeras etapas de la Cortina, JM (1993). ¿Qué es el coeficiente alfa? Un examen de la teoría
investigación, de 0,80 para las herramientas de investigación básica y de 0,90 y aplicaciones.Revista de Psicología Aplicada, 78,98–104. Cronbach, LJ
como la “estimación mínimamente tolerable” para fines clínicos, con un ideal (1951). Coeficiente alfa y la estructura interna de pruebas.
psicometria, 16,297–334.
de . 95. Aumentó el nivel inicial a .70 en versiones posteriores de su libro
Hamilton, MA (1967). Desarrollo de una escala de calificación para la depresión primaria
(Nunnally, 1978; Nunnally & Bernstein, 1994). En mi opinión (y tenga en cuenta
enfermedad.Revista británica de psicología clínica y social, 6,278–296. Henson, RK
que estoesuna opinión, como lo son todos los demás valores sugeridos por (2001). Comprender la estimación de la confiabilidad de la consistencia interna
varios autores), lo hizo bien para las herramientas de investigación, pero fue mates: Una cartilla conceptual sobre el coeficiente alfa.Medición y
demasiado lejos para las escalas clínicas. Como se describe en el Mito 3, a Evaluación en Consejería y Desarrollo, 34, 177–189.
Henson, RK, Kogan, LR y Vacha-Haase, T. (2001). Una generación de confiabilidad
excepción de los rasgos extremadamente definidos (y no puedo pensar en
estudio de alización de la Escala de Eficacia Docente e instrumentos
ninguno), αs por encima de .90 probablemente indique una redundancia
relacionados.Medición educativa y psicológica, 61., 404–420.
innecesaria en lugar de un nivel deseable de consistencia interna. Judd, CM, Smith, ER y Kidder, LH (1991).Métodos de investigación en so-
relaciones sociales(6ª ed.). Nueva York: Harcourt Brace Jovanovich. Koksal, F.
CONCLUSIONES y Power, KG (1990). Cuestionario de ansiedad de cuatro sistemas
(FSAQ): una medida de autoinforme de los componentes somáticos, cognitivos,
conductuales y emocionales.Revista de Evaluación de la Personalidad, 54, 534–545.
La consistencia interna es necesaria en las escalas que miden varios
Kuder, GF y Richardson, MW (1937). La teoría de la estimación de
aspectos de la personalidad (un artículo posterior examinará situaciones fiabilidad de la prueba.Psicometría, 2, 151–160.
en las que no es importante). Sin embargo, el α de Cronbach debe usarse Lang, PJ (1971). La aplicación de métodos psicofisiológicos. En s.
e interpretarse con cierto grado de precaución. Garfield y A. Bergin (Eds.),manual de psicoterapia y Cambio de
comportamiento(págs. 75–125). Nueva York: Wiley.
Señor, FM y Novick, MR (1968).Teorías estadísticas de la prueba mental.
1. No puede confiar en que las estimaciones publicadas de α se
puntuaciones. Reading, MA: Addison-Wesley.
aplican en todas las situaciones. Si el grupo para el que se McClelland, DC (1980). Disposiciones de motivo: los méritos de las disposiciones operante y
utilizará la escala es más o menos homogéneo que el del medidas del respondedor. En L. Wheeler (Ed.),Revisión de la
informe publicado, lo más probable es que α sea diferente personalidad y la psicología social.(vol. 1; págs. 10–41). Beverly Hills,
CA: Sabio. Nunally, JC (1967).Teoría psicométrica. Nueva York: McGraw-
(mayor en el primer caso, menor en el segundo).
Hill. Nunally, JC (1978).Teoría psicométrica(2ª ed.). Nueva York:
2. Debido a que α se ve afectado por la longitud de la McGraw-Hill.
escala, los valores altos no garantizan la consistencia Nunnally, JC y Bernstein, IH (1994).Teoría psicométrica(3ra ed.).
interna ni la unidimensionalidad. Las escalas de más de Nueva York: McGraw-Hill.
20 ítems tendrán valores aceptables de α, aunque Pedhazur, EJ y Schmelkin, LP (1991).Medición, diseño y análisis:
Un enfoque integrado. Hillsdale, Nueva Jersey: Lawrence Erlbaum Associates, Inc.
pueden consistir en dos o tres dimensiones
Rulon, PJ (1939). Un procedimiento simplificado para determinar la confiabilidad de
ortogonales. También es necesario examinar la matriz una prueba de mitades divididas.Revista educativa de Harvard, 9, 99–103.
de correlaciones de los ítems individuales y observar las Streiner, DL y Norman, GR (1995).Escalas de medición de la salud: A
correlaciones ítem-total. En este sentido, Clark y Watson guía práctica para su desarrollo y uso(2ª ed.) Oxford, Inglaterra: Oxford
(1995) recomendaron una correlación media entre University Press.
Wechsler, D. (1997).Manual de administración y puntuación WAIS-III(3ra ed.).
ítems dentro del rango de .15 a .20 para escalas que
San Antonio: TX: Corporación Psicológica.
miden características amplias y entre .40 y .50 para Wilkinson, L. y el grupo de trabajo sobre inferencia estadística. (1999). Estadístico
aquellas que tocan las más estrechas. métodos en revistas de psicología: Directrices y explicaciones.Psicólogo
3. Los valores de α pueden ser demasiado altos y apuntar a la estadounidense, 54,594–604.
redundancia entre los elementos. Recomiendo un valor máximo Yin, P. y Fan, X. (2000). Evaluar la confiabilidad de Beck Depression In-
Puntuaciones de ventory: generalización de la fiabilidad entre estudios.
de . 90.
Medición Educativa y Psicológica, 60,201–223.
REFERENCIAS
David L. Streiner
Unidad de Investigación Aplicada Kunin-
Allen, MJ y Yen, WM (1979).Introducción a la teoría de la medición.
Monterrey, CA: Brooks/Cole. Lunenfeld Centro Baycrest de Atención Geriátrica
Antonio, MM (2001). Evaluación de la ansiedad y los trastornos de ansiedad: una 3560 Bathurst Street
descripción general. En MM Antony, SM Orsillo y L. Roemer (Eds.),Guía del Toronto, Ontario, Canadá M6A 2E1 Correo
profesional para medidas empíricas de ansiedad.(págs. 7–17). Nueva York:
electrónico: [email protected]
Kluwer Academic/Plenum.
Butcher, JN, Dahlstrom, WG, Graham, JR, Tellegen, A. y Kaemmer,
B. (1989).Manual para la administración y puntuación del MMPI-2. Recibido el 28 de mayo de 2002
Minneapolis: Prensa de la Universidad de Minnesota. Revisado el 29 de junio de 2002