1 - Confiabilidad y Error de Medición - Cayssials
1 - Confiabilidad y Error de Medición - Cayssials
1 - Confiabilidad y Error de Medición - Cayssials
4.1 Confiabilidad
Xv = X - X e [1]
Se han elaborado modelos formales o teorías de los tests que permiten analizar las
relaciones entre estos tres componentes básicos: las puntuaciones observadas, los errores
de medida y las puntuaciones verdaderas.
En las mediciones indirectas de fenómenos intangibles - como son la mayoría de las
que se realizan en psicología- el puntaje verdadero no puede ser concretamente calculado,
dado su carácter ideal (ver apartado 3.1.). O sea, se trata de un concepto al que se intenta
acceder y del cual sólo puede inferirse su valor hipotético. Por esta razón, el objetivo de
los estudios que se realizan sobre la precisión de las puntuaciones obtenidas a través de
un instrumento es controlar y calcular el margen de error.
En cuanto a la organización del capítulo, comienza con el abordaje de las distintas
fuentes de error en las puntuaciones obtenidas a través de una técnica de evaluación
psicológica; luego propone un repaso de los conceptos estadísticos elementales y
fundamentales en el estudio de la confiabilidad y su tema complementario, el error de
medición. Más adelante, retoma el tema de la confiabilidad, para reconsiderarlo a la luz
de los distintos diseños y procedimientos empíricos que permiten calcular el coeficiente
de confiabilidad. Por último, vuelve al análisis del error para referirlo, de modo concreto,
al error de medición y a la confiabilidad en la valoración de las diferencias entre puntajes
obtenidos, ambas cuestiones de suma importancia y utilidad en la práctica profesional.
Las fuentes de errores sistemáticos son aquellas que desplazan las puntuaciones en
cierta dirección, generando una puntuación sistemáticamente elevada o baja. Suelen
denominarse también errores constantes (Hogan, 2003).
Concretamente, para ilustrar este punto, vamos a recurrir a un ejemplo que se
encuentra con frecuencia en la literatura psicométrica para introducir al tema y que ha
resultado útil. Se trata de “la balanza’’ (que viene a sustituir al test). Si una “balanza",
consistentemente, en todas las ocasiones, indica l,5kg más (o menos, no importa esto) a
todos los sujetos que se pesan en ella, obviamente, no pesa bien, es decir, no indica “el
peso verdadero". Nótese también que, si se evalúa con esta balanza no sólo a un sujeto
sino a una muestra de sujetos, el peso relativo de las personas permanece sin cambios,
entendiendo como tal la diferencia de pesos entre ellos. Dicho de otro modo, la
circunstancia de que una "balanza” pese sistemáticamente l,5kg más (o l,5kg menos) a
todos los que se pesan en ella incluirá una constante que se suma (o se resta) al valor
verdadero en cada medición. Se trata de un ejemplo que viene a mostrar que el error
sistemático, a pesar de introducir diferencias en el resultado de la medición, no cambia
la variabilidad, la distribución de las puntuaciones de un grupo de sujetos en la variable
que se está evaluando. Obviamente, una balanza con estas características llevaría a
errores en el cálculo del IMC1 y estos errores serían trasladados al diagnóstico y a las
recomendaciones posteriores. Los instrumentos que conllevan este tipo de error
sistemático sobreestiman (o subestiman, según el caso) el atributo evaluado (peso, en
este ejemplo).
Tomemos ahora un par de ejemplos donde se consideren variables psicológicas: un
test de inteligencia y una técnica que evalúa depresión. En el primer caso tendríamos un
test que sistemáticamente sobrevalora (o subvalora) el nivel de inteligencia de los sujetos
y en el segundo estos errores influirían (en un sentido o en otro), en la evaluación del
nivel de depresión de las personas examinadas. Estos errores sistemáticos ocasionarían
a su vez errores en el diagnóstico intelectual o psicopatológico, respectivamente.
Los errores sistemáticos pueden ser detectados a través del análisis de la validez del
instrumento. Los estudios sobre la confiabilidad se ocupan de los errores asistemáticos,
a los que se dedica el siguiente apartado.
Errores no sistemáticos
1. El índice de Masa Corporal (IMC) es uno de los métodos más utilizados para el diagnóstico de obesidad, y a su vez,
para establecer el grado de obesidad. Se obtiene dividiendo el peso en kilos por la estatura en metros elevada al
cuadrado (kg/m2).
pautas de aplicación y evaluación, señaladas por el autor en el Manual de la técnica a
aplicar, sean respetadas, al llevar a cabo una medición siempre existen factores o
condiciones azarosas que pueden generar errores. Dichas fuentes de error pueden haber
sido generadas en la etapa de construcción de la técnica, en la administración, en la
puntuación y en la interpretación de los resultados arrojados por la misma (Cohen y
Swerdlik, 2000).
En cuanto a las fuentes que pueden generar errores durante la etapa de construcción
de un instrumento, una de las posibles es la del muestreo de contenido, que se refiere a
la variación en los resultados obtenidos dependiendo de los ítems incluidos en la técnica.
Un test de Vocabulario para población infantil, por ejemplo, tiene un contenido
específico. El autor, luego de distintos estudios, selecciona palabras cuyo significado se
le preguntará al niño/a. De todos modos, por efectos del azar, por casualidad, algún
niño puede tener cierta familiaridad con una de las palabras a definir y resultarle por lo
tanto más fácil que a otros. Como se verá en el próximo capítulo, la selección de los
contenidos de los ítems debe ser muy cuidadosa, sin embargo, pueden verse afectados
en mayor o menor grado por la incidencia del azar y constituirse en fuentes de error para
las puntuaciones. Para dejar en claro estos conceptos, se destaca nuevamente que se trata
de la incidencia del azar y no del sesgo de los ítems o falta de equidad entre distintos
grupos de sujetos (véase apartado Sesgo y Equidad en cap. 5).
Las fuentes de error que pueden ocurrir durante la administración de la técnica son
aquellas que tienen cierta influencia en cambios azarosos en la atención o motivación del
sujeto examinado (desgano, ansiedad, experiencias anteriores); las variables
relacionadas con las condiciones ambientales (temperatura, ventilación, ruido,
iluminación) y las variables relacionadas con el examinador (su estilo, su
comportamiento). Los ejemplos mencionados señalan algunas condiciones que pueden
influir durante la administración, pero las situaciones son innumerables y las reacciones
de los examinados frente a estas influencias pueden constituir una fuente de error en la
medición de la variable en cuestión.
En síntesis, lo que se valora aquí es cómo influye “la suerte de sorteo”, al decir de
Hogan (2004), en las condiciones que están enjuego al momento de administración.
Por otro lado, en las técnicas psicométricas, la subjetividad del evaluador no debe
estar implicada en la puntuación, ya que la misma puede constituirse también en una
fuente de error. Como veremos con detalle más adelante, se deben analizar muy bien las
instrucciones para evaluar la técnica y la claridad de los criterios de evaluación. Cuanto
menos explícitas y claras sean las pautas dadas por el autor, mayor será el margen dejado
al juicio de quien puntúa y mayores las diferencias en los puntajes según quien le ha
tocado en suerte al examinado. Dicho de otro modo, la falta de acuerdo entre distintos
evaluadores puede generar, entonces, una variación no sistemática en las puntuaciones
obtenidas a través de una técnica y por lo tanto, los resultados podrían variar según el
examinador que le ha tocado en suerte al sujeto.
Coeficiente de correlación
Por último, es digno de destacar que las correlaciones son afectadas por la
variabilidad del grupo en que fueron calculadas. Conforme disminuye la variabilidad
de la muestra, también lo hace el coeficiente de correlación.
Cxx— hex W]
En razón de lo expuesto, es digna de destacar y aclarar otra cuestión, para evitar
confusiones. Mientras que el coeficiente de correlación de Pearson puede asumir valores
entre -1 y + 1, el coeficiente de confiabilidad sólo asume valores entre 0 y +1. Es muy
poco probable -y pésimo indicador de consistencia- que una correlación entre dos
medidas de la misma variable en los mismos sujetos resulte con valores negativos
(correlaciones inversas): en tal caso se deberá considerar que el instrumento no es
confiable, que es lo mismo que decir que su confiabilidad vale cero.
Teniendo en cuenta estas aclaraciones, en la siguiente tabla se presentan los
parámetros de interpretación de los datos según el coeficiente de correlación hallado,
leídos en función de la confiabilidad.
Como se puede observar, se trata de una tabla similar a la 3.1. (v. apartado 3.4.), pero
nótese que aquí, por un lado, se han suprimido los valores de correlación negativa, y por
otro, se ha agregado la interpretación psicométrica del coeficiente de confiabilidad (y
esto en tanto coeficiente aplicado al tema de la confiabilidad). La primera columna
presenta un continnum que va de 0 a 1, tomando valores intermedios según su distancia
a cada uno de estos polos.
Métodos basados en medidas repetidas
En las tres primeras etapas se obtienen los dos conjuntos de puntuaciones de los
mismos sujetos, con las cuales se calcula luego el coeficiente de correlación, el grado de
asociación entre ellos. Por último, para la interpretación del coeficiente hallado se utiliza
la tabla 4.2., en conocimiento de que los resultados de este método están relacionados
con la estabilidad temporal de las puntuaciones.
Veamos ahora estos conceptos aplicados, concretamente, a instrumentos psico-
métricos. Elizabeth Koppitz (1971), en el libro Test Guestáltico Visomotor para Niños de
Bender, presenta sus estudios sobre la confiabilidad de las puntuaciones de esta técnica.
Justifica su opción por el método test-retest pero, a su vez, señala que un retest inmediato
del instrumento mostraría en los resultados el efecto de la práctica en las reproducciones
de los niños; mientras que un intervalo demasiado largo entre ambas administraciones
reflejaría el efecto de la maduración en la capacidad viso- motora en aquellos. Se decide,
entonces, por un diseño donde el intervalo no sea ni muy prolongado ni muy corto y
separa ambas administraciones con un intervalo de cuatro meses.
Años después, en una revisión posterior, Koppitz (1995) se refiere nuevamente a este
tema, con mayor detalle y más datos. Da cuenta de los resultados reportados a partir de
nueve investigaciones llevadas a cabo por distintos autores que aplican el Test de Bender
con muy diferentes intervalos; el rango va desde unas horas, en el mismo día, hasta 8
meses, aunque la mayoría de los investigadores retestea a las semanas (entre 1 y 18
semanas). Las correlaciones halladas van desde 0.50 a 0.88, dependiendo del diseño. La
autora concluye que estos estudios indican que las puntuaciones del Test de Bender,
como técnica para evaluar la maduración precepto- motriz en niños normales
escolarizados, son razonablemente estables. La confiabilidad es mayor cuando el
intervalo test-retest no excede de 3 meses. Otro dato que rescata como interesante en este
tema es que los niños con retrasos educativos o con una disfunción cerebral mínima
tienden a madurar a un ritmo más lento y a menudo irregular. Los resultados de las
investigaciones muestran concluyentemente, afirma Koppitz, que los puntajes obtenidos
a través del Test de Bender, aplicado a alumnos normales escolarizados, son confiables.
En síntesis, la aplicación de este método implica una clara distinción entre la
posibilidad de cambios reales en las puntuaciones de la variable, esperables desde el
punto de vista teórico y aquellos otros cambios, indicados en las puntuaciones del test,
pero debidos a fuentes de error inherentes al instrumento de medición, a su falta de
precisión.
Se pueden encontrar más ejemplos de aplicación de este método en los estudios
realizados con el WISC-III, escala aplicable también a niños. La estabilidad de los
puntajes de esta técnica fue evaluada en un estudio con intervalos que oscilaron entre 12
y 63 días, entre las dos administraciones, con un intervalo mediano de 23 días. Como
muestran las tablas 5.3 a 5.5 del Manual (Wechsler, 1994), los puntajes del WISC-III
muestran una adecuada estabilidad a través del tiempo y a través de los grupos de edad.
En dicho texto se analizan también las discrepancias en los puntajes debidas a los efectos
de la práctica entre ambas administraciones, según la duración del intervalo.
Por último, es importante señalar que la aplicación del método test-retest, para el
estudio de la confiabilidad, tiene ciertas particularidades y no se lo debe confundir con
los diseños en los que el método es aplicado con otros objetivos que incluyen una
intervención sobre la variable durante el intervalo de tiempo entre ambas aplicaciones,
tales como un proceso de aprendizaje o algún método psicoterapéutico. En estos casos se
administra el test: los sujetos reciben algún tipo de entrenamiento o de tratamiento, y
luego se aplica el retesteo; el diseño aquí tiene como objetivo detectar cambios en la
variable, que dará cuenta a su vez de la eficacia de la intervención, por ejemplo, una
mayor habilidad en la destreza aprendida o la disminución de síntomas que fueron
objeto de la terapia. En este caso el método Test-retest es utilizado para captar las
diferencias entre una administración y la otra. Por el contrario, en los estudios de
confiabilidad, se tiene como objetivo calcular, valorar, la estabilidad temporal de las
puntuaciones de la técnica, su permeabilidad a cambios sutiles y por lo tanto se espera
que la intervención de factores fortuitos, aleatorios, (aprendizajes, olvidos, cambios
emocionales esporádicos de los sujetos) entre la primera aplicación y la segunda influyan
lo menos posible en las puntuaciones del instrumento, o sea, que el instrumento capte
características constantes, estables, de los sujetos. Incluso cuando se utiliza en un diseño
para captar diferencias entre un momento y otro, con una intervención específica durante
ese lapso, resulta sumamente útil contar con estudios que detallen las diferencias entre
la primera y la segunda administración de la técnica sin que intervenga un proceso, tal
como fuera informado en algunas técnicas (v. Manual del WISC-III) para poder
efectivamente valorar cuánto del cambio observado puede ser atribuido a la intervención
y en cuánto es esperable un cambio por tratarse, meramente, de una segunda
administración.
El autor o adaptador de una técnica psicométrica que utiliza este método, tiene como
objetivos el escrutinio de los ítems que conforman la prueba y el análisis de las relaciones
entre ellos. El procedimiento empírico aporta información para estimar el grado de
consistencia interna del instrumento. En otras palabras, el método división por mitades
controla o identifica la inconsistencia de la muestra de ítems, el muestreo de contenido.
Es condición que la técnica en estudio sea homogénea, que evalúe un único atributo o
factor.
Requiere sólo una aplicación del test a una muestra de sujetos, luego de lo cual se
procede a dividir la prueba en mitades homogéneas, apareadas en contenido y dificultad.
Pero esta partición de los ítems no es una mera división de los reactivos en dos mitades.
Existen diversas formas adecuadas para logar dos mitades homogéneas. Una forma
aceptable es asignar cada ítem, a una mitad o a la otra, al azar. Otra modalidad, muy
utilizada en tests de aptitudes, consiste en dividirlos en números pares e impares, de
modo que los ítems quedan ordenados según su dificultad creciente, ya que de no usar
este criterio, al segmentar un instrumento de 20 reactivos en dos mitades formadas por
los primeros 10 y otra integrada por los últimos 10, quedaría una mitad del test con los
ítems de baja dificultad y la otra, sólo con los difíciles. Otra alternativa es dividir la
prueba por contenidos, de modo que cada mitad del test contenga ítems equivalentes en
cuanto al contenido y la dificultad.
A su vez, las mitades deben ser similares en cuanto a formato, número de ítems y
estadísticos (medias, varianzas e índices de dificultad y discriminación), en síntesis,
deben ser homogéneas.
El siguiente cuadro sintetiza las etapas involucradas en este procedimiento.
1) Aplicar las dos formas a una muestra de sujetos (sin intervalo de tiempo entre
ambas).
2) Calcular la correlación (r) entre las puntuaciones obtenidas por la misma muestra
en una y otra forma.
3) Interpretar el coeficiente hallado (consistencia de las puntuaciones).
Se debe de tener en cuenta que las aplicaciones de ambas formas, sin intervalo de
tiempo, pueden ser afectadas por la fatiga y/o la falta de motivación por parte de los
sujetos (las sesiones de administración suelen ser de larga duración). Por otro lado se
deben contemplar las diferencias que pueden deberse al orden de aparición de cada una
de la formas en la aplicación, es decir, si la forma A o la B ha ocupado la primera posición
o la segunda.
Fórmulas Kuder-Richardson
La insatisfacción con los métodos de división por mitades llevó a Kuder y Richardson
a desarrollar sus propias medidas para estimar la confiabilidad. Se trata de índices útiles
para evaluar la homogeneidad del test. Estas fórmulas permiten calcular el grado de
correlación entre todos los ítems de una escala. Mencionamos aquí el Coeficiente KR-20
(llamado así debido a que es la vigésima fórmula desarrollada en una serie). Se trata de
variantes del coeficiente de correlación de Pearson, para ser utilizados en casos
especiales.
Cuando los ítems de un test son muy homogéneos, las estimaciones de confiabilidad
KR-20 y de división por mitades serán similares. Sin embargo, la KR-20 es la estadística
seleccionada cuando se desea determinar la consistencia entre ítems dicotó- micos, sobre
todo aquellos ítems que pueden ser calificados como correctos o incorrectos. En estos
casos, este método identifica la inconsistencia entre los ítems, la cual puede estar influida
por el muestreo de contenido o por la heterogeneidad del atributo evaluado. Sus etapas
son las que siguen.
Mientras que la fórmula K-R20 se usa en forma apropiada con ítems dicotómicos, el
coeficiente de Cronbach puede ser utilizado en reactivos no dicotómicos, o sea, en ítems
que incluyen un rango de alternativas posibles para que el sujeto los responda (por
ejemplo, las escalas Likert que se mencionan en el cap. 1), y en los que, además, suelen
incluir créditos parciales.
El coeficiente alfa, desarrollado por Cronbach en 1951, ampliado por Novick y Lewis
en 1967 y por Kaiser y Michael en 1975, resulta muy ventajoso y es ampliamente
utilizado. En la actualidad, es el estadístico preferido para obtener una estimación de la
confiabilidad de la consistencia interna. Puede considerarse como la media de todas las
correlaciones de división por mitades posibles, cumplan o no con los requisitos del
método de división por mitades, que luego serán corregidas por la fórmula de
Spearman-Brown. El procedimiento es sencillo y el cálculo muy fácil si el investigador
es asistido por un programa informático adecuado. Se trata de un método para
identificar inconsistencia entre los ítems de una técnica.
Por último, y a modo de síntesis, en este apartado nos hemos preguntado, ¿cuál es la
utilidad del coeficiente de confiabilidad? Estamos en condiciones de responder que es
útil para conocer ciertas propiedades psicométricas de una técnica, para valorarla, para
tener criterios de selección entre instrumentos. En el siguiente veremos que es útil
también para calcular el error de medición de las puntuaciones obtenidas a través una
técnica e interpretarlas adecuadamente.
Xv = X - X e [1]
Donde sólo se cuenta con información sobre el valor medido X, ya que tanto el
componente verdadero Xv como el de error Xe, son desconocidos.
Expresión en la que ocurre algo análogo que en [1] ,es decir, se puede acceder al
cálculo de la varianza total de las puntuaciones, pero no a los valores de sus componentes
de varianza verdadera y de error.
Por otra parte, se ha dicho que la confiabilidad se puede definir como la proporción
de la varianza verdadera y la total.
En esta última expresión, la confiabilidad es un dato que puede ser calculado a partir
de algunos de los procedimientos empíricos descriptos, mientras que la varianza de los
puntajes, como se indicó, es un dato que puede calcularse. Es decir, aquí hay solo una
incógnita que es Se; entonces, despejando de la anterior...
El símbolo S, desviación típica o estándar, representa la variabilidad, en este caso, de
los puntajes obtenidos cuando se aplica el test a un conjunto de individuos. Por otro lado,
como puede observase, cuanto mayor sea el coeficiente de confiabilidad, menor será el
error típico de medición, ya que a medida que aumenta -el coeficiente de confiabilidad-,
el segundo término del segundo miembro de la igualdad disminuye. Si llegara a ser igual
a 1, entonces el se -el desvío estándar del error de medición-, sería igual a cero. Por el
contrario, si la confiabilidad fuera 0, entonces el desvío estándar del error sería igual al de
la variable medida, es decir, todo sería error.
Con esta expresión se puede calcular el desvío típico del error, que, como fuera
señalado, en el repaso de los conceptos estadísticos, es un valor que indica el promedio
de la dispersión de los puntajes -en este caso de los errores- alrededor de su valor
promedio. Es muy importante recordar aquí que el promedio de los puntajes de error vale
cero, es decir en un número elevado de mediciones se producirán tantos errores por
exceso como por defecto, dando el promedio cero.
En el capítulo 2, ya se ha hecho referencia al hecho de que gran cantidad de variables
se distribuyen de acuerdo a la curva normal, pues el error de las mediciones es una de
ellas.
Sabiendo entonces que el error tiene una distribución normal, cuyo valor es cero y su
desvío es calculable, y conociendo, además, la confiabilidad de la técnica, solo resta hacer
un breve repaso de la curva normal para poder aprovechar sus propiedades.
En el apartado 4.4 fue dicho que entre un desvío por encima de la media y uno por
debajo se encuentran el 68 % de los puntajes, y que entre dos desvíos estándar por encima
de la media y dos por debajo de la misma se encuentran el 95 % de los puntajes; ya entre
tres desvíos por encima y por debajo de la media se encuentran el 99 % de los puntajes.
Los intervalos así delimitados indican la posibilidad de que un determinado puntaje se
encuentre dentro de ellos. Así por ejemplo, hay un 68 % de posibilidades de que cometido
un error este se encuentre entre más o menos un desvío estándar de la media de error
(cero), y hay un 95 % de que ese error esté entre dos desvíos estándar por encima y debajo
de la media, y así consecutivamente.
En el gráfico pueden observarse el valor medio de 100 puntos, dos desvíos estándar de
error por debajo (92) y dos por encima (108): el área de la curva entre ambos valores,
representa la probabilidad de que el valor verdadero se encuentre entre ellos: en la
curva normal, ese valor es del 95%.
Como se puede observar, si bien el desvío estándar del error no permite precisar cuál
es el error que se comete en una determinada medición, permite sin embargo calcular
los valores de los intervalos de confianza, es decir, estimar con una determinada
probabilidad entre qué puntajes estaría el valor verdadero. En vista de esta utilidad, al
desvío estándar de error se lo denomina como error estándar o error típico. Dicho de
otro modo, el error típico así calculado (igual a 4 en el ejemplo), permite estimar el rango
de la puntuación verdadera, o sea, las puntuaciones entre las cuales se encontrará, con
cierto grado de probabilidad, el puntaje verdadero del sujeto.
Estos conceptos pueden resumirse en el siguiente cuadro.
Si se sigue este esquema en el ejemplo dado, el puntaje obtenido por Pipo, sería:
1) Se desea tener una seguridad del 68% de que el puntaje verdadero de Pipo se
encuentre en el intervalo de puntajes hallado. Entonces se suma y se resta un
error típico de medición.
2) Se desea tener una seguridad del 95% de que el puntaje verdadero de Pipo se
encuentre fen el intervalo de puntajes hallado, entonces se suman y se restan 2
errores típicos de medición.
3) Se desea tener una seguridad del 99% de que el puntaje verdadero de Pipo se
encuentre en el intervalo de puntajes hallado. Entonces se suman y se restan 3
errores típicos de medición.
Para facilitar el cálculo del error estándar y los intervalos de confianza que a partir de
él pueden obtenerse, algunos manuales de las técnicas de evaluación psicológica,
proveen estos valores tabulados de acuerdo a algunos niveles de confianza de uso
práctico en psicología. El WISC-III (Wechsler, 1994) es un ejemplo.
Esta técnica estima el rendimiento general de un niño o adolescente a través del
Cociente Intelectual de la Escala Completa (CIEC), Verbal (CIV), de Ejecución (CIE) y
cuatro puntajes índice [Comprensión Verbal (CV), Organización Perceptual (OP),
Ausencia de Distractibilidad (AD) y Velocidad de Procesamiento (VP)]. Las
interpretaciones, tanto cuantitativas como cualitativas, de los puntajes específicos, deben
tener en cuenta el error de estimación inherente a los datos obtenidos a través de este
test. De hecho, el Manual proporciona los intervalos de confianza para que el usuario
pueda estimar la precisión de los puntajes y, por lo tanto, conozca la gama de valores en
la que probablemente se encuentra el verdadero puntaje del niño o adolescente evaluado.
En diversas tablas, el manual ofrece los intervalos de confianza a dos niveles de
significación, 0,90 y 0,95. En otras palabras, con un porcentaje de certeza del 90% y del
95%, respectivamente.
A modo de ejemplo, en la siguiente tabla se han convertido los puntajes directos de
un niño de 9 años, 2 meses, cuyo supuesto nombre es Agus.
Puntaje
Bruto Intervalo de confianza CI 90% 95%
Verbal 59 111 105-116 104-117
Ejecución 44 93 87-100 86-102
Completa 103 102 97-107 96-108
C.V. 45 107 101-112 100-113
O.P 38 97 90-104 89-106
A.D. 29 126 115-130 113-132
V.P. 23 109 100-116 98-117
CI Intervalo Intervalo
90% 95%
Escala completa 70 66 - 76 66-77
Debajo de cada uno de los puntajes que señalan el intervalo de confianza ha sido
calculado y puesto entre paréntesis la distancia de cada valor con respecto al puntaje
obtenido. Como se puede observar, las diferencias sólo son simétricas, iguales, cuando
el puntaje es el promedio (100); mientras que en el caso de los otros puntajes obtenidos,
que son extremos, la asimetría va a favor de la cercanía con el puntaje medio.