Directrices para Seleccionar Test Psicológicos en El Ámbito Clínico Forense
Directrices para Seleccionar Test Psicológicos en El Ámbito Clínico Forense
Directrices para Seleccionar Test Psicológicos en El Ámbito Clínico Forense
ISSN: 1576-9941
Resumen
El considerable desarrollo de la evaluacin psicolgica en Espaa ha puesto a
disposicin de los psiclogos que trabajan en el mbito clnico forense un
nmero muy grande de test psicolgicos y, en consecuencia, una de las tareas a
las que deben enfrentarse es decidir qu test en concreto deberan utilizar en una
evaluacin forense dada. Esta decisin implica, en primer lugar, determinar los
objetivos de la evaluacin forense y la poblacin a la que pertenece la persona
evaluada, y, en segundo lugar, valorar la adecuacin a esos objetivos y a esa
poblacin de las caractersticas del test y de las interpretaciones de las medidas
que ese test proporciona. Para hacer esta valoracin, Heilbrun (1992) propuso
siete directrices que tienen en cuenta criterios psicomtricos as como criterios
de disponibilidad, documentacin, aplicacin, interpretacin y relevancia para
las cuestiones forenses. En este trabajo, se han actualizado, ampliado y
especificado esas directrices con el objetivo ltimo de que las mismas puedan
servir de ayuda a los psiclogos espaoles que trabajan en el mbito clnico
forense. Finalmente, se ejemplifica la utilidad de esas directrices analizando a
partir de ellas los test ms utilizados para la evaluacin de la gravedad de la
depresin en la poblacin clnica espaola.
PALABRAS CLAVE: evaluacin psicolgica, evaluacin forense, tests
psicolgicos, buenas prcticas.
Abstract
Psychological assessment in Spain has undergone considerable development
and, therefore, psychologists working in clinical forensic settings have at their
disposal a very large armamentarium of psychological tests. Consequently, one
of the tasks faced by these psychologists is to decide which specific test should
be used in a forensic assessment given. This decision involves, first,
determining the objectives of the forensic evaluation and the population to
1
106
Introduccin
Existen muchos datos para considerar que la evaluacin psicolgica en
Espaa goza en la actualidad de un nivel de desarrollo importante. Por un lado,
Buela-Casal, Sierra, Carretero-Dios y de los Santos-Roig (2002), tras analizar el
nmero de artculos sobre evaluacin psicolgica publicados en tres revistas
espaolas representativas de la produccin cientfica espaola en psicologa, una
ms centrada en la psicologa clnica y de la salud (Anlisis y Modificacin de
Conducta) y otras dos de temtica ms general (Psicothema y Revista de
Psicologa General y Aplicada), encontraron que estas revistas tenan,
respectivamente, un 60%, 36% y 22% de artculos sobre evaluacin. Es decir
que, por ejemplo, 1 de cada 3 artculos de Psicothema versan sobre evaluacin
psicolgica, lo cual es muy relevante dado no slo el carcter tan general de esa
revista, sino tambin su prestigio y difusin entre la comunidad cientfica
espaola en psicologa. Entre las revistas de psicologa espaolas, Psicothema
ocupa la primera posicin segn el ndice H de impacto o difusin basado en
citas bibliogrficas de Google Scholar (Delgado Lpez-Czar, Marcos
Cartagena, Jimnez Contreras y Ruiz Prez, 2013), la segunda posicin segn la
opinin del propio conjunto de especialistas espaoles en psicologa que ofrece
la plataforma de indicadores de calidad de revistas cientficas espaolas RESH
(Grupo de Investigacin de Evaluacin de Publicaciones Cientficas y Grupo de
Investigacin de Evaluacin de la Ciencia y de la Comunicacin Cientfica,
2013) y tambin la segunda posicin segn el ndice IN-RECS de impacto o
difusin basado en citas bibliogrficas espaolas y acumulado para los aos
2000-2009 y 2005-2009 (Grupo de Investigacin de Evaluacin de la Ciencia y
de la Comunicacin Cientfica, 2013). Por otro lado, cuando se pregunta a los
profesores universitarios espaoles del rea de conocimiento de personalidad,
evaluacin y tratamiento psicolgico cul es su campo principal de actividad
Psicopatologa Clnica, Legal y Forense, Vol.13, 2013, pp.105-137.
107
108
109
110
111
En las revistas que cuentan con sistema de revisin por pares o expertos, cada artculo recibido
para su publicacin es ledo y analizado por dos o ms evaluadores o revisores que determinan
tanto la validez de las ideas, el mtodo y los resultados como su significacin para la ciencia y la
profesin, y tanto del estudio en s mismo como de su presentacin. Estos revisores los eligen los
editores de las revistas entre los investigadores con ms prestigio en las diferentes disciplinas y
reas de la misma. Aunque este sistema no est exento de crticas es, sin embargo, el ms utilizado
ya que no existen alternativas mejores consolidadas (Benos et al., 2007).
112
las que actualmente se podran unir otras ms actualizadas, tanto generales del
mbito clnico (p. ej., Antony, Orsillo y Roemer, 2001; Corcoran y Fischer,
2013; Nezu, Ronan, Meadows y McClure, 2000; Ronan, Dreer, Maurelli, Ronan
y Gerhart, 2014) como especficas del mbito forense (p. ej., Grisso, 2005). En
Espaa, algunas fuentes de referencia generales del mbito clnico podran ser
Bulbena, Berrios y Fernndez de Larrinoa Palacios (2000), Caballo (2005,
2006), G.-Portilla Gonzlez, Bascarn Fernndez, Siz Martnez, Parallada
Redondo, Bousoo Garca y Bobes Garca (2011) y Muoz, Roa, Prez Santos,
Santos-Olmo y de Vicente (2002).
Por otro lado, quizs pueda resultar extrao que Heilbrun (1992)
requiera que los test estn comercializados. Posiblemente, el motivo de incluir
este requisito tiene que ver con el hecho de que si un test est comercializado es
ms probable que su accesibilidad sea mayor para los profesionales y que est
documentado y, adems, dada la proteccin de derechos intelectuales que
implica la comercializacin, es tambin ms probable que se pueda evitar en
mayor medida la proliferacin de mltiples versiones de un instrumento sin las
garantas de calidad adecuadas. En este sentido, puede servir de ejemplo
paradigmtico la situacin de la Escala de Valoracin de la Depresin de
Hamilton (HAM-D, HRSD o HDRS; Hamilton, 1960, 1967), la escala
heteroaplicada que durante aos ha sido el instrumento de evaluacin clnica
ms utilizado para medir la gravedad de la depresin y la referencia ms
importante para evaluar la eficacia de los tratamientos farmacolgicos para la
depresin (Nezu, Nezu, Friedman y Lee, 2009; Trajkovi et al., 2011) y que est
en dominio pblico.
La versin original de la HDRS inclua 17 tems, aunque en la hoja de
registro de las puntuaciones tambin se incluan cuatro tems adicionales que
segn el autor no tenan relevancia para medir la gravedad de la depresin
(Hamilton, 1960, pp. 56-57). En un trabajo posterior, Hamilton (1967) public
solo la versin de 17 tems con ligeras modificaciones respecto a la previa.
Aunque estas versiones de 17 tems son las ms utilizadas, existen ms de 20
versiones de la HDRS que difieren, entre otros aspectos, en el nmero de tems
que la componen (6, 7, 21, 24, 25 y 27 tems), en el formato (p. ej., autoaplicada
de lpiz y papel, autoaplicada por ordenador, con entrevista estructurada) e
incluso en el contenido (p. ej., modificaciones en la redaccin de los tems,
inclusin de nuevos tems o de ms descripciones de los tems) (vase una
revisin en Williams, 2001). Desafortunadamente, los investigadores y
profesionales no siempre informan bien de qu versin han utilizado o estn
utilizando en su estudios o en su prctica clnica. As, Zitman, Mennen, Griez y
Hooijer (1990) solicitaron a los autores de varios estudios publicados en revistas
de prestigio que les enviaran una copia de la HDRS que realmente haban
utilizado en dichos estudios, y, para su sorpresa, encontraron que slo 4 de los
Psicopatologa Clnica, Legal y Forense, Vol.13, 2013, pp.105-137.
113
51 autores que respondieron haban utilizado una versin que era igual a la de la
publicacin que citaban como fuente de la HDRS; adems, menos de la mitad
citaban la publicacin correcta. Es decir, se estaban utilizando diferentes
versiones de la HDRS sin tener en cuenta las consecuencias a nivel de sus
respectivas propiedades psicomtricas, ya que muchas de esas versiones no
haban sido objeto de anlisis psicomtrico alguno.
Lamentablemente, ese es un problema comn a otros instrumentos que
tienen varias versiones, que no cuentan con una versin comercial del mismo y
que gozan de gran popularidad y difusin (p. ej., la primera edicin del
Inventario de Depresin de Beck o BDI), problema que se agudiza cuando
existen adems varias traducciones y adaptaciones a otros idiomas. Siguiendo
con el ejemplo de la HDRS, en Espaa existen dos adaptaciones de la escala. Por
un lado, Conde y Franch (1984) realizaron una traduccin al espaol de la
versin de 21 tems y, posteriormente, dicha traduccin, con ligersimos
cambios, fue validada por Bobes et al. (2003). Por otro lado, Ramos-Brieva y
Cordero Villaffila (1986a) realizaron una traduccin al espaol de la versin de
17 tems de Hamilton (1967), pero en la que introdujeron modificaciones propias
(p. ej., exigir que el paciente se despierte al menos dos horas antes de lo habitual
durante tres o cuatro das para puntuar 2 en el tem 6 de insomnio tardo) y
modificaciones tomadas de las versiones de otros autores (la de Guy, 1976, la
del grupo de Michigan de Feinberg et al., 1985, y la de Rehm y OHara, 1985,
todos ellos citados por Ramos-Brieva y Cordero Villaffila, 1986, pp. 326-327),
y llevaron a cabo los estudios de adaptacin correspondientes (Cordero
Villaffila y Ramos-Brieva, 1986; Ramos-Brieva y Cordero Villaffila, 1986a,
1986b, 1988; Ramos Brieva, Cordero Villaffila y Ynez Sez, 1994). Cuando
se comparan ambas versiones espaolas, las diferencias entre ellas afectan
prcticamente a todos los tems y son ms que notables. Por citar algunas, en el
tem 14 (sntomas genitales), en la versin de Ramos-Brieva y Cordero
Villaffila no se incluyen los trastornos menstruales, slo la prdida de la libido,
usa una escala de 0 a 2 (ausente, ligero y prdida completa de apetito
sexual) en lugar de 0 a 3 (ausente, dbil, grave e incapacitante) y,
adems, incluye indicaciones adicionales para hacer las valoraciones (p. ej., 1
ligero: descenso de la libido: actividad sexual alterada (inconstante, poco
intensa)), mientras que en el tem 1 (estado de nimo deprimido) las
indicaciones para hacer las valoraciones difieren en las dos versiones (p. ej., 4
extremo: llanto muy frecuente (o ganas); frecuente tendencia al aislamiento;
contenidos depresivos exclusivos en el pensamiento o la comunicacin verbal;
prdida de la capacidad de reaccin a estmulos placenteros en la versin de
Ramos-Brieva y Cordero Villaffila, en lugar de 4. El paciente manifiesta estas
sensaciones en su comunicacin verbal y no verbal de forma espontnea en la
versin de Conde y Franch). Aunque afortunadamente ambas versiones
Psicopatologa Clnica, Legal y Forense, Vol.13, 2013, pp.105-137.
114
espaolas estn validadas, dadas las numerosas y notables diferencias entre ellas,
no se puede asumir que ambas identifiquen los mismos sntomas depresivos y
arrojen puntuaciones parecidas de gravedad de la depresin.
Propiedades psicomtricas
2. Se debera considerar la fiabilidad. El uso de un test con un coeficiente de
fiabilidad menor de 0,80 no es aconsejable. La utilizacin de un test menos
fiable requerira una justificacin explcita por parte del psiclogo
(Heilbrun, 1992, p. 265).
Aunque un coeficiente de fiabilidad de 0,80 parece adecuado (vase
Prieto y Muiz, 2010), lo cierto es que ese criterio no tiene en cuenta los tipos de
fiabilidad existentes (p. ej., los coeficientes de fiabilidad test-retest suelen ser
menores que los coeficientes de consistencia interna), ni los tipos de test (p. ej.,
con algunos test psicopatolgicos y de personalidad es difcil conseguir
coeficientes de consistencia interna superiores a 0,70, mientras que algunos test
de inteligencia o de aptitudes llegan a alcanzar coeficientes superiores a 0,90) ni
las dificultades de la adaptacin de los test a otros idiomas y culturas (p. ej., es
habitual que las versiones adaptadas tengan ndices de fiabilidad inferiores a las
versiones originales). Quizs los criterios propuestos por Prieto y Muiz (2000)
para evaluar la calidad de los test utilizados en Espaa podran servir como
directrices complementarias. Estos criterios especifican que, para los ndices de
equivalencia (fiabilidad de formas paralelas), seran adecuados coeficientes de
correlacin iguales o mayores que 0,60 (buenos: 0,70 r < 0,80, y excelentes: r
0,80), para los ndices de fiabilidad de consistencia interna (p. ej., coeficiente
alfa de Cronbach y similares), valores iguales o mayores que 0,70 (buenos: 0,80
alfa < 0,85, y excelentes: alfa 0,85) y, para los ndices de estabilidad
temporal (fiabilidad test-retest), coeficientes de correlacin iguales o mayores
que 0,65 (buenos: 0,75 r < 0,80, y excelentes: r 0,80).
Respecto a los ndices de estabilidad temporal es importante tener en
cuenta el tiempo transcurrido entre la primera (test) y segunda aplicacin (retest)
del instrumento as como el marco temporal de sus instrucciones, ya que, por
ejemplo, muchos sndromes y trastornos psicolgicos son episdicos y, por
tanto, se espera que flucten con el tiempo, mxime si hay por medio algn tipo
de tratamiento psicolgico o biomdico que pretenda eliminar o reducir su
presencia. Por tanto, no hay que tener en cuenta los ndices test-retest obtenidos
tras la aplicacin de un tratamiento psicolgico o biomdico y hay que tomar
con mucha precaucin los ndices obtenidos con perodos test-retest muy largos
en relacin con las instrucciones del instrumento, en especial cuando se han
obtenido con muestras clnicas de participantes.
Psicopatologa Clnica, Legal y Forense, Vol.13, 2013, pp.105-137.
115
116
117
118
119
confirme dicha hiptesis, ignorando cualquier otra que la refute y pasando por
alto sntomas importantes (Rogers, 2001). En la misma lnea, los clnicos tienden
a parar la entrevista despus de haber identificado el primer trastorno mental, de
manera que pueden pasar por alto muchos diagnsticos, particularmente si son
raros (Rogers, 2001). Todos estos sesgos conducen a que diferentes
entrevistadores tengan diferentes tipos y cantidades de informacin, lo cual,
obviamente, da lugar a diferentes diagnsticos.
En definitiva, los test basados en la realizacin previa de una entrevista
con la persona evaluada, tanto si sus objetivos son diagnsticos como si son
medir la gravedad de un sndrome o trastorno, deberan contar con una entrevista
estructurada o semiestructurada que garantice la estandarizacin de las
condiciones de aplicacin del test y, en consecuencia, la fiabilidad y validez del
test.
Interpretacin
5. Tanto la seleccin de un test como su interpretacin deberan guiarse por
la aplicabilidad a una poblacin concreta y para un propsito dado. Los
resultados de un test (distintos del comportamiento observado durante su
administracin) no deberan aplicarse a un propsito para el cual el test no
fue desarrollado (p. ej., inferir psicopatologa a partir de los resultados de
un test de inteligencia). La especificidad de la poblacin y de la situacin
deberan guiar la interpretacin. Cuanto mayor sea el "ajuste" entre un
individuo dado y la poblacin y situacin utilizadas en la investigacin de
validacin, ms confianza se puede tener en la aplicabilidad de los
resultados (Heilbrun, 1992, p. 266).
Aunque hay test que han sido evaluados con muestras de muy distintas
poblaciones y en muy distintas situaciones (p. ej., el MMPI, el MCMI), esto no
es necesariamente as respecto a sus adaptaciones espaolas. Es necesario, pues,
analizar en profundidad las muestras de estandarizacin con las que se desarroll
el test as como las muestras que posteriormente han sido evaluadas con dicho
instrumento en la literatura cientfica para as poder determinar en qu medida la
persona evaluada se ajusta a dichas muestras y poder matizar adecuadamente
cualquier conclusin sobre los resultados que obtenga dicha persona en ese test
en cuestin.
6. Los test objetivos y los datos actuariales son preferibles cuando hay datos
apropiados de resultado y existe una "frmula" (Heilbrun, 1992, p. 267).
120
121
122
mentales con base orgnica, sino que tambin puede ser til en los trastornos
mentales funcionales. Por ejemplo, diversos estudios han encontrado que los
pacientes depresivos, incluso los ms graves, presentan en el TOMM un
rendimiento similar al de las personas sin trastornos psicolgicos (p. ej.,
Ashendorf, Constantinou y McCaffrey, 2004; Rees, Tombaugh y Boulay, 2001;
Yanez, Fremouw, Tennant, Strunk y Coker, 2006). Por tanto, un rendimiento
bajo en el TOMM (p. ej., por debajo del punto de corte de 45) en una persona
que presenta sintomatologa depresiva constituira un indicio de simulacin de
un trastorno depresivo (Rees et al., 2001). Esta ausencia de diferencias entre
pacientes depresivos y personas sin depresin en un test de memoria parecera
que contradice los datos que demuestran problemas de rendimiento cognitivo en
algunos pacientes con depresin, especialmente con depresiones graves; sin
embargo, es importante recordar que tales problemas afectan sobre todo a las
tareas que implican procesos cognitivos controlados, es decir, procesos que
requieren gran cantidad de atencin, esfuerzo y recursos de procesamiento,
como, por ejemplo, tareas de recuerdo libre, mientras que apenas afectan a las
tareas que implican procesos cognitivos automticos (vase la revisin de
Hartlage, Alloy, Vzquez y Dyckman, 1993), y precisamente el TOMM es una
tarea de memoria de reconocimiento visual que evala un procesamiento ms
bien automtico.
Por otro lado, existen varias estrategias para tratar de reducir o anular los
efectos del estilo de respuesta. Por ejemplo, una de las ms eficaces consiste en
confeccionar baremos para los instrumentos a partir de las puntuaciones
obtenidas en contextos iguales a aquellos en los que se sospecha puede haber un
inters directo en simular sntomas depresivos o en negarlos o minimizarlos
(Salgado, 2005). As, se podran desarrollar unos baremos especficos con
muestras de personas que presentan demandas por dao personal para conseguir
compensaciones econmicas (contexto en el que cabra esperar simulacin de
sntomas psicopatolgicos) y otros baremos distintos con muestras de personas
que litigan para conseguir la guardia y custodia de sus hijos (contexto en el que
cabra esperar una negacin o minimizacin de sntomas, mxime cuando del
otorgamiento de la guarda y custodia depende la atribucin de la vivienda
familiar y la designacin del deudor de la pensin de alimentos). Los baremos
as construidos incluiran ya una parte de la puntuacin normativa que
corresponde a la simulacin o al estilo defensivo y que es comn a todas las
personas evaluadas en esa situacin especfica, y, por lo tanto, los efectos del
estilo de respuesta habran sido ya parcialmente neutralizados cuando se
utilizaran para interpretar las puntuaciones de una persona evaluada en esas
mismas situaciones.
Otra estrategia para reducir los efectos del estilo de respuesta puede ser
modificar el formato de los instrumentos. Por ejemplo, respecto al BDI, en el
Psicopatologa Clnica, Legal y Forense, Vol.13, 2013, pp.105-137.
123
que las alternativas de respuesta para cada sntoma estn ordenadas de menor a
mayor gravedad y, adems, estn acompaadas del nmero de 0 a 3 que indica
su puntuacin, algunos estudios sugieren que la presentacin aleatoria de las
distintas afirmaciones de gravedad dentro de cada tem y la eliminacin del
nmero que indica su puntuacin puede tener la ventaja de romper sesgos de
respuestas tendentes a escoger la primera afirmacin o la ltima (Dahlstrom,
Brooks y Peterson, 1990) y, por tanto, o bien asegura que las personas evaluadas
prestan atencin a todas las afirmaciones que componen cada tem del BDI, lo
que permite obtener un rango mejor de puntuaciones, o bien dificulta los intentos
de simulacin o minimizacin de sntomas, ya que la gravedad de algunas
alternativas no es tan obvia si no aparece ordenada y con su puntuacin
correspondiente. As, como sugieren Echebura, Amor y Corral (2003), si en el
tem 10 sobre llanto del BDI-IA, la alternativa de mayor gravedad (Antes era
capaz de llorar, pero ahora no puedo incluso aunque quiera) no se sita en
ltimo lugar acompaada de la mxima puntuacin (3), sino en otro lugar y
sin dicha puntuacin, es muy probable que muchas personas que tratan de
simular depresin no la elijan y, en cambio, escojan Lloro continuamente que,
en realidad, es menos grave y se punta con un 2 en lugar de 3.
124
Referencias bibliogrficas
Alonso Surez y Florit Robles (2002); Vzquez y
Sanz (1997, 1999)
125
En funcin de los criterios y parmetros analizados por Sanz et al. (2013) y fijndose en el
sntoma principal que pretende medir cada tem de la HDRS, ya que muchos sus tems evalan
varios sntomas a la vez, la HDRS evala, teniendo en cuenta los criterios diagnsticos del DSMIV, el 88,9% de los criterios sintomticos de la depresin mayor, el 57,1% del trastorno distmico
y el 42,8% de los sntomas atpicos o especificaciones de los trastornos depresivos, mientras que,
teniendo en cuenta los criterios diagnsticos de la CIE-10, la HDRS evala el 80% de los criterios
sintomticos de la depresin mayor, el 50% de la distimia y el 85,7% de los sntomas atpicos o
especificaciones de los trastornos depresivos. Adems, de los 17 tems de la HDRS, el 82,3% de
esos tems miden sntomas depresivos segn los criterios diagnsticos del DSM-IV o la CIE-10.
Finalmente, en lo que respecta a la representatividad del constructo de depresin clnica, el 5,9%
de los 17 tems de la HDRS evalan sntomas anmicos, el 11,8% sntomas motivacionales, el
35,3% sntomas fsicos, el 11,8% sntomas motores, el 11,8% sntomas cognitivos, el 5,9%
sntomas atpicos o de especificaciones y el 17,6% otros sntomas no depresivos (vase Sanz et al.,
2013, para los porcentajes de criterios diagnsticos DSM-IV o CIE-10 que especifican los distintos
tipos de sntomas depresivos).
126
127
Conclusiones
El considerable desarrollo de la evaluacin psicolgica en Espaa ha
trado consigo un enorme aumento del nmero de test psicolgicos de los que
puede disponer un psiclogo para realizar una evaluacin clnica forense, lo que
implica que una de las primeras preguntas que se debe plantear dicho psiclogo
en su actividad profesional e investigadora es qu test utilizar. Como cabra
suponer, no existe una respuesta nica a esta pregunta puesto que la respuesta
viene determinada por los objetivos de la evaluacin, estos objetivos pueden ser
muy diversos y ningn test por s solo parece cubrir con garantas todos ellos,
aunque algunos test pueden ser tiles para conseguir de forma aceptable uno o
varios.
En consecuencia, la seleccin de un test psicolgico para la evaluacin
psicolgica en el mbito clnico forense implica, en primer lugar, determinar los
objetivos de dicha evaluacin y la poblacin a la que pertenece la persona o
personas que van a ser evaluadas, y, en segundo lugar, valorar la adecuacin a
esos objetivos y a esa poblacin de las caractersticas del test y de las
interpretaciones o inferencias de las medidas que ese test proporciona. Para
hacer estas valoraciones es necesario tener en cuenta simultneamente varios
criterios tanto psicomtricos y prcticos como de relevancia para las cuestiones
forenses y, en este sentido, Heilbrun (1992) ha propuesto siete directrices sobre
la disponibilidad y documentacin del test, sus propiedades psicomtricas y su
interpretacin. En este trabajo, se han actualizado, ampliado, especificado y
ejemplificado esas directrices con el objetivo ltimo de que las mismas puedan
ser de ayuda a los psiclogos espaoles que trabajan en el mbito clnico forense
para determinar si un test psicolgico dado debera usarse en una evaluacin
forense en concreto.
Dada la complejidad y responsabilidad de la actividad que desempean
los psiclogos forenses, en los ltimos aos diversas instituciones en Espaa
Psicopatologa Clnica, Legal y Forense, Vol.13, 2013, pp.105-137.
128
129
Referencias
gisdttir, S., White, M. J., Spengler, P. M., Maugherman, A. S., Anderson, L. A.,
Cook, R. S., et al. (2006). The meta-analysis of clinical judgment project: fiftysix years of accumulated research on clinical versus statistical prediction. The
Counseling Psychologist, 34, 341-382.
Alonso Surez, M., y Florit Robles, A. C. (2002). Caractersticas psicomtricas de la
versin espaola del Inventario de Depresin de Beck en pacientes crnicos con
esquizofrenia. Anales de Psiquiatra, 18, 154-160.
American Psychiatric Association (1995). DSM-IV. Manual diagnstico y estadstico de
los trastornos mentales. Barcelona: Masson. (Orig. 1994).
Antony, M. M., Orsillo, S. M., y Roemer, L. (Eds.). (2001). Practitioners guide to
empirically based measures of anxiety. Nueva York: Plenum Press.
Aragons Benaiges, E., Masdu Montal, R. M., Cando Guasch, G., y Coll Borrs, G.
(2001). Validez diagnstica de la Self-Rating Depression Scale de Zung en
pacientes de atencin primaria. Actas Espaolas de Psiquiatra, 29, 310-316.
Ashendorf, L., Constantinou, M., y McCaffrey, R. J. (2004). The effect of depression
and anxiety on the TOMM in community-dwelling older adults. Archives of
Clinical Neuropsychology, 19, 125-130.
vila, A., y Tom, M.C. (1989). Evaluacin de la deseabilidad social y correlatos
defensivos y emocionales. Adaptacin castellana de la Escala de Crowne y
Marlowe. En A. Echevarra y D. Pez (Eds.), Emociones: Perspectivas
psicosociales (pp. 505-514). Madrid: Fundamentos.
Baca-Garca, E., Daz-Sastre, C., Rico, F., y Siz Ruiz, J. (1998). Valoracin de la
fiabilidad de la evaluacin clnica entre los investigadores de un ensayo clnico
multicntrico. Actas Luso-Espaolas de Neurologa, Psiquiatra y Ciencias
Afines, 26, 358-362.
Baills, E., Pintor, L., Fernandez-Egea, E., Torres, X., Matrai, S., de Pablo, J., et al.
(2004). Psychiatric disorders, trauma, and MMPI profile in a Spanish sample of
nonepileptic seizure patients. General Hospital Psychiatry, 26, 310-315.
Ballesteros, J., Bobes, J., Bulbena, A., Luque, A., Dal-R, R., Ibarra, N., et al. (2007).
Sensitivity to change, discriminative performance, and cutoff criteria to define
remission for embedded short scales of the Hamilton depression rating scale
(HAMD). Journal of Affective Disorders, 102, 93-99.
Bartolom Tutor, A., Chacn Fuertes, F., Garca Gumiel, J. F., Garca Moreno, A.,
Gmez Hermoso, M. R., Gmez Martn, R., y Vzquez Mezquita, B. (2013).
Gua de buenas prcticas para la elaboracin de informes psicolgicos
periciales sobre custodia y rgimen de visitas de menores adaptada a casos de
violencia de gnero. Madrid: Colegio Oficial de Psiclogos de Madrid.
Disponible
en:
http://www.copmadrid.es./webcopm/recursos/guiadebuenaspracticascustodiame
nores.pdf
Beck, A. T., Steer, R. A., y Brown, G. K. (2011a). Manual. BDI-II. Inventario de
Depresin de Beck-II (Adaptacin espaola: Sanz, J., y Vzquez, C.). Madrid:
Pearson Educacin.
Psicopatologa Clnica, Legal y Forense, Vol.13, 2013, pp.105-137.
130
Benos, D. J., Bashari, E., Chaves, J. M., Gaggar, A., Kapoor, N., LaFrance, M., et al.
(2007). The ups and downs of peer review. Advances in Physiology Education,
31, 145-152.
Bobes, J., Bulbuena, A., Luque, A., Dal-R, R., Ballesteros, J., e Ibarra, N. (2003).
Evaluacin psicomtrica comparativa de las versiones en espaol de 6, 17, 21
tems de la Escala de valoracin de Hamilton para la evaluacin de la
depresin. Medicina Clnica, 120, 693-670.
Bonta, J., Law, M., y Hanson, K. (1998). The prediction of criminal and violent
recidivism among mentally disordered offenders: a meta-analysis.
Psychological Bulletin, 123, 123-142.
Borda Ms, M., Torres Prez, I., y del Ro Snchez, C. (2008). Distimia en anorexia
nerviosa y bulimia nerviosa. International Journal of Clinical and Health
Psychology, 8, 65-75.
Brodsky, S. L., y Smitherman, H. O. (1983). Handbook of scales for research in crime
and delinquency. Nueva York: Plenum.
Buela-Casal, G., Sierra, J.C., Carretero-Dios, H., y de los Santos-Roig, M. (2002).
Situacin actual de la evaluacin psicolgica en lengua castellana. Papeles del
Psiclogo, 83, 27-33.
Bulbena, A., Berrios, G., y Fernndez de Larrinoa Palacios, P. (Eds.). (2000). Medicin
clnica en psiquiatra y psicologa. Barcelona: Masson.
Caballo, V. E. (Ed.). (2005). Manual para la evaluacin clnica de los trastornos
psicolgicos. Estrategias de evaluacin, problemas infantiles y trastornos de
ansiedad. Madrid: Pirmide.
Caballo, V. E. (Ed.). (2006). Manual para la evaluacin clnica de los trastornos
psicolgicos. Trastornos de la edad adulta e informes psicolgicos. Madrid:
Pirmide.
Chacn Fuertes, F., Garca Gumiel, J. F., Garca Moreno, A., Gmez Hermoso, R., y
Vzquez Mezquita, B. (2009). Gua de buenas prcticas para la elaboracin de
informes psicolgicos periciales sobre custodia y rgimen de visitas de
menores. Madrid: Colegio Oficial de Psiclogos de Madrid. Disponible en:
http://www.copmadrid.es./webcopm/recursos/guiadebuenaspracticasA4.pmd.pd
f
Cicchetti, D. V. (1994). Guidelines, criteria, and rules of thumb for evaluating normed
and standardized assessment instruments in psychology. Psychological
Assessment, 6, 284-290.
Cohen, J. (1988). Statistical power analysis for the behavioral sciences, 2 ed. Hillsdale,
NJ: LEA.
Comeche, M. I., Daz, M. I., y Vallejo, M. A. (1995). Cuestionarios, inventarios y
escalas. Ansiedad, depresin y habilidades sociales. Madrid: Fundacin
Universidad-Empresa.
Comisin Internacional de Tests (ITC). (2000). Directrices internacionales para el uso de
los tests. [Traduccin de la Comisin de Tests del Colegio Oficial de
Psiclogos de Espaa]. INFOCOP, 77, 21-32. Consultado el 30 de abril de
2013 en: http://www.cop.es/infocop/vernumeroCOP.asp?id=1000
131
Conde, V., Escriba, J. A., e Izquierdo, J.A. (1970a). Evaluacin estadstica y adaptacin
castellana de la Escala Autoaplicada para la Depresin de Zung. Archivos de
Neurobiologa, 33, 185-206.
Conde, V., Escriba, J. A., e Izquierdo, J.A. (1970b). Evaluacin estadstica y adaptacin
castellana de la Escala Autoaplicada para la Depresin de Zung. Archivos de
Neurobiologa, 33, 281-303.
Conde, V., Esteban, T., y Useros, E. (1976). Revisin crtica de la adaptacin castellana
del Cuestionario de Beck. Revista de Psicologa General y Aplicada, 31, 469497.
Conde Lpez, V., y Esteban Chamorro, T. (1973). Revisin crtica de dos adaptaciones
castellanas de la Self Rating Depresin Scale (SDS) de Zung. Archivos de
Neurobiologa, 36, 375-392.
Conde Lpez, V., y Esteban Chamorro, T. (1974). Contribucin al estudio de la S.D.S.
(Self-Rating Depression Scale) de Zung, en una muestra estratificada de
poblacin normal. Revista de Psicologa General y Aplicada, 29, 515-554.
Conde Lpez, V., y Esteban Chamorro, T. (1975a). Fiabilidad de la S.D.S. (Self-Rating
Depression Scale) de Zung. Revista de Psicologa General y Aplicada, 30, 903914.
Conde Lpez, V., y Esteban Chamorro, T. (1975b). Validez de la S.D.S. (Self-Rating
Depression Scale) de Zung. Archivos de Neurobiologa, 38, 225-246.
Conde, V., y Franch, J. I. (1984). Escalas de evaluacin comportamental para la
cuantificacin de la sintomatologa psicopatolgica en los trastornos
angustiosos y depresivos. Madrid: Upjohn Farmaqumica.
Consejera de Justicia e Interior de la Comunidad de Madrid (2007). Gua orientativa de
buenas prcticas de psiclogos forenses. Madrid: Comunidad de Madrid.
Corcoran, K., y Fischer, J. (2013). Measures for clinical practice and research. A
sourcebook, 5 ed. Volume 2: adults. Nueva York: Oxford University Press.
Cordero Villaffila, A., y Ramos-Brieva, J. (1986). Estructura factorial de la versin
castellana de la Escala de Hamilton para la Depresin. Actas Luso-Espaolas de
Neurologa, Psiquiatra y Ciencias Afines, 14, 339-342.
Crowne, D. P., y Marlowe, D. (1960). A new scale of social desirability independent of
psychopathology. Journal of Consulting Psychology, 24, 349-354.
Dahlstrom, W. G., Brooks, J. D., y Peterson, C. D. (1990). The Beck Depression
Inventory: item order and the impact of response set. Journal of Personality
Assessment, 55, 224-233
Dawes, R. M., Faust, D., y Meehl, P.E. (1989). Clinical versus actuarial judgment.
Science, 243, 1668-1674.
Delgado Lpez-Czar, E., Marcos Cartagena, D., Jimnez Contreras, E., y Ruiz Prez,
R. (2013). ndice H de las revistas espaolas de Ciencias Sociales y Jurdicas
segn Google Scholar (2002-2011). EC3 (Grupo de Investigacin de
Evaluacin de la Ciencia y de la Comunicacin Cientfica). Informes, 4: 29 de
mayo de 2013. Universidad de Granada.
Echebura, E., Amor, P. J., y Corral, P. de (2003). Autoinformes y entrevistas en el
mbito de la psicologa clnica forense: limitaciones y nuevas perspectivas.
Anlisis y Modificacin de Conducta, 29, 503-522.
Psicopatologa Clnica, Legal y Forense, Vol.13, 2013, pp.105-137.
132
Endicott, J., Cohen, J., Nee, J., Fleiss, J., y Sarantakos, S. (1981). Hamilton Depression
Rating Scale: extracted from regular and change versions of the Schedule for
Affective Disorders and Schizophrenia. Archives of General Psychiatry, 38, 98103.
Ferrando, P. J., y Chico, E. (2000). Adaptacin y anlisis psicomtrico de la escala de
deseabilidad social de Marlowe y Crowne. Psicothema, 12, 383-389.
Garca-Portilla Gonzlez, M. P., Bascarn Fernndez, M. T., Siz Martnez, P. A.,
Parallada Redondo, M., Bousoo Garca, M., y Bobes Garca, J. (2011). Banco
de instrumentos bsicos para la prctica de la psiquiatra clnica, 6 ed.
Majadahonda, Madrid: Comunicacin y Ediciones Sanitarias.
Gmez Hermoso, M. R., Muoz Vicente, J. M., Vzquez Mezquita, B., Gmez Martn,
R., y Mateos de la Calle, N. (2012). Gua de buenas prcticas para la
evaluacin psicolgica forense del riesgo de violencia contra la mujer en las
relaciones de pareja (VCMP). Madrid: Colegio Oficial de Psiclogos de
Madrid.
Disponible
en:
http://www.copmadrid.es./webcopm/recursos/guiaviolenciacontralamujer.pdf
Gonzlez-Ordi, H., Santamara-Fernndez, P., y Fernndez-Martn, P. (2010). Precisin
predictiva del Inventario de Simulacin de SntomasSIMS en el contexto
mdico-legal. Edupsykh, 9, 3-22.
Grassot Esteba, G., y Llins Regl, J. (1997). Comparacin de la psicopatologa medida
con el SCL-90-R y otros instrumentos psicomtricos. Psiquis, 18, 43-50.
Grisso, T. (1986). Evaluating competencies: forensic assessments and instruments.
Nueva York: Plenum Press.
Grisso, T. (2003). Evaluating competencies: forensic assessments and instruments, 2 ed.
Nueva York: Kluwer Academic/Plenum Press.
Grove, W. M., y Meehl, P. E. (1996). Comparative efficiency of informal (subjective,
impressionistic) and formal (mechanical, algorithmic) prediction procedures:
The clinical-statistical controversy. Psychology, Public Policy, and Law, 2, 293323.
Grove, W. M., Zald, D. H., Lebow, B. S., Snitz, B. E., y Nelson, C. (2000). Clinical vs.
mechanical prediction: a meta-analysis. Psychological Assessment, 12, 19-30.
Grupo de Investigacin de Evaluacin de la Ciencia y de la Comunicacin Cientfica
(2013). IN-RECS (ndice de impacto de las Revistas Espaolas de Ciencias
Sociales). Psicologa. Universidad de Granada. Consultado el 11 de octubre de
2013 en: http://ec3.ugr.es/in-recs/
Grupo de Investigacin de Evaluacin de Publicaciones Cientficas y Grupo de
Investigacin de Evaluacin de la Ciencia y de la Comunicacin Cientfica
(2013). RESH (Revistas Espaolas de Ciencias Sociales y Humanidades).
Indicadores. Psicologa. Centro de Ciencias Humanas y Sociales
(CCHS)/Consejo Superior de Investigaciones Cientficas y Universidad de
Granada. Consultado el 11 de octubre de 2013 en: http://epuc.cchs.csic.es/resh/
Guilln, V., Santos, B., Yll, L., Bulbena, A., Bilbao, J., Fernndez, E., et al. (2012).
Depressive dimensions and item response analysis of the Hamilton Depression
Rating Scale17 in eating disorders. Comprehensive Psychiatry, 53, 396-402.
133
134
Miller, I. W., Bishop, S., Norman, W. H., y Maddever, H. (1985). The modified
Hamilton Rating Scale for Depression: reliability and validity. Psychiatry
Research, 14, 131-142.
Millon, T. (1998). MCMI-II. Inventario Clnico Multiaxial de Millon II. Manual
(Adaptacin espaola: vila-Espada, A.). Madrid: TEA.
Millon, T. (1999). MCMI-II. Inventario Clnico Multiaxial de Millon II. Manual (2 ed.)
(Adaptacin espaola: vila-Espada, A.). Madrid: TEA.
Millon, T. (2002). MCMI-II. Inventario Clnico Multiaxial de Millon II. Manual (3 ed.)
(Adaptacin espaola: vila-Espada, A.). Madrid: TEA.
Millon, T., Davis, R. D., y Millon, C. (2007). MCMI-III. Inventario Clnico Multiaxial
de Millon-III. Manual (Adaptacin espaola: Cardenal, V., y Snchez, M. P.).
Madrid: TEA Ediciones.
Muiz, J., y Fernndez-Hermida, J. R. (2010). La opinin de los psiclogos espaoles
sobre el uso de los test. Papeles del Psiclogo, 31, 108-121.
Nezu, A. M., Nezu, C. M., Friedman, J., y Lee, M. (2009). Assessment of depression. En
I. H. Gotlib y C. L. Hammer (Eds.), Handbook of depression (2 ed.) (pp. 4468). Nueva York: Guilford Press.
Nezu, A. M., Ronan, G. F., Meadows, E. A., y McClure, K. S. (Eds.). (2000).
Practitioners guide to empirically based measures of depression. Nueva York:
Kluwer Academic/Plenum Press.
Ortiz-Tallo, M., Cardenal, V., Ferragut, M., y Cerezo, M. V. (2011). Personalidad y
sndromes clnicos: Un estudio con el MCMI-III basado en una muestra
espaola. Revista de Psicopatologa y Psicologa Clnica, 16, 49-59.
Otto, R. K. (2008). Challenges and advances in assessment of response style in forensic
examination contexts. En R. Rogers (Ed.), Clinical assessment of malingering
and deception, 3 ed. (pp. 365-375). Nueva York: Guilford Press.
Pedrero Prez, E. J., y Lpez-Durn, A. (2005). Autoinformes de sintomatologa
depresiva en drogodependientes: nivel de coincidencia del BDI, SCL-90-R y
MCMI-II. Depresin o malestar inespecfico? Adicciones, 17, 215-230.
Pedrero Prez, E. J., Lpez Durn, A., y Fernndez del Ro, E. (2012). Dimensiones
factoriales del cuestionario de Millon (MCMI-II) en adictos a sustancias.
Psicothema, 24, 661-667.
Potts, M. K., Daniels, M., Burnam, M. A., y Wells, K. B. (1990). A structured interview
version of the Hamilton Depression Rating Scale: evidence of reliability and
versatility of administration. Journal of Psychiatry Research, 24, 335-350.
Prieto, G., y Muiz, J. (2000). Un modelo para evaluar la calidad de los tests utilizados
en Espaa. Papeles del Psiclogo, 77, 65-71.
Ramos-Brieva, J. A. (1986). La Escala de Zung-Conde para la Depresin: su validez
predictiva. Actas Luso-Espaolas de Neurologa, Psiquiatra y Ciencias Afines,
14, 123-127.
Ramos-Brieva, J. A., y Cordero Villaffila, A. (1986a). Validacin de la versin
castellana de la escala de Hamilton para la depresin. Actas Luso-Espaolas de
Neurologa, Psiquiatra y Ciencias Afines, 14, 324-334.
Ramos-Brieva, J. A., y Cordero Villaffila, A. (1986b). Relacin entre validez y
seguridad de la versin castellana de la escala de Hamilton para la depresin.
Psicopatologa Clnica, Legal y Forense, Vol.13, 2013, pp.105-137.
135
136
Sanz, J., Gutirrez, S., Gesteira, C., y Garca-Vera, M. P. (en prensa). Criterios y
baremos para interpretar el Inventario de depresin de Beck-II" (BDI-II).
Behavioral Psychology-Psicologa Conductual.
Sanz, J., Izquierdo, A., y Garca-Vera, M. P. (2013). Una revisin desde la perspectiva
de la validez de contenido de los cuestionarios, escalas e inventarios
autoaplicados ms utilizados en Espaa para evaluar la depresin clnica en
adultos. Psicopatologa Clnica, Legal y Forense.
Sanz, J., Perdign, L. A., y Vzquez, C. (2003). Adaptacin espaola del Inventario para
la Depresin de Beck-II (BDI-II): 2. Propiedades psicomtricas en poblacin
general. Clnica y Salud, 14, 249-280.
Seisdedos Cubero, N. (1980). MMPI: suplemento tcnico. Madrid: TEA.
Soler, J., Prez-Sola, V., Puigdemont, D., Prez-Blanco, J., Figueres, M., y lvarez, E.
(1997). Estudio de validacin del Center for Epidemiologic Studies-Depression
(CES-D) en una poblacin espaola de pacientes con trastornos afectivos. Actas
Espaolas de Psiquiatra, 25, 243-249.
Tombaugh, T. N. (1996). Test of Memory Malingering (TOMM). North Tonawonda,
NY: Multi-Health Systems.
Tombaugh, T. N. (2011). Test de Simulacin de Problemas de Memoria (TOMM).
Manual (Adaptacin espaola: Vilar-Lpez, R., Prez, M., y Puente, A. E.).
Madrid: TEA Ediciones.
Trajkovi, G., Starevi, V., Latas, M., Letarevi, M., Ille, T., Bukumiri, Z., y
Marinkovi, J. (2011). Reliability of the Hamilton Rating Scale for depression:
a meta-analysis over a period of 49 years. Psychiatry Research, 189, 1-9.
Vzquez, C., y Sanz, J. (1997). Fiabilidad y valores normativos de la versin espaola
del Inventario para la Depresin de Beck de 1978. Clnica y Salud, 8, 403-422.
Vzquez, C., y Sanz, J. (1999). Fiabilidad y validez de la versin espaola del Inventario
para la Depresin de Beck de 1978 en pacientes con trastornos psicolgicos.
Clnica y Salud, 10, 59-81.
Vzquez, F. L., Blanco, V., y Lpez, M. (2007). An adaptation of the Center for
Epidemiologic Studies Depression Scale for use in non-psychiatric Spanish
populations. Psychiatry Research, 149, 247-252.
Whisman, M. A., Strosahl, K., Fruzzetti, A. E., Schmaling, K. B., Jacobson, N. S., y
Miller, D. M. (1989). A structured interview version of the Hamilton Rating
Scale for Depression. Psychological Assessment, 1, 238-241.
Widows, M. R., y Smith, G. P. (2005). SIMS: Structured Inventory of Malingered
Symptomatology. Professional manual. Lutz, FL: Psychological Assessment
Resources.
Widows, M. R., y Smith, G. P. (2009). SIMS. Inventario Estructurado de Simulacin de
Sntomas (Adaptacin espaola: Gonzlez Ordi, H., y Santamara, P.). Madrid:
TEA ediciones.
Williams, J. B. W. (1988). A structured interview guide for the Hamilton Depression
Rating Scale. Archives of General Psychiatry, 45, 742-747.
Williams, J. B. W. (2001). Standardizing the Hamilton Depression Rating Scale: past,
present, and future. European Archives of Psychiatry and Clinical
Neurosciences, 251(Suppl. 2), II/6-II/12.
Psicopatologa Clnica, Legal y Forense, Vol.13, 2013, pp.105-137.
137
Williams, J. B., Kobak, K. A., Bech, P., Engelhardt, N., Evans, K., Lipsitz, J., et al.
(2008). The GRID-HAMD: standardization of the Hamilton Depression Rating
Scale. International Clinical of Psychopharmacology, 23, 120-129.
Yanez, Y. T., Fremouw, W., Tennant, J., Strunk, J., y Coker, K. (2006). Effects of severe
depression on TOMM performance among disability-seeking outpatients.
Archives of Clinical Neuropsychology, 21, 161-165.
Zitman, F. G., Mennen, M. F. G., Griez, E., y Hooijer, C. (1990). The different versions
of the Hamilton Depression Rating Scale. En P. Bech y A. Coppen (Eds.), The
Hamilton Scales (Psychopharmacology Series 9) (pp. 28-34). Heidelberg,
Berlin: Springer-Verlag.