IBM SPSS Regression
IBM SPSS Regression
IBM SPSS Regression
Esta edición se aplica a IBM® SPSS® Statistics 21 y a todas las versiones y modificaciones
posteriores hasta que se indique lo contrario en nuevas ediciones.
Capturas de pantalla de productos de Adobe reimpresas con permiso de Adobe Systems
Incorporated.
Capturas de pantalla de productos de Microsoft reimpresas con permiso de Microsoft Corporation.
Derechos restringidos para los usuarios del gobierno de Estados Unidos: Uso, duplicación o
revelación restringidos por GSA ADP Schedule Contract con IBM Corp.
Prefacio
IBM® SPSS® Statistics es un sistema global para el análisis de datos. El módulo adicional
opcional Regresión proporciona las técnicas de análisis adicionales que se describen en este
manual. El módulo adicional Regresión se debe utilizar con el sistema básico de SPSS Statistics y
está completamente integrado en dicho sistema.
Como parte de estos documentos, IBM SPSS Predictive Analytics ayuda a las organizaciones a
predecir situaciones futuras y a actuar de forma proactiva con esa información para mejorar sus
resultados. Clientes comerciales, gubernamentales y académicos de todo el mundo confían en la
tecnología IBM SPSS como mejora competitiva para atraer, conservar y aumentar la clientela
reduciendo el fraude y los riesgos. Al incorporar IBM SPSS a sus operaciones diarias, las
organizaciones se convierten en empresas predictivas – capaces de dirigir y automatizar decisiones
para conseguir los objetivos de la empresa y lograr una mejora competitiva y ostensible. Para
obtener más información o contactar con un representante, visite http://www.ibm.com/spss.
Asistencia técnica
El servicio de asistencia técnica está a disposición de todos los clientes de mantenimiento. Los
clientes podrán ponerse en contacto con este servicio de asistencia técnica si desean recibir ayuda
sobre la utilización de los productos de IBM Corp. o sobre la instalación en alguno de los entornos
de hardware admitidos. Para contactar con el servicio de asistencia técnica, visite el sitio Web de
IBM Corp. en http://www.ibm.com/support. Tenga a mano su identificación, la de su organización
y su contrato de asistencia cuando solicite ayuda.
Si usted es un estudiante que utiliza una versión académica o para estudiantes de cualquier
producto de software IBM SPSS, consulte nuestras páginas especiales en línea de Soluciones
educativas (http://www.ibm.com/spss/rd/students/) para estudiantes. Si usted es estudiante y utiliza
una copia proporcionada por la universidad del software IBM SPSS, póngase en contacto con el
coordinador del producto IBM SPSS en su universidad.
© Copyright IBM Corporation 1989, 2012. iii
Servicio de atención al cliente
Si tiene preguntas referentes a su envío o cuenta, póngase en contacto con su oficina local.
Recuerde tener preparado su número de serie para identificarse.
Cursos de preparación
IBM Corp. ofrece cursos de preparación, tanto públicos como in situ. Todos los
cursos incluyen talleres prácticos. Los cursos tendrán lugar periódicamente en
las principales ciudades. Si desea más información sobre estos seminarios, visite
http://www.ibm.com/software/analytics/spss/training.
iv
Contenido
1 Selección de un procedimiento para la regresión logística
binaria 1
2 Regresión Logística 3
4 Análisis probit 22
5 Regresión no lineal 26
v
Regresión no lineal: Función de pérdida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
Regresión no lineal: Restricciones para los parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Regresión no lineal: Guardar variables nuevas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Regresión no lineal: Opciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Regresión no lineal: Interpretación de los resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Funciones adicionales del comando NLR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
6 Estimación ponderada 35
Apéndices
Desviación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
Helmert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
Diferencia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Polinómico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Repetido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Especial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Indicador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
B Avisos 46
Índice 49
vi
Capítulo
1
Selección de un procedimiento para
la regresión logística binaria
Los modelos de regresión logística binaria pueden ajustarse mediante el uso del procedimiento
de Regresión logística o del procedimiento de Regresión logística multinomial. Cada uno de
estos dos procedimientos contiene opciones que no están disponibles en el otro. Existe entre
ambos una distinción teórica importante: el procedimiento de Regresión logística genera todas las
predicciones, residuos, estadísticos de influencia y pruebas de bondad de ajuste utilizando los
datos a nivel de los casos individuales, independientemente de la forma en que los datos hayan
sido introducidos y de si el número de patrones en las covariables es o no menor que el número
total de casos; el procedimiento de Regresión logística multinomial, por su parte, agrega los casos
de manera interna para formar subpoblaciones con patrones en las covariables idénticos para las
variables predictoras, generando predicciones, residuos y pruebas de bondad de ajuste basadas en
las citadas subpoblaciones. Si todas las variables predictoras son categóricas, o si alguna variable
predictora continua toma sólo un número limitado de valores (de manera que haya varios casos
para cada patrón en las covariables), la aproximación mediante subpoblaciones puede generar
pruebas de bondad de ajuste válidas y residuos que sean informativos, mientras que el método a
nivel de los casos individuales no lo permite.
La opción Regresión logística ofrece una serie de funciones únicas que se detallan a continuación:
Prueba de bondad de ajuste del modelo de Hosmer-Lemeshow
Análisis por pasos
Contrastes para definir la parametrización del modelo
Puntos de corte alternativos para la clasificación
Gráficos de clasificación
Aplicación de un modelo ajustado mediante un conjunto de casos sobre otro conjunto de
casos reservados
Almacenamiento de pronósticos, residuos y estadísticos de influencia
La opción Regresión logística multinomial ofrece una serie de funciones únicas que se detallan
a continuación:
Pruebas chi-cuadrado de Pearson y de desviación sobre la bondad de ajuste del modelo
Especificación de subpoblaciones para el agrupamiento de los datos, para las pruebas de
bondad de ajuste
Listado de las frecuencias, frecuencias pronosticadas y residuos por subpoblaciones
Corrección de las estimaciones de la varianza por sobredispersión
Matriz de covarianzas para las estimaciones de los parámetros
Contrastes sobre combinaciones lineales de los parámetros
Capítulo 1
2
Regresión Logística
La regresión logística resulta útil para los casos en los que se desea predecir la presencia o ausencia
de una característica o resultado según los valores de un conjunto de predictores. Es similar a un
modelo de regresión lineal pero está adaptado para modelos en los que la variable dependiente es
dicotómica. Los coeficientes de regresión logística pueden utilizarse para estimar la razón de las
ventajas (odds ratio) de cada variable independiente del modelo. La regresión logística se puede
aplicar a un rango más amplio de situaciones de investigación que el análisis discriminante.
Ejemplo. ¿Qué características del estilo de vida son factores de riesgo de enfermedad
cardiovascular ? Dada una muestra de pacientes a los que se mide la situación de fumador, dieta,
ejercicio, consumo de alcohol, y estado de enfermedad cardiovascular, se puede construir un
modelo utilizando las cuatro variables de estilo de vida para predecir la presencia o ausencia
de enfermedad cardiovascular en una muestra de pacientes. El modelo puede utilizarse
posteriormente para derivar estimaciones de la razón de las ventajas para cada uno de los
factores y así indicarle, por ejemplo, cuánto más probable es que los fumadores desarrollen una
enfermedad cardiovascular frente a los no fumadores.
Estadísticos. Para cada análisis: Casos totales, Casos seleccionados, Casos válidos. Para cada
variable categórica: codificación de los parámetros. Para cada paso: variables introducidas o
eliminadas, historial de iteraciones, –2 log de la verosimilitud, bondad de ajuste, estadístico de
bondad de ajuste de Hosmer-Lemeshow, chi-cuadrado del modelo ¡, chi-cuadrado de la mejora,
tabla de clasificación, correlaciones entre las variables, gráfico de las probabilidades pronosticadas
y los grupos observados, chi-cuadrado residual. Para cada variable de la ecuación: coeficiente
(B), error típico de B, Estadístico de Wald, razón de las ventajas estimada (exp(B)), intervalo de
confianza para exp(B), log de la verosimilitud si el término se ha eliminado del modelo. Para cada
variable que no esté en la ecuación: estadístico de puntuación. Para cada caso: grupo observado,
probabilidad pronosticada, grupo pronosticado, residuo, residuo tipificado.
Métodos. Puede estimar modelos utilizando la entrada en bloque de las variables o cualquiera
de los siguientes métodos por pasos: Condicional hacia adelante, LR hacia adelante, Wald hacia
adelante, Condicional hacia atrás, LR hacia atrás o Wald hacia atrás.
Datos. La variable dependiente debe ser dicotómica. Las variables independientes pueden
estar a nivel de intervalo o ser categóricas; si son categóricas, deben ser variables dummy o
estar codificadas como indicadores (existe una opción en el procedimiento para recodificar
automáticamente las variables categóricas).
Supuestos. La regresión logística no se basa en supuestos distribucionales en el mismo sentido
en que lo hace el análisis discriminante. Sin embargo, la solución puede ser más estable si los
predictores tienen una distribución normal multivariante. Adicionalmente, al igual que con otras
formas de regresión, la multicolinealidad entre los predictores puede llevar a estimaciones sesgadas
y a errores típicos inflados. El procedimiento es más eficaz cuando la pertenencia a grupos es una
variable categórica auténtica; si la pertenencia al grupo se basa en valores de una variable continua
(por ejemplo “CI alto ” en contraposición a “CI bajo”), deberá considerar el utilizar la regresión
lineal para aprovechar la información mucho más rica ofrecida por la propia variable continua.
© Copyright IBM Corporation 1989, 2012. 3
4
Capítulo 2
Figura 2-1
Cuadro de diálogo Regresión logística
E Seleccione una variable dependiente dicotómica. Esta variable puede ser numérica o de cadena.
E Seleccione una o varias covariables. Para incluir términos de interacción, seleccione todas las
variables contenidas en la interacción y seleccione >a*b>.
Para introducir variables por grupos (en bloques), seleccione las covariables para un bloque
y pulse en Siguiente para especificar un nuevo bloque. Repita estos pasos hasta que haya
especificado todos los bloques.
Si lo desea, puede seleccionar casos para el análisis. Elija una variable de selección y pulse Regla.
5
Regresión Logística
Los casos definidos por la regla de selección se incluyen en la estimación del modelo. Por
ejemplo, si ha seleccionado una variable y la opción igual que y ha especificado 5 como valor,
sólo se incluirán en el análisis aquellos casos para los cuales la variable seleccionada tenga un
valor igual a 5.
Tanto para los casos seleccionados como para los no seleccionados se generan resultados de
clasificaciones y estadísticos. De esta manera, se ofrece un mecanismo para clasificar los nuevos
casos basándose en datos ya existentes; o también para realizar la partición de los datos en dos
subconjuntos, uno de entrenamiento y otro de prueba, que permiten la validación del modelo
generado.
Capítulo 2
Eliminación hacia atrás (Razón de verosimilitud). Selección hacia atrás por pasos. El contraste
para la eliminación se fundamenta en la probabilidad del estadístico de la razón de
verosimilitud, el cual se fundamenta en estimaciones de máxima verosimilitud parcial.
Eliminación hacia atrás (Wald). Selección hacia atrás por pasos. El contraste para la eliminación
se basa en la probabilidad del estadístico de Wald.
Los valores de significación de los resultados se basan en el ajuste de un único modelo. Por ello,
estos valores no suele ser válidos cuando se emplea un método por pasos.
Todas las variables independientes seleccionadas se añaden a un mismo modelo de regresión.
Sin embargo, puede especificar distintos métodos de introducción para diferentes subconjuntos de
variables. Por ejemplo, puede introducir en el modelo de regresión un bloque de variables que
utilice la selección por pasos sucesivos, y un segundo bloque que emplee la selección hacia
adelante. Para añadir un segundo bloque de variables al modelo de regresión, pulse en Siguiente.
Puede especificar los detalles sobre cómo el procedimiento Regresión logística manipulará las
variables categóricas:
Covariables. Contiene una lista de todas las covariables especificadas en el cuadro de diálogo
principal para cualquier capa, bien por ellas mismas o como parte de una interacción. Si alguna
de éstas son variables de cadena o son categóricas, sólo puede utilizarlas como covariables
categóricas.
Covariables categóricas. Lista las variables identificadas como categóricas. Cada variable incluye
una notación entre paréntesis indicando el esquema de codificación de contraste que va a
utilizarse. Las variables de cadena (señaladas con el símbolo < a continuación del nombre) estarán
presentes ya en la lista Covariables categóricas. Seleccione cualquier otra covariable categórica de
la lista Covariables y muévala a la lista Covariables categóricas.
7
Regresión Logística
Capítulo 2
Puede guardar los resultados de la regresión logística como nuevas variables en el conjunto
de datos activo:
Valores pronosticados. Guarda los valores pronosticados por el modelo. Las opciones disponibles
son Probabilidades y Grupo de pertenencia.
Probabilidades. Para cada caso, guarda la probabilidad pronosticada de aparición del evento.
En los resultados, una tabla muestra el nombre y el contenido de cualquier variable nueva.
El “evento” es la categoría de la variable dependiente con el valor más alto; por ejemplo,
si la variable dependiente toma los valores 0 y 1, se guarda la probabilidad pronosticada
de categoría 1.
Grupo de pertenencia pronosticado. Grupo con la mayor probabilidad posterior, basado en
puntuaciones discriminantes. El grupo pronosticado por el modelo al cual pertenece el caso.
Influencia. Guarda los valores de estadísticos que miden la influencia de los casos sobre los
valores pronosticados. Las opciones disponibles son De Cook, Valores de influencia y DfBeta(s).
De Cook. El análogo, en la regresión logística, al estadístico de influencia de Cook. Una
medida de cuánto cambiarían los residuos de todos los casos si un caso particular se excluyera
del cálculo de los coeficientes de regresión.
Valor de influencia. La influencia relativa de una observación en el ajuste del modelo.
DfBeta(s). La diferencia en el valor de beta es el cambio en el valor de un coeficiente de
regresión que resulta de la exclusión de un caso particular. Se calcula un valor para cada
término del modelo, incluyendo la constante.
Residuos. Guarda los residuos. Las opciones disponibles son No tipificados, Logit, Método de
Student, Tipificados y Desviación.
Residuos no tipificados. Diferencia entre un valor observado y el valor pronosticado por el
modelo.
Residuo logit. El residuo del caso si se pronostica en la escala logit. El residuo logit es el
residuo dividido por la probabilidad pronosticada multiplicada por 1 menos la probabilidad
pronosticada.
Residuo estudentizado. El cambio en la desvianza del modelo si se excluye el caso.
Residuos tipificados. El residuo dividido por una estimación de su error típico. Los
residuos tipificados, que son conocidos también como los residuos de Pearson o residuos
estandarizados, tienen una media de 0 y una desviación típica de 1.
Desvianza. Los residuos basados en la desviación del modelo.
Exportar información del modelo a un archivo XML. Las estimaciones de los parámetros y (si lo
desea) sus covarianzas se exportan al archivo especificado en formato XML (PMML). Puede
utilizar este archivo de modelo para aplicar la información del modelo a otros archivos de datos
para puntuarlo.
9
Regresión Logística
Estadísticos y gráficos. Le permite solicitar estadísticos y gráficos. Las opciones disponibles son
Gráficos de clasificación, Bondad de ajuste de Hosmer-Lemeshow, Listado de residuos por caso,
Correlaciones de estimaciones, Historial de iteraciones e IC para exp(B). Seleccione una de las
alternativas del grupo Mostrar para mostrar los estadísticos y los gráficos En cada paso o bien
sólo para el modelo final, En el último paso.
Bondad de ajuste de Hosmer-Lemeshow. Este estadístico de bondad de ajuste es más robusto
que el estadístico de bondad de ajuste tradicionalmente utilizado en la regresión logística,
especialmente para los modelos con covariables continuas y los estudios con tamaños
de muestra pequeños. Se basa en agrupar los casos en deciles de riesgo y comparar la
probabilidad observada con la probabilidad esperada dentro de cada decil.
Probabilidad para el método por pasos. Le permite controlar los criterios por los cuales las variables
se introducen y se eliminan de la ecuación. Puede especificar criterios para la Entrada o para la
Salida de variables.
Probabilidad para el método por pasos. Una variable se introduce en el modelo si la
probabilidad de su estadístico de puntuación es menor que el valor de Entrada, y se elimina si
la probabilidad es mayor que el valor de Salida. Para anular los valores por defecto, introduzca
valores positivos en los cuadros Entrada y Salida. Entrada debe ser menor que Salida.
Punto de corte para la clasificación. Le permite determinar el punto de corte para la clasificación
de los casos. Los casos con valores pronosticados que han sobrepasado el punto de corte para
la clasificación se clasifican como positivos, mientras que aquéllos con valores pronosticados
menores que el punto de corte se clasifican como negativos. Para cambiar los valores por defecto,
introduzca un valor comprendido entre 0,01 y 0,99.
10
Capítulo 2
Nº máximo de iteraciones. Le permite cambiar el número máximo de veces que el modelo itera
antes de finalizar.
Incluir constante en el modelo. Le permite indicar si el modelo debe incluir un término constante.
Si se desactiva, el término constante será igual a 0.
3
Regresión logística multinomial
La opción Regresión logística multinomial resulta útil en aquellas situaciones en las que desee
poder clasificar a los sujetos según los valores de un conjunto de variables predictoras. Este tipo
de regresión es similar a la regresión logística, pero más general, ya que la variable dependiente
no está restringida a dos categorías.
Ejemplo. Para conseguir una producción y distribución de películas más eficaz, los estudios de
cine necesitan predecir qué tipo de películas es más probable que vayan a ver los aficionados.
Mediante una regresión logística multinomial, el estudio puede determinar la influencia que
la edad, el sexo y las relaciones de pareja de cada persona tiene sobre el tipo de película que
prefieren. De esta manera, el estudio puede orientar la campaña publicitaria de una película
concreta al grupo de la población que tenga más probabilidades de ir a verla.
Estadísticos. Historial de iteraciones, coeficientes de los parámetros, covarianza asintótica y
matrices de correlación, pruebas de la razón de verosimilitud para los efectos del modelo y los
parciales, –2 log de la verosimilitud. Chi-cuadrado de la bondad de ajuste de Pearson y de la
desviación. R2 de Cox y Snell, de Nagelkerke y de McFadden. Clasificación: frecuencias
observadas respecto a las frecuencias pronosticadas, por cada categoría de respuesta. Tablas de
contingencia: frecuencias observadas y pronosticadas (con los residuos) y proporciones por patrón
en las covariables y por categoría de respuesta.
Métodos. Se ajusta un modelo logit multinomial para el modelo factorial completo o para un
modelo especificado por el usuario. La estimación de los parámetros se realiza a través de un
algoritmo iterativo de máxima verosimilitud.
Datos. La variable dependiente debe ser categórica. Las variables independientes pueden ser
factores o covariables. En general, los factores deben ser variables categóricas y las covariables
deben ser variables continuas.
Supuestos. Se asume que la razón de ventajas de cualquier par de categorías es independiente de
las demás categorías de respuesta. Según esta suposición, por ejemplo, si se introduce un nuevo
producto en un mercado, las cuotas de mercado de todos los demás productos se verán afectadas
de manera igualmente proporcional. De igual manera, dado un patrón en las covariables, se asume
que las respuestas son variables multinomiales independientes.
Capítulo 3
Figura 3-1
Cuadro de diálogo Regresión logística multinomial
Por defecto, el procedimiento de Regresión logística multinomial genera un modelo con los
principales efectos que producen las covariables y los factores, pero puede especificar un modelo
personalizado o solicitar la selección de un modelo por pasos con este cuadro de diálogo.
Especificar modelo. Un modelo de efectos principales contiene los efectos principales de las
covariables y los factores, pero no contiene efectos de interacción. Un modelo factorial completo
contiene todos los efectos principales y todas las interacciones factor por factor. No contiene
interacciones de covariable. Puede crear un modelo personalizado para especificar subconjuntos
de interacciones entre los factores o bien interacciones entre las covariables, o solicitar una
selección por pasos de los términos del modelo.
Factores y covariables. Muestra una lista de los factores y las covariables.
Términos de entrada forzada. Los términos añadidos a la lista de entrada forzada siempre se
incluyen en el modelo.
14
Capítulo 3
Términos por pasos. Los términos añadidos a la lista por pasos se incluyen en el modelo según uno
de los métodos por pasos seleccionados por el usuario siguientes:
Entrada hacia delante. Este método se inicia sin términos por pasos en el modelo. En cada
paso se añade al modelo el término más significativo, hasta que ninguno de los términos por
pasos que quede fuera del modelo tenga una contribución estadísticamente significativa si
se añade al modelo.
Eliminación hacia atrás. Este método se inicia introduciendo en el modelo todos los términos
especificados en la lista por pasos. En cada paso se elimina del modelo el término menos
significativo, hasta que todos los términos por pasos restantes representen una contribución
estadísticamente significativa para el modelo.
Pasos sucesivos hacia adelante. Este método se inicia con el modelo que se seleccionaría
mediante el método de entrada hacia delante. A partir de ahí, el algoritmo alterna entre la
eliminación hacia atrás de los términos por pasos del modelo, y la entrada hacia delante de los
términos fuera del modelo. Se sigue así hasta que no queden términos que cumplan con los
criterios de entrada o exclusión.
Pasos sucesivos hacia atrás. Este método se inicia con el modelo que se seleccionaría
mediante el método de eliminación hacia atrás. A partir de ahí, el algoritmo alterna entre la
entrada hacia delante de los términos fuera del modelo, y la eliminación hacia atrás de los
términos por pasos del modelo. Se sigue así hasta que no queden términos que cumplan con
los criterios de entrada o exclusión.
Incluir la intersección en el modelo. Le permite incluir o excluir del modelo un término de
intersección.
Construir términos
Para las covariables y los factores seleccionados:
Interacción. Crea el término de interacción de mayor nivel con todas las variables seleccionadas.
Efectos principales. Crea un término de efectos principales para cada variable seleccionada.
Todas de 2. Crea todas las interacciones dobles posibles de las variables seleccionadas.
Todas de 3. Crea todas las interacciones triples posibles de las variables seleccionadas.
Todas de 4. Crea todas las interacciones cuádruples posibles de las variables seleccionadas.
Todas de 5. Crea todas las interacciones quíntuples posibles de las variables seleccionadas.
15
Capítulo 3
Puede especificar los siguientes estadísticos para una regresión logística multinomial:
Resumen de procesamiento de casos. Esta tabla contiene información sobre las variables
categóricas especificadas.
Modelo. Estadísticos del modelo global.
Pseudo R cuadrado. Imprime el estadístico de Cox y Snell, de Nagelkerke y el R2 McFadden.
Resumen de pasos. Esta tabla resume los efectos introducidos o eliminados en cada paso,
mediante un método por pasos. No se genera si no se especifica un modelo por pasos en el
cuadro de diálogo Modelo.
Información de ajuste de los modelos. Esta tabla compara los modelos ajustado y de sólo
intersección o nulo.
17
Criterios de información. Esta tabla imprime tanto el criterio de información de Akaike (AIC)
como el criterio de información bayesiano (BIC).
Probabilidades de casilla. Imprime una tabla de las frecuencias observadas y esperadas (con
los residuos) y las proporciones por patrón en las covariables y por categoría de respuesta.
Tabla de clasificación. Imprime una tabla de las respuestas observadas respecto a las respuestas
pronosticadas.
Estadísticos de bondad de ajuste de chi-cuadrado. Imprime los estadísticos de chi-cuadrado de
Pearson y de chi-cuadrado de la razón de verosimilitud. Los estadísticos se calculan para los
patrones en las covariables determinados por todos los factores y las covariables o por un
subconjunto de los factores y las covariables definido por el usuario.
Medidas de monoticidad. Muestra una tabla con información sobre el número de pares
concordantes, pares discordantes y empates. La D de Somers, la gamma de Goodman y
Kruskal, la tau-a de Kendall y el índice de concordancia C también se muestran en esta tabla.
Parámetros. Estadísticos relativos a los parámetros del modelo.
Estimaciones. Imprime las estimaciones de los parámetros del modelo con un nivel de
confianza especificado por el usuario.
Contraste de la razón de verosimilitud. Imprime los contrastes de la razón de verosimilitud
para los efectos parciales del modelo. El contraste para el modelo global se imprime de
manera automática.
Correlaciones asintóticas. Imprime la matriz de las correlaciones entre las estimaciones de
los parámetros.
Covarianzas asintóticas. Imprime la matriz de las covarianzas de las estimaciones de los
parámetros.
Capítulo 3
Puede especificar los siguientes criterios para una regresión logística multinomial:
Iteraciones. Le permite especificar el número máximo de veces que desea recorrer el algoritmo, el
número máximo de pasos en la subdivisión por pasos, las tolerancias de convergencia para los
cambios en el log de la verosimilitud y los parámetros, la frecuencia con que se imprime el
progreso del algoritmo iterativo y en qué iteración el procedimiento debe comenzar a comprobar
la separación completa o casi completa de los datos.
Convergencia del logaritmo de la verosimilitud. Se asume la convergencia si el cambio absoluto
en la función log-verosimilitud es menor que el valor especificado. Este criterio no se aplica
si el valor es igual a 0. Especifique un valor no negativo.
Convergencia de los parámetros. Se asume la convergencia si el cambio absoluto en las
estimaciones de los parámetros es menor que este valor. Este criterio no se aplica si el valor es
igual a 0.
Delta. Le permite especificar un valor no negativo inferior a 1. Este valor se añade a cada casilla
vacía de la tabla de contingencia de las categorías de respuesta por patrones de covariables. Se
ayuda así a estabilizar el algoritmo y evitar sesgos en las estimaciones.
Tolerancia para la singularidad. Le permite especificar la tolerancia empleada en la comprobación
de la singularidad.
19
Puede especificar las siguientes opciones para una regresión logística multinomial:
Escala de dispersión. Le permite especificar el valor de escalamiento de la dispersión que se va
a utilizar para corregir la estimación de la matriz de covarianzas de los parámetros. Desviación
estima el valor de escalamiento mediante el estadístico de la función de desviación (chi-cuadrado
de la razón de verosimilitud. Pearson estima el valor de escalamiento mediante el estadístico
chi-cuadrado de Pearson. También puede especificar su propio valor de escalamiento. Debe ser
un valor numérico positivo.
Opciones por pasos. Estas opciones le ofrecen el control de los criterios estadísticos cuando se
utilizan métodos por pasos para generar un modelo.Se ignoran salvo que se especifique un modelo
por pasos en el cuadro de diálogo Modelo.
Probabilidad de entrada. Se trata de la probabilidad del estadístico de la razón de verosimilitud
para la entrada de variables. Cuanto mayor sea la probabilidad especificada, más fácil
resultará que una variable entre en el modelo. Este criterio se ignora a menos que se
seleccione uno de los métodos siguientes: hacia delante, pasos sucesivos hacia adelante o
pasos sucesivos hacia atrás.
Prueba de entrada. Éste es el método para introducir los términos en los métodos por pasos.
Escoja entre la prueba de la razón de verosimilitud y la prueba de puntuación. Este criterio
se ignora a menos que se seleccione uno de los métodos siguientes: hacia delante, pasos
sucesivos hacia adelante o pasos sucesivos hacia atrás.
20
Capítulo 3
El cuadro de diálogo Guardar permite guardar las variables en el archivo de trabajo, así como
exportar la información de modelo a un archivo externo.
Variables guardadas.
21
Exportar información del modelo a un archivo XML. Las estimaciones de los parámetros y (si lo
desea) sus covarianzas se exportan al archivo especificado en formato XML (PMML). Puede
utilizar este archivo de modelo para aplicar la información del modelo a otros archivos de datos
para puntuarlo.
4
Análisis probit
Este procedimiento mide la relación entre la intensidad de un estímulo y la proporción de casos
que presentan una cierta respuesta a dicho estímulo. Es útil para las situaciones en las que se
dispone de una respuesta dicotómica que se piensa puede estar influenciada o causada por los
niveles de alguna o algunas variables independientes, y es particularmente adecuada para datos
experimentales. Este procedimiento le permitirá estimar la intensidad necesaria para que un
estímulo llegue a inducir una determinada proporción de respuestas, como la dosis efectiva para la
mediana.
Ejemplo. ¿Qué efectividad tiene un nuevo pesticida para matar hormigas y cuál es la concentración
adecuada que se debe utilizar? Podría llevar a cabo un experimento en el que se expongan
muestras de hormigas a diferentes concentraciones del pesticida y después registrar el número de
hormigas muertas y el número de hormigas expuestas. Aplicando el análisis probit a estos datos
puede determinar la fuerza de la relación entre concentración y mortalidad, así como determinar la
concentración adecuada de pesticida si desea asegurar la exterminación de, por ejemplo, el 95%
de las hormigas expuestas.
Estadísticos. Coeficientes de regresión y errores típicos, intersección y su error típico,
chi-cuadrado de Pearson de la bondad de ajuste, frecuencias observadas y esperadas e intervalos
de confianza para los niveles efectivos de la variable o variables independientes. Gráficos:
gráficos de respuestas transformadas.
Este procedimiento utiliza los algoritmos propuestos y aplicados en NPSOL® por Gill, Murray,
Saunders y Wright para la estimación de los parámetros de modelo.
Datos. Para cada valor de la variable independiente (o para cada combinación de valores para
múltiples variables independientes), la variable de respuesta debe contener el recuento del
número de casos que presenta la respuesta de interés y que toma dichos valores de la variable
independiente, y la variable del total observado debe ser el recuento del número total de casos
con dichos valores para la variable independiente. La variable de factor debe ser categórica,
codificada como enteros.
Supuestos. Las observaciones deben ser independientes. Si dispone de un gran número de valores
diferentes para las variables independientes respecto al número de observaciones, como es
probable que suceda en un estudio observacional, puede que no sean válidos los estadísticos de
chi-cuadrado y de bondad de ajuste.
Procedimientos relacionados. El análisis probit está estrechamente relacionado con la regresión
logística; de hecho, si elige la transformación logit, este procedimiento calculará esencialmente
una regresión logística. En general, el análisis probit es apropiado para los diseños experimentales,
mientras que la regresión logística es más adecuada para los estudios observacionales. Las
diferencias en los resultados reflejan estas diferencias de énfasis. El procedimiento Análisis
probit informa de las estimaciones de los valores efectivos para las diferentes tasas de respuesta
(incluyendo la dosis efectiva para la mediana), mientras que la Regresión logística informa de las
estimaciones de las razones de las ventajas (odds ratios) para las variables independientes.
© Copyright IBM Corporation 1989, 2012. 22
23
Análisis probit
Figura 4-1
Cuadro de diálogo Análisis probit
E Seleccione una variable para la frecuencia de respuesta. Esta variable indica el número de casos
que presentan una respuesta al estímulo de prueba. Los valores de esta variable no pueden ser
negativos.
E Seleccione una variable para el total observado. Esta variable indica el número de casos a los que
se aplicó el estímulo. Para cada caso, los valores de esta variable no pueden ser negativos ni
menores que los valores de la variable de frecuencia de respuesta.
Si se desea, puede seleccionarse una variable de factor. Si lo hace, pulse en Definir rango para
definir los grupos.
E Seleccione una o varias covariables. La covariable contiene el nivel del estímulo aplicado en
cada observación. Si desea transformar la covariable, seleccione una transformación de la lista
desplegable Transformar. Si no se aplica ninguna transformación y hay un grupo de control,
éste se incluirá en el análisis.
Capítulo 4
Permite especificar los niveles de la variable de factor que serán analizados. Los niveles de
factor deben codificarse como enteros consecutivos; se analizarán todos los niveles del rango
que especifique.
Análisis probit
Prueba de paralelismo. Contraste sobre la hipótesis de que todos los niveles del factor tienen
una pendiente común.
Intervalos de confianza fiduciaria. Intervalos de confianza para la dosis del agente requerida
para producir una cierta probabilidad de respuesta.
Intervalos de confianza fiduciaria y Potencia relativa de la mediana no están disponibles si se ha
seleccionado más de una covariable. Potencia relativa de la mediana y Prueba de paralelismo sólo
están disponibles si se ha seleccionado una variable de factor.
Tasa de respuesta natural. Permite indicar una tasa de respuesta natural incluso en la ausencia del
estímulo. Ninguna, Calcular a partir de los datos o Valor.
Calcular a partir de los datos. Estima la tasa de respuesta natural a partir de los datos de la
muestra. Los datos deben contener un caso que represente el nivel de control, para el cual el
valor de las covariables sea 0. Probit estima la tasa de respuesta natural utilizando como valor
inicial la proporción de respuestas para el nivel de control.
Valor. Establece la tasa de respuesta natural del modelo (seleccione este elemento cuando
conozca de antemano la tasa de respuesta natural). Introduzca la proporción de respuesta
natural (la proporción debe ser menor que 1). Por ejemplo, si la respuesta ocurre el 10% de
las veces cuando el estímulo es 0, introduzca 0,10.
Criterios. Permite controlar los parámetros del algoritmo iterativo de estimación de los parámetros.
Puede anular las opciones por defecto para Nº máximo de iteraciones, Límite para los pasos y
Tolerancia de la optimalidad.
5
Regresión no lineal
Regresión no lineal es un método para encontrar un modelo no lineal para la relación entre la
variable dependiente y un conjunto de variables independientes. A diferencia de la regresión lineal
tradicional, que está restringida a la estimación de modelos lineales, la regresión no lineal puede
estimar modelos con relaciones arbitrarias entre las variables independientes y las dependientes.
Esto se lleva a cabo usando algoritmos de estimación iterativos. Tenga en cuenta que este
procedimiento no es necesario para los modelos polinómicos simples de la forma Y = A + BX**2.
Definiendo W = X**2, obtenemos un modelo lineal simple, Y = A + BW, que se puede estimar
usando métodos tradicionales como el procedimiento Regresión lineal.
Ejemplo. ¿Puede pronosticarse la población basándose en el tiempo Un diagrama de dispersión
muestra que parece haber una estrecha relación entre la población y el tiempo, pero la relación es
no lineal y por eso exige la utilización de los métodos de estimación especiales del procedimiento
Regresión no lineal. Creando una ecuación adecuada, como la del modelo logístico de crecimiento
poblacional, podemos obtener una buena estimación del modelo, lo que nos permitirá hacer
predicciones sobre la población para épocas que no se han sido medidas.
Estadísticos. Para cada iteración: estimaciones de los parámetros y suma de cuadrados residual.
Para cada modelo: suma de cuadrados para regresión, residual, total corregido y no corregido,
estimaciones de los parámetros, errores típicos asintóticos y matriz de correlaciones asintóticas
de estimaciones de los parámetros.
Nota: La regresión no lineal restringida utiliza los algoritmos propuestos y aplicados en NPSOL®
por Gill, Murray, Saunders y Wright para la estimación de los parámetros de modelo.
Datos.Las variables dependiente e independientes deben ser cuantitativas. Las variables
categóricas, como la religión, la mayoría de edad o el lugar de residencia, han de recodificarse
como variables binarias (dummy) o como otro de los tipos de variables de contraste.
Supuestos. Los resultados son válidos sólo si se ha especificado una función que describa con
precisión la relación entre las variables independientes y las dependientes. Además, la elección
de buenos valores iniciales es muy importante. Incluso si se ha especificado la forma funcional
correcta para el modelo, si no utiliza valores iniciales adecuados, puede que su modelo no logre
converger o puede que obtenga una solución que sea óptima localmente en vez de una que sea
óptima globalmente.
Procedimientos relacionados. Muchos modelos que en un principio parecen ser no lineales pueden
ser transformados en un modelo lineal, el cual pueda ser analizado usando el procedimiento
Regresión lineal. Si no está seguro de cuál es el modelo adecuado, el procedimiento Estimación
curvilínea puede ayudarle a identificar relaciones funcionales útiles que estén presentes en los
datos.
Regresión no lineal
Figura 5-1
Cuadro de diálogo Regresión no lineal
E Seleccione una variable numérica dependiente de la lista de variables del conjunto de datos activo.
E Para construir una expresión para el modelo, introduzca la expresión en el campo Expresión del
modelo o bien pegue en el campo los componentes (variables, parámetros, funciones).
E Identifique los parámetros del modelo pulsando en Parámetros.
Un modelo segmentado (uno que adquiere diferentes formas en distintas partes de su dominio) se
debe especificar usando la lógica condicional dentro de la declaración única del modelo.
Capítulo 5
Todas las expresiones lógicas entre paréntesis deben ser evaluables como 1 (verdadero) o
0 (falso). Así:
Si X<=0, la anterior se reduce a 1*0 + 0*X + 0*1 = 0.
Si 0<X<1, se reduce a 0*0 + 1*X + 0*1 = X.
Si X>=1, se reduce a 0*0 + 0*X + 1*1 = 1.
Se pueden construir con facilidad ejemplos más complicados reemplazando diferentes expresiones
lógicas y expresiones de resultado. Recuerde que las desigualdades dobles, como 0<X<1, deben
escribirse como expresiones compuestas, de la forma (X>0 & X < 1).
Se pueden utilizar variables de cadena dentro de las expresiones lógicas:
(ciudad=‘Madrid’)*costliv + (ciudad=‘Guadalajara’)*0.59*costliv
Esto da lugar a una expresión (el valor de la variable costliv) para los madrileños y a otra (el
59% de ese valor) para los habitantes de Guadalajara. Las constantes de cadena deben ir entre
comillas o apóstrofos, como se muestra aquí.
Los parámetros son las partes del modelo que son estimadas por el procedimiento Regresión no
lineal. Los parámetros pueden ser constantes aditivas, coeficientes multiplicativos, exponentes o
valores usados para evaluar funciones. Todos los parámetros que hayan sido definidos aparecerán
(con sus valores de inicio) en la lista Parámetros del cuadro de diálogo principal.
Nombre. Debe especificarse un nombre para cada parámetro. Debe ser un nombre de variable
válido y debe ser el nombre utilizado en la expresión del modelo del cuadro de diálogo principal.
Valor inicial. Permite especificar un valor de inicio para el parámetro, preferiblemente lo más
próximo posible a la solución final esperada. Los valores iniciales no adecuados pueden dar
como resultado un fallo de convergencia o una convergencia sobre una solución local (en vez
de global) o físicamente imposible.
29
Regresión no lineal
Usar los valores iniciales del análisis previo. Si ya se ha ejecutado una regresión no lineal desde
este cuadro de diálogo, puede seleccionar esta opción para obtener los valores iniciales de los
parámetros a partir de sus valores en la ejecución previa. De esta forma podrá continuar buscando
cuando el algoritmo está convergiendo lentamente. Los primeros valores iniciales seguirán
apareciendo en la lista Parámetros del cuadro de diálogo principal.
Nota: Esta selección persistirá en este cuadro de diálogo durante el resto de la sesión. Si cambia el
modelo, asegúrese de desactivarla.
Capítulo 5
Regresión no lineal
Una restricción es una limitación sobre los valores permitidos para un parámetro durante la
búsqueda iterativa de una solución. Las expresiones lineales se evalúan antes de realizar un paso,
de modo que se puedan utilizar restricciones lineales para omitir los pasos que pueden provocar
desbordamientos. Las expresiones no lineales se evalúan después de realizar el paso.
Cada ecuación o desigualdad requiere los siguientes elementos:
Una expresión que incluya al menos un parámetro del modelo. Escriba la expresión o bien
utilice el teclado, que le permita pegar números, operadores o paréntesis en la expresión.
Puede escribir el parámetro o parámetros requeridos junto con el resto de la expresión o
bien pegarlos de la lista de Parámetros situada a la izquierda. No se pueden usar variables
ordinarias en una restricción.
Uno de los tres operadores lógicos <=, =, o bien >=.
Una constante numérica, con la que se compara la expresión utilizando el operador lógico.
Escriba la constante. Las constantes numéricas deben escribirse en formato americano, con el
punto como separador de la parte decimal.
32
Capítulo 5
Puede guardar una serie de variables nuevas en el archivo de datos activo. Las opciones
disponibles son: Residuos, Valores pronosticados, Derivadas y Valores de la función de pérdida.
Estas variables se pueden utilizar en análisis subsiguientes para contrastar el ajuste del modelo o
para identificar casos problemáticos.
Residuos. Guarda los residuos con el nombre de variable resid.
Valores pronosticados. Guarda los valores pronosticados, con el nombre de variable pred_.
Derivadas. Se guarda una derivada para cada parámetro del modelo. Los nombres de las
derivadas se construyen añadiendo como prefijo una "d." a los primeros seis caracteres de los
nombres de los parámetros.
Valores de la función de pérdida. Esta opción está disponible si especifica su propia función de
pérdida. El nombre de variable loss_ está asignada a los valores de la función de pérdida.
Regresión no lineal
Este cuadro de diálogo permite controlar diversos aspectos del análisis de regresión no lineal:
Estimaciones autodocimantes. Método para la estimación del error típico de un estadístico que usa
muestras repetidas del conjunto original de datos. Se realiza mediante muestreo con repetición
para obtener numerosas muestras del mismo tamaño que el conjunto de datos original. La
ecuación no lineal se estima para cada una de estas muestras. A continuación, se calcula el error
típico de cada estimación del parámetro como la desviación típica de las estimaciones creadas
por el método autodocimante. Se utilizan los valores de los parámetros obtenidos a partir de los
datos originales como los valores de inicio para las estimaciones autodocimantes. Requiere el
algoritmo de programación cuadrática secuencial.
Método de estimación. Permite seleccionar un método de estimación, si esto es posible.
(Determinadas opciones de éste y otros cuadros de diálogo requieren el algoritmo de programación
cuadrática secuencial.) Entre las alternativas disponibles se encuentran Programación cuadrática
secuencial y Levenberg-Marquardt.
Programación cuadrática secuencial. Este método está disponible para los modelos restringidos
y los no restringidos. La programación cuadrática secuencial se utiliza automáticamente si
especifica un modelo restringido, una función de pérdida definida por el usuario o el muestreo
bootstrap. Puede introducir nuevos valores para Nº máximo de iteraciones y Límite para los
pasos, puede cambiar la selección en las listas desplegables de Tolerancia de la optimidad,
Precisión de la función y Tamaño para pasos infinitos.
Levenberg-Marquardt. Algoritmo por defecto para los modelos no restringidos. No puede
utilizar el método de Levenberg-Marquardt si especifica un modelo restringido, una función
de pérdida definida por el usuario, o el muestreo autodocimante. Se pueden introducir nuevos
valores para Nº máximo de iteraciones y cambiar las selecciones de las listas desplegables de
Convergencia de la suma de cuadrados y Convergencia en los parámetros.
Capítulo 5
6
Estimación ponderada
Los modelos de regresión lineal típicos asumen que la varianza es constante en la población objeto
de estudio. Cuando éste no es el caso (por ejemplo cuando los casos con puntuaciones mayores en
un atributo muestran más variabilidad que los casos con puntuaciones menores en ese atributo),
la regresión lineal mediante mínimos cuadrados ordinarios (MCO, OLS) deja de proporcionar
estimaciones óptimas para el modelo. Si las diferencias de variabilidad se pueden pronosticar a
partir de otra variable, el procedimiento Estimación ponderada permite calcular los coeficientes de
un modelo de regresión lineal mediante mínimos cuadrados ponderados (MCP, WLS), de forma
que se les dé mayor ponderación a las observaciones más precisas (es decir, aquéllas con menos
variabilidad) al determinar los coeficientes de regresión. El procedimiento Estimación ponderada
contrasta un rango de transformaciones de ponderación e indica cuál se ajustará mejor a los datos.
Ejemplo. ¿Cuáles son los efectos de la inflación y el paro sobre los cambios en el precio de las
acciones Debido a que los valores con mayor valor de cotización suelen mostrar más variabilidad
que aquellos con menor valor de cotización, la estimación de mínimos cuadrados ordinarios no
generará estimaciones que sean óptimas. El método de Estimación ponderada permite capturar el
efecto del precio de cotización sobre la variabilidad de los cambios en el precio, al calcular el
modelo lineal.
Estadísticos. Valores de la log-verosimilitud para cada potencia de la variable de ponderación
puesta a prueba,R múltiple, R-cuadrado, R cuadrado corregida, tabla de ANOVA para el modelo
MCP, estimaciones de los parámetros tipificados y no tipificados y log-verosimilitud para el
modelo MCP.
Datos.Las variables dependiente e independientes deben ser cuantitativas. Las variables
categóricas, como la religión, la mayoría de edad o el lugar de residencia, han de recodificarse
como variables binarias (dummy) o como otro de los tipos de variables de contraste. La variable
de ponderación deberá ser cuantitativa y estar relacionada con la variabilidad de la variable
dependiente.
Supuestos. Para cada valor de la variable independiente, la distribución de la variable dependiente
debe ser normal. La relación entre la variable dependiente y cada variable independiente debe ser
lineal y todas las observaciones deben ser independientes. La varianza de la variable dependiente
puede cambiar según los niveles de la variable o variables independientes, pero las diferencias se
deben poder pronosticar en función de la variable de ponderación.
Procedimientos relacionados. El procedimiento Explorar se puede utilizar para inspeccionar los
datos. Este procedimiento proporciona pruebas de normalidad y homogeneidad de la varianza, así
como representaciones gráficas. Si la variable dependiente parece tener la misma varianza para
todos los niveles de las variables independientes, puede utilizar el procedimiento Regresión lineal.
Si los datos parecen violar un supuesto (como puede ser la normalidad), intente transformarlos.
Si los datos no están relacionados linealmente y una transformación no ayuda, utilice un
modelo alternativo en el procedimiento Estimación curvilínea. Si la variable dependiente es
dicotómica, por ejemplo si se lleva o no a cabo una determinada venta o si un artículo es o no
defectuoso, utilice el procedimiento Regresión logística. Si la variable dependiente está censurada
© Copyright IBM Corporation 1989, 2012. 35
36
Capítulo 6
(por ejemplo, el tiempo de supervivencia después de una intervención quirúrgica), utilice los
procedimientos Tablas de mortalidad, Kaplan-Meier o Regresión de Cox, disponibles en la opción
Estadísticas avanzadas. Si los datos no son independientes (por ejemplo, si observa a la misma
persona en diversas condiciones), utilice el procedimiento Medidas repetidas, disponible en la
opción Estadísticas avanzadas.
Estimación ponderada
7
Regresión por mínimos cuadrados en
dos fases
Los modelos de regresión lineal típica asumen que los errores de la variable dependiente no
están correlacionados con la variable o variables independientes. Cuando éste no es el caso
(por ejemplo, cuando las relaciones entre las variables son bidireccionales), la regresión lineal
mediante mínimos cuadrados ordinarios (OLS) deja de proporcionar estimaciones óptimas del
modelo. La regresión por mínimos cuadrados en dos fases utiliza variables instrumentales que
no estén correlacionadas con los términos de error para calcular los valores estimados de los
predictores problemáticos (en la primera fase ) y después utiliza dichos valores calculados para
estimar un modelo de regresión lineal para la variable dependiente (la segunda fase). Dado que
los valores calculados se basan en variables que no están correlacionadas con los errores, los
resultados del modelo en dos fases son óptimos.
Ejemplo. ¿Está relacionada la demanda de un artículo con su precio y con los ingresos del
consumidor? La dificultad de este modelo radica en que el precio y la demanda tienen efectos
recíprocos el uno sobre el otro. Es decir, el precio puede influir en la demanda y la demanda
también puede influir en el precio. Un modelo de regresión por mínimos cuadrados en dos fases
permite utilizar los ingresos de los consumidores y el precio retardado para calcular un predictor
sustituto del precio, el cual no esté correlacionado con los errores de medida de la demanda.
Se reemplaza el precio en el modelo especificado originariamente por este sustituto y después
se estima el nuevo modelo.
Estadísticos. Para cada modelo: coeficientes de regresión tipificados y no tipificados, R múltiple,
Rcuadrado, Rcuadrado corregida, error típico de la estimación, tabla de análisis de varianza, valores
pronosticados y residuos. Además, los intervalos de confianza al 95% para cada coeficiente de
regresión y las matrices de correlación y covarianza para las estimaciones de los parámetros.
Datos.Las variables dependiente e independientes deben ser cuantitativas. Las variables
categóricas, como la religión, la mayoría de edad o el lugar de residencia, han de recodificarse
como variables binarias (dummy) o como otro de los tipos de variables de contraste. Las variables
explicativas endógenas deben ser cuantitativas (no categóricas).
Supuestos. Para cada valor de la variable independiente, la distribución de la variable dependiente
debe ser normal. La varianza de distribución de la variable dependiente debe ser constante para
todos los valores de la variable independiente. La relación entre la variable dependiente y cada
variable independiente debe ser lineal.
Procedimientos relacionados. Si piensa que ninguna de las variables predictoras está correlacionada
con los errores de la variable dependiente, puede utilizar el procedimiento Regresión lineal. Si
los datos parecen violar alguno de los supuestos (como la normalidad o la varianza constante),
pruebe a transformarlos. Si los datos no están relacionados linealmente y una transformación no
ayuda, utilice un modelo alternativo en el procedimiento Estimación curvilínea. Si la variable
dependiente es dicotómica, por ejemplo si se ha completado o no una determinada venta, utilice el
procedimiento Regresión logística. Si los datos no son independientes (por ejemplo, si observa a
© Copyright IBM Corporation 1989, 2012. 38
39
Capítulo 7
A
Esquemas de codificación de
variables categóricas
En muchos procedimientos, se puede solicitar la sustitución automática de una variable
independiente categórica por un conjunto de variables de contraste, que se podrán introducir o
eliminar de una ecuación como un bloque. Puede especificar cómo se va a codificar el conjunto de
variables de contraste, normalmente en el subcomando CONTRAST. Ese apéndice explica e ilustra
el funcionamiento real de los distintos tipos de contrastes solicitados en CONTRAST.
Desviación
Desviación desde la media global. En términos matriciales, estos contrastes tienen la forma:
Para omitir una categoría distinta de la última, especifique el número de la categoría omitida entre
el paréntesis que sucede a la palabra clave DEVIATION. Por ejemplo, el siguiente subcomando
obtiene las desviaciones para la primera y tercera categorías y omite la segunda:
/CONTRAST(FACTOR)=DEVIATION(2)
Suponga que factor tiene tres categorías. La matriz de contraste resultante será
( 1/3 1/3 1/3 )
( 2/3 –1/3 –1/3 )
( –1/3 –1/3 2/3 )
Apéndice A
Simple
Contrastes simples. Compara cada nivel de un factor con el último. La forma de la matriz general es
donde k es el número de categorías para la variable independiente. Por ejemplo, los contrastes
simples para una variable independiente con cuatro categorías son los siguientes:
( 1/4 1/4 1/4 1/4 )
(1 0 0 –1 )
(0 1 0 –1 )
(0 0 1 –1 )
Para utilizar otra categoría en lugar de la última como categoría de referencia, especifique entre
paréntesis tras la palabra clave SIMPLE el número de secuencia de la categoría de referencia, que
no es necesariamente el valor asociado con dicha categoría. Por ejemplo, el siguiente subcomando
CONTRAST obtiene una matriz de contraste que omite la segunda categoría:
/CONTRAST(FACTOR) = SIMPLE(2)
Suponga que factor tiene cuatro categorías. La matriz de contraste resultante será
( 1/4 1/4 1/4 1/4 )
(1 –1 0 0 )
(0 –1 1 0 )
(0 –1 0 1 )
Helmert
Contrastes de Helmert. Compara categorías de una variable independiente con la media de las
categorías subsiguientes. La forma de la matriz general es
media ( 1/k 1/k ... 1/k 1/k )
gl(1) (1 –1/(k–1) ... –1/(k–1) –1/(k–1) )
gl(2) (0 1 ... –1/(k–2) –1/(k–2) )
. .
. .
gl(k–2) (0 0 1 –1/2 –1/2
gl(k–1) (0 0 ... 1 –1 )
43
Diferencia
Diferencia o contrastes de Helmert inversos. Compara categorías de una variable independiente con
la media de las categorías anteriores de la variable. La forma de la matriz general es
media ( 1/k 1/k 1/k ... 1/k )
gl(1) ( –1 1 0 ... 0)
gl(2) ( –1/2 –1/2 1 ... 0)
. .
. .
gl(k–1) ( –1/(k–1) –1/(k–1) –1/(k–1) ... 1)
donde k es el número de categorías para la variable independiente. Por ejemplo, los contrastes de
diferencia para una variable independiente con cuatro categorías son los siguientes:
( 1/4 1/4 1/4 1/4 )
( –1 1 0 0 )
( –1/2 –1/2 1 0 )
( –1/3 –1/3 –1/3 1 )
Polinómico
Contrastes polinómicos ortogonales. El primer grado de libertad contiene el efecto lineal a través de
todas las categorías; el segundo grado de libertad, el efecto cuadrático, el tercer grado de libertad,
el cúbico, y así sucesivamente hasta los efectos de orden superior.
Se puede especificar el espaciado entre niveles del tratamiento medido por la variable
categórica dada. Se puede especificar un espaciado igual, que es el valor por defecto si se omite la
métrica, como enteros consecutivos desde 1 hasta k, donde k es el número de categorías. Si la
variable fármaco tiene tres categorías, el subcomando
/CONTRAST(DRUG)=POLYNOMIAL
es idéntico a
/CONTRAST(DRUG)=POLYNOMIAL(1,2,3)
Apéndice A
administrada al tercer grupo es el triple que la del primer grupo, las categorías del tratamiento
están espaciadas por igual y una métrica adecuada para esta situación se compone de enteros
consecutivos:
/CONTRAST(DRUG)=POLYNOMIAL(1,2,3)
Repetido
Compara niveles adyacentes de una variable independiente. La forma de la matriz general es
donde k es el número de categorías para la variable independiente. Por ejemplo, los contrastes
repetidos para una variable independiente con cuatro categorías son los siguientes:
( 1/4 1/4 1/4 1/4 )
(1 –1 0 0 )
(0 1 –1 0 )
(0 0 1 –1 )
Estos contrastes son útiles en el análisis de perfiles y siempre que sean necesarias puntuaciones de
diferencia.
Especial
Un contraste definido por el usuario. Permite la introducción de contrastes especiales en forma de
matrices cuadradas con tantas filas y columnas como categorías haya de la variable independiente.
Para MANOVA y LOGLINEAR, la primera fila introducida es siempre el efecto promedio, o
constante, y representa el conjunto de ponderaciones que indican cómo promediar las demás
variables independientes, si las hay, sobre la variable dada. Generalmente, este contraste es un
vector de contrastes.
45
Las restantes filas de la matriz contienen los contrastes especiales que indican las
comparaciones deseadas entre categorías de la variable. Normalmente, los contrastes ortogonales
son los más útiles. Este tipo de contrastes son estadísticamente independientes y son no
redundantes. Los contrastes son ortogonales si:
Para cada fila, la suma de los coeficientes de contrastes es igual a cero.
Los productos de los correspondientes coeficientes para todos los pares de filas disjuntas
también suman cero.
Por ejemplo, supongamos que el tratamiento tiene cuatro niveles y que deseamos comparar los
diversos niveles del tratamiento entre sí. Un contraste especial adecuado sería
( 1 1 1 1 ) ponderaciones para el cálculo de la media
( 3 –1 –1 –1 ) compare 1º con 2º hasta 4º
( 0 2 –1 –1 ) compare 2º con 3º y 4º
( 0 0 1 –1 ) compare 3º con 4º
todo lo cual se especifica mediante el siguiente subcomando CONTRAST para MANOVA, LOGISTIC
REGRESSION y COXREG:
/CONTRAST(TREATMNT)=SPECIAL( 1 1 1 1
3 -1 -1 -1
0 2 -1 -1
0 0 1 -1 )
Cada fila, excepto la fila de las medias suman cero. Los productos de cada par de filas disjuntas
también suman cero:
Filas 2 y 3: (3)(0) + (–1)(2) + (–1)(–1) + (–1)(–1) = 0
Filas 2 y 4: (3)(0) + (–1)(0) + (–1)(1) + (–1)(–1) = 0
Filas 3 y 4: (0)(0) + (2)(0) + (–1)(1) + (–1)(–1) = 0
No es necesario que los contrastes especiales sean ortogonales. No obstante, no deben ser
combinaciones lineales de unos con otros. Si lo son, el procedimiento informará de la dependencia
lineal y detendrá el procesamiento. Los contrastes de Helmert, de diferencia y polinómicos son
todos contrastes ortogonales.
Indicador
Codificación de la variable indicadora. También conocida como variable auxiliar o dummy, no está
disponible en LOGLINEAR o MANOVA. El número de variables nuevas codificadas es k–1. Los
casos que pertenezcan a la categoría de referencia se codificarán como 0 para las k–variables 1.
Un caso en la categoría iésima se codificará como 0 para todas las variables indicadoras excepto
la iésima, que se codificará como 1.
Apéndice
B
Avisos
Esta información se ha desarrollado para los productos y servicios ofrecidos en todo el mundo.
Puede que IBM no ofrezca los productos, los servicios o las características de los que se habla
en este documento en otros países. Consulte a su representante local de IBM para obtener
información acerca de los productos y servicios que está disponibles actualmente en su zona.
Toda referencia que se haga de un producto, programa o servicio de IBM no implica que sólo
se deba utilizar ese producto, programa o servicio de IBM. En su lugar, puede utilizarse todo
producto, programa o servicio con funcionalidades equivalentes que no infrinjan los derechos de
propiedad intelectual de IBM. Sin embargo, es responsabilidad del usuario evaluar y comprobar el
funcionamiento de todo producto, programa o servicio que no sea de IBM.
IBM puede tener patentes o aplicaciones de patentes pendientes que cubren el asunto descrito en
este documento. Este documento no le otorga ninguna licencia para estas patentes. Puede enviar
preguntas acerca de las licencias, por escrito, a:
IBM Director of Licensing, IBM Corporation, North Castle Drive, Armonk, NY 10504-1785,
Estados Unidos
Si tiene alguna pregunta sobre la licencia relacionada con la información del juego de caracteres
de doble byte (DBCS), póngase en contacto con el departamento de propiedad intelectual de IBM
de su país o envíe sus preguntas por escrito a:
Intellectual Property Licensing, Legal and Intellectual Property Law, IBM Japan Ltd., 1623-14,
Shimotsuruma, Yamato-shi, Kanagawa 242-8502 Japan.
El párrafo siguiente no se aplica a los Reino Unido o cualquier otro país donde tales disposiciones
son incompatibles con la legislación local: INTERNATIONAL BUSINESS MACHINES
PROPORCIONA ESTA PUBLICACIÓN “TAL CUAL” SIN GARANTÍA DE NINGÚN
TIPO, YA SEA EXPRESA O IMPLÍCITA, INCLUYENDO, PERO NO LIMITADA A, LAS
GARANTÍAS IMPLÍCITAS DE NO INFRACCIÓN, COMERCIALIZACIÓN O IDONEIDAD
PARA UN PROPÓSITO PARTICULAR. Algunos estados no permiten la renuncia a expresar
o a garantías implícitas en determinadas transacciones , por lo tanto , esta declaración no se
aplique a usted.
Esta información puede incluir imprecisiones técnicas o errores tipográficos. Periódicamente, se
efectúan cambios en la información aquí y estos cambios se incorporarán en nuevas ediciones
de la publicación. IBM puede realizar mejoras y/o cambios en los productos y/o los programas
descritos en esta publicación en cualquier momento sin previo aviso.
Cualquier referencia a sitios Web que no sean de IBM en esta información sólo es ofrecida por
comodidad y de ningún modo sirve como aprobación de esos sitios Web. Los materiales en esos
sitios Web no forman parte del material de este producto de IBM y el uso de estos sitios Web es
bajo su propio riesgo.
IBM puede utilizar cualquier información que le suministre en cualquier forma que considere
adecuada, sin incurrir en ninguna obligación para usted.
© Copyright IBM Corporation 1989, 2012. 46
47
Avisos
Los licenciatarios de este programa que deseen tener información sobre el mismo con el objetivo
de habilitar: (i) el intercambio de información entre programas creados independientemente y
otros programas (incluyendo este) y (ii) el uso común de la información que se ha intercambiado,
deben ponerse en contacto con:
IBM Software Group, a la atención de: Licensing, 233 S. Wacker Dr., Chicago, IL 60606, USA.
Esta información estará disponible, bajo las condiciones adecuadas, incluyendo en algunos casos
el pago de una cuota.
IBM proporciona el programa bajo licencia que se describe en este documento y todo el material
bajo licencia disponible para el mismo bajo los términos de IBM Customer Agreement (Acuerdo
de cliente de IBM), IBM International Program License Agreement (Acuerdo de licencia de
programa internacional de IBM) o cualquier acuerdo equivalente entre las partes.
Se ha obtenido información acerca de productos que no son de IBM de los proveedores de
esos productos, de sus publicaciones anunciadas o de otras fuentes disponibles públicamente.
IBM no ha probado estos productos y no puede confirmar la precisión de su rendimiento, su
compatibilidad o cualquier otra reclamación relacionada con productos que no sean de IBM.
Las preguntas acerca de las aptitudes de productos que no sean de IBM deben dirigirse a los
proveedores de dichos productos.
Esta información contiene ejemplos de datos e informes utilizados en operaciones comerciales
diarias. Para ilustrarlos lo máximo posible, los ejemplos incluyen los nombres de las personas,
empresas, marcas y productos. Todos esos nombres son ficticios y cualquier parecido con los
nombres y direcciones utilizados por una empresa real es pura coincidencia.
Si está viendo esta información en copia electrónica, es posible que las fotografías y las
ilustraciones en color no aparezcan.
Marcas comerciales
IBM, el logotipo de IBM, ibm.com y SPSS son marcas comerciales de IBM Corporation,
registradas en muchas jurisdicciones de todo el mundo. Existe una lista actualizada de marcas
comerciales de IBM en Internet en http://www.ibm.com/legal/copytrade.shtml.
Adobe, el logotipo Adobe, PostScript y el logotipo PostScript son marcas registradas o marcas
comerciales de Adobe Systems Incorporated en Estados Unidos y/o otros países.
Intel, el logotipo de Intel, Intel Inside, el logotipo de Intel Inside, Intel Centrino, el logotipo de
Intel Centrino, Celeron, Intel Xeon, Intel SpeedStep, Itanium y Pentium son marcas comerciales o
marcas registradas de Intel Corporation o sus filiales en Estados Unidos y otros países.
Java y todas las marcas comerciales y los logotipos basados en Java son marcas comerciales de
Sun Microsystems, Inc. en Estados Unidos, otros países o ambos.
Linux es una marca registrada de Linus Torvalds en Estados Unidos, otros países o ambos.
Microsoft, Windows, Windows NT, y el logotipo de Windows son marcas comerciales de
Microsoft Corporation en Estados Unidos, otros países o ambos.
UNIX es una marca registrada de The Open Group en Estados Unidos y otros países.
Este producto utiliza WinWrap Basic, Copyright 1993-2007, Polar Engineering and Consulting,
http://www.winwrap.com.
48
Apéndice B
Otros productos y nombres de servicio pueden ser marcas comerciales de IBM u otras empresas.
Capturas de pantalla de productos de Adobe reimpresas con permiso de Adobe Systems
Incorporated.
Capturas de pantalla de productos de Microsoft reimpresas con permiso de Microsoft Corporation.
Índice
Análisis probit log de la verosimilitud, 35
criterios, 24 mostrar ANOVA y estimaciones, 37
definición de rango, 24 estimaciones de los parámetros
ejemplo, 22 en Regresión logística multinomial, 16
estadísticos, 22, 24
funciones adicionales del comando, 25 función de desviación
intervalos de confianza fiduciaria, 24 estimación del valor del escalamiento para la dispersión,
iteraciones, 24 19
potencia relativa de la mediana, 24
prueba de paralelismo, 24
tasa de respuesta natural, 24 histórico de iteraciones
avisos legales, 46 en Regresión logística multinomial, 18
49
50
Índice
Índice
tablas de clasificación
en Regresión logística multinomial, 16
tablas de probabilidades de casilla
en Regresión logística multinomial, 16
término constante
en Regresión lineal, 9