Regresion Lineal

MANUAL DE APLICACIN DEL MODELO DE REGRESIN LINEAL MULTIPLE
MANUAL DE APLICACIN DEL MODELO

DE REGRESIN LINEAL MULTIPLE CON
CORRECIONES DE ESPECIFICACIN,
USOS DE STATA 9.0,STATA 10.0, EVIEWS
5.0, SSPS 11.0
Autores:
Rafael David Escalante Cortina
Wilson Mayorga Mogollon
Juan Carlos Vergara Schmalbach
1
Contenido
MODELO DE REGRESION LINEAL MULTIPLE..................................................... 3

Etapas para realizar una regresin Lineal Mltiple.................................................. 4
SUPESTOS DE MINIMOS CUADRADOS ORDINARIOS....................................... 5
PRUEBAS ESTADISTICAS PARA MEDIR LA SIGNIFICANCIA DEL MODELO Y
DE LOS PARAMETROS. ........................................................................................ 7
Propiedades de los estimadores .......................................................................... 7
Regresin con Variables Dummy .......................................................................... 10
PROBLEMAS DE ESPECIFICACIN DEL MODELO DE REGRESIN
MULTIPLE............................................................................................................. 33
MULTICOLINEALIDAD ...................................................................................... 33
HETEROCEDASTICIDAD ................................................................................. 42
AUTOCORRELACION....................................................................................... 45
APLICACIN DE MODELO LOGISTICOS EN SPSS 11.0 .................................. 57
BIBLIOGRAFIA ..................................................................................................... 67
MODELO DE REGRESION LINEAL MULTIPLE

El modelo de regresin lineal mltiple busca una funcin de regresin poblacional a partir
de una funcin de regresin muestral. La idea de la regresin es mostrar un anlisis
cuantitativo los fenmenos financieros y econmicos combinados con inferencia de la
variable explicada.
Este modelo une a la teora econmica, la estadstica, y la matemtica para establecer
relaciones entre una variable dependiente llamada y y una o varias variables explicativas
llamadas x, con el fin establecer un prediccin o en su defecto el impacto que tienen las
variables explicativas sobre la variable explicada.
Para este modelo se definen dos ecuaciones:

Y = X +U
Esta funcin va ser llamada la regresin poblacional

Esta funcin va ser llamada la regresin muestral
Existen dos razones para aplicar la regresin mltiple:
Explicativa: A travs de este modelo la variable explicada y se pueden medir los

impactos que tienen sus variables explicativas, es decir que los betas que
acompaan la regresin pueden ser positivos o negativos los cuales no dicen si
una variable explicativa ayuda a crecer o disminuir la variable dependiente.
Prediccin: por medio de la regresin y reemplazando las variables explicativas
X por valores numricos, la variable dependiente Y puede tomar diferentes
valores.
Bajo el enfoque matricial:

Y = X +U
1 x 21
y1
u1
1
M M
, y = M ,u = M , = M , x =
M M
y n n1
u k nx1
k kx1
1 x 2 n
L x k1
L M
L M
L x kn nk
Demostracin:
Criterio del Mininos Cuadrados Ordinarios:
2
2
2
MinSCE = u ' u = y ' y y ' y = Min u i = y i y i = 0
U 'U = (Y X )' (Y X ) = Y ' Y Y ' X + ' X ' Y + ' X ' X = Y ' Y Y ' X =
= Y 'Y ' ( X ' X ) = Y 'Y Y 'Y
Etapas para realizar una regresin Lineal Mltiple

1. Plantear una hiptesis: Es importante encontrar un problema que se quiere
estudiar el cual debe ser basado en la teora financiera o econmica.
2. Especificar modelo matemtico de la teora econmica: Se debe buscar en teora y
a travs de experimentos anteriores cual ha sido los resultados, en caso de que la
hiptesis nunca ha sido medida se debe buscar un modelo similar para hacer la
comparacin respectiva.
3. Especificar modelo economtrico de la teora econmica: se busca el modelo
terico y sus variables iniciales.
4. Obtencin de datos: se obtienen los datos que a travs de las encuestas o en su
defecto se busca la base datos. En este punto se hace una aclaracin referente a
la estructura de datos que podemos encontrar. Los datos pueden ser
Seccin Cruzada: cuando los datos se toman en un momento en el tiempo,

como una fotografa en el tiempo.
Series de Tiempo: Cuando los datos se toman en diferentes momentos del
tiempo de una misma unidad.
Combinaciones datos seccin Cruzada: Se refiere cuando los datos tienen

unidades diferentes y en diferentes momentos en el tiempo.
5. Estimacin del modelo: Se calcula el modelo en el paquete estadsticos, entre los

ms usados se encuentran, Excel, Stata, SPSS windows, Stata, SAS, R, etc.
6. Prueba de hiptesis: se verifican si los betas de la regresin, son adecuados.
7. Pronstico o prediccin: Con la ecuacin ajustada a los betas consistentes y
confiables se reemplazan los valores a las variables explicativas y se obtiene el
pronstico de la variable explicada.
8. Uso de modelos para recomendacin: se hacen los ajustes dados por los
investigadores.
SUPESTOS DE MINIMOS CUADRADOS ORDINARIOS.

1. El modelo es lineal en los parmetros (los betas).
2. Las variables explicativas toma valores fijos en muestreo repetitivo.
3. La esperanza del error es nula es de decir,
=0
4. No hay autocorrelaciones en los errores, es decir que la esperanza de la

covarianzas entre los errores es nula. E (u i u j ) = 0 para todo i j
5. Homocedasticidad:, que significa que la varianza de los errores es constante.
Var (u) = 2 I nxn

6. El modelo esta correctamente especificado.
7. No hay relacin lineal perfecta entre las variables explicativas.

8. El nmero de observaciones es mayor que los parmetros estimados.
9. Los errores U siguen distribucin normal. (0, 2I). Es decir media cero y varianza
constante.
10. Las Variables explicativas X son exogenas.
Variabilidad de los errores en la regresin lineal:
1.- Variabilidad total: SCT =
(y
y ) 1; Sumatoria de los cuadrados totales.

2
2.- Variabilidad explicada: SCE =
y i y Sumatoria de los cuadrados de
errores
3.- Variabilidad no explicada: SCR =
2
i
Sumatoria de los cuadrados de la
regresin
En el caso en el que el modelo hay una constante la SCT = SCE + SCR.
La bondad de ajuste muestra qu tan bien se ajusta la lnea de regresin a los datos. El
2
coeficiente de determinacin r para la regresin lineal simple y el R para la regresin

mltiple, es una medida que nos dice qu tan bien se ajusta la lnea de regresin muestral
a los datos.
R2 = 1
(Y
2
i
Y )
2
= 1
SCE
Suma de Residuales Cuadrados
= 1
SCT
Suma Total de Cuadrados
Una propiedad importante del R es que es una funcin no decreciente del nmero de
variables explicativas o de regresores presentes en el modelo; a medida que aumenta el
2
nmero de regresores, el R aumenta. Es por esto que al comparar dos modelos de

regresin con la misma variable dependiente pero con un nmero diferente de variables
2
X, se debe tener mucho cuidado al escoger el modelo con el R ms alto. Para comparar
2
dos trminos R , se debe tener en cuenta el nmero de variables presentes en el modelo.
2
Esto puede hacerse con el coeficiente de determinacin ajustado R , el cual est ajustado
por los grados de libertad asociados con las suma de los cuadrados.
U /(n k )
= 1
(Y Y ) /(n 1)
2
i
La Y barra se refiere al promedio ponderado de la variable explicada.
PRUEBAS ESTADISTICAS PARA MEDIR LA SIGNIFICANCIA DEL

MODELO Y DE LOS PARAMETROS.
La prueba t de student es utilizada para medir la significancia estadstica de los

parmetros del modelo, es decir los betas. El estadstico t (t-statistic) que se
calcula como cociente entre el estimador y su error estndar
permite
contrastar la hiptesis de que el coeficiente es igual a cero (H0 : = 0 frente a Ha:

0) y por lo tanto la variable en cuestin no es individualmente significativa para
explicar el comportamiento de la variable endgeno. Para que la variable
La prueba estadstica F de Fisher puede medir la significancia global del modelo

es decir que el modelo de regresin mltiple es estadsticamente significativo.
Ambos caso se busca un nivel de confianza del 95%, con un p-valor entre cero y 0,05
para que el modelo y los parmetros sean estadsticamente significativos.
Propiedades de los estimadores

1. Lineales: es una funcin lineal
es la matriz de proyeccin.
2. Insesgados: La esperanza del estimador coincide con el beta poblacional.
] [
E ( ) = E ( X ' X ) X ' Y = E ( X ' X ) X ' ( X + u ) = + ( X ' X ) X ' E (u ) = / E (u ) = 0

1
3. Adems de estimadores lineales e insesgados, tambien son los de mnima

varianza (de Gauss-Markov) que son los mnimo cuadrticos. El nuevo estimador
sera Var ( ) = 2 ( X ' X )
].
A continuacin se presentan la forma de la lectura de los estimadores con respecto a los

resultados obtenidos en la variable independiente.
Modelo
Lineal
Ecuacin
Caractersticas
Pendiente constante. Elasticidad
variable (depende del valor de X
y Y). Interpretacin 2 : un
cambio en una unidad de X
genera un cambio en 2 unidades
de Y. Es decir cambio absoluto
genera cambio absoluto.

Pendiente variable (depende del
valor de X y Y). Elasticidad
constante. Interpretacin 2 : un
cambio en un 1% de X genera un
cambio en 2 por ciento de Y
(Ojo: no se multiplica por 100).
Este es un cambio porcentual
genera cambio porcentual.
Pendiente variable (depende del
valor de X y Y). Elasticidad
variable (depende del valor de
X y Y). Interpretacin 2 : un
cambio en una unidad de X
genera un cambio en 100* 2 por
ciento de Y. Este es un cambio
absoluto genera cambio
porcentual. Tambin se interpreta
como una tasa de crecimiento.
Log - log
Log - lin
EJEMPLO (paquete estadstico EVIEWS): Modelo regresin lineal Mltiple

Se desea estimar el efecto de la tasa de desempleo X1(%), y la tasa de inflacin
esperada X2 (%), sobre la tasa de inflacin observada Y(%).
Dependent Variable: Y
Method: Least Squares
Included observations: 13
Variable
Coefficient
Std. Error
t-Statistic
Prob.
7.193357
1.594789
4.510538
0.0011
X1
-1.392472
0.305018
-4.565214
0.0010
X2
1.470032
0.175786
8.362633
0.0000
R-squared
0.876590
Mean dependent var
7.756923
Adjusted R-squared
0.851907
S.D. dependent var
3.041892
S.E. of regression
1.170605
Akaike info criterion
3.352092
Sum squared resid
13.70316
Schwarz criterion
3.482465
F-statistic
35.51521
Prob(F-statistic)
0.000029
Log likelihood
Durbin-Watson stat
-18.78860
2.225465
En este modelo, se puede observar que la tasa de inflacin esperada X2 (%), los signos
de los coeficientes de las variables explicativas son los esperados (Curva de Phillips
ampliada). El intercepto muestra que si X2 y X3 hubiese sido cero durante el periodo
muestral, la tasa promedio de inflacin observada habra estado cercana al 7.19%. El
coeficiente de regresin parcial de -1.392472 significa que al mantener constante la tasa
de inflacin esperada, la tasa de inflacin observada en promedio se redujo en cerca del
1.4% por cada aumento del 1% de la tasa de desempleo. De igual manera, al mantener la
tasa de desempleo constante, el valor del coeficiente de 1.470032 implica que la tasa de
inflacin observada en promedio, aument en cerca de 1.5% por cada aumento del 1%
en la tasa de inflacin esperada.
El R 2 es alto, e indica que las dos variables explicativas, en su conjunto, son la causa de
cerca del 88% de la variacin en la tasa de inflacin observada.
Regresin con Variables Dummy

Al realizar anlisis de regresin, la variable dependiente2 y las independientes no
solamente pueden estar dadas por variables cuantitativas, existen otros tipos de variables
de carcter cualitativo. Dichas variables se conocen comnmente como Variables:
Dummys, categricas, dictomas, binarias, ficticias o cualitativas.
Usualmente, dichas variables indican la presencia o ausencia de una cualidad o atributo,
como por ejemplo sexo, raza, color, religin, etc. Estas son variables que toman valor de 1
en una submuestra y 0 en el resto de la muestra. Si el nmero de submuestras es mayor
a dos, se define una variable ficticia para cada una de ellas, tomando valor de 1 en dicha
sudmuestra y el valor de 0 en el resto de las observaciones mustrales. Las variables
ficticias pueden ser nominales y ordinales.
Al incluir variables dummys en un modelo de regresin, estimar sus coeficientes y llevar a
cabo los contrastes de significancia de las variables, es equivalente a estimar los modelos
restringido y no restringido (Novales, 1993), explicados en la clase anterior.
A continuacin, se relacionan ejemplos de modelos estimados con variables cualitativas,
con el fin de analizar significancia individual de los betas, y mencionar la interpretacin de
los coeficientes estimados. Asimismo, se pretende analizar los cambios que se presentan
en el intercepto y pendiente de la regresin estimada.
Ejercicios:
1.
Modelo de regresin simple con una sola variable dummy
La expresin general de este modelo, esta dada por:
Yi = 1+ 2 Di +u i
Donde:
Y , es la variable dependiente.
Di , es la variable explicativa dummy.
Estimamos en stata el siguiente modelo:
WAGE = 1+ 2 female + u
Donde:
2
Los modelos de regresin con variable dependiente dummy, presentan comnmente 4 enfoques de estimacin: El modelo
Lineal de Probabilidad (MLP), El modelo Logit, El modelo Probit, y el Modelo Tobit. Sin embargo, para esta clase
trabajaremos con modelos de regresin con variables independientes de esta clase.
10
WAGE , es el salario/hora en dlares.

female , es la variable dummy que representa el sexo de las personas, y toma los valores
de:
female = 1 cuando la persona es mujer.

female = 0 cuando la persona es hombre.
2 , es el parmetro que define la diferencia entre el salario/hora de las mujeres y

hombres. Si el coeficiente 2 < 0 , las mujeres ganan (dado que la categora base es
hombre), en promedio, menos que los hombres.
NOTA: Si una variable dummy tiene m categoras, se debe introducir en el modelo a
estimar, m 1 variables cualitativas. Lo anterior, con el fin de evitar la trampa de la
variable dictoma, es decir, la situacin de multicolinealidad perfecta. En el ejemplo a
realizar, la variable female tiene dos categoras (hombre mujer) y, por lo tanto, se
introducir solamente una variable dummy. Teniendo en cuenta lo anterior, siempre se
deber tomar una categora como base, con el fin de comparar las estimaciones
realizadas con respecto a esa categora.
Salida en stata: reg
Source |
wage female
SS
df
MS
Number of obs =
-------------+------------------------------
F(
1,
526
524) =
68.54
Model |
828.220467
828.220467
Prob > F
0.0000
Residual |
6332.19382
524
12.0843394
R-squared
0.1157
Adj R-squared =
0.1140
Root MSE
3.4763
-------------+-----------------------------Total |
7160.41429
525
13.6388844
-----------------------------------------------------------------------------wage |
Coef.
Std. Err.
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------female |
-2.51183
.3034092
-8.28
0.000
-3.107878
-1.915782
_cons |
7.099489
.2100082
33.81
0.000
6.686928
7.51205
------------------------------------------------------------------------------
11
De la salida anterior se puede decir varias cosas.
Primero:
E [WAGE / female = 0] = 1 = 7,1

La intercepcin es el salario promedio de los hombres de la muestra (cuando female = 0 ),
de modo que ellos, en promedio, ganan 7.1 dlares por hora.
Segundo:
E [WAGE / female = 1] = 1 + 2 = 4,59

El salario promedio de las mujeres es 4.59 (7.1-2.51) dlares por hora.
Y tercero:
E [WAGE / female = 1] E [WAGE / female = 0] = 1 + 2 1 = 2 = 2,51

El coeficiente de female , es la diferencia en el salario promedio entre hombres y mujeres,
es decir la mujeres, en promedio, ganan 2.51 dlares menos que los hombres. A este
coeficiente se le puede llamar coeficiente de intercepcin porque dice que tanto difiere
el valor del termino de intercepto de la categora que recibe el valor de 1, del coeficiente
del intercepto de la categora base.
Sin embargo, para saber si el 2 es estadsticamente significativo, y as poder concluir
con certeza que los hombres ganan, en promedio, ms que las mujeres, realizamos la
prueba de significancia individual de la variable female :
Ho : 2 = 0
H a : 2 0
tc =
i

Var i

= tc =
2.51
= 8.3
0,30
t tabla 0, 025;526 = 1,96
12
-8.3
-1,96
1,96
Ahora, dado que el t tabla con un nivel de significancia de 5% ( = 0.05, / 2 = 0.025) y

526 grados de libertad es 1.96, se puede apreciar en el grfico, que el tc (-8.3) cae en
la regin de rechazo, por lo tanto hay evidencia suficiente para rechazar la hiptesis nula,
es decir, el 2 es estadsticamente diferente a cero y la variable es significativa, luego se
puede decir que las mujeres, en promedio, ganan 2.5 dlares por hora menos que los
hombres. De igual forma, en la salida en stata se puede evidenciar que el p-valor de la
variable female es 0.0000, lo cual indica que la variable es estadsticamente significativa
al 1%.
NOTA: En general, la regresin simple con una constante y una variable dummy es una
forma directa de comparar las medidas de dos grupos; para este ejemplo, entre el salario
de las mujeres y los hombres. Geomtricamente, se podra dar que:
13
Para el caso de este modelo, se observa un cambio en intercepto. Como el beta que
acompaa la variable female es negativo ( 2 < 0 ), se tiene un menor nivel de salario
por hora de las mujeres con respecto a los hombres.
Al correr el modelo anterior, tomando como la categora base a las mujeres, es decir,
dando el valor de 1 a los hombres y 0 a las mujeres se obtiene:
Salida en stata: reg wage hombre
Source |
SS
df
MS
Number of obs =
-------------+------------------------------
F(
1,
526
524) =
68.54
Model |
828.220467
828.220467
Prob > F
0.0000
Residual |
6332.19382
524
12.0843394
R-squared
0.1157
Adj R-squared =
0.1140
Root MSE
3.4763
-------------+-----------------------------Total |
7160.41429
525
13.6388844
-----------------------------------------------------------------------------wage |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------hombre |
2.51183
.3034092
8.28
0.000
1.915782
3.107878
_cons |
4.587659
.2189834
20.95
0.000
4.157466
5.017852
------------------------------------------------------------------------------
Se puede observar, que el coeficiente estimado para la variable hom bre , presenta signo
contrario al modelo anterior estimado con la variable female . De igual forma, se
evidencia que el intercepto ha cambiado, ahora el intercepto representa el salario/hora de
las mujeres (cuando hom bre = 0 ).
Retomando el concepto de la trampa de variable dictoma, existe una forma de evitarla
diferente a incluir m 1 categoras dentro del modelo. Para esto, consideremos el
siguiente modelo de regresin a travs del origen:
WAGE = 1+ 2 female + 3 hom bre + u

Donde:
14
female , es una variable dummy que toma los valores de:

hom bre , es una variable dummy que toma los valores de:
hom bre = 1 cuando la persona es hombre.
hom bre = 0 cuando la persona es mujer.

Salida en stata: reg
Source |
wage female hombre exper, noconstant
SS
df
MS
Number of obs =
-------------+------------------------------
F(
3,
526
523) =
534.06
Model |
19184.0401
6394.68002
Prob > F
0.0000
Residual |
6262.25231
523
11.9737138
R-squared
0.7539
Adj R-squared =
0.7525
Root MSE
3.4603
-------------+-----------------------------Total |
25446.2924
526
48.3769817
-----------------------------------------------------------------------------wage |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------female |
4.145462
.2845875
14.57
0.000
3.586387
4.704537
hombre |
6.626882
.2862475
23.15
0.000
6.064546
7.189218
exper |
.0269163
.0111369
2.42
0.016
.0050379
.0487948
------------------------------------------------------------------------------
Como se puede observar
en la salida, ahora el 2 y 3 no representan el efecto
diferencial entre el salario de las mujeres y hombres. Los valores de los coeficientes
estimados, son el salario promedio/hora de las mujeres y hombres respectivamente.
Sin embargo, es importante tener en cuenta que la practica comn es asignar las
variables dictomas de tal manera que si una variable tiene m categoras, se introducen
solamente ( m 1 ) variables dicotmicas (Gujarati, 2001). Lo anterior, teniendo en cuenta
que al utilizar dicho enfoque se obtiene un valor usual del R 2 , mientras que con el modelo
15
sin intercepto3, se tendra que calcular lo que se conoce como el R 2 simple. Asimismo,
cuando se considera a priori un modelo sin intercepto, se puede estar cometiendo un error
de especificacin, violando as uno de los supuestos del modelo clsico de regresin
lineal.
2.
Modelo de regresin mltiple con una sola variable dummy y una variable
cuantitativa.
La expresin general de este modelo, esta dada por:
Yi = 1+ 2 Di + 3 X i +u i
Donde:
Y , es la variable dependiente.
Di , es la variable explicativa dummy.
X i , es la variable explicativa cuantitativa.
Para realizar un ejemplo, trabajaremos con la base de datos WAGE1.RAW.
Estimamos en stata el siguiente modelo:
WAGE = 1+ 2 female + 3 exp er + u

Donde:

de:

exp er , es la variable que representa los aos de experiencia de la persona.
2 , es el parmetro que define la diferencia entre el salario/hora de las mujeres y

hombres, dado los mismos niveles de experiencia. Si, manteniendo constante la
experiencia, el coeficiente 2 < 0 , las mujeres ganan, en promedio, menos que los
hombres, dado un mismo nivel de experiencia.
Cuando se estima un modelo de regresin con intercepto cero, se habla de un modelo de regresin a travs
del origen.
16
Salida en stata: reg wage female exper

Source |
SS
df
MS
Number of obs =
-------------+------------------------------
F(
2,
526
523) =
37.51
Model |
898.161983
449.080991
Prob > F
0.0000
Residual |
6262.25231
523
11.9737138
R-squared
0.1254
Adj R-squared =
0.1221
Root MSE
3.4603
-------------+-----------------------------Total |
7160.41429
525
13.6388844
-----------------------------------------------------------------------------wage |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------female |
-2.48142
.3022793
-8.21
0.000
-3.07525
-1.887589
exper |
.0269163
.0111369
2.42
0.016
.0050379
.0487948
_cons |
6.626882
.2862475
23.15
0.000
6.064546
7.189218
------------------------------------------------------------------------------
De la salida anterior se puede decir varias cosas.
Primero:
E [WAGE / exp er , female = 0] = 1 + 3 exp er = 6,62 + 0,026 exp er

Por cada ao de experiencia que tengan los hombres (cuando female = 0 ), su salario
promedio, aumenta en 6.64 (6.62+0.02) dlares hora
Segundo:
E [WAGE / exp er , female = 1] = ( 1 + 2 ) + 3 exp er = 6,64 + 0,026 exp er

Por cada ao de experiencia que tengan las mujeres (cuando female = 1 ), su salario
promedio, aumenta en 4.16 (6.62+0.02-2.48) dlares hora. Es decir, que las mujeres
ganan menos que los hombres, para un mismo nivel de experiencia.
Y tercero:
E [WAGE / exp er , female = 1] E [WAGE / exp er , female = 0] = 1 + 2 + 3 exp er 1 3 exp er = 2
17
El coeficiente de female , es la diferencia en el salario promedio entre hombres y mujeres

manteniendo un mismo nivel de experiencia, es decir la mujeres, en promedio, ganan 2.51
dlares menos que los hombres.
Sin embargo, para saber si el 2 y 3 son estadsticamente significativos, y as poder
concluir con certeza que un ao de experiencia de trabajo en los hombres aporta mas a
su salario, que un ao de experiencia de las mujeres, tenemos que realizar la prueba de
significancia individual de las variables female y exp er .
Ho : 2 = 0
tc =
H a : 2 0
i

Var i

= tc =
2.48
= 8.21
0.3022
t tabla 0, 025;526 = 1,96
-8.21
-1,96
1,96

526 grados de libertad es 1.96, se puede apreciar en el grfico, que el tc (-8.21) cae en
es decir, el 2 es estadsticamente diferente a cero y la variable es significativa. De igual
forma, en la salida en stata se puede evidenciar que el p-valor de la variable female es
0.0000, lo cual indica que la variable es estadsticamente significativa al 1%.
Ahora:
H o : 3 = 0
H a : 3 0
tc =
i

Var i

= tc =
0.026
= 2.42
0.011
18
t tabla 0, 025;526 = 1,96
-1,96
1,96
2.42

526 grados de libertad es 1.96, se puede apreciar en el grfico, que el tc (2.42) cae en
es decir, el 3 es estadsticamente diferente a cero y la variable es significativa. De igual
forma, en la salida en stata se puede evidenciar que el p-valor de la variable exp er es
0.016, lo cual indica que la variable es estadsticamente significativa al 1%.
Al igual que en el ejemplo anterior, se puede estimar un modelo de regresin sin
intercepto con el fin de enviar la trampa de la variable dicotmica. Considrese el
siguiente modelo:
WAGE = 1+ 2 female + 3 hom bre + 3 exp er + u

Salida en Stata: reg wage female hombre exper, noconstan
Source |
SS
df
MS
-------------+------------------------------
Number of obs =
F(
3,
526
523) =
534.06
Model |
19184.0401
6394.68002
Prob > F
0.0000
Residual |
6262.25231
523
11.9737138
R-squared
0.7539
Adj R-squared =
0.7525
Root MSE
3.4603
-------------+-----------------------------Total |
25446.2924
526
48.3769817
------------------------------------------------------------------------------
19
wage |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------female |
4.145462
.2845875
14.57
0.000
3.586387
4.704537
hombre |
6.626882
.2862475
23.15
0.000
6.064546
7.189218
exper |
.0269163
.0111369
2.42
0.016
.0050379
.0487948
------------------------------------------------------------------------------
Se puede observar que los coeficientes estimados representan el salario promedio de las
mujeres y los hombres, dado un nivel de experiencia.
3.
Modelo de regresin mltiple con una sola variable dummy y dos o ms
variables cuantitativas
Al modelo del ejemplo anterior, le agregaremos una variable explicativa cuantitativa.
Nuestro modelo a estimar ahora ser:
WAGE = 1+ 2 female + 3 exp er + 4 tenure + 5 exp er 2 + 6 tenure 2 + u

Donde:

de:

tenure , es la variable que representa la antigedad de la persona en el trabajo.
exp er 2 , es la variable que representa los aos de experiencia de la persona al cuadrado.
tenure 2 , es la variable que representa la antigedad de la persona en el trabajo al

cuadrado.
Salida en stata: reg wage female exper tenure expersq tenursq
Source |
SS
df
MS
Number of obs =
526
20
-------------+------------------------------
F(
5,
520) =
37.84
Model |
1910.28805
382.057611
Prob > F
0.0000
Residual |
5250.12624
520
10.0963966
R-squared
0.2668
Adj R-squared =
0.2597
Root MSE
3.1775
-------------+-----------------------------Total |
7160.41429
525
13.6388844
-----------------------------------------------------------------------------wage |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------female |
-1.998933
.2837282
-7.05
0.000
-2.556328
-1.441539
exper |
.2003255
.039522
5.07
0.000
.1226832
.2779678
tenure |
.2521445
.0542485
4.65
0.000
.1455714
.3587176
expersq |
-.0049574
.0008445
-5.87
0.000
-.0066166
-.0032983
tenursq |
-.0037726
.0018635
-2.02
0.043
-.0074335
-.0001117
_cons |
4.79956
.347897
13.80
0.000
4.116104
5.483017
De acuerdo con la salida en Stata, todos los betas estimados que acompaan a las
variables explicativas, son estadsticamente significativos. Se observa, que los t
calculados son caen en la regin de rechazo comparado con un t tabla con 526 g.l. y
/ 2 = 0.025 igual a 1.96, es decir, se rechaza la hiptesis nula, por tanto se puede
decir que los betas son estadsticamente diferentes de cero.
En cuanto a la interpretacin de los coeficientes estimados, se puede decir que las
mujeres ganan en promedio menos que los hombres manteniendo constantes las dems
variables; un ao de experiencia y/o antigedad, proporciona mayor salario/hora a los
hombres y las mujeres, manteniendo constantes el resto de variables.
La interpretacin de las variables estimadas al cuadrado, permite establecer que la
experiencia y la antigedad presentan rendimientos marginales decrecientes, es decir,
que a medida que aumenta la experiencia y antigedad de las personas, aumenta el
salario/hora, hasta un punto en el cual despus disminuye.
4.
Modelo de regresin mltiple con dos variables dummy y una variable
cuantitativa.
Continuando con la base de datos WAGE.RAW, estimaremos el siguiente modelo:
21
WAGE = 1+ 2 female + 3 tenure + 4 married + u

Donde:

de:

married , es la variable dummy que representa el estado civil de las personas, y toma los
valores de:
married = 1 cuando la persona es casada.

married = 0 cuando la persona no casada.

Salida stata: reg wage female tenure married
Source |
SS
df
MS
Number of obs =
-------------+------------------------------
F(
3,
526
522) =
46.41
Model |
1507.68441
502.561468
Prob > F
0.0000
Residual |
5652.72989
522
10.8289845
R-squared
0.2106
Adj R-squared =
0.2060
Root MSE
3.2907
-------------+-----------------------------Total |
7160.41429
525
13.6388844
-----------------------------------------------------------------------------wage |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------female |
-1.976333
.2953181
-6.69
0.000
-2.556491
-1.396176
tenure |
.1354407
.0207625
6.52
0.000
.0946523
.1762291
married |
.9131324
.3051762
2.99
0.003
.313608
1.512657
_cons |
5.596056
.2989656
18.72
0.000
5.008732
6.183379
22
------------------------------------------------------------------------------
De acuerdo con la salida en Stata, los 2 , 3 y 4 que acompaan a las variables
female , tenure y married respectivamente, son estadsticamente significativos, pues

vemos que su p-valor asociado al estadstico t son 0.00. Adems se evidencia que los t
calculados son -6.69, 6.52 y 2.99 respectivamente, caen en la regin de rechazo
comparado con un t tabla con 526 g.l. y / 2 = 0.025 igual a 1.96, es decir se rechaza
la hiptesis nula, por tanto estadsticamente el 2 y 3 son diferentes de cero.
Como se puede observar en la salida anterior, el p valor asociado a la F es de 0.0000, lo
cual indica que el modelo presenta una significancia global inclusive al 1%.
En cuanto a la interpretacin de los coeficientes estimados, se tiene que las mujeres,
ganan en promedio, menos que los hombres, independientemente si son casadas o no,
manteniendo constante la antigedad; y las personas casadas, gana en promedio, mas
que los solteros, ya sean de sexo masculino femenino, dado un mismo nivel de
antigedad.
Teniendo en cuenta lo anterior, tenemos que:

El salario promedio de un hombre soltero dado un nivel de antigedad en el trabajo, esta
dado por:
E [WAGE / female = 0, married = 0, tenure] = 1 + 3tenure = 5.59 + 0.135tenure

El salario promedio de una mujer soltera dado un nivel de antigedad en el trabajo, esta
dado por:
E [WAGE / female = 1, married = 0, tenure] = ( 1 + 2 ) + 3tenure = 3.62 + 0.135tenure

El salario promedio de un hombre casado, dado un nivel de antigedad en el trabajo, esta
dado por:
E [WAGE / female = 0, married = 1, tenure] = ( 1 + 4 ) + 3 tenure = 6,5 + 0,135tenure

El salario promedio de una mujer casada, dado un nivel de antigedad en el trabajo, esta
dado por:
E [WAGE / female = 1, married = 1, tenure] = ( 1 + 2 + 4 ) + 3 tenure = 4.53 + 0,135tenure
23
5.
Modelo de regresin mltiple con varias variables dummy (con una variable
cualitativa de tres o cuatro categoras)
Considrese el siguiente modelo:
WAGE = 1 + 2 female + 3 married + 4 northcen + 5 south + 6 west + u

Donde:

de:

valores de:

northcen , es la variable dummy que representa si la persona vive en el norte, y toma los
valores de:
northcen = 1 cuando la persona vive en el norte.

northcen = 0 cuando la persona no vive en el norte.
south , es la variable dummy que representa si la persona vive en el sur, y toma los
valores de:
south = 1 cuando la persona vive en el sur.

south = 0 cuando la persona no vive en el sur.
west , es la variable dummy que representa si la persona vive en el occidente, y toma los
valores de:
west = 1 cuando la persona vive en el occidente.
west = 0 cuando la persona no vive en el occidente.
NOTA: La categora base para el sector donde viven las personas son las personas que
viven en el oriente.
24
Salida: reg wage female married northcen south west
Source |
SS
df
MS
Number of obs =
-------------+------------------------------
F(
5,
526
520) =
21.55
Model |
1228.99076
245.798152
Prob > F
0.0000
Residual |
5931.42353
520
11.4065837
R-squared
0.1716
Adj R-squared =
0.1637
Root MSE
3.3774
-------------+-----------------------------Total |
7160.41429
525
13.6388844
-----------------------------------------------------------------------------wage |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------female |
-2.337965
.2994471
-7.81
0.000
-2.92624
-1.74969
married |
1.417395
.3068326
4.62
0.000
.8146113
2.020179
northcen |
-.6532592
.4281555
-1.53
0.128
-1.494386
.1878678
south |
-1.161885
.398185
-2.92
0.004
-1.944134
-.379636
west |
.3794599
.4747887
0.80
0.425
-.5532799
1.3122
_cons |
6.666695
.3917518
17.02
0.000
5.897084
7.436305
------------------------------------------------------------------------------
De la salida anterior se puede observar varias cosas:

-
Dado que el intercepto representa la categora base, se incluyen variables

dummys solo para 3 de las 4 categoras del sector donde viven las personas,
con el fin de no caer en la trampa de la variable dictoma (multicolinealidad
perfecta).
Las variables northcen y west no son significativas al 10%; por lo tanto, se

puede decir que no existe diferencia en el salario promedio, entre las personas
que viven en estos sectores y los que viven en el oriente (la categora base).
Teniendo en cuenta que la variable south es estadsticamente significativa (pvalor 0.004), se puede decir que las personas que viven en el sur, ganan en
promedio, 1.16 dlares menos que los que viven en el oriente, manteniendo
constantes las dems variables.
25
6.
Modelo de regresin mltiple con una interaccin de dummys.
Considrese el siguiente modelo:
WAGE = 1 + 2 female + 3 educ + 4 exp er + 5 tenure + u

Con:

de:

valores de:


Salida stata: reg wage female educ exper tenure
Source |
SS
df
MS
Number of obs =
-------------+-----------------------------Model |
2603.10658
650.776644
Residual |
4557.30771
521
8.7472317
F(
-------------+-----------------------------Total |
7160.41429
525
13.6388844
4,
526
521) =
74.40
Prob > F
0.0000
R-squared
0.3635
Adj R-squared =
0.3587
Root MSE
2.9576
-----------------------------------------------------------------------------wage |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------female |
-1.810852
.2648252
-6.84
0.000
-2.331109
-1.290596
26
educ |
.5715048
.0493373
11.58
0.000
.4745803
.6684293
exper |
.0253959
.0115694
2.20
0.029
.0026674
.0481243
tenure |
.1410051
.0211617
6.66
0.000
.0994323
.1825778
_cons |
-1.567939
.7245511
-2.16
0.031
-2.991339
-.144538
------------------------------------------------------------------------------
De acuerdo con la salida en Stata, todos los betas estimados que acompaan a las
variables explicativas, son estadsticamente significativos. Se observa, que los t
calculados son caen en la regin de rechazo comparado con un t tabla con 526 g.l. y
/ 2 = 0.025 igual a 1.96, es decir, se rechaza la hiptesis nula, por tanto se puede
decir que los betas son estadsticamente diferentes de cero.
En cuanto a la interpretacin de los coeficientes estimados, se puede decir que las
mujeres ganan en promedio menos que los hombres manteniendo constantes las dems
variables; un ao de experiencia, educacin y/o antigedad en el trabajo, proporciona
mayor salario/hora tanto a los hombres como las mujeres, manteniendo constantes el
resto de variables.
De otro lado, en este modelo esta implcito el supuesto de que el efecto diferencial de la
variable dummy female es constante a travs del posible estado civil de las personas
(casado y no casado). Por ejemplo, en la salida anterior se observa que las mujeres
ganan en promedio menos que los hombres, esto se da ya sea casada o no.
En muchas aplicaciones, este supuesto puede ser imposible de mantener, una mujer
puede ganar mas cuando es casada que cuando es soltera. Con el fin de observar este
efecto dentro del modelo, se adiciona la variable femalemarr ied , que representa la
interaccin entre las variables female y married .
Por lo tanto, se estima ahora el siguiente modelo:
WAGE = 1 + 2 female + 3 educ + 4 exp er + 5 tenure + 6 femalemarried + u

Donde:
femalemarr ied , es la variable dummy que representa la interaccin entre las variables
sexo y estado civil de las personas, y toma los valores de:
femalemarried = 1 cuando la persona es mujer casada.

femalemarried = 0 para el resto de la muestra.
27
Salida stata: reg wage female educ exper tenure femalemarried
Source |
SS
df
MS
Number of obs =
-------------+------------------------------
F(
5,
526
520) =
60.41
Model |
2630.9083
526.181659
Prob > F
0.0000
Residual |
4529.50599
520
8.71058845
R-squared
0.3674
Adj R-squared =
0.3613
Root MSE
2.9514
-------------+-----------------------------Total |
7160.41429
525
13.6388844
-----------------------------------------------------------------------------wage |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------female |
-1.447194
.3335762
-4.34
0.000
-2.102517
-.7918717
educ |
.5808792
.0495127
11.73
0.000
.4836097
.6781487
exper |
.0297398
.0117984
2.52
0.012
.0065613
.0529182
tenure |
.1398767
.0211268
6.62
0.000
.0983724
.181381
femalemarr~d |
-.6826192
.3820906
-1.79
0.075
-1.43325
.0680118
_cons |
-1.756788
.7307182
-2.40
0.017
-3.19231
-.3212652
------------------------------------------------------------------------------
De la salida anterior, ahora se tiene una interpretacin adicional, la de la variable con

efecto interaccin:
E [WAGE / female = 1, married = 1, educ, exp er , tenure] = ( 1 + 2 + 3 educ + 4 exp er + 5 tenure + 6 )
E [WAGE / female = 1, married = 1, educ, exp er , tenure] = (1.75 1.44 + 0.58educ + 0.029 exp er + 0.13tenure 1.75)
La expresin anterior, perite establecer el salario/hora promedio de las mujeres casadas,

manteniendo constante el resto de variables.
Cambios en intercepto y cambios en pendientes
Considrese en siguiente modelo:
Y = 1 + 2 X 1 + 3D1 + 4 D1 X 1 + u
Donde:
Salario de las personas

28
X1
Nivel de escolaridad
D1
Sexo, 1 = Mujeres, 0 los hombres
Regresiones paralelas: Cambio en intercepto e igual pendiente: Cuando 3 < 0
3 > 0 , y 2 significativos, 4 no es significativo.
Regresiones concurrentes: Igual intercepto, cambio en pendiente: Cuando
4 < 0
4 > 0 significativos, y 3 = 0 .
29
Regresiones no similares: Cambio en intercepto y pendiente: 2 , 3 y 4 significativos.
En la grfica (a), la intercepcin de las mujeres es menor a la de los hombres, pero la

pendiente es mayor para las mujeres. Esto significa que las mujeres ganan menos que los
hombres en los niveles inferiores de educacin, pero la brecha se cierra a medida que
aumenta el grado de escolaridad. En algn, punto los hombres y las mujeres ganan igual,
y despus las mujeres ganan mas que los hombres, dados los mimos niveles de
educacin.
La grfica (b), muestra el caso en el que la intercepcin de las mujeres es menor que la
de los hombres, y la pendiente de la lnea de las mujeres es menor que la de los hombres.
Esto significa que las mujerees ganan menos que los hombres en cualquier nivel de
escolaridad
Regresiones coincidentes: igual intercepto y pendiente: 3 = 0 , 4 = 0 .
30
GRAFICAS EN STATA
Consideremos el siguiente ejemplo:
WAGE = 1+ 2 exp er + u
Si queremos graficar los puntos de esta regresin en el plano cartesiano, donde exp er
esta representado en el eje X y WAGE en el eje Y, se utiliza el siguiente comando:
average hourly earnings

10
15
20
25
scatter wage exper
10
20
30
years potential experience
40
50
Ahora, si se quiere adicionar a la grfica titulo a la grfica y los nombres a cada uno de los
ejes, se utiliza el comando title:
scatter wage expe, title(Salario Vs. Experiencia) xtitle(A. Experiencia) ytitle(WAGE)
31
WAGE
10
15
20
25
Salario Vs. Experiencia
10
20
30
A. Experiencia
40
50
Por ltimo, si se quiere adicionar la lnea de tendencia, se utiliza el comando:

twoway (scatter wage exper) (lfit wage exper), title(Salario Vs. Experiencia) xtitle(A.
Experiencia) ytitle(WAGE)
WAGE
10
15
20
25
Salario Vs. Experiencia
10
20
30
A. Experiencia
average hourly earnings
40
50
Fitted values
32
PROBLEMAS DE ESPECIFICACIN DEL MODELO DE

REGRESIN MULTIPLE.
MULTICOLINEALIDAD
El dcimo supuesto del modelo clsico de regresin lineal (MCRL), plantea que no existe
multicolinealidad entre las variables explicativas del modelo, es decir, que no debe existir
relacin perfecta o exacta entre algunas o todas las variables explicativas de un modelo
de regresin4. Existen otros supuestos que son complementarios a no la multicolinealidad,
ellos son el supuesto 7, que indica que el nmero de regresores debe ser menor al
nmero de observaciones, y el supuesto 8, que especifica que debe existir variabilidad en
los valores de los regresores.
Para entender un poco este concepto, se puede representar grficamente:
Es importante resaltar que la multicolinealidad, como se ha definido, se refiere solamente

a relaciones lineales entre las variables explicativas, no elimina las relaciones no lineales
existentes entre ellas. Por lo tanto modelos como:
Yi = 1 + 2 X i + 3 X i2 + 4 X i3 + u i
No violan el supuesto de no multicolinealidad. Sin embargo, se encontraran coeficientes
de correlacin altos para variables X i , X i2 , X i3 .
4
Se habla de multicolinealidad cuando hay existencia de ms de una relacin lineal exacta, y colinealidad se
refiere a la existencia de una sola relacin lineal.
33
NOTA: Los estimadores de MCO en presencia de multicolinealidad, satisfacen la

condicin de ser el Mejor estimador lineal e insesgado (MELI) MEI (en el caso de aadir
el supuesto de normalidad).
Consecuencias Prcticas de la Multicolinealidad
1.
2.
3.
4.
5.
Varianzas de los coeficientes estimados sobredimensionados.

Pruebas de hiptesis no validas.
Se podra dar error tipo II (Aceptar la hiptesis nula, dado que es falsa)
Intervalos de Confianzas ms amplios.
No se podran separar los efectos de una variable explicativa sobre la variable
dependiente. Por ejemplo, se tiene Y = 1 + 2 X 1 + 3 X 2 + u , y X 1 esta
relacionado con X 2 , no se puede determinar con certeza cual es el efecto de
2 sobre Y , ya que existe un efecto tambin de 3 .
6.
7.
Contradicciones en las estimaciones realizadas al modelo, se encuentran

pruebas t bajas y estadsticos F y R 2 altos.
Sensibilidad del modelo, los estimadores y sus errores estndar se tornan muy
sensibles. Por ejemplo, estimo un modelo de regresin con 90 observaciones,
elimino algunas observaciones y al realizar las estimaciones nuevamente,
encuentro signos de los betas distintos.
Como detectar la Multicolinealidad

Teniendo en cuenta que la multicolinealidad es un fenmeno esencialmente de tipo
muestral5 , no se tiene un mtodo nico para detectarla. Lo que se tienen, son ciertas
pruebas formales e informales que permiten determinar su presencia. Algunas de ellas
son:
1.
Observar los estadsticos estimados: Cuando se tiene un R 2 alto, y la prueba

F muestra que el modelo es globalmente significativo, es decir, los
coeficientes estimados del modelo son estadsticamente diferentes de cero,
pero se encuentran unos t calculados bajos, que demuestran que los
coeficientes no son significativos ( i = 0 ).

2.
Observar la matriz de correlacin entre parejas de regresores: Si este

coeficiente es mayor a 0.8, entonces la multicolinealidad es un problema grave.
Sin embargo, esta condicin se puede considerar suficiente pero no necesaria,
debido a que la multicolinealidad puede existir, a pesar de que las
correlaciones sean comparativamente bajas (es decir, inferiores a 0.5). Si el
coeficiente de correlacin es -1, existe correlacin negativa, a medida que una
variable aumenta, la otra disminuye. Cuando el coeficiente es 1, hay
correlacin positiva, cuando aumenta una variable, tambin aumenta la otra.
Aun cuando las variables X no estn linealmente relacionadas en la poblacin, pueden estarlo en la muestra
que se ha tomado, en dicho caso, nuestra muestra puede no ser lo suficiente rica para acomodar todas las
variables X en el anlisis.
34
3.
Regresiones auxiliares: Dado que la multicolinealidad surge por la relacin

lineal entre variables explicativas, se pueden estimar regresiones entre las
variables explicativas. Posteriormente, se puede adoptar la regla practica de
Klien, quien sugiere que si el R 2 obtenido en la regresin auxiliar es mayor que
el R 2 global, es decir, aquel obtenido en la regresin de Y sobre todos los
regresores, hay un serio problema de multicolinealidad.
4.
Estimar el Factor de Inflacin de Varianza (FIV). El cual esta dado por;
FIV =
1
, donde R 2j es el R 2 de la regresin auxiliar.
2
1 Rj
Si el FIV es superior a 10, se dice que esa variable es altamente colineal.

Algunos autores, hacen referencia a la medida de tolerancia para determinar la
multicolinealidad. Esta se define como:
Tolerancia = (1 R 2j )
Si la tolerancia tiende a 1, entonces no hay multicolinealidad.
Si la tolerancia tiende a 0, entonces hay multicolinealidad.
Ejemplo Prctico:
Dadas las observaciones de la base de datos Gastoconsumo.dta, estmese el
siguiente modelo:
gastoconsumo = 1 + 2 ingreso + 3 riqueza + u

Donde:
gastoconsu mo , es la variable dependiente que representa el gasto de consumo

familiar semanal.
ingreso , es la variable independiente que representa el ingreso semanal familiar.

riqueza , es la variable independiente que representa la riqueza de la familia.
35
Salida en Stata: reg gastoconsumo ingreso riqueza
Source |
SS
df
MS
Number of obs =
-------------+-----------------------------Model |
8565.55407
4282.77704
Residual |
324.445926
46.349418
F(
-------------+-----------------------------Total |
8890
987.777778
2,
10
7) =
92.40
Prob > F
0.0000
R-squared
0.9635
Adj R-squared =
0.9531
Root MSE
6.808
-----------------------------------------------------------------------------gastoconsumo |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------ingreso |
.9415373
.8228983
1.14
0.290
-1.004308
2.887383
riqueza |
-.0424345
.0806645
-0.53
0.615
-.2331757
.1483067
_cons |
24.77473
6.7525
3.67
0.008
8.807609
40.74186
------------------------------------------------------------------------------
Teniendo en cuenta las estimaciones anteriores, procedemos a identificar si existe en este

caso colinealidad entre las variables ingreso y riqueza . Para ello, tendremos en cuenta
cada uno de los puntos mencionados para detectar la multicolinealidad.
1.
De la regresin anterior se observa que las variables ingreso y riqueza explican
en un 96% los gastos en consumo semanal familiar (puesto que el R 2 = 0.9635 ).

Tambin se evidencia que el valor del estadstico F = 92.40 , es alto, lo cual indica que
cae en la zona de rechazo, indicando que el modelo es globalmente significativo.
Sin embargo, ninguno de los coeficientes de las pendientes es estadsticamente
significativo, lo cual indica que dichas variables estn altamente correlacionadas y es
imposible aislar el impacto individual del ingreso o la riqueza sobre el consumo. Asimismo,
el signo de la variable riqueza no es el esperado (se espera que la relacin sea positiva).
2.
Al obtener la matriz de correlacin de las variables:
Matriz de correlacin: cor gastoconsumo ingreso riqueza
36
| gastoc~o
ingreso
riqueza
-------------+--------------------------gastoconsumo |
1.0000
ingreso |
0.9808
1.0000
riqueza |
0.9781
0.9990
1.0000
Se muestra que el coeficiente de correlacin entre la variable ingreso y riqueza es

bastante alto (0.9990) cercano al 1. Como se haba mencionado antes, si el coeficiente
era mayor a 0.8, se evidencia un problema de colinealidad entre dichas variables. La
correlacin es positiva, a medida que aumenta el ingreso, aumenta la riqueza.
3.
Realicemos la siguiente regresin auxiliar:
ingreso = 1 + 2 riqueza + u
Salidad en Stata: reg ingreso riqueza
Source |
SS
df
MS
Number of obs =
-------------+------------------------------
F(
1,
10
8) = 3849.02
Model |
32931.5534
32931.5534
Prob > F
0.0000
Residual |
68.4466181
8.55582726
R-squared
0.9979
Adj R-squared =
0.9977
-------------+-----------------------------Total |
33000
3666.66667
Root MSE
2.925
-----------------------------------------------------------------------------ingreso |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------riqueza |
.0979231
.0015784
62.04
0.000
.0942834
.1015629
_cons |
-.3862708
2.897956
-0.13
0.897
-7.068968
6.296427
------------------------------------------------------------------------------
La salida muestra que existe colinealidad casi perfecta entre las variables
ingreso y
riqueza . Asimismo, si realizamos la regla prctica de Klien, al comparar el R 2 obtenido

en la regresin auxiliar y el R 2 global, se tiene que el primero (0.9979) es mayor que el
segundo (0.9635); por tanto, hay un serio problema de colinealidad.
37
4.
Calculemos el FIV y la tolerancia :
FIV =
1
1
=
= 333,33
2
1 R j 1 0.9970
Como el FIV > 10 , se demuestra colinealidad nuevamente.

Ahora estimamos la tolerancia :
Tolerancia = (1 R 2j ) = 1 .9970 = 0.003

Como la tolerancia esta cercana a cero, se puede decir que hay colinealidad casi perfecta
entre el ingreso y la riqueza .
Medidas Remdiales
Teniendo en cuenta nuevamente que la multicolinealidad es esencialmente un problema
muestral, no hay un mtodo especifico. Sin embargo, existen algunas reglas prcticas,
que son:
1.
Eliminacin de una(s) variable(s) y el sesgo de especificacin: Una de las
soluciones ms simples para solucionar el problema de la multicolinealidad es la
eliminacin de una de las variables que causa este tipo de violacin de los supuestos.
Sin embargo, se debe tener en cuenta no caer en el sesgo de especificacin del modelo,
con el fin de no violar otro de los supuestos del modelo de regresin clsico (sesgo de
especificacin). Para esto, es importante tener en cuenta que dice la teora econmica
con respecto a la explicacin de la variable dependiente.
Por ejemplo, retomando el modelo de regresin:

En donde se evidenci la presencia de la colinealidad entre variables ingreso y riqueza ,
se procede a eliminar en primera instancia la variable riqueza .
38
Salida en Stata: reg gastoconsumo ingreso
Source |
SS
df
MS
Number of obs =
-------------+------------------------------
F(
1,
10
8) =
202.87
Model |
8552.72727
8552.72727
Prob > F
0.0000
Residual |
337.272727
42.1590909
R-squared
0.9621
Adj R-squared =
0.9573
-------------+-----------------------------Total |
8890
987.777778
Root MSE
6.493
-----------------------------------------------------------------------------gastoconsumo |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------ingreso |
.5090909
.0357428
14.24
0.000
.4266678
.591514
_cons |
24.45455
6.413817
3.81
0.005
9.664256
39.24483
------------------------------------------------------------------------------
Se observa que ahora la variable ingreso es estadsticamente significativa.

Ahora, estimaremos el gasto del consumo familiar en funcin de la riqueza , es decir,
eliminamos la variable ingreso .
Salida en Stata: reg gastoconsumo riqueza
Source |
SS
df
MS
Number of obs =
-------------+------------------------------
F(
1,
10
8) =
176.67
Model |
8504.87666
8504.87666
Prob > F
0.0000
Residual |
385.123344
48.1404181
R-squared
0.9567
Adj R-squared =
0.9513
Root MSE
6.9383
-------------+-----------------------------Total |
8890
987.777778
-----------------------------------------------------------------------------gastoconsumo |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------riqueza |
.0497638
.003744
13.29
0.000
.0411301
.0583974
_cons |
24.41104
6.874097
3.55
0.007
8.559349
40.26274
------------------------------------------------------------------------------
39
Se evidencia que la variable riqueza ahora es altamente significativa.

Sin embargo, como se menciono anteriormente, es importante tener claro lo que dice la
teora econmica, con el fin de no caer en el sesgo de especificacin del modelo.
2.
Informacin a priori: La informacin a priori puede provenir de trabajo emprico que
se haya realizado con anterioridad. Continuando con el ejemplo del gasto en el consumo
familiar, se podra tener informacin a priori que 3 = 0.1 2 , es decir, que la tasa de
consumo con respecto a la riqueza es una dcima parte de la correspondiente con
respecto al ingreso.
Teniendo en cuenta lo anterior se tiene que:

gastoconsumo = 1 + 2 ingreso + 0.1 2 riqueza + u
gastoconsumo = 1 + 2 X + u
Donde: X = (ingreso + 0.1riqueza)
Generamos la variable X: gen X= ingreso+0.1*riqueza
Ahora estimamos el modelo.
Salida es Stata: reg gastoconsumo X
Source |
SS
df
MS
Number of obs =
-------------+------------------------------
F(
Model
8532.97312
8532.97312
Residual
357.026877
44.6283596
8) =
191.20
Prob > F
0.0000
R-squared
0.9598
-------------+------------------------------
Adj R-squared =
0.9548
Total |
Root MSE
6.6804
8890
987.777778
1,
10
-----------------------------------------------------------------------------gastoconsumo |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------X
.2517807
.0182086
13.83
0.000
.2097915
.2937699
_cons
24.38745
6.610424
3.69
0.006
9.14378
39.63111
------------------------------------------------------------------------------
40
Se observa que el beta que acompaa la variable X , es altamente significativo. Como

sabemos el valor de 2 , se puede estimar 3 , a partir de la relacin postulada a priori.
Por tanto, 3 = 0.1(0.25) = 0,02517
3.
Transformacin de las variables: En ocasiones, se pueden realizar transformacin
de las variables, con el fin de evitar la colinealidad. Por ejemplo, se podra estimar un
modelo donde una de las variables que causan la colinealidad este en logaritmo.
4.
Datos nuevos o adicionales: Teniendo en cuenta que la multicolinealidad es de la
muestra, se puede pensar que tomando una nueva muestra de las mismas variables, o
ampliando el tamao de la misma, se puede atenuar el problema de la colinealidad.
41
HETEROCEDASTICIDAD
El modelo de regresin lineal mltiple exige que la varianza condicional de las
perturbaciones aleatorias a los valores de la variable explicativas X sea constante:
Homocedasticidad: E ( Ui 2 ) = 2
Heterocedasticidad: E ( Ui 2 ) 2
Las fuentes de la Heterocedasticidad se puede atribuir a:
Factores exclusivos de la regresin.
Errores de explicacin del modelo.
Irregularidad en la distribucin de las variables.
Errnea transformacin de la forma funcional del modelo
Las propiedades que tienen los estimadores se enumeran a continuacin.

1. Los estimadores siguen siendo INSESGADOSE () =
Insesgamiento.
Condicin de
2. Los estimadores siguen siendo CONSISTENTES.

3. La propiedad de Consistencia es de las muestras grandes y consiste en que la
Varianza de tiende a cero cuando n tiende a . Bajo el supuesto de
heterocedasticidad se sigue cumpliendo.
4. Los estimadores dejan de ser EFICIENTES ya que no son los de minina varianza.
5. Las varianzas y covarianzas de los estimadores de MCO son SESGADAS e
INCONSISTENTES. Por este motivo los test de hiptesis ya no son vlidos.
Como detectar la Heterocedasticidad:
Es imposible encontrar la presencia de heterocedasticidad ya que, en la mayora de los
anlisis regresiones mltiples, slo dispondremos de un valor de Y para cada valor de
X por lo que se obtiene que resulta imposible observar si la varianza de las U para
cada valor de X es la misma.
Existe un comando en el paquete STATA, en cual colocamos el comando

hettest, por medio de este comando se prentende aceptar la hiptesis nula.
42
Heterocedasticidad PRETENDE ACEPTAR Ho

P valor > () significanca.
H0 = 2 = 2
No rechazo o acepto la hiptesis nula y

rechazo la hiptesis alternativa.
Lo que quiero es que pase.
H A = 2 2 P valor < () significanca.
Existe una metodologa a travs de los grficos, la cual consiste en hacer una
regresin bajo el supuesto de la homocedasticidad y luego examinar los errores
u con la variables regresoras y observamos comportamiento de los grficos.
TEST DE GOLDFELD-QUANT: Se basa en la idea que si la varianza de los

errores es igual a travs de todas las observaciones, entonces la varianza para
una parte de la muestra ser la misma que la calculada con otra parte de la
misma.
1. Se identifica una variable Z relacionada con la varianza de los errores. Si

suponemos que la relacin es POSITIVA, ordenamos de manera creciente los
datos de la muestra.
2. Dividimos la muestra en 2 partes omitiendo los valores centrales.
3. Estimamos las regresiones por separado.
4. Obtenemos SEC de cada una de las regresiones y calculamos las estimaciones de
la varianza como SEC1/n1-k y SEC2/n2-k.
5. Calculamos Fcalc = SEC1/n-k
SEC2/n-k
5. Comparamos Fcalc con el valor F tabla con (n1-K) GL numerador y (n2-K) GL
denominador.
6. Si Fcalc > Ftabla rechazo Ho de Homocedasticidad.
El xito depende de este Test es seleccionando correctamente la X.
43
TEST DE WHITE: Tambin es un test para muestras grandes no necesita

ningn supuesto previo acerca de las causas de la heterocedasticidad.
1. Estimamos el modelo por MCO.

2. Calculamos U2i (estimado).
3. Estimamos un modelo de regresin utilizando U2i (estimado) como variable
dependiente sobre las X originales , las X y los productos cruzados.
4. Calculamos R2 para la regresin y n.R2.
5.
Ho 2 = 3 =. ... = 0
H1: al menos una # 0
Si n R2 > 2 (k-1),
Rechazo Ho y tengo Heterocedasticidad.
Soluciones a la Heterocedasticidad
Mnimos Cuadrados Generalizados : Consiste en dividir cada trmino por i.
Modelo transformado
Y1/i. = 1X1/i. + 2X2/i. + ....
Este modelo satisface los supuestos de MCO, pero se puede presentar el inconveniente
de no conocer i.
Mnimos Cuadrados Ponderados: es una extensin del MCG.
Definimos w1= 1/ i. Y transformando el modelo nos queda
Y1W1. = 1(X1W1). + 2(X2W1). + .. (UiW1)
En este modelo transformado cada observacin de la variable est ponderada por W1
(inversamente proporcional a i)
Conocemos la estructura de la Heterocedasticidad.
Suponemos Var(Ui) = 2. Z2 ( se denomina Heterocedasticidad Multiplicativa) W = 1/Z ....
Nos queda el modelo transformado.
La Var (Ui transformado) = 2.(porque se nos elimina Z2) , de esta manera nos queda un
modelo Homocedastico.
44
AUTOCORRELACION
La autocorrelacin se puede definir como la correlacin entre miembros de series de
observaciones ordenadas en el tiempo (informacin de series de tiempo) o en el espacio
(informacin de corte de transversal). El modelo de regresin lineal supone que no debe
existir autocorrelacin en los errores (u i ) , es decir, el trmino de perturbacin relacionado
con una observacin cualquiera no debera estar influenciado por el trmino de
perturbacin relacionado con cualquier otra observacin.
E (u i u j ) = 0 para todo i j
Causas de la Autocorrelacin
Algunas de las causas son las siguientes6:
Trabajo con datos de serie temporal: cuando se trabaja con datos de corte longitudinal
(p.e.: una variable explicativa cuyas observaciones correspondan a valores
obtenidos en instantes temporales sucesivos), resulta bastante frecuente que el trmino
de perturbacin en un instante dado siga una tendencia marcada por los trminos de
perturbacin asociados a instantes anteriores. Este hecho da lugar a la aparicin de
autocorrelacin en el modelo.
Especificacin errnea en la parte determinista del modelo (autocorrelacin
espuria):
1.
Omisin de variables relevantes: en tal caso, las variables omitidas pasan a formar
parte del trmino de error y, por tanto, si hay correlacin entre distintas observaciones de
las variables omitidas, tambin la habr entre distintos valores de los trminos de
perturbacin.
2.
Especificacin incorrecta de la forma funcional del modelo: si usamos un modelo
inadecuado para describir las observaciones (p.e.: un modelo lineal cuando en realidad se
debera usar un modelo cuadrtico), notaremos que los residuos muestran
comportamientos no aleatorios (i.e.: estn correlacionados).
Transformaciones de los datos: determinadas transformaciones del modelo original
podran causar la aparicin de autocorrelacin en el trmino de perturbacin del modelo
transformado (incluso cuando el modelo original no presentase problemas de
autocorrelacin).
Trabajo con modelos dinmicos: cuando se trabaja con series temporales suele ser
habitual considerar modelos de regresin que incluyan no slo los valores actuales sino
tambin los valores retardados (pasados) de las variables explicativas. Es el caso de un
modelo de retardos distribuidos de orden s o RD(s):
Yt = + 0 X t + 1 X t 1 + 2 X t 2 + ... + s X t s + u t
6
Novales, A. (1993): Econometra. McGraw-Hill. ISBN 84-481-0128-6
45
Otro tipo de modelo dinmico que presentara problemas de autocorrelacin sera aquel
que incluyese entre sus variables explicativas uno o ms valores retardados de la variable
dependiente. Este otro tipo de modelo dinmico se conoce como modelo autorregresivo
de orden s o AR(s):
Yt = + 0 X t + 1Yt 1 + 2Yt 2 + ... + s Yt s + u t

Otra causa comn de la autocorrelacin es la existencia de tendencias y ciclos en los
datos. Es decir, la mayora de las variables econmicas no son estacionarias en media.
Esto significa que si la variable endgena del modelo tiene una tendencia creciente o
presenta un comportamiento cclico que no es explicado por las exgenas, el trmino de
error recoger ese ciclo o tendencia.
Consecuencias de la Autocorrelacin:
La consecuencia ms grave de la autocorrelacin de las perturbaciones es que la
estimacin MCO deja de ser eficiente y la inferencia estadstica tambin se ver afectada.
Las consecuencias dependen del tipo de autocorrelacin (positiva o negativa):
1.
Cuando se tiene autocorrelacin positiva, la matriz de varianza y covarianza de

los residuos esta subestimada, si el tipo de autocorrelacin es negativa, se
tiene una sobrestimacin de la misma.
2.
Cuando se tiene autocorrelacin positiva, la matriz de varianza y covarianza de

los coeficientes (betas) esta subestimada, si el tipo de autocorrelacin es
negativa, se tiene una sobrestimacin de la misma.
3.
Cuando se tiene autocorrelacin positiva, los intervalos de confianza son

angostos, si el tipo de autocorrelacin es negativa, se tienen intervalos de
confianza ms amplios.
4.
Cuando se tiene autocorrelacin positiva, se tiende a cometer error tipo I

(rechazar la hiptesis nula cuando es verdadera), si el tipo de autocorrelacin
es negativa, se tiende a cometer error tipo II (no rechazar la hiptesis nula
cuando es falsa).
5.
Los MCO son lineales, insesgados, pero ineficientes (no tienen varianza
mnima).
6.
Las pruebas t y F pierden validez.
Deteccin de la Autocorrelacin:
Para analizar la posible presencia de autocorrelacin en el modelo se suele recurrir a dos
tcnicas complementarias: (1) el anlisis grfico de los residuos (obtenidos al realizar la
46
regresin por MCO), y (2) los contrastes de hiptesis especficos (test de Durbin-Watson,
test h de Durbin, test de Breusch-Godfrey, test Q de Box-Pierce, etc.).
Anlisis Grfico:
Al realizar la regresin por MCO, se pueden graficar los residuos (o, alternativamente, los
residuos estandarizados, es simplemente dividir u t por el error estandar de la estimacin
) frente al tiempo. Dado que los residuos MCO son estimadores consistentes de los
trminos de perturbacin, si se aprecian en el grfico anterior patrones de
comportamiento sistemtico (no aleatorio) podremos afirmar que los trminos de
perturbacin presentan algn tipo de autocorrelacin.
Contrastes:
Test de Durbin-Watson
Es la prueba mas conocida para detectar correlacin serial; permite contrastar si el
trmino de perturbacin est autocorrelacionado. Dicha prueba presenta algunos
supuestos:
Es vlido para autocorrelacin serial de 1 orden en los residuos, no aplica para modelos
con variable dependiente rezagada como variable explicativa, las variables explicativas
son no estocsticas (son fijas en muestreo repetido), el modelo de regresin lineal debe
incluir el intercepto, y no hay observaciones faltantes en los datos.
d=
(u u
u
t
t 1
)2
2
t
2(1 )
Una vez hallado DW, es posible usar su valor para estimar el coeficiente de
autocorrelacin simple mediante la expresin:
d
2
El estadstico DW es un valor comprendido entre 0 y 4. Como se observa en el siguiente

grfico, para valores de DW cercanos a 2 no rechazaremos la hiptesis nula, por el
contrario, para valores de DW alejados de 2, s rechazaremos la hiptesis nula
Tabla de decisin:
47
0 < d < d L , se rechaza H 0 , existe autocorrelacin positiva.

4 d L < d < 4 , se rechaza H 0 , existe autocorrelacin negativa.
d u < d < 4 d u , no se rechaza H 0 , no existe autocorrelacin.

d L < d < d u o 4 d u < d < 4 d L , el contraste no es concluyente.
Los pasos a seguir de este contraste son:
1. Estimacin por mnimos cuadrados ordinarios (MCO) del modelo de regresin.
2. Clculo de los residuos MCO.
3. Obtencin del estadstico d (experimental) de Durbin-Watson.
4. Bsqueda de los niveles crticos del contraste.
5. Aplicacin de la regla de decisin.
Un inconveniente que presenta este contraste es que a veces puede no ser concluyente,
por lo que hay que considerar, utilizando otros criterios, si existe o no autocorrelacin.
Ejemplo en Stata:
Se trabajara con la base de datos PHILLIPS.DTA, la cual contiene las siguientes
variables:
year , indica el ao.

inf , es la tasa de inflacin.
unem , es la tasa de desempleo.
Con el fin de realizar estimaciones de series de tiempo en Stata, es importante escribir el
siguiente comando:
tsset year
Donde year es la variable que contiene los aos.
Automticamente el sistema reconoce la serie de tiempo, y muestra:
48
time variable:
year, 1948 to 1996
Salida en Stata: reg
Source |
inf unem
SS
df
MS
Number of obs =
-------------+------------------------------
F(
1,
49
47) =
2.62
Model |
25.6369575
25.6369575
Prob > F
0.1125
Residual |
460.61979
47
9.80042107
R-squared
0.0527
Adj R-squared =
0.0326
Root MSE
3.1306
-------------+-----------------------------Total |
486.256748
48
10.1303489
-----------------------------------------------------------------------------inf |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------unem |
.4676257
.2891262
1.62
0.112
-.1140213
1.049273
_cons |
1.42361
1.719015
0.83
0.412
-2.034602
4.881822
------------------------------------------------------------------------------
Una vez estimada la regresin, se procede a ejecutar el siguiente comando con el cual se
obtiene el estadstico Durbin-Watson:
estat dwatson o dwstat

Durbin-Watson d-statistic(
2,
49) =
.8027005
Si se quiere estimar el Durbin-Watson por las ventanas en Stata 9, la ruta a seguir es:
Statistics/time-series/tests/time series epecification tests after regress
Automticamente se despliega el siguiente recuadro, en donde se muestra la opcin a
seleccionar, y le damos OK.
49
La ruta a seguir en Stata 8.2 es:

Statistics/time-series/tests/Durbin-Watson d statistics after regress
Teniendo en cuenta que DW es 0.8027, grficamente se tiene:
50
Por tanto se rechaza la hiptesis nula, hay autocorrelacin.

Prueba de Breusch Godfrey (BG) sobre autocorrelacin de orden superior
Este estadstico es muy sencillo de calcular y resuelve los problemas del contraste de
Durbin-Watson; por ejemplo, los regresores incluidos en el modelo pueden contener
valores rezagados de la variable dependiente, es decir, Yt 1 , Yt 2 , etc. Pueden aparecer
como variables explicativas.
Supngase que el termino de perturbacin u t es generado por el siguiente esquema
autorregresivo de orden p :
u t = 1u t 1 + 2 u t 2 + ... + p u t p + t
Donde t es un trmino de perturbacin puramente aleatorio con media cero y varianza
constante.
Dado el modelo anterior, la hiptesis ser:
H 0 : 1 = 1 = ... = p = 0 No hay autocorrelacin de ningn orden.

Ha :
Hay
autocorrelacion
Dicha hiptesis puede ser probada de la siguiente manera:

1. Estimacin por MCO del modelo de regresin y obtencin de los residuos MCO
(u t ) .
2. Estimacin de una regresin auxiliar de los residuos ut sobre p retardos de los
mismos, u t 1 , u t 2 ,..., u t p .
2
3. Obtencin del coeficiente de determinacin ( R 2 ) de la regresin auxiliar ( Raux
).
4. Si el tamao de la muestra es grande, Breusch y Golfrey han demostrado que:

2
se distribuye con 2 con p g.l.
(n p) * Raux
51
5. Si el valor calculado excede el valor critico de 2 al nivel de significancia seleccionado,

se puede rechazar la hiptesis nula, en cuyo caso, por lo menos un es
significativamente diferente de cero (se admite que hay autocorrelacin), en caso
contrario no habra autocorrelacin.
Ejemplo en Stata:
El comando a ejecutar es:
estat bgodfrey o bgodfrey
Breusch-Godfrey LM test for autocorrelation

--------------------------------------------------------------------------lags(p)
chi2
df
Prob > chi2
-------------+------------------------------------------------------------1
18.472
0.0000
--------------------------------------------------------------------------H0: no serial correlation
De acuerdo a la salida anterior, se puede observar que el p-valor asociado al 2 es

0.000, lo cual confirma la presencia de autocorrelacin.
Si se quiere estimar la prueba Breusch Godfrey por las ventanas en Stata 9, la ruta a
seguir es:
Statistics/time-series/tests/time series epecification tests after regress
utomticamente se despliega el siguiente recuadro, en donde se muestra la opcin a
52
La ruta a seguir en Stata 8.2 es:
Statistics/time-series/tests/Breusch-Godfrey LM test for autocorrelation

53
Como solucionar la autocorrelacin

Cuando 1
d
es conocido:
2
1. se tiene:
Yt = 1 + 2 X t + u t
(a)
Yt 1 = 1 + 2 X t 1 + u t 1
(b)
2. Multiplico (b) por , y se tiene:
Yt 1 = 1 + 2 X t 1 + u t 1
(c)
4. Se resta (a)-(c):
5. Yt Yt 1 = 1 1 + 2 X t 2 X t 1 + u t u t 1
Yt Yt 1 = 1 (1 ) + 2 ( X t X t 1 ) + (u t u t 1 )
Yt Yt 1 = 1 (1 ) + 2 ( X t X t 1 ) + t
(d)
Donde t = (u t u t 1 )
6. Estimo (d) por MCO.
Cuando desconocida:
Se utiliza en algoritmo de Cochrane Orcutt: Considrese el siguiente modelo:
Yt = 1 + 2 X t + u t
(e)
Y supngase que u t , es generado por el esquema AR(1):
u t = u t 1 + t
Cochrane Orcutt recomienda realizar los siguientes pasos:
1.
Estimar (e) por MCO y se obtener u t .
2.
Utilizando los residuos estimados u t , realizo las siguiente regresin:
u t = u t 1 + t
3.
4.
5.
(f)
Utilizando obtenido en la regresin anterior, efectese la ecuacin en

diferencia planteada en (d) por MCO.
Obtengo los i y los sustituyo en (a).
Se estima nuevamente:
54
u t = u t 1 + wt ; donde es la estimacin de de (f).

6.
Se continan haciendo estimaciones, y se suspenden las iteraciones cuando

las estimaciones consecutivas de difieren en una cantidad muy pequea, es
decir, en menos de 0.01 o 0.05.
Ejemplo en Stata:
Para ejecutar el algoritmo de Cochrane Orcutt en Stat por comando, se escribe:
prais inf unem, corc
Iteration 0:
rho = 0.0000
Iteration 1:
rho = 0.5727
Iteration 2:
rho = 0.7160
Iteration 3:
rho = 0.7611
Iteration 4:
rho = 0.7715
Iteration 5:
rho = 0.7735
Iteration 6:
rho = 0.7740
Iteration 7:
rho = 0.7740
Iteration 8:
rho = 0.7740
Iteration 9:
rho = 0.7741
Iteration 10:
rho = 0.7741
Cochrane-Orcutt AR(1) regression -- iterated estimates
Source |
SS
df
MS
Number of obs =
-------------+------------------------------
F(
1,
48
46) =
4.33
Model |
22.4790685
22.4790685
Prob > F
0.0430
Residual |
238.604008
46
5.18704365
R-squared
0.0861
Adj R-squared =
0.0662
Root MSE
2.2775
-------------+-----------------------------Total |
261.083076
47
5.55495907
-----------------------------------------------------------------------------inf |
Coef.
Std. Err.
P>|t|
-------------+----------------------------------------------------------------
55
unem |
-.6653356
.3196035
-2.08
0.043
-1.308664
-.0220071
_cons |
7.583458
2.38053
3.19
0.003
2.7917
12.37522
-------------+---------------------------------------------------------------rho |
.7740512
-----------------------------------------------------------------------------Durbin-Watson statistic (original)
0.802700
Durbin-Watson statistic (transformed) 1.593634
En la salida anterior, se puede observar el numero de iteraciones que realiz el

algoritmo (en este caso fueron 10), la regresin transformada, y el DW del modelo
original y el DW del modelo corregido. Se puede concluir, con el nuevo DW=1.59, que
ya no existe autocorrelacin, pues dicho valor se encuentra muy cerca de 2.
Grficamente se tiene:
Si se quiere ejecutar el algoritmo por las ventanas en Stata, la ruta a seguir es:
Statistics/time-series/tests/prais-winsten regression
Automticamente se despliega el siguiente recuadro, en donde se selecciona la variable
dependiente y las independientes, seleccionamos Corchrane-Orcutt transformation, y le
damos OK.
56
APLICACIN DE MODELO LOGISTICOS EN SPSS 11.0

a. Entrar al paquete estadstico SPSS
Automticamente el sistema muestra una pantalla de opciones de entrada. Se debe
seleccionar Abrir una fuente de datos existente y aceptar. El sistema abre la
pantalla de bsqueda de archivos. En el men opciones se debe seleccionar Todos
los archivos. Se elige el archivo de Excel (Base de datos de los clientes) y se pulsa
aceptar. (El archivo debe estar cerrado en Excel)
Automticamente, el sistema importa el archivo a la plantilla de SPSS, como se muestra a

continuacin:
57
b. Verificacin del cargue de la informacin del archivo plano a SPSS.

El usuario debe verificar que la informacin cargada esta completa; para esto se debe
entrar a la hoja de SPSS vista de variables y revisar que en la columna tipo, todos
los datos aparezcan como numrico.
Si algn dato aparece con otro nombre, es porque hay errores en el archivo de Excel,
por tanto hay que corregirlos y cargar el archivo nuevamente.
58
c. Generacin del STEWISE o proceso Paso a Paso

El siguiente paso al cargue de informacin, es entrar a validar cuales variables, de todas
las seleccionadas en la base de datos, son significativas. Para esto se va a utilizar la
metodologa STEPWISE, bajo la cual el sistema toma variable por variable y evala si es
significativa, de no serlo la saca del modelo.
Para generar el Stepwise en SPSS el usuario debe entrar por el men de la parte superior
Analizar a la opcin Regresin logstica binaria, la cual corresponde a los modelos tipo
LOGIT
59
Generacin STEPWISE
60
Automticamente el sistema muestra una pantalla donde aparecen al lado derecho el

listado de las variables del modelo definidas en el archivo de excel que se cargo en el
sistema. Al lado izquierdo aparecen unos campos en blanco, en donde el usuario debe
definirle al sistema cuales variables son independientes (covariables) y cual es la variable
dependiente.
Las variables independientes son: Los indicadores financieros, las variables dummies y
las variables combinadas. La variable dependiente es el indicador de Default. Se
seleccionan las variables independientes y con la tecla con le signo flecha a la derecha
las paso al campo de las variables covariables y luego se selecciona la variable Default y
se pasa al otro lado l item dependiente.
El mtodo que se debe utilizar para la seleccin de variables es Adelante condicional.
Stepwise
A continuacin se muestra la pantalla de registro de informacin, la cual incluye las
opciones anteriormente descritas.
El indicador de desempeo de los modelos que se va a utilizar es la Prueba de HosmerLemeshow. El usuario debe entrar por el men opciones y seleccionar la prueba de
Hosmer Lemeshow. Adicionalmente, en la seccin probabilidad para pasos se debe
digitar en el campo entrada: 0.25 y en el campo salida 0.10, y pulsar continuar.
Posteriormente, se debe pulsar aceptar.
61
Automticamente el SPSS genera el reporte de Stepwise, el cual incluye los mejores

modelos calculados por el sistema, los cuales estn basados en los parmetros
predefinidos por el usuario.
El parmetro utilizado para la seleccin del modelo de medicin de riesgo de crdito es el
indicador de HOSMER LEMESHOW.
Se debe elegir el modelo (Paso) con mayor Hosmer Lemeshow. La siguiente tabla
muestra la prueba de Hosmer Lemeshow para cada paso o modelo generado por el
sistema.
Prueba de Hosmer y Lemeshow
PASO
2
3
4
Chi-cuadrado
0,1
5,45
10,67
gl
1
6
7
Sig
0,87
0,456
0,67
De acuerdo con la tabla, el mejor modelo corresponde al paso 2, donde el HosmerLemeshow es de 0,87.
62
Ahora que se tiene el paso o modelo se debe ver que variables lo definieron Se debe
buscar la siguiente tabla:
Variables en la ecuacing
Paso
a
1
Paso
b
2
Paso
c
3
Paso
d
4
D5ROTACT
Constante
D5ROTACT
D11MGNET
Constante
C1PACID
D5ROTACT
D11MGNET
Constante
VTAS_ACT
C1PACID
D5ROTACT
D11MGNET
Constante
B
1,416
-1,194
1,551
,659
E.T.
,375
,361
,383
,209
Wald
14,222
10,939
16,409
9,952
-1,576
,387
,779
1,540
,630
-1,750
,003
,802
1,652
,616
-1,866
,323
,386
,211
,398
,004
,324
,401
,211
,413
gl
1
1
1
1
Sig.
,000
,001
,000
,002
Exp(B)
4,120
,303
4,717
1,934
16,586
,000
,207
5,818
15,945
8,928
19,346
,471
6,122
17,001
8,513
20,373
1
1
1
1
1
1
1
1
1
,016
,000
,003
,000
,492
,013
,000
,004
,000
2,180
4,665
1,877
,174
1,003
2,229
5,217
1,852
,155
Para elegir el mejor modelo, es necesario SELECCIONAR LOS DOS MEJORES

MODELOS ARROJADOS POR EL STEPWISE Y correr cada modelo en SPSS bajo la
metodologa de regresin logstica binaria por el mtodo de introducir.
El paso 2 o modelo 2 esta dado por las variables: D5ROTACT y D11MGNET.
Seleccin del modelo y calculo de las Probabilidades de Incumplimiento
Ahora que se conoce el modelo, se debe correr nicamente este, bajo la metodologa
Logit por el mtodo Introducir como se muestra a continuacin.
Se deben seguir los siguientes pasos:
a. Entrar por el men analizar a la opcin Regresin logstica, que corresponde a
los modelos tipo LOGIT
b. Seleccionar el mtodo introducir
c. En el men Guardarse debe seleccionar Probabilidades y luego pulsar
Continuar
63
d. En el men opciones se debe seleccionar Prueba de Hosmer y Lemeshow.

Adicionalmente, en la seccin Probabilidades en datos en entrada se debe digitar
0.05 y en salida 1.00. Las dems opciones se deben dejar como aparecen
inicialmente en el sistema.
e.
64
f.
Pulsar continuar y luego aceptar
De esta forma el sistema procesa la informacin, genera el reporte del modelo. Con los
resultados se debe evaluar la significancia individual de las variables, es decir, si las
variables son significativas.
Calculo de la Probabilidad de incumplimiento

El calculo de la probabilidad de incumplimiento de un modelo de tipo LOGIT esta dada
por la siguiente ecuacin:
eZ
F (Z ) =
1+ eZ
Donde: F(z) es la variable dependiente en funcin de la Z. F(z) es la Probabilidad de
incumplimiento.
Z: Es la ecuacin que representa la combinacin de variables independientes que
permiten explicar la probabilidad de incumplimiento.
Z esta dado por
Z = Bo + B1X1 + B2X2.......+ BnXn.
Los betas Bo, B1.Bn, representan la ponderacin de cada variable dentro del modelo.
SPSS calcula las probabilidades de incumplimiento (PI) de los clientes que pertenecen a
la muestra del modelo. Para los dems clientes , que no pertenecen a la base de datos,
es necesario aplicar la formula de F(Z) o probabilidad de incumplimiento de forma manual
o a travs de un archivo de excel.
65
Calculo de la probabilidad de incumplimiento en SPSS.

En el momento en que se corre la regresin logstica bajo la metodologa de introducir, el
sistema calcula las probabilidades de incumplimiento y las reporta en la columna final de
la plantilla de captura de informacin. En la ventana Editor de datos SPSS aparecen las
variables, la ultima columna pre_1 hace referencia a las probabilidades de
incumplimiento calculadas con base en el modelo seleccionado.
A continuacin se muestra un ejemplo:
Hoja Datos del SPSS. Columna final.
66
BIBLIOGRAFIA
MADDALA, G. S. (1996) Introduccin a la econometra. Ed. Prentice-Hall Hispano

Americana S.A. Mexico.
NOVALES, A. (1993) Econometra, 2a Edicin. Ed. McGraw-Hill. Madrid.
JOHNSTON, J. (1987) Mtodos de econometra. Barcelona: Vicens Vices.
PINDYCK, R. S. y D. L. RUBINFELD (2001) Econometra. Modelos y pronsticos.

Mxico: McGrawHill.
JUDGE, G. G., R. C. HILL, W. E. GRIFFITHS, H. LTKEPOHL y T. C. LEE (1988)

Introduction to the Theory and Practice of Econometrics. New York: John Wiley &
Sons.
GREENE, W. H. (1999) Anlisis economtrico. Madrid: Prentice Hall.
PENA, B., J. ESTAVILLO, M. E. GALINDO, M. J. LECETA y M. M. ZAMORA

(1999) Cien ejercicios de econometra. Madrid: Pirmide.
67

Regresion Lineal

Cargado por

Información del documentohacer clic para expandir la información del documento

Copyright:

Formatos disponibles

Regresion Lineal

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresion Lineal

Cargado por

Copyright:

Formatos disponibles

MANUAL DE APLICACIN DEL MODELO DE REGRESIN LINEAL MULTIPLE

MANUAL DE APLICACIN DEL MODELO

MANUAL DE APLICACIN DEL MODELO DE REGRESIN LINEAL MULTIPLE

MODELO DE REGRESION LINEAL MULTIPLE..................................................... 3

MANUAL DE APLICACIN DEL MODELO DE REGRESIN LINEAL MULTIPLE

MODELO DE REGRESION LINEAL MULTIPLE

Para este modelo se definen dos ecuaciones:

Esta funcin va ser llamada la regresin poblacional

Existen dos razones para aplicar la regresin mltiple:

Explicativa: A travs de este modelo la variable explicada y se pueden medir los

MANUAL DE APLICACIN DEL MODELO DE REGRESIN LINEAL MULTIPLE

Bajo el enfoque matricial:

Criterio del Mininos Cuadrados Ordinarios:

= Y 'Y ' ( X ' X ) = Y 'Y Y 'Y

Etapas para realizar una regresin Lineal Mltiple

Seccin Cruzada: cuando los datos se toman en un momento en el tiempo,

MANUAL DE APLICACIN DEL MODELO DE REGRESIN LINEAL MULTIPLE

Combinaciones datos seccin Cruzada: Se refiere cuando los datos tienen

5. Estimacin del modelo: Se calcula el modelo en el paquete estadsticos, entre los

SUPESTOS DE MINIMOS CUADRADOS ORDINARIOS.

4. No hay autocorrelaciones en los errores, es decir que la esperanza de la

Var (u) = 2 I nxn

MANUAL DE APLICACIN DEL MODELO DE REGRESIN LINEAL MULTIPLE

7. No hay relacin lineal perfecta entre las variables explicativas.

y ) 1; Sumatoria de los cuadrados totales.

2.- Variabilidad explicada: SCE =

y i y Sumatoria de los cuadrados de

Sumatoria de los cuadrados de la

coeficiente de determinacin r para la regresin lineal simple y el R para la regresin

nmero de regresores, el R aumenta. Es por esto que al comparar dos modelos de

La Y barra se refiere al promedio ponderado de la variable explicada.

MANUAL DE APLICACIN DEL MODELO DE REGRESIN LINEAL MULTIPLE

PRUEBAS ESTADISTICAS PARA MEDIR LA SIGNIFICANCIA DEL

La prueba t de student es utilizada para medir la significancia estadstica de los

calcula como cociente entre el estimador y su error estndar

contrastar la hiptesis de que el coeficiente es igual a cero (H0 : = 0 frente a Ha:

La prueba estadstica F de Fisher puede medir la significancia global del modelo

Propiedades de los estimadores

E ( ) = E ( X ' X ) X ' Y = E ( X ' X ) X ' ( X + u ) = + ( X ' X ) X ' E (u ) = / E (u ) = 0

3. Adems de estimadores lineales e insesgados, tambien son los de mnima

sera Var ( ) = 2 ( X ' X )

A continuacin se presentan la forma de la lectura de los estimadores con respecto a los

MANUAL DE APLICACIN DEL MODELO DE REGRESIN LINEAL MULTIPLE

EJEMPLO (paquete estadstico EVIEWS): Modelo regresin lineal Mltiple

Mean dependent var

S.D. dependent var

Akaike info criterion

Sum squared resid

MANUAL DE APLICACIN DEL MODELO DE REGRESIN LINEAL MULTIPLE

MANUAL DE APLICACIN DEL MODELO DE REGRESIN LINEAL MULTIPLE

Regresin con Variables Dummy

Modelo de regresin simple con una sola variable dummy

La expresin general de este modelo, esta dada por:

MANUAL DE APLICACIN DEL MODELO DE REGRESIN LINEAL MULTIPLE

WAGE , es el salario/hora en dlares.

female = 1 cuando la persona es mujer.

2 , es el parmetro que define la diferencia entre el salario/hora de las mujeres y

[95% Conf. Interval]