Regresion Lineal
Regresion Lineal
Regresion Lineal
Autores:
Rafael David Escalante Cortina
Wilson Mayorga Mogollon
Juan Carlos Vergara Schmalbach
1
Contenido
Y = X +U
Y = X +U
1 x 21
y1
u1
1
M M
, y = M ,u = M , = M , x =
M M
y n n1
u k nx1
k kx1
1 x 2 n
L x k1
L M
L M
L x kn nk
Demostracin:
2
2
2
MinSCE = u ' u = y ' y y ' y = Min u i = y i y i = 0
U 'U = (Y X )' (Y X ) = Y ' Y Y ' X + ' X ' Y + ' X ' X = Y ' Y Y ' X =
=0
(y
errores
3.- Variabilidad no explicada: SCR =
2
i
regresin
En el caso en el que el modelo hay una constante la SCT = SCE + SCR.
La bondad de ajuste muestra qu tan bien se ajusta la lnea de regresin a los datos. El
2
R2 = 1
(Y
2
i
Y )
2
= 1
SCE
Suma de Residuales Cuadrados
= 1
SCT
Suma Total de Cuadrados
Una propiedad importante del R es que es una funcin no decreciente del nmero de
variables explicativas o de regresores presentes en el modelo; a medida que aumenta el
2
Esto puede hacerse con el coeficiente de determinacin ajustado R , el cual est ajustado
por los grados de libertad asociados con las suma de los cuadrados.
U /(n k )
= 1
(Y Y ) /(n 1)
2
i
permite
Ambos caso se busca un nivel de confianza del 95%, con un p-valor entre cero y 0,05
para que el modelo y los parmetros sean estadsticamente significativos.
] [
].
Modelo
Lineal
Ecuacin
Caractersticas
Pendiente constante. Elasticidad
variable (depende del valor de X
y Y). Interpretacin 2 : un
cambio en una unidad de X
genera un cambio en 2 unidades
de Y. Es decir cambio absoluto
genera cambio absoluto.
Log - log
Log - lin
Coefficient
Std. Error
t-Statistic
Prob.
7.193357
1.594789
4.510538
0.0011
X1
-1.392472
0.305018
-4.565214
0.0010
X2
1.470032
0.175786
8.362633
0.0000
R-squared
0.876590
7.756923
Adjusted R-squared
0.851907
3.041892
S.E. of regression
1.170605
3.352092
13.70316
Schwarz criterion
3.482465
F-statistic
35.51521
Prob(F-statistic)
0.000029
Log likelihood
Durbin-Watson stat
-18.78860
2.225465
En este modelo, se puede observar que la tasa de inflacin esperada X2 (%), los signos
de los coeficientes de las variables explicativas son los esperados (Curva de Phillips
ampliada). El intercepto muestra que si X2 y X3 hubiese sido cero durante el periodo
muestral, la tasa promedio de inflacin observada habra estado cercana al 7.19%. El
coeficiente de regresin parcial de -1.392472 significa que al mantener constante la tasa
de inflacin esperada, la tasa de inflacin observada en promedio se redujo en cerca del
1.4% por cada aumento del 1% de la tasa de desempleo. De igual manera, al mantener la
tasa de desempleo constante, el valor del coeficiente de 1.470032 implica que la tasa de
inflacin observada en promedio, aument en cerca de 1.5% por cada aumento del 1%
en la tasa de inflacin esperada.
El R 2 es alto, e indica que las dos variables explicativas, en su conjunto, son la causa de
cerca del 88% de la variacin en la tasa de inflacin observada.
Ejercicios:
1.
Yi = 1+ 2 Di +u i
Donde:
Y , es la variable dependiente.
Di , es la variable explicativa dummy.
Estimamos en stata el siguiente modelo:
WAGE = 1+ 2 female + u
Donde:
2
Los modelos de regresin con variable dependiente dummy, presentan comnmente 4 enfoques de estimacin: El modelo
Lineal de Probabilidad (MLP), El modelo Logit, El modelo Probit, y el Modelo Tobit. Sin embargo, para esta clase
trabajaremos con modelos de regresin con variables independientes de esta clase.
10
Source |
wage female
SS
df
MS
Number of obs =
-------------+------------------------------
F(
1,
526
524) =
68.54
Model |
828.220467
828.220467
Prob > F
0.0000
Residual |
6332.19382
524
12.0843394
R-squared
0.1157
Adj R-squared =
0.1140
Root MSE
3.4763
-------------+-----------------------------Total |
7160.41429
525
13.6388844
-----------------------------------------------------------------------------wage |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------female |
-2.51183
.3034092
-8.28
0.000
-3.107878
-1.915782
_cons |
7.099489
.2100082
33.81
0.000
6.686928
7.51205
------------------------------------------------------------------------------
11
Primero:
Ho : 2 = 0
H a : 2 0
tc =
i
Var i
= tc =
2.51
= 8.3
0,30
12
-8.3
-1,96
1,96
13
Para el caso de este modelo, se observa un cambio en intercepto. Como el beta que
acompaa la variable female es negativo ( 2 < 0 ), se tiene un menor nivel de salario
por hora de las mujeres con respecto a los hombres.
Al correr el modelo anterior, tomando como la categora base a las mujeres, es decir,
dando el valor de 1 a los hombres y 0 a las mujeres se obtiene:
Salida en stata: reg wage hombre
Source |
SS
df
MS
Number of obs =
-------------+------------------------------
F(
1,
526
524) =
68.54
Model |
828.220467
828.220467
Prob > F
0.0000
Residual |
6332.19382
524
12.0843394
R-squared
0.1157
Adj R-squared =
0.1140
Root MSE
3.4763
-------------+-----------------------------Total |
7160.41429
525
13.6388844
-----------------------------------------------------------------------------wage |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------hombre |
2.51183
.3034092
8.28
0.000
1.915782
3.107878
_cons |
4.587659
.2189834
20.95
0.000
4.157466
5.017852
------------------------------------------------------------------------------
Se puede observar, que el coeficiente estimado para la variable hom bre , presenta signo
contrario al modelo anterior estimado con la variable female . De igual forma, se
evidencia que el intercepto ha cambiado, ahora el intercepto representa el salario/hora de
las mujeres (cuando hom bre = 0 ).
Retomando el concepto de la trampa de variable dictoma, existe una forma de evitarla
diferente a incluir m 1 categoras dentro del modelo. Para esto, consideremos el
siguiente modelo de regresin a travs del origen:
14
Source |
SS
df
MS
Number of obs =
-------------+------------------------------
F(
3,
526
523) =
534.06
Model |
19184.0401
6394.68002
Prob > F
0.0000
Residual |
6262.25231
523
11.9737138
R-squared
0.7539
Adj R-squared =
0.7525
Root MSE
3.4603
-------------+-----------------------------Total |
25446.2924
526
48.3769817
-----------------------------------------------------------------------------wage |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------female |
4.145462
.2845875
14.57
0.000
3.586387
4.704537
hombre |
6.626882
.2862475
23.15
0.000
6.064546
7.189218
exper |
.0269163
.0111369
2.42
0.016
.0050379
.0487948
------------------------------------------------------------------------------
diferencial entre el salario de las mujeres y hombres. Los valores de los coeficientes
estimados, son el salario promedio/hora de las mujeres y hombres respectivamente.
Sin embargo, es importante tener en cuenta que la practica comn es asignar las
variables dictomas de tal manera que si una variable tiene m categoras, se introducen
solamente ( m 1 ) variables dicotmicas (Gujarati, 2001). Lo anterior, teniendo en cuenta
que al utilizar dicho enfoque se obtiene un valor usual del R 2 , mientras que con el modelo
15
sin intercepto3, se tendra que calcular lo que se conoce como el R 2 simple. Asimismo,
cuando se considera a priori un modelo sin intercepto, se puede estar cometiendo un error
de especificacin, violando as uno de los supuestos del modelo clsico de regresin
lineal.
2.
Modelo de regresin mltiple con una sola variable dummy y una variable
cuantitativa.
La expresin general de este modelo, esta dada por:
Yi = 1+ 2 Di + 3 X i +u i
Donde:
Y , es la variable dependiente.
Di , es la variable explicativa dummy.
X i , es la variable explicativa cuantitativa.
Para realizar un ejemplo, trabajaremos con la base de datos WAGE1.RAW.
Estimamos en stata el siguiente modelo:
Cuando se estima un modelo de regresin con intercepto cero, se habla de un modelo de regresin a travs
del origen.
16
SS
df
MS
Number of obs =
-------------+------------------------------
F(
2,
526
523) =
37.51
Model |
898.161983
449.080991
Prob > F
0.0000
Residual |
6262.25231
523
11.9737138
R-squared
0.1254
Adj R-squared =
0.1221
Root MSE
3.4603
-------------+-----------------------------Total |
7160.41429
525
13.6388844
-----------------------------------------------------------------------------wage |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------female |
-2.48142
.3022793
-8.21
0.000
-3.07525
-1.887589
exper |
.0269163
.0111369
2.42
0.016
.0050379
.0487948
_cons |
6.626882
.2862475
23.15
0.000
6.064546
7.189218
------------------------------------------------------------------------------
Primero:
17
Ho : 2 = 0
tc =
H a : 2 0
i
Var i
= tc =
2.48
= 8.21
0.3022
-8.21
-1,96
1,96
H o : 3 = 0
H a : 3 0
tc =
i
Var i
= tc =
0.026
= 2.42
0.011
18
-1,96
1,96
2.42
Source |
SS
df
MS
-------------+------------------------------
Number of obs =
F(
3,
526
523) =
534.06
Model |
19184.0401
6394.68002
Prob > F
0.0000
Residual |
6262.25231
523
11.9737138
R-squared
0.7539
Adj R-squared =
0.7525
Root MSE
3.4603
-------------+-----------------------------Total |
25446.2924
526
48.3769817
------------------------------------------------------------------------------
19
wage |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------female |
4.145462
.2845875
14.57
0.000
3.586387
4.704537
hombre |
6.626882
.2862475
23.15
0.000
6.064546
7.189218
exper |
.0269163
.0111369
2.42
0.016
.0050379
.0487948
------------------------------------------------------------------------------
Se puede observar que los coeficientes estimados representan el salario promedio de las
mujeres y los hombres, dado un nivel de experiencia.
3.
Modelo de regresin mltiple con una sola variable dummy y dos o ms
variables cuantitativas
Al modelo del ejemplo anterior, le agregaremos una variable explicativa cuantitativa.
Source |
SS
df
MS
Number of obs =
526
20
-------------+------------------------------
F(
5,
520) =
37.84
Model |
1910.28805
382.057611
Prob > F
0.0000
Residual |
5250.12624
520
10.0963966
R-squared
0.2668
Adj R-squared =
0.2597
Root MSE
3.1775
-------------+-----------------------------Total |
7160.41429
525
13.6388844
-----------------------------------------------------------------------------wage |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------female |
-1.998933
.2837282
-7.05
0.000
-2.556328
-1.441539
exper |
.2003255
.039522
5.07
0.000
.1226832
.2779678
tenure |
.2521445
.0542485
4.65
0.000
.1455714
.3587176
expersq |
-.0049574
.0008445
-5.87
0.000
-.0066166
-.0032983
tenursq |
-.0037726
.0018635
-2.02
0.043
-.0074335
-.0001117
_cons |
4.79956
.347897
13.80
0.000
4.116104
5.483017
De acuerdo con la salida en Stata, todos los betas estimados que acompaan a las
variables explicativas, son estadsticamente significativos. Se observa, que los t
calculados son caen en la regin de rechazo comparado con un t tabla con 526 g.l. y
/ 2 = 0.025 igual a 1.96, es decir, se rechaza la hiptesis nula, por tanto se puede
decir que los betas son estadsticamente diferentes de cero.
En cuanto a la interpretacin de los coeficientes estimados, se puede decir que las
mujeres ganan en promedio menos que los hombres manteniendo constantes las dems
variables; un ao de experiencia y/o antigedad, proporciona mayor salario/hora a los
hombres y las mujeres, manteniendo constantes el resto de variables.
La interpretacin de las variables estimadas al cuadrado, permite establecer que la
experiencia y la antigedad presentan rendimientos marginales decrecientes, es decir,
que a medida que aumenta la experiencia y antigedad de las personas, aumenta el
salario/hora, hasta un punto en el cual despus disminuye.
4.
Modelo de regresin mltiple con dos variables dummy y una variable
cuantitativa.
Continuando con la base de datos WAGE.RAW, estimaremos el siguiente modelo:
21
Source |
SS
df
MS
Number of obs =
-------------+------------------------------
F(
3,
526
522) =
46.41
Model |
1507.68441
502.561468
Prob > F
0.0000
Residual |
5652.72989
522
10.8289845
R-squared
0.2106
Adj R-squared =
0.2060
Root MSE
3.2907
-------------+-----------------------------Total |
7160.41429
525
13.6388844
-----------------------------------------------------------------------------wage |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------female |
-1.976333
.2953181
-6.69
0.000
-2.556491
-1.396176
tenure |
.1354407
.0207625
6.52
0.000
.0946523
.1762291
married |
.9131324
.3051762
2.99
0.003
.313608
1.512657
_cons |
5.596056
.2989656
18.72
0.000
5.008732
6.183379
22
------------------------------------------------------------------------------
23
5.
Modelo de regresin mltiple con varias variables dummy (con una variable
cualitativa de tres o cuatro categoras)
Considrese el siguiente modelo:
west , es la variable dummy que representa si la persona vive en el occidente, y toma los
valores de:
west = 1 cuando la persona vive en el occidente.
west = 0 cuando la persona no vive en el occidente.
NOTA: La categora base para el sector donde viven las personas son las personas que
viven en el oriente.
24
Source |
SS
df
MS
Number of obs =
-------------+------------------------------
F(
5,
526
520) =
21.55
Model |
1228.99076
245.798152
Prob > F
0.0000
Residual |
5931.42353
520
11.4065837
R-squared
0.1716
Adj R-squared =
0.1637
Root MSE
3.3774
-------------+-----------------------------Total |
7160.41429
525
13.6388844
-----------------------------------------------------------------------------wage |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------female |
-2.337965
.2994471
-7.81
0.000
-2.92624
-1.74969
married |
1.417395
.3068326
4.62
0.000
.8146113
2.020179
northcen |
-.6532592
.4281555
-1.53
0.128
-1.494386
.1878678
south |
-1.161885
.398185
-2.92
0.004
-1.944134
-.379636
west |
.3794599
.4747887
0.80
0.425
-.5532799
1.3122
_cons |
6.666695
.3917518
17.02
0.000
5.897084
7.436305
------------------------------------------------------------------------------
Teniendo en cuenta que la variable south es estadsticamente significativa (pvalor 0.004), se puede decir que las personas que viven en el sur, ganan en
promedio, 1.16 dlares menos que los que viven en el oriente, manteniendo
constantes las dems variables.
25
6.
Source |
SS
df
MS
Number of obs =
-------------+-----------------------------Model |
2603.10658
650.776644
Residual |
4557.30771
521
8.7472317
F(
-------------+-----------------------------Total |
7160.41429
525
13.6388844
4,
526
521) =
74.40
Prob > F
0.0000
R-squared
0.3635
Adj R-squared =
0.3587
Root MSE
2.9576
-----------------------------------------------------------------------------wage |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------female |
-1.810852
.2648252
-6.84
0.000
-2.331109
-1.290596
26
educ |
.5715048
.0493373
11.58
0.000
.4745803
.6684293
exper |
.0253959
.0115694
2.20
0.029
.0026674
.0481243
tenure |
.1410051
.0211617
6.66
0.000
.0994323
.1825778
_cons |
-1.567939
.7245511
-2.16
0.031
-2.991339
-.144538
------------------------------------------------------------------------------
De acuerdo con la salida en Stata, todos los betas estimados que acompaan a las
variables explicativas, son estadsticamente significativos. Se observa, que los t
calculados son caen en la regin de rechazo comparado con un t tabla con 526 g.l. y
/ 2 = 0.025 igual a 1.96, es decir, se rechaza la hiptesis nula, por tanto se puede
decir que los betas son estadsticamente diferentes de cero.
En cuanto a la interpretacin de los coeficientes estimados, se puede decir que las
mujeres ganan en promedio menos que los hombres manteniendo constantes las dems
variables; un ao de experiencia, educacin y/o antigedad en el trabajo, proporciona
mayor salario/hora tanto a los hombres como las mujeres, manteniendo constantes el
resto de variables.
De otro lado, en este modelo esta implcito el supuesto de que el efecto diferencial de la
variable dummy female es constante a travs del posible estado civil de las personas
(casado y no casado). Por ejemplo, en la salida anterior se observa que las mujeres
ganan en promedio menos que los hombres, esto se da ya sea casada o no.
En muchas aplicaciones, este supuesto puede ser imposible de mantener, una mujer
puede ganar mas cuando es casada que cuando es soltera. Con el fin de observar este
efecto dentro del modelo, se adiciona la variable femalemarr ied , que representa la
interaccin entre las variables female y married .
Por lo tanto, se estima ahora el siguiente modelo:
femalemarr ied , es la variable dummy que representa la interaccin entre las variables
sexo y estado civil de las personas, y toma los valores de:
27
Source |
SS
df
MS
Number of obs =
-------------+------------------------------
F(
5,
526
520) =
60.41
Model |
2630.9083
526.181659
Prob > F
0.0000
Residual |
4529.50599
520
8.71058845
R-squared
0.3674
Adj R-squared =
0.3613
Root MSE
2.9514
-------------+-----------------------------Total |
7160.41429
525
13.6388844
-----------------------------------------------------------------------------wage |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------female |
-1.447194
.3335762
-4.34
0.000
-2.102517
-.7918717
educ |
.5808792
.0495127
11.73
0.000
.4836097
.6781487
exper |
.0297398
.0117984
2.52
0.012
.0065613
.0529182
tenure |
.1398767
.0211268
6.62
0.000
.0983724
.181381
femalemarr~d |
-.6826192
.3820906
-1.79
0.075
-1.43325
.0680118
_cons |
-1.756788
.7307182
-2.40
0.017
-3.19231
-.3212652
------------------------------------------------------------------------------
E [WAGE / female = 1, married = 1, educ, exp er , tenure] = (1.75 1.44 + 0.58educ + 0.029 exp er + 0.13tenure 1.75)
Y = 1 + 2 X 1 + 3D1 + 4 D1 X 1 + u
Donde:
X1
Nivel de escolaridad
D1
4 < 0
4 > 0 significativos, y 3 = 0 .
29
30
GRAFICAS EN STATA
Consideremos el siguiente ejemplo:
WAGE = 1+ 2 exp er + u
Si queremos graficar los puntos de esta regresin en el plano cartesiano, donde exp er
esta representado en el eje X y WAGE en el eje Y, se utiliza el siguiente comando:
25
10
20
30
years potential experience
40
50
Ahora, si se quiere adicionar a la grfica titulo a la grfica y los nombres a cada uno de los
ejes, se utiliza el comando title:
scatter wage expe, title(Salario Vs. Experiencia) xtitle(A. Experiencia) ytitle(WAGE)
31
WAGE
10
15
20
25
10
20
30
A. Experiencia
40
50
WAGE
10
15
20
25
10
20
30
A. Experiencia
40
50
Fitted values
32
El dcimo supuesto del modelo clsico de regresin lineal (MCRL), plantea que no existe
multicolinealidad entre las variables explicativas del modelo, es decir, que no debe existir
relacin perfecta o exacta entre algunas o todas las variables explicativas de un modelo
de regresin4. Existen otros supuestos que son complementarios a no la multicolinealidad,
ellos son el supuesto 7, que indica que el nmero de regresores debe ser menor al
nmero de observaciones, y el supuesto 8, que especifica que debe existir variabilidad en
los valores de los regresores.
Para entender un poco este concepto, se puede representar grficamente:
Yi = 1 + 2 X i + 3 X i2 + 4 X i3 + u i
No violan el supuesto de no multicolinealidad. Sin embargo, se encontraran coeficientes
de correlacin altos para variables X i , X i2 , X i3 .
4
Se habla de multicolinealidad cuando hay existencia de ms de una relacin lineal exacta, y colinealidad se
refiere a la existencia de una sola relacin lineal.
33
6.
7.
Aun cuando las variables X no estn linealmente relacionadas en la poblacin, pueden estarlo en la muestra
que se ha tomado, en dicho caso, nuestra muestra puede no ser lo suficiente rica para acomodar todas las
variables X en el anlisis.
34
3.
4.
FIV =
1
, donde R 2j es el R 2 de la regresin auxiliar.
2
1 Rj
Tolerancia = (1 R 2j )
Si la tolerancia tiende a 1, entonces no hay multicolinealidad.
Si la tolerancia tiende a 0, entonces hay multicolinealidad.
Ejemplo Prctico:
Dadas las observaciones de la base de datos Gastoconsumo.dta, estmese el
siguiente modelo:
35
Source |
SS
df
MS
Number of obs =
-------------+-----------------------------Model |
8565.55407
4282.77704
Residual |
324.445926
46.349418
F(
-------------+-----------------------------Total |
8890
987.777778
2,
10
7) =
92.40
Prob > F
0.0000
R-squared
0.9635
Adj R-squared =
0.9531
Root MSE
6.808
-----------------------------------------------------------------------------gastoconsumo |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------ingreso |
.9415373
.8228983
1.14
0.290
-1.004308
2.887383
riqueza |
-.0424345
.0806645
-0.53
0.615
-.2331757
.1483067
_cons |
24.77473
6.7525
3.67
0.008
8.807609
40.74186
------------------------------------------------------------------------------
36
| gastoc~o
ingreso
riqueza
-------------+--------------------------gastoconsumo |
1.0000
ingreso |
0.9808
1.0000
riqueza |
0.9781
0.9990
1.0000
ingreso = 1 + 2 riqueza + u
Salidad en Stata: reg ingreso riqueza
Source |
SS
df
MS
Number of obs =
-------------+------------------------------
F(
1,
10
8) = 3849.02
Model |
32931.5534
32931.5534
Prob > F
0.0000
Residual |
68.4466181
8.55582726
R-squared
0.9979
Adj R-squared =
0.9977
-------------+-----------------------------Total |
33000
3666.66667
Root MSE
2.925
-----------------------------------------------------------------------------ingreso |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------riqueza |
.0979231
.0015784
62.04
0.000
.0942834
.1015629
_cons |
-.3862708
2.897956
-0.13
0.897
-7.068968
6.296427
------------------------------------------------------------------------------
La salida muestra que existe colinealidad casi perfecta entre las variables
ingreso y
37
4.
FIV =
1
1
=
= 333,33
2
1 R j 1 0.9970
38
Source |
SS
df
MS
Number of obs =
-------------+------------------------------
F(
1,
10
8) =
202.87
Model |
8552.72727
8552.72727
Prob > F
0.0000
Residual |
337.272727
42.1590909
R-squared
0.9621
Adj R-squared =
0.9573
-------------+-----------------------------Total |
8890
987.777778
Root MSE
6.493
-----------------------------------------------------------------------------gastoconsumo |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------ingreso |
.5090909
.0357428
14.24
0.000
.4266678
.591514
_cons |
24.45455
6.413817
3.81
0.005
9.664256
39.24483
------------------------------------------------------------------------------
Source |
SS
df
MS
Number of obs =
-------------+------------------------------
F(
1,
10
8) =
176.67
Model |
8504.87666
8504.87666
Prob > F
0.0000
Residual |
385.123344
48.1404181
R-squared
0.9567
Adj R-squared =
0.9513
Root MSE
6.9383
-------------+-----------------------------Total |
8890
987.777778
-----------------------------------------------------------------------------gastoconsumo |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------riqueza |
.0497638
.003744
13.29
0.000
.0411301
.0583974
_cons |
24.41104
6.874097
3.55
0.007
8.559349
40.26274
------------------------------------------------------------------------------
39
Source |
SS
df
MS
Number of obs =
-------------+------------------------------
F(
Model
8532.97312
8532.97312
Residual
357.026877
44.6283596
8) =
191.20
Prob > F
0.0000
R-squared
0.9598
-------------+------------------------------
Adj R-squared =
0.9548
Total |
Root MSE
6.6804
8890
987.777778
1,
10
-----------------------------------------------------------------------------gastoconsumo |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------X
.2517807
.0182086
13.83
0.000
.2097915
.2937699
_cons
24.38745
6.610424
3.69
0.006
9.14378
39.63111
------------------------------------------------------------------------------
40
41
HETEROCEDASTICIDAD
El modelo de regresin lineal mltiple exige que la varianza condicional de las
perturbaciones aleatorias a los valores de la variable explicativas X sea constante:
Homocedasticidad: E ( Ui 2 ) = 2
Heterocedasticidad: E ( Ui 2 ) 2
Las fuentes de la Heterocedasticidad se puede atribuir a:
Condicin de
42
H0 = 2 = 2
Existe una metodologa a travs de los grficos, la cual consiste en hacer una
regresin bajo el supuesto de la homocedasticidad y luego examinar los errores
u con la variables regresoras y observamos comportamiento de los grficos.
43
Ho 2 = 3 =. ... = 0
H1: al menos una # 0
Si n R2 > 2 (k-1),
Soluciones a la Heterocedasticidad
Mnimos Cuadrados Generalizados : Consiste en dividir cada trmino por i.
Modelo transformado
Y1/i. = 1X1/i. + 2X2/i. + ....
Este modelo satisface los supuestos de MCO, pero se puede presentar el inconveniente
de no conocer i.
Mnimos Cuadrados Ponderados: es una extensin del MCG.
Definimos w1= 1/ i. Y transformando el modelo nos queda
Y1W1. = 1(X1W1). + 2(X2W1). + .. (UiW1)
En este modelo transformado cada observacin de la variable est ponderada por W1
(inversamente proporcional a i)
Conocemos la estructura de la Heterocedasticidad.
Suponemos Var(Ui) = 2. Z2 ( se denomina Heterocedasticidad Multiplicativa) W = 1/Z ....
Nos queda el modelo transformado.
La Var (Ui transformado) = 2.(porque se nos elimina Z2) , de esta manera nos queda un
modelo Homocedastico.
44
AUTOCORRELACION
La autocorrelacin se puede definir como la correlacin entre miembros de series de
observaciones ordenadas en el tiempo (informacin de series de tiempo) o en el espacio
(informacin de corte de transversal). El modelo de regresin lineal supone que no debe
existir autocorrelacin en los errores (u i ) , es decir, el trmino de perturbacin relacionado
con una observacin cualquiera no debera estar influenciado por el trmino de
perturbacin relacionado con cualquier otra observacin.
E (u i u j ) = 0 para todo i j
Causas de la Autocorrelacin
Algunas de las causas son las siguientes6:
Trabajo con datos de serie temporal: cuando se trabaja con datos de corte longitudinal
(p.e.: una variable explicativa cuyas observaciones correspondan a valores
obtenidos en instantes temporales sucesivos), resulta bastante frecuente que el trmino
de perturbacin en un instante dado siga una tendencia marcada por los trminos de
perturbacin asociados a instantes anteriores. Este hecho da lugar a la aparicin de
autocorrelacin en el modelo.
Especificacin errnea en la parte determinista del modelo (autocorrelacin
espuria):
1.
Omisin de variables relevantes: en tal caso, las variables omitidas pasan a formar
parte del trmino de error y, por tanto, si hay correlacin entre distintas observaciones de
las variables omitidas, tambin la habr entre distintos valores de los trminos de
perturbacin.
2.
Especificacin incorrecta de la forma funcional del modelo: si usamos un modelo
inadecuado para describir las observaciones (p.e.: un modelo lineal cuando en realidad se
debera usar un modelo cuadrtico), notaremos que los residuos muestran
comportamientos no aleatorios (i.e.: estn correlacionados).
Transformaciones de los datos: determinadas transformaciones del modelo original
podran causar la aparicin de autocorrelacin en el trmino de perturbacin del modelo
transformado (incluso cuando el modelo original no presentase problemas de
autocorrelacin).
Trabajo con modelos dinmicos: cuando se trabaja con series temporales suele ser
habitual considerar modelos de regresin que incluyan no slo los valores actuales sino
tambin los valores retardados (pasados) de las variables explicativas. Es el caso de un
modelo de retardos distribuidos de orden s o RD(s):
Yt = + 0 X t + 1 X t 1 + 2 X t 2 + ... + s X t s + u t
6
45
Otro tipo de modelo dinmico que presentara problemas de autocorrelacin sera aquel
que incluyese entre sus variables explicativas uno o ms valores retardados de la variable
dependiente. Este otro tipo de modelo dinmico se conoce como modelo autorregresivo
de orden s o AR(s):
2.
3.
4.
5.
Los MCO son lineales, insesgados, pero ineficientes (no tienen varianza
mnima).
6.
Deteccin de la Autocorrelacin:
Para analizar la posible presencia de autocorrelacin en el modelo se suele recurrir a dos
tcnicas complementarias: (1) el anlisis grfico de los residuos (obtenidos al realizar la
46
regresin por MCO), y (2) los contrastes de hiptesis especficos (test de Durbin-Watson,
test h de Durbin, test de Breusch-Godfrey, test Q de Box-Pierce, etc.).
Anlisis Grfico:
Al realizar la regresin por MCO, se pueden graficar los residuos (o, alternativamente, los
residuos estandarizados, es simplemente dividir u t por el error estandar de la estimacin
) frente al tiempo. Dado que los residuos MCO son estimadores consistentes de los
trminos de perturbacin, si se aprecian en el grfico anterior patrones de
comportamiento sistemtico (no aleatorio) podremos afirmar que los trminos de
perturbacin presentan algn tipo de autocorrelacin.
Contrastes:
Test de Durbin-Watson
Es la prueba mas conocida para detectar correlacin serial; permite contrastar si el
trmino de perturbacin est autocorrelacionado. Dicha prueba presenta algunos
supuestos:
Es vlido para autocorrelacin serial de 1 orden en los residuos, no aplica para modelos
con variable dependiente rezagada como variable explicativa, las variables explicativas
son no estocsticas (son fijas en muestreo repetido), el modelo de regresin lineal debe
incluir el intercepto, y no hay observaciones faltantes en los datos.
d=
(u u
u
t
t 1
)2
2
t
2(1 )
Una vez hallado DW, es posible usar su valor para estimar el coeficiente de
autocorrelacin simple mediante la expresin:
d
2
Tabla de decisin:
47
48
time variable:
Source |
inf unem
SS
df
MS
Number of obs =
-------------+------------------------------
F(
1,
49
47) =
2.62
Model |
25.6369575
25.6369575
Prob > F
0.1125
Residual |
460.61979
47
9.80042107
R-squared
0.0527
Adj R-squared =
0.0326
Root MSE
3.1306
-------------+-----------------------------Total |
486.256748
48
10.1303489
-----------------------------------------------------------------------------inf |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------unem |
.4676257
.2891262
1.62
0.112
-.1140213
1.049273
_cons |
1.42361
1.719015
0.83
0.412
-2.034602
4.881822
------------------------------------------------------------------------------
Una vez estimada la regresin, se procede a ejecutar el siguiente comando con el cual se
obtiene el estadstico Durbin-Watson:
2,
49) =
.8027005
Si se quiere estimar el Durbin-Watson por las ventanas en Stata 9, la ruta a seguir es:
Statistics/time-series/tests/time series epecification tests after regress
Automticamente se despliega el siguiente recuadro, en donde se muestra la opcin a
seleccionar, y le damos OK.
49
50
u t = 1u t 1 + 2 u t 2 + ... + p u t p + t
Donde t es un trmino de perturbacin puramente aleatorio con media cero y varianza
constante.
Hay
autocorrelacion
(u t ) .
2. Estimacin de una regresin auxiliar de los residuos ut sobre p retardos de los
mismos, u t 1 , u t 2 ,..., u t p .
2
3. Obtencin del coeficiente de determinacin ( R 2 ) de la regresin auxiliar ( Raux
).
51
Ejemplo en Stata:
chi2
df
-------------+------------------------------------------------------------1
18.472
0.0000
52
53
d
es conocido:
2
1. se tiene:
Yt = 1 + 2 X t + u t
(a)
Yt 1 = 1 + 2 X t 1 + u t 1
(b)
Yt 1 = 1 + 2 X t 1 + u t 1
(c)
4. Se resta (a)-(c):
5. Yt Yt 1 = 1 1 + 2 X t 2 X t 1 + u t u t 1
Yt Yt 1 = 1 (1 ) + 2 ( X t X t 1 ) + (u t u t 1 )
Yt Yt 1 = 1 (1 ) + 2 ( X t X t 1 ) + t
(d)
Donde t = (u t u t 1 )
6. Estimo (d) por MCO.
Cuando desconocida:
Se utiliza en algoritmo de Cochrane Orcutt: Considrese el siguiente modelo:
Yt = 1 + 2 X t + u t
(e)
u t = u t 1 + t
Cochrane Orcutt recomienda realizar los siguientes pasos:
1.
2.
u t = u t 1 + t
3.
4.
5.
(f)
54
Ejemplo en Stata:
Para ejecutar el algoritmo de Cochrane Orcutt en Stat por comando, se escribe:
prais inf unem, corc
Iteration 0:
rho = 0.0000
Iteration 1:
rho = 0.5727
Iteration 2:
rho = 0.7160
Iteration 3:
rho = 0.7611
Iteration 4:
rho = 0.7715
Iteration 5:
rho = 0.7735
Iteration 6:
rho = 0.7740
Iteration 7:
rho = 0.7740
Iteration 8:
rho = 0.7740
Iteration 9:
rho = 0.7741
Iteration 10:
rho = 0.7741
Source |
SS
df
MS
Number of obs =
-------------+------------------------------
F(
1,
48
46) =
4.33
Model |
22.4790685
22.4790685
Prob > F
0.0430
Residual |
238.604008
46
5.18704365
R-squared
0.0861
Adj R-squared =
0.0662
Root MSE
2.2775
-------------+-----------------------------Total |
261.083076
47
5.55495907
-----------------------------------------------------------------------------inf |
Coef.
Std. Err.
P>|t|
-------------+----------------------------------------------------------------
55
unem |
-.6653356
.3196035
-2.08
0.043
-1.308664
-.0220071
_cons |
7.583458
2.38053
3.19
0.003
2.7917
12.37522
-------------+---------------------------------------------------------------rho |
.7740512
0.802700
Grficamente se tiene:
Si se quiere ejecutar el algoritmo por las ventanas en Stata, la ruta a seguir es:
Statistics/time-series/tests/prais-winsten regression
Automticamente se despliega el siguiente recuadro, en donde se selecciona la variable
dependiente y las independientes, seleccionamos Corchrane-Orcutt transformation, y le
damos OK.
56
57
58
59
Generacin STEPWISE
60
El indicador de desempeo de los modelos que se va a utilizar es la Prueba de HosmerLemeshow. El usuario debe entrar por el men opciones y seleccionar la prueba de
Hosmer Lemeshow. Adicionalmente, en la seccin probabilidad para pasos se debe
digitar en el campo entrada: 0.25 y en el campo salida 0.10, y pulsar continuar.
Posteriormente, se debe pulsar aceptar.
61
PASO
2
3
4
Chi-cuadrado
0,1
5,45
10,67
gl
1
6
7
Sig
0,87
0,456
0,67
De acuerdo con la tabla, el mejor modelo corresponde al paso 2, donde el HosmerLemeshow es de 0,87.
62
Ahora que se tiene el paso o modelo se debe ver que variables lo definieron Se debe
buscar la siguiente tabla:
Variables en la ecuacing
Paso
a
1
Paso
b
2
Paso
c
3
Paso
d
4
D5ROTACT
Constante
D5ROTACT
D11MGNET
Constante
C1PACID
D5ROTACT
D11MGNET
Constante
VTAS_ACT
C1PACID
D5ROTACT
D11MGNET
Constante
B
1,416
-1,194
1,551
,659
E.T.
,375
,361
,383
,209
Wald
14,222
10,939
16,409
9,952
-1,576
,387
,779
1,540
,630
-1,750
,003
,802
1,652
,616
-1,866
,323
,386
,211
,398
,004
,324
,401
,211
,413
gl
1
1
1
1
Sig.
,000
,001
,000
,002
Exp(B)
4,120
,303
4,717
1,934
16,586
,000
,207
5,818
15,945
8,928
19,346
,471
6,122
17,001
8,513
20,373
1
1
1
1
1
1
1
1
1
,016
,000
,003
,000
,492
,013
,000
,004
,000
2,180
4,665
1,877
,174
1,003
2,229
5,217
1,852
,155
63
64
f.
De esta forma el sistema procesa la informacin, genera el reporte del modelo. Con los
resultados se debe evaluar la significancia individual de las variables, es decir, si las
variables son significativas.
eZ
F (Z ) =
1+ eZ
Donde: F(z) es la variable dependiente en funcin de la Z. F(z) es la Probabilidad de
incumplimiento.
Z: Es la ecuacin que representa la combinacin de variables independientes que
permiten explicar la probabilidad de incumplimiento.
Z esta dado por
Los betas Bo, B1.Bn, representan la ponderacin de cada variable dentro del modelo.
SPSS calcula las probabilidades de incumplimiento (PI) de los clientes que pertenecen a
la muestra del modelo. Para los dems clientes , que no pertenecen a la base de datos,
es necesario aplicar la formula de F(Z) o probabilidad de incumplimiento de forma manual
o a travs de un archivo de excel.
65
66
BIBLIOGRAFIA
67