Regresion Multiple
Regresion Multiple
Regresion Multiple
Regresión múltiple
Gabriel V. Montes-Rojas
Regresión múltiple
En el modelo
wage = γ0 + γ1 educ + e,
si omitimos exper , y si educ y exper estan relacionadas, o sea exper (educ ), entonces,
∂E [wage |educ ]
γ1 =
∂educ
∂E [wage |educ, exper ] ∂E [wage |educ, exper ] ∂exper
= + ×
∂educ ∂exper ∂educ
¿Cuál es el problema? Si no controlamos por exper, estarı́amos estimando un efecto
de educ que no es el que queremos. Es el problema de variables omitidas que veremos
más adelante. Aparece el problema de la causalidad.
Nota: En Economı́a esto se usa mucho: ceteris paribus, dejando todo lo demás
constante.
Regresión múltiple
y = β 0 + β 1 x1 + β 2 x2 + ... + β K xK + u
Entonces para cada observación i tenemos
y = xβ + u
o para la observación i
yi = x i β + ui
Álgebra de MCO
El estimador de MCO es
N
β̂ MCO = argmin ∑ (yi − b0 − b1 x1i − ... − bK xKi )2
b ∈R K +1i =1
Para la minimización tomamos derivadas con respecto a b = (b0 , b1 , ..., bK ), lo cual
nos da las siguientes condiciones de primer orden:
N
∑ xji (yi − β̂0 − β̂1 x1i − ... − β̂K xKi ) = 0, j = 0, 1, 2, ..., K .
i =1
Al igual que con la regresión simple podemos pensar la solución como un método de
momentos:
Momentos en la población
E [xj u ] = E [xj (y − β 0 − β 1 x1 − ... − β K xK )] = 0
j = 0, 1, 2, ..., K
(donde x0 = 1 es una constante)
Momentos en la muestra (CPO de la minimización)
N −1 ∑ N i =1 xji (yi − β̂ 0 − β̂ 1 x1i − ... − β̂ K xKi ) = 0
j = 0, 1, 2, ..., K
En ambos casos tenemos un sistema de ecuaciones con K + 1 ecuaciones y K + 1
parámetros.
Gabriel Montes-Rojas Regresión múltiple
Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia
Álgebra de MCO
β̂ MCO = (X ′ X )−1 X ′ y
donde:
X es una matriz N × (K + 1), que contiene en cada una de las N filas la
observación i y en cada una de las (K + 1) columnas los parámetros.
Nota: x0i = 1 para todo i = 1, 2, ..., N;
y es un vector N × 1, que contiene la variable dependiente;
... ası́ (X ′ X ) es una matriz (K + 1) × (K + 1); ′ representa la
transpuesta de una matriz;
... (X ′ X )−1 es una matriz (K + 1) × (K + 1), la inversa de (X ′ X );
... (X ′ X )−1 X ′ y es un vector (K + 1) × 1.
Álgebra de MCO
Álgebra de MCO
β̂ MCO = (X ′ X )−1 X ′ y
= argmin y ′ y + b ′ X ′ X b − 2b ′ X ′ y .
b ∈ RK + 1
Álgebra de MCO
Otra forma de verlo es que las condiciones de momento se pueden expresar como:
X ′ u ( β̂ MCO ) = X ′ (y − X β̂ MCO ) = 0K +1 .
⇒ β̂ MCO = (X ′ X )−1 X ′ y .
Regresores estocásticos
Esperanzas condicionales
Toda variable aleatoria y se puede descomponer en dos partes ortogonales entre
sı́:
y = E (y |x ) + u,
donde
(i) E (u |x ) = 0,
(ii) E (h(x )u ) = 0 para cualquier función h(.).
Prueba: (i) Definamos u ≡ y − E (y |x ). Tomando esperanzas E (u |x ) = E (y |x ) − E (y |x ) = 0. (ii) Usando
la ley de esperanzas iteradas E (h(x )u ) = E (E (h(x )u |x )) = E (h(x )E (u |x ) = 0.
Esperanzas condicionales
Esto significa que cada vez que usamos MCO estamos en realidad estimando
una esperanza condicional.
Sin embargo, no sabemos la forma funcional de E (y |x ).
Esperanzas condicionales
Para cualquier variable aleatoria y , tenemos la proyección poblacional sobre el
espacio generado por las x, r (x ) = x β donde
β = argmin E ((y − xb )2 ).
b ∈ RK + 1
N
β̂ = argmin EN ((y − xb )2 ) = argmin ∑ (yi − b0 − b1 x1i − ... − bK xKi )2 ,
b ∈ RK + 1 b ∈ RK + 1 i =1
i =1 definimos EN a = ∑N
1
donde para secuencia {ai }N N i =1 ai . Entonces, tenemos
β̂ = (EN x ′ x )−1 (EN x ′ y ).
Cada vez que corremos una regresión estamos estimando E (y |x ) = x β
asumiendo que es lineal en los parámetros. Conviene entonces decir que
estamos estimando una esperanza condicional.
Teorema Gauss-Markov
Teorema Gauss-Markov
Teorema Gauss-Markov: Bajo los Supuestos 1-5, los estimadores MCO ( β̂ 0 , β̂ 1 , ..., β̂ K )
son los mejores estimadores lineales insesgados (MELI) de ( β 0 , β 1 , ..., β K ). Note:
MEJOR significa mı́nima varianza dentro de la familia de estimadores lineales
insesgados. En inglés es BLUE, best linear unbiased estimator.
Varianza de MCO
Prueba:
Var ( β̂|x ) = Var [(X ′ X )−1 X ′ y |x ] = (X ′ X )−1 X ′ Var [y |x ]X (X ′ X )−1 =
(X ′ X ) −1 X ′ σ 2 X (X ′ X ) −1 = σ 2 (X ′ X ) −1 X ′ X (X ′ X ) −1 = σ 2 (X ′ X ) −1
Notar que Var (y |x ) = Var (X β + u |x ) = Var (y |x ) = σ2 I N por el supuesto de homocedasticidad. Definamos la
matriz N × N de varianzas y covarianzas de los errores como
Ω = Var (u |x ) = E [uu ′ |x ] + E [u |x ]E [u ′ |X ] = E [uu ′ |x ] (¿por qué?).
Ω juega un rol central para analizar la varianza. Con los supuestos de Gauss-Markov,
u12
2
u1 u2 ... u1 uN 0 ... 0
σ
u2 u1 u22 ... u2 uN 0 σ2 ... 0
Ω = E [uu ′ |x ] = E = σ2 I N .
. . . . = .. . . .
. . .. . . .. .
. . . . . .
uN u1 uN u2 ... 2
uN 0 0 ... σ2
En general, para los estimadores MCO podemos escribir la varianza como una forma sandwich,
clear
set more off
set obs 100
gen x1=rnormal(0,1)
gen x2=rnormal(0,1) + x1
gen u=rnormal(0,1)
gen y=1+1*x1+1*x2+u
reg y x1 x2
clear
set more off
global N=100 /*tama~
no de la muestra*/
global M=100 /*nro de simulaciones*/
set obs $N
gen x1=rnormal(0,1)
gen x2=rnormal(0,1)+x1
gen u=rnormal(0,1)
gen y=1+1*x1+1*x2+u
Teorema Gauss-Markov
Podemos plantear también una prueba constructiva. Ver Johnston y DiNardo (1996).
Teorema Gauss-Markov
Teorema Gauss-Markov
Teorema Gauss-Markov
Bruce Hansen (2022) “A Modern Gauss-Markov Theorem”:
“The development of least squares and the Gauss-Markov Theorem involved a series
of contributions from some of the most influential probabilists of the nineteenth thru
early twentieth centuries. The method of least squares was introduced by Adrien
Marie Legendre (1805) as essentially an algorithmic solution to the problem of fitting
coefficients when there are more equations than unknowns. This was quickly followed
by Carl Friedrich Gauss (1809), who provided a probabilistic foundation. Gauss
proposed that the equation errors be treated as random variables, and showed that if
their density takes the form we now call “normal” or “Gaussian” then the maximum
likelihood estimator of the coefficient equals the least squares estimator. Shortly
afterward, Pierre Simon Laplace (1811) justified this choice of density function by
showing that his central limit theorem implied that linear estimators are approximately
normally distributed in large samples, and that in this context the lowest variance
estimator is the least squares estimator. Gauss (1823) synthesized these results and
showed that the core result only relies on the first and second moments of the
observations and holds in finite samples. Andrei Andreevich Markov (1912) provided a
textbook treatment of the theorem, and clarified the central role of unbiasedness,
which Gauss had only assumed implicitly. Finally, Alexander Aitken (1935) generalized
the theorem to cover the case of arbitrary but known covariance matrices. This
history, and other details, are documented in Plackett (1949) and Stigler (1986).”
Teorema Gauss-Markov
Análisis de varianza
Definiciones...
Suma de Cuadrados Totales (SCT): ∑N i =1 (yi − ȳ )
2
− N
⇒ Variación total en y ; Var (y ) = N ∑ (yi − ȳ )2
\ 1
i =1
R2
∑N
i =1 (ŷi − ȳ )
2
R2 = N
= SCE /SCT = 1 − SCR/SCT
∑i =1 (yi − ȳ )2
0 ≤ R2 ≤ 1
Precaución
R 2 ajustado
SCR/(N − K − 1)
R̄ 2 = 1 −
SCT /(N − 1)
Varianza de MCO
σ2
Var ( β̂ j |x ) = , j = 1, ..., K
SCTj (1 − Rj2 )
donde SCTj = ∑N 2 2
i =1 (xji − x̄j ) es la variación total en xj y Rj es el R-cuadrado de una
regresión de xj en todas las otras variables (inluyendo el intercepto)
{1, x1 , ..., xj −1 , xj +1 , ..., xK }.
\
( β̂ j − β j0 )/se ( β̂ j ) ∼ tN −K
∑N 2
i =1 ûi
σ̂2 =
N −K −1
Se puede probar que E (σ̂2 |x ) = σ2 .
R 2 /K
F = ∼ F (K , N − K − 1)
(1 − R 2 ) / (N − K − 1)
donde
bwght: birth weight, in pounds;
cigs: average number of cigarettes the mother smoked per day during pregnancy;
parity: birth order of the child;
faminc: annual family income;
motheduc: years of schooling of the mother;
fatheduc: years of schooling of the father.
STATA
bwght Coef. Std. Err. t P > |t |
cigs -.5959362 .1103479 -5.401 0.000
parity 1.787603 .6594055 2.711 0.007
faminc .0560414 .0365616 1.533 0.126
motheduc -.3704503 .3198551 -1.158 0.247
fatheduc .4723944 .2826433 1.671 0.095
cons 114.5243 3.728453 30.716 0.000
http://fmwww.bc.edu/gstat/examples/wooldridge/wooldridge4.html
test motheduc=fatheduc
...
gen mfeduc=matheduc+fatheduc
reg bwght cigs parity faminc mfeduc
scalar R2r=e(r2) (guarda Rr2 )
scalar F=(R2ur-R2r)/1/(1-R2ur)∗(e(N)-5-1) (estadı́stico F)
Regresiones en R
Ejemplo de la base bwght del libro de Wooldridge.
i n s t a l l . packages ( ” w o o l d r i d g e ” )
l i b r a r y ( wooldridge )
summary ( lm ( bwght ˜ c i g s+p a r i t y+f a m i n c+motheduc+f a t h e d u c , d a t a=bwght ) )
Call :
lm ( f o r m u l a = bwght ˜ c i g s + p a r i t y + f a m i n c + motheduc + f a t h e d u c ,
d a t a = bwght )
Residuals :
Min 1Q Median 3Q Max
−95.796 −11.960 0.643 12.679 150.879
Coefficients :
E s t i m a t e Std . E r r o r t v a l u e Pr (>| t | )
( I n t e r c e p t ) 114.52433 3.72845 3 0 . 7 1 6 < 2 e−16 ∗∗∗
cigs −0.59594 0.11035 −5.401 8 . 0 2 e−08 ∗∗∗
parity 1.78760 0.65941 2.711 0 . 0 0 6 8 1 ∗∗
faminc 0.05604 0.03656 1.533 0.12559
motheduc −0.37045 0.31986 −1.158 0 . 2 4 7 0 2
fatheduc 0.47239 0.28264 1.671 0.09492 .
−−−
S i g n i f . codes : 0 ∗∗∗ 0.001 ∗∗ 0.01 ∗ 0.05 . 0.1 1
R e s i d u a l s t a n d a r d e r r o r : 1 9 . 7 9 on 1185 d e g r e e s o f f r e e d o m
( 1 9 7 o b s e r v a t i o n s d e l e t e d due t o m i s s i n g n e s s )
M u l t i p l e R−s q u a r e d : 0.03875 , A d j u s t e d R−s q u a r e d : 0.03469
F−s t a t i s t i c : 9 . 5 5 3 on 5 and 1185 DF , p−v a l u e : 5 . 9 8 6 e−09
Regresiones en R
i n s t a l l . p a c k a g e s ( ”AER” )
l i b r a r y (AER)
l i n e a r H y p o t h e s i s ( r e s u l t s , c ( ” motheduc=0” , ” f a t h e d u c =0” ) )
Hypothesis :
motheduc = 0
fatheduc = 0
Model 1 : r e s t r i c t e d model
Model 2 : bwght ˜ c i g s + p a r i t y + f a m i n c + motheduc + f a t h e d u c
Regresiones en R
i n s t a l l . p a c k a g e s ( ”AER” )
l i b r a r y (AER)
Hypothesis :
motheduc − f a t h e d u c = 0
Model 1 : r e s t r i c t e d model
Model 2 : bwght ˜ c i g s + p a r i t y + f a m i n c + motheduc + f a t h e d u c