6 Regressao

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 30

Regressão linear simples

Regressão linear múltipla


Teste aos parâmetros de regressão
Regressão não linear
Regressão

 Regressão é um modelo de relação entre uma


variável aleatória dependente Y e uma ou
mais variáveis independentes X1 , X2 , ... , Xn
 Regressão linear simples
Y = a + bX + E
 Regressão linear múltipla
Y = a + b1 X1 + b2 X 2 + ⋯ + bn X n + E
 Regressão não linear (p.ex., polinomial)
Y = a + b1 X + b2 X + E 2

07-12-2009 N.Sousa, ESAC (c) 2


Amostras correlacionadas e
Coeficiente de Pearson
 Pensa-se em regressão quando estamos perante amostras
com duas (ou mais) variáveis, p.ex. X e Y, em que os
valores de X e Y aparentem estar relacionados entre si
 Exemplos típicos:
 peso e altura de um indivíduo
 Espessura do tronco e altura de uma árvore
 Coeficiente de Pearson (R) é um indicador do nível de
correlação linear entre duas variáveis:
R = Sxy / SxxSyy
(À frente veremos o significado dos símbolos e como calcular R)
 O coeficiente de Pearson oscila entre -1 e +1. R ≈ -1
significa forte anti-correlação, R ≈ +1 forte correlação e
R ≈ 0 ausência de correlação linear entre X e Y
07-12-2009 N.Sousa, ESAC (c) 3
Diagrama de dispersão
 As observações (X,Y) podem ser representadas
num diagrama de dispersão:

 O objectivo é encontrar uma recta que encaixe,


tanto quanto possível, nas observações
07-12-2009 N.Sousa, ESAC (c) 4
Parâmetros e erro
Y = a + bX + E
 Y : variável dependente ou explicada
 X : variável independente ou explicativa, cujos
erros de medição assumimos desprezáveis.
Também designada por regressor
 a , b : ordenada na origem (ou intersect) e
declive, parâmetros da recta de regressão, a
determinar
 E : erro, fonte do carácter aleatório de Y. Como
na anova, assume-se E ~ > IN (0,σ 2 )
07-12-2009 N.Sousa, ESAC (c) 5
Método dos mínimos quadrados
 Para estimar os parâmetros
a e b, usamos o método dos
mínimos quadrados

 MMQ: “A recta de regressão


será aquela que minimiza a
distância das observações à
recta, segundo o eixo dos yy.”

 A recta a azul tem o declive


e a ordenada na origem que
minimizam as distâncias Ei

07-12-2009 N.Sousa, ESAC (c) 6


Escolha de X e Y

 Como o MMQ
minimiza a
distância segundo
Y apenas, deve-se
ter cuidado ao
escolher as
variáveis X e Y
 Uma escolha
trocada leva a
uma recta
diferente!
07-12-2009 N.Sousa, ESAC (c) 7
Estimativas do MMQ
 O MMQ leva às X Y
estimativas (pontuais): x1 y1
MMQ bɶ = Sxy / Sxx
(ver p.ex. Guimarães p.50 e seg. x2 y2 →
ou Montgomery p.395-397) aɶ = y − bɶ ⋅ x
⋮ ⋮
 Notação “S”: xn yn
n
Sxx = ∑ i =1 ( xi − x )2 =∑ i xi2 − n x 2
n
Syy = ∑ i =1 ( y i − y )2 =∑ i y i2 − n y 2
n
Sxy = ∑ i =1 ( xi − x )( y i − y ) =∑ i xi y i − n x y

S = σɶ =
2 2 1

n

n − 2 i =1
( y i − ɶ
y i )2
=
1
n−2
S yy − ɶS
b (xy )
07-12-2009 N.Sousa, ESAC (c) 8
Interpretação dos S

 As quantidades S medem a dispersão dos dados;


são variabilidades
 Sxx: variabilidade dos x, Sxx = (n − 1) ⋅ sx2
 Syy: variabilidade dos y, Syy = (n − 1) ⋅ sy2
 Sxy: variabilidade cruzada, proporcional a cov(x,y),
co-variância entre x e y: Sxy = (n − 1) ⋅ cov( x, y )
 S2: estimativa da variância dos erros E em torno
da recta estimada
 Nota: alguns autores usam definições diferentes
para os S. P.ex. Sxx ≡ sc2,x ou Sxx ≡ sx2
07-12-2009 N.Sousa, ESAC (c) 9
IC para os parâmetros de regressão

 O MMQ deu-nos estimativas pontuais para a e b


 Podemos também construir intervalos de confiança
para estes parâmetros
 FACTO 1: sejam a0,b0 os valores reais dos parâmetros
bɶ − b0 aɶ − a0
~ > tn −2 , ~ > tn − 2
S / Sxx S 1
n + x2
Sxx
 Do facto 1 temos ICs para a e b com confiança 1 – α :
S
ɶ
ICb : b ± t n − 2 (1 − 2 ) ⋅
α
, ICa : aɶ ± t n − 2 (1 − α2 ) ⋅ S 1
n + x2
Sxx
Sxx
07-12-2009 N.Sousa, ESAC (c) 10
Testes aos parâmetros de regressão

 Além dos ICs, podemos também testar hipóteses


sobre os parâmetros:
a : H0: a = a0 vs. H1: a > a0 ou a < a0 ou a ≠ a0
b: H0: b = b0 vs. H1: b > b0 ou b < b0 ou b ≠ b0
 As estatísticas de teste são as mesmas que usámos
para construir os ICs, designadamente
bɶ − b0 aɶ − a0
ETb = ~ > tn − 2 , ETa = ~ > tn − 2
S / Sxx S 1
n + Sxx
x2

Nota: S / Sxx e S n1 + Sxxx são usualmente


2

chamados de erro-padrão do declive e ordenada
07-12-2009 N.Sousa, ESAC (c) 11
Qualidade e adequação do modelo
 Um modelo, seja de regressão ou qualquer outro, é apenas
uma tentativa de descrição da realidade
 Para um modelo em particular, é lógico perguntar se esse
modelo representa bem ou mal a realidade que o inspirou
 No caso da regressão, depois de estimados os parâmetros
do modelo, podemos perguntar quão bem a relação obtida,
Y = a + bX + E, se encaixa nos dados de onde originou
 Para a regressão linear simples, há dois indicadores da
qualidade do ajuste:
 Teste de significância da regressão
 Coeficiente de determinação

07-12-2009 N.Sousa, ESAC (c) 12


Significância da regressão
(Teste à precisão do ajustamento)
 Um teste muito importante é
H0: b = 0 vs. H1: b ≠ 0
 O teste avalia a plausibilidade de haver, de facto, uma
relação linear entre X e Y
 Não rejeitar H0 significa que é plausível que b seja nulo, ou
seja, que não haja relação linear entre X e Y:
 Y é independente de X, ou...
 a relação entre X e Y, a existir, não é linear, i.e. Y ≠ a + bX + E
 Rejeitar H0 significa que X tem um papel na explicação de Y
 a relação entre X e Y é mesmo linear, ou...
 o efeito linear existe, podendo eventualmente o ajuste ser
melhorado adicionando termos não lineares

07-12-2009 N.Sousa, ESAC (c) 13


Significância da regressão - anova
 A decomposição da variabilidade de Y em dois termos permite
fazer uma análise de variância para testar a qualidade da regressão
∑i i
( y − y )2
= ∑i i
( ɶ
y − y )2
+ ∑i i i
( y − ɶ
y )2

SQtot = SQreg + SQerro


 Tabela anova para a regressão:
Fonte var. SQ GL MQ Estatística de teste
Regressão ɶ
SQreg = bS 1 ɶ
bS ɶ
bS / S 2
~ > F1,n − 2
xy xy xy
Erros SQtot − SQreg n– 2 S2
Total SQtot = Syy n–1

 Para a regressão simples, esta anova equivale ao teste ao declive


b = 0 vs b ≠ 0, pelo que escusamos de a fazer (tn2 = F1n). Para a
regressão múltipla, o seu significado já é diferente...
07-12-2009 N.Sousa, ESAC (c) 14
Coeficiente de determinação
 Coeficiente de determinação (quadrado do coef. de Pearson) é
outra quantidade que mede a qualidade/adequação do modelo de
regressão S2
R =
2 xy

Sxx Syy
 Interpretação de R2: percentagem da variabilidade que é explicada
pela regressão. R2 ≈ 1: bom ajuste do modelo aos dados. R2 ≈ 0:
mau ajuste
 Notar que a significância de regressão verifica se há relação linear
entre X e Y. O coeficiente de determinação verifica quanto da
relação entre Y e X pode ser explicada pelo modelo linear
 R2 deve ser usado com cautela, dado que pode ser inflacionado
artificialmente adicionando termos não lineares ao modelo. Para
evitar essa inflação, usa-se por vezes um R2 ajustado
 Ainda outra maneira de ver se o modelo de regressão é adequado
é fazer uma análise aos resíduos ei = y i − yɶ i
07-12-2009 N.Sousa, ESAC (c) 15
Ausência de ordenada na origem
 Por vezes um modelo de regressão faz mais sentido se a = 0.
 No entanto, quando estimamos pontualmente a ordenada
na origem, esta só muito raramente será zero.
 No caso de um problema fazer mais sentido com a = 0:
 Se os dados da amostra forem compatíveis com essa hipótese (i.e. se
o teste a = 0 vs a ≠ 0 não for rejeitado) o declive pode ser estimado
pontualmente pelo MMQ, levando ao modelo:

bɶ = ∑ i xi y i ∑i i
x 2 ɶ +E
→ Y = bX
 Se os dados da amostra não forem compatíveis com essa hipótese, o
modelo linear não é adequado ao problema e terá que ser melhorado

07-12-2009 N.Sousa, ESAC (c) 16


Previsão de novas observações

 Em geral, um modelo de regressão pode ser usado


com alguma confiança dentro da gama de valores X
que participou para o cálculo dos parâmetros de
regressão
 Se sairmos um pouco do intervalo de X, estamos a
extrapolar o modelo. Uma extrapolação para valores
de X pouco afastados do intervalo normalmente não
apresenta problemas
 Mas extrapolações para valores longe do intervalo de
X raramente são satisfatórias
 Podemos calcular previsões para novas observações
mediante a construção de bandas de previsão
07-12-2009 N.Sousa, ESAC (c) 17
Banda de previsão C

 Para um novo valor da variável independente x


podemos prever em que gama de valores esperamos
encontrar y:
 Um intervalo de previsão para uma observação futura,
com (1–α) × 100% de confiança, é dado por:

( x − x )2
IPC : yɶ ± tn − 2 ( α2 ) ⋅ S 1 + n1 + Sxx

 Interpretação: para um dado x, prevê-se que y


pertença ao intervalo indicado (1–α) × 100% das vezes
 A este intervalo chamamos banda de previsão C
07-12-2009 N.Sousa, ESAC (c) 18
Aspeto gráfico de uma banda C

07-12-2009 N.Sousa, ESAC (c) 19


Regressão linear múltipla

 Regressão linear múltipla é um modelo de


relação estatística entre uma v.a. Y e um
conjunto de k regressores, xi
Y = a + b1 X1 + b2 X 2 + ⋯ + bk X k + E
com erros independentes e normalmente
distribuídos E ~ > IN (0,σ 2 )
 Tal como no caso da regressão simples,
podemos usar o MMQ para estimar
pontualmente os parâmetros a e bi
07-12-2009 N.Sousa, ESAC (c) 20
Interpretação geométrica da RLM
 Procuramos agora o plano que minimiza as distâncias às
observações, segundo o eixo Y

 No boneco, o plano é tal que as distâncias a azul são mínimas


 A 4+ dimensões,o plano chama-se hiperplano e deixamos de
ter uma imagem gráfica.
07-12-2009 N.Sousa, ESAC (c) 21
Estimativas dos parâmetros de uma
regressão linear múltipla
 Seja xim o m-ésimo valor da variável xi. Para estimar os
parâmetros temos de resolver o sistema de equações
aɶ + bɶ1x1 + ⋯ + bɶk xk = y
n
Sxi x j = ∑ (x im − xi )( x jm − x j )
m =1
bɶ1Sx1x1 + ⋯ + bɶk Sx1xk = Sx1y n
Sxi y = ∑ (x im − xi )( y m − y m )
⋮ ⋮ m =1
n
1
bɶ1Sxk x1 + ⋯ + bɶ1Sxk xk = Sxk y S =
2
∑ (y − yɶ m )2
n−k m =1
m

 Estes cálculos podem ser feitos manualmente, usando


matrizes de variância-covariância
 Na prática, as contas são muito extensas, pelo que se usa
sempre software estatístico (Excel, R, SPSS...)
 É necessário é depois compreender os resultados que o
software apresenta!
07-12-2009 N.Sousa, ESAC (c) 22
Significância conjunta da regressão
múltipla – anova
 Para uma RLM, o teste anova (ou teste de precisão do
ajustamento) coloca frente-a-frente todos os parâmetros bi
em conjunto e simultaneamente:
Ho: ∀i : bi = 0 vs H1: ∃i : bi ≠ 0
 Verifica se é plausível uma relaçãoY = a + b1X1 + b2 X2 + ⋯ + bk Xk + E
 Tabela anova:
Fonte var. SQ GL MQ Estatística de teste
Regressão SQreg = ∑ bɶi Sxi y k MQreg MQr / MQe ~ > FGL1,GL 2
Erros SQtot − SQreg n – k – 1 MQerro
Total SQtot = Syy n–1

 Cálculos normalmente feitos por software estatístico

07-12-2009 N.Sousa, ESAC (c) 23


Significância individual da regressão
múltipla
 Se o modelo, como um todo, é significativo, o próximo passo
é tentar identificar quais as variáveis dependentes Xi que
contribuem para explicar Y
 Para isso recorremos ao teste de significância individual dos
parâmetros de regressão:
Ho: bi = 0 vs. H1: bi ≠ 0
bɶi
ETbi = ~ > t n − k −1
S / Sxi xi
 Não rejeição de uma H0 significa que a variável independente
correspondente Xi não contribui para explicar a variável
dependente Y, devendo por isso ser retirada do modelo
 Rejeição de uma H0 significa que Y depende, pelo menos
linearmente, de Xi

07-12-2009 N.Sousa, ESAC (c) 24


Software: Excel
Estatística de regressão ANOVA
R múltiplo 0,9959 (R Pearson) GL SQ MQ F F de signif
Quadr. de R 0,9919 (R2) Regressão 2 2175,1 1087,6 184,05 0,0007
R2 ajustado 0,9865 (R2 ajust.) Residual 3 17,727 5,909 (Fobs) (Valor prova)
Erro-padrão 2,4308 (S) Total 5 2192,8
Observações 6 (n)

Coeficientes Erro-padrão Stat t valor P 95% inf 95% sup


Interceptar 4,5643 3,5351 1,2911 0,2871 -6,686 15,815
X1 6,8133 0,3647 18,68 0,0003 5,6525 7,974
X2 0,0122 0,5967 0,0205 0,9849 -1,8866 1,9111
Ordenada e Estimativas valor de limite inf limite sup
S / Sx i xi ETobs
regressores de a, b1, b2 prova do IC do IC

 ETobs , valor de prova e limites do IC referem-se ao teste à


significância individual dos coeficientes dos regressores
respetivos (p.24)
07-12-2009 N.Sousa, ESAC (c) 25
Software: R
Call:
lm(formula = y ~ x1 + x2) modelo Y = a + b1 X1 + b2 X 2 + E

Residuals: ei = y i − yɶ i
1 2 3 4 5 6
0.56132 -3.07740 2.13379 1.47063 -1.10699 0.01865

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.56432 3.53513 1.291 0.287147
x1 6.81325 0.36473 18.680 0.000335 ***
x2 0.01222 0.59667 0.020 0.984945
--- aɶ, bɶ1, bɶ2 S / Sxi xi ETobs p -value do teste à sig. individual

Signif.codes: 0‘***’ 0.001‘**’ 0.01‘*’ 0.05‘.’ 0.1‘ ’ 1

Residual standard error: 2.431 (S ) on 3 degrees of freedom


2 2
Multiple R-squared: 0.9919,(R ) Adj. R-squared: 0.9865 (R aj.)
F-stat.: 184 (Fobs ) on 2 and 3 DF, p-value: 0.0007269 (α p anova)
07-12-2009 N.Sousa, ESAC (c) 26
Coeficiente de determinação múltipla

 Tal como no caso da RLS, na RLM podemos definir


uma quantidade R2 que ateste da qualidade do
modelo
SQreg
R =
2

SQtot
 A estatística de teste da anova pode ser escrita
como função de R2 :
R2 / k
F= ~ > Fk ,n − k −1
(1 − R ) /(n − k − 1)
2

07-12-2009 N.Sousa, ESAC (c) 27


Quantos/que regressores usar?
 Numa situação prática muitas vezes não sabemos quantos
factores podem influenciar na variável de resposta, Y
 A escolha pode ser: partir de um grupo restrito de factores e ir
incluindo mais e mais regressores (Xi s) – método progressivo
 Ou, ao invés, incluir todos os regressores de início e retirar os que
não tenham impacto (regressores com hipotese bi = 0 não
rejeitada) – método retrocessivo ou regressivo
 A retirada ou inclusão de vários regressores num modelo tem um
impacto global, que não se resume somente ao resultado do teste
individual bi = 0 vs bi ≠ 0
 O impacto global pode ser avaliado mediante testes anova à
significância de um conjunto de regressores. (Se esta questão for
relevante para o leitor, pesquisar na literatura por estes testes.)
07-12-2009 N.Sousa, ESAC (c) 28
Regressão não linear
 Regressão não linear tenta explicar a variável
independente Y mediante uma relação não linear com
uma ou mais variáveis dependentes Xi
b
Y = a+ +E
X
b
a+ +E
Y = ea + bX + E , Y = e X

Y = a + b1 X + b2 X 2 + ⋯ + bk X k
 O cálculo dos coeficientes pode ser feito pelo método
dos mínimos quadrados (funciona sempre, mas requer
software especializado), ou via...
07-12-2009 N.Sousa, ESAC (c) 29
Linearização
 Uma regressão não linear pode, por vezes, ser transformada numa linear,
i.e. pode ser linearizada, mediante uma mudança de variável
X =1/ U
b
Y = a+ +E → Y = a + bU + E
X
log
Y = e a + bX + E → ln Y = a + bX + E
( X i )= Xi
Y = a + b1 X + ⋯ + bk X k → Y = a + b1 X1 + ⋯ + bk X k
 Com a mudança de variável passamos a ter um modelo linear
 Nem todos os modelos são linearizáveis!! Num caso particular deve-se
consultar a literatura para saber se a linearização é possível nesse caso.
Os casos acima são.
 Os coeficientes a,b são depois encontrados via RLS/RLM

07-12-2009 N.Sousa, ESAC (c) 30

Você também pode gostar