Gradiente Descendente PDF

Universidade Federal do Paraná
Laboratório de Estatı́stica e Geoinformação - LEG
Gradiente descendente
(batch, stochastic e boosting)
Prof.: Eduardo Vargas Ferreira

Solução de quadrados mı́nimos
• Vamos lembrar do problema:
yi = β t xi + εi , com ε ∼ N(0, σ 2 ).
• Isso implica em
(yi − β t xi )2

1
P(yi |xi ; β) = √ exp − .
2πσ 2σ 2
• A notação P(yi |xi ; β) indica que essa é a distribuição de yi dado xi e

parametrizado por β (não é condicionado em β, pois ele não é v.a.);
• Calculando a log-verossimilhança temos

n
(yi − β t xi )2

Y 1
`(β) = log √ exp −
i=1
2πσ 2σ 2
n
1 1 X
= n log √ − 2 (yi − β t xi )2 .
2πσ 2σ i=1
• Assim, maximizar a log-verossimilhança é equivalente a minimizar J(β).
2
Solução de quadrados mı́nimos
• Seja X ∈ Mn×p (R), com n > p e posto(X) = p. Dado y ∈ Rn , definimos o
seguinte problema de minimização:
2
X β̂ − y = min kX β − yk2 ; β ∈ Rp+1

2
• Dizemos que o elemento β̂ é uma solução de quadrados mı́nimos;
Teorema: Seja X ∈ Mn×p (R), com n > p e posto(X) = p. Definimos o funcional

J : Rp+1 → R da seguinte forma:
J(β) = hXβ − y, Xβ − yi ; β ∈ Rp+1 .
Então, o Problema de Minimização: encontrar β̂ ∈ Rp+1 tal que
J(β̂) = min J(β) ; β ∈ Rp+1

é equivalente ao Sistema Normal
Xt Xβ = Xt y.
3
Demonstração
• O Gradiente do funcional J no ponto β ∈ Rp+1 é definido por:
∇J(β) = ∇ Xβ − y)t (Xβ − y

= ∇ β t Xt Xβ − β t Xt Xy − yt Xβ + yt y

= ∇tr β t Xt Xβ − β t Xt y − yt Xβ + yt y

= ∇ tr β t Xt Xβ − 2tr yt Xβ

= ∇ Xt Xβ + Xt Xβ − 2Xt y

= 2Xt Xβ − 2Xt y
• Dizemos que β̂ é um ponto crı́tico do funcional J se, e somente se,

D E
∇J(β)(v ) = 2 Xt Xβ̂ − Xt y, v = 0 , para todo v ∈ Rp+1
• ∇J(β)(v ) é derivada direcional de J no ponto β̂ na direção de v ∈ Rp+1 ;
• Portanto, o único ponto crı́tico do funcional J é caracterizado como:

−1 t
β̂ = Xt X X y.
4
Método do gradiente descendente (GD)
• O Gradiente descendente (GD) é um método para encontrar o mı́nimo
de uma função de forma iterativa;
• Cada passo pode ser visto como o problema de minimização

1
2
β (k+1) = argmin J(β (k) ) + ∇J(β (k) )t β − β (k) + β − β (k)

β 2α
• Note que é uma aproximação quadrática trocando ∇2 J(β (k) ) por 1

2α
I.
• Derivando com relação a β temos

1
0 = ∇J(β (k) ) + (β − β (k) ) ⇒ β (k+1) = β (k) − α∇J(β (k) )
α
Algoritmo: Escolha um chute inicial, β (0) ∈ Rp+1 , repita:
β (k+1) = β (k) − αk ∇J(β (k) ), k = 0, 1, . . .
pare quando atingir convergência.
5
Taxa de aprendizagem α
• Taxa de aprendizagem controla o tamanho do passo em cada iteração;
• Selecionar o valor correto é crı́tico
? Se tomarmos α pequeno, o método fica lento;
? Se α muito grande, o método diverge.
6
Exemplo 1
• Vamos começar com um exemplo simulado de regressão linear simples
• O algoritmo não será apresentado por completo, sua implementação

ficará como exercı́cio (depois compare os resultados).
set.seed(12345)
x <- sample(seq(from = -1, to = 1, by = 0.1), size = 50, replace = TRUE)
y <- 2 * x + rnorm(50)
7
Exemplo 1
X <- as.matrix(x)
y <- as.vector(y)
f <- function(X, y, b) {
(1/2) * norm(y - X %*% b, "F")^2
}
grad_f <- function(X, y, b) {
t(X) %*% (X %*% b - y)
}
simple_ex <- graddesc(f, grad_f, X, y, 0.01)
plot_loss(simple_ex)
## Minimum function value:

## 36.85
##
## Intercept:
## 0.28
##
## Coefficient(s):
## 2.123
8
Exemplo 2
• O segundo exemplo vamos utilizar o moviebudgets dataset. O banco

contém as notas de 5183 filmes, orçamento aproximado, ano etc.;
data(moviebudgets)
head(moviebudgets)
## title year length budget rating votes

## 1 Titanic 1997 194 200000000 6.9 90195
## 2 Spider-Man 2 2004 127 200000000 7.9 40256
## 3 Troy 2004 162 185000000 7.1 33979
## 4 Waterworld 1995 176 175000000 5.4 19325
## 5 Terminator 3: Rise of the Machines 2003 109 175000000 6.9 32111
## 6 Wild Wild West 1999 107 170000000 4.0 19078
## r1 r2 r3 r4 r5 r6 r7 r8 r9 r10 mpaa Action Animation
## 1 14.5 4.5 4.5 4.5 4.5 4.5 14.5 14.5 14.5 24.5 PG-13 0 0
## 2 4.5 4.5 4.5 4.5 4.5 4.5 14.5 24.5 24.5 24.5 PG-13 1 0
## 3 4.5 4.5 4.5 4.5 4.5 14.5 14.5 14.5 14.5 14.5 R 1 0
## 4 4.5 4.5 4.5 14.5 14.5 14.5 14.5 14.5 4.5 4.5 PG-13 1 0
## 5 4.5 4.5 4.5 4.5 4.5 14.5 24.5 24.5 4.5 14.5 R 1 0
## 6 14.5 14.5 14.5 14.5 14.5 14.5 4.5 4.5 4.5 4.5 PG-13 1 0
## Comedy Drama Documentary Romance Short
## 1 0 1 0 1 0
## 2 0 0 0 0 0
## 3 0 1 0 1 0
## 4 0 1 0 0 0
## 5 0 0 0 0 0
## 6 1 0 0 0 0
9
Exemplo 2
f <- function(X, y, b) {
(1/2) * norm(y - X %*% b, "F")^2
}
grad_f <- function(X, y, b) {
t(X) %*% (X %*% b - y)
}
X <- as.matrix(moviebudgets$budget)
y <- as.vector(moviebudgets$rating)
movies1 <- graddesc(f, grad_f, X, y, 1e-04, 5000)
• Função graddesc • Função lm
## Minimum function value: ##

## 6174 ## Call:
## ## lm(formula = y ~ X)
## Intercept: ##
## 6.149 ## Coefficients:
## ## (Intercept) X
## Coefficient(s): ## 6.15e+00 -8.53e-10
## -8.533e-10
10
Prós e contras do GD
Ideia simples e cada iteração é barata;

Garantia de convergência para o mı́nimo local;
Com vários algoritmos de segunda ordem para acelerar sua convergência;
Muito rápido para matrizes bem condicionadas e problemas fortemente
convexos;
χ Frequentemente é lento, pois problemas interessantes não são fortemente

convexos ou bem condicionados;
χ Não lida com funções não diferenciáveis (dica: use o método Subgradiente).
χ Utiliza todos os dados de treinamento para estimar os parâmetros. Assim,
para grandes bancos de dados torna-se lento;
• Diante deste último aspecto, por que não em cada iteração selecionar um
valor na amostra e com sua informação executar um passo?
11
Gradiente descendente estocástico (GDE)
12
• Como vimos, no gradiente descendente utilizamos a amostra completa

para atualizar os parâmetros (é um processo determinı́stico);
• Assim, se o tamanho da amostra de treino for grande (na verdade MUITO

grande!) o gradiente descendente levará muito tempo em cada passo;
• A diferença no Gradiente descendente estocástico (GDE) está na

utilização de somente uma observação em cada iteração.
• Então, cada passo é realizado com uma v.a. de um processo estocástico;
• Em redes neurais, por exemplo, o custo para se fazer backpropagation

com os dados completos é muito alto. Portanto, abordagens estocásticas
como esta torna o método mais atrativo.
13
• Considere o par (xi , yi ) amostrado do treinamento. A atualização dos

parâmetros é dada por
Algoritmo: Escolha um chute inicial, β (0) ∈ Rp+1 , repita:
β (k+1) = β (k) − αk ∇J(β (k) ; xi , yi ), k = 0, 1, . . .
• No GDE a taxa de aprendizagem, α, é, tipicamente, menor do que o GD

(batch). Isso ocorre, pois temos uma maior variância nas atualizações;
• Uma escolha de α que funciona bem na prática é uma taxa pequena o

suficiente que dê uma convergência estável nas iterações iniciais;
• Métodos mais sofisticados incluem o uso de Backtracking line search ou

Exact line search.
14
Prós e contras do GDE
Convergência mais rápida, especialmente com grandes bancos de dados ou

dados redundantes, p. ex.:
- Imagine que temos dados de treino de tamanho 100.000;
- Mas na verdade são 100 cópias de 1000;
- Ou seja, padrões parecidos, com mesmo efeito;
- Batch será, pelo menos, 100 vezes mais devagar.
A trajetória estocástica permite escapar de um mı́nimo local;

χ Prova da convergência é probabilı́stica;
χ Muitos métodos de segunda ordem não funcionam;
15
Gradiente boosting
16
Intuição
• Lembrando de regressão
n
X n
X n
X
(yi − ȳ )2 = (ŷi − ȳ )2 + (yi − ŷ )2 .
i=1 i=1 i=1
| {z } | {z } | {z }
SQT SQR SQE
• E, geometricamente, temos
• Isso quer dizer que toda variabilidade não explicada pela regressão ficará
no resı́duo (variáveis e funções delas!);
• Vejamos um exemplo.
17
Intuição
• Simular uma situação na qual a verdadeira relação entre X e Y é
y = 3, 5x 2 + 6x + 5
x <- sample(seq(from = -5, to = 5, by = 0.1), size = 500, replace = TRUE)

y <- 3.5*x*x + 6*x + 5 + rnorm(500,0,10)
100
y
50
−5.0 −2.5 0.0 2.5 5.0

x
18
Intuição
• Agora, vamos ajustar um modelo de regressão linear simples
ajuste = lm(y ~ x)
ajuste$coef
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 33.3499 1.2533 26.61 <2e-16 ***
## x 6.2182 0.4409 14.11 <2e-16 ***
• Pergunta: Se o termo quadrático não está no modelo, onde ele estará?

• Resposta: Nos resı́duos.
e = ajuste$residuals 50
qplot(x,e,
xlab="x",
Resíduos
ylab="Valores ajustados") 0
−50
−5.0 −2.5 0.0 2.5 5.0

x
19
Intuição
• Então, considere o seguinte procedimento
Y = h(x) + residuo (1)
• Se o residuo não for um ruı́do branco (mas algo correlacionado com Y )
residuo = g (x) + residuo2 (2)
• Combinando (1) e (2)
Y = h(x) + g (x) + residuo2
• Pode-se dizer que h(x) foi atualizada com uma parte do residuo, ou seja
h(x)(2) = h(x)(1) + g (x)
• Mas, como isto está relacionado com Gradiente boosting?
20
Gradiente boosting e resı́duos
• Queremos minimizar
n
1 X
J(yi , h(x)) = [yi − h(xi )]2
2n i=1
• Derivando com relação a h(xi ) temos

∂J(yi , h(x))
= h(xi ) − yi .
∂h(xi )
• Podemos interpretar os resı́duos como o negativo do gradiente

∂J(yi , h(x))
residuos = yi − h(xi ) = −
∂h(xi )
• Então, considerando perda quadrática, concluı́mos que
resı́duo ⇔ negativo do gradiente

Atualizar h(xi ) com o resı́duo ⇔ Atualizar h(xi ) com o negativo do gradiente
21
Gradiente boosting
Algoritmo: Escolha um chute inicial, h(xi )(0) , faça:
∂J(yi , h(x)(k) )
* Calcule − ;
∂h(xi )(k)
* Ajuste um modelo de regressão g (xi )(k) baseado no negativo do gradiente;
h(xi )(k+1) = h(xi )(k) + ρg (xi )(k) , k = 0, 1, . . .
Exemplo:
Começando com um simples preditor Aprimorando com os resı́duos
22
Gradiente boosting
Algoritmo: Escolha um chute inicial, h(xi )(0) , faça:
∂J(yi , h(x)(k) )
* Calcule − ;
∂h(xi )(k)
* Ajuste um modelo de regressão g (xi )(k) baseado no negativo do gradiente;
h(xi )(k+1) = h(xi )(k) + ρg (xi )(k) , k = 0, 1, . . .
Exemplo:
Combinando, temos um melhor preditor Novamente, aprimorando com os resı́duos
23
Gradiente boosting
• O princı́pio básico é esse; propor um modelo e aprimorá-lo (ou

“ensiná-lo”) através da análise dos resı́duos;
• Note que podemos considerar outras funções perda e derivar o algoritmo

da mesma maneira.
24
Outras funções perda
• Soma dos desvios absolutos (SDA)
n
1X
J(yi , h(x)) = |yi − h(xi )|
n i=1
? O negativo do gradiente fica

(
∂J(yi , h(x)) 1, se |yi − h(xi )| < 0,
− = sign(yi − h(xi )) =
∂h(xi ) −1, se |yi − h(xi )| > 0
• Huber-M cost
n
(
1 X 12 [yi − h(xi )]2 , para |y − h(xi )| ≤ δ,
J(yi , h(x)) =
n i=1 δ |yi − h(xi )| − 21 δ 2 , caso contrário.
? O negativo do gradiente fica

(
∂J(yi , h(x)) yi − h(xi ), se |yi − h(xi )| ≤ δ,
− =
∂h(xi ) δsign(yi − h(xi )), caso contrário.
25
Outras funções perda
26
Conclusão
• O método introduz um novo modelo de regressão em cada iteração, a fim

de compensar as deficiências do modelo existente;
• As deficiências são identificadas pelo negativo do gradiente;
• Para qualquer função perda podemos derivar o Gradiente boosting;
• Perda absoluta e Huber são mais robustos a outliers;
• Para detalhes de como escolher o valor de δ, veja

Greedy Function Approximation: A Gradient Boosting Machine
27

Gradiente Descendente PDF

Enviado por

Direitos autorais:

Formatos disponíveis

Gradiente Descendente PDF

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Gradiente Descendente PDF

Enviado por

Direitos autorais:

Formatos disponíveis

Universidade Federal do Paraná

Laboratório de Estatı́stica e Geoinformação - LEG

Prof.: Eduardo Vargas Ferreira

• A notação P(yi |xi ; β) indica que essa é a distribuição de yi dado xi e

• Calculando a log-verossimilhança temos

• Assim, maximizar a log-verossimilhança é equivalente a minimizar J(β).

• Dizemos que o elemento β̂ é uma solução de quadrados mı́nimos;

Teorema: Seja X ∈ Mn×p (R), com n > p e posto(X) = p. Definimos o funcional

J(β) = hXβ − y, Xβ − yi ; β ∈ Rp+1 .

Então, o Problema de Minimização: encontrar β̂ ∈ Rp+1 tal que

J(β̂) = min J(β) ; β ∈ Rp+1

é equivalente ao Sistema Normal

∇J(β) = ∇ Xβ − y)t (Xβ − y

• Dizemos que β̂ é um ponto crı́tico do funcional J se, e somente se,

• ∇J(β)(v ) é derivada direcional de J no ponto β̂ na direção de v ∈ Rp+1 ;

• Portanto, o único ponto crı́tico do funcional J é caracterizado como:

• Cada passo pode ser visto como o problema de minimização

• Note que é uma aproximação quadrática trocando ∇2 J(β (k) ) por 1

• Derivando com relação a β temos

Algoritmo: Escolha um chute inicial, β (0) ∈ Rp+1 , repita:

β (k+1) = β (k) − αk ∇J(β (k) ), k = 0, 1, . . .

pare quando atingir convergência.

• Selecionar o valor correto é crı́tico

? Se tomarmos α pequeno, o método fica lento;

? Se α muito grande, o método diverge.

• O algoritmo não será apresentado por completo, sua implementação

## Minimum function value:

• O segundo exemplo vamos utilizar o moviebudgets dataset. O banco

## title year length budget rating votes

• Função graddesc • Função lm

## Minimum function value: ##

 Ideia simples e cada iteração é barata;

χ Frequentemente é lento, pois problemas interessantes não são fortemente

• Como vimos, no gradiente descendente utilizamos a amostra completa

• Assim, se o tamanho da amostra de treino for grande (na verdade MUITO

• A diferença no Gradiente descendente estocástico (GDE) está na

• Então, cada passo é realizado com uma v.a. de um processo estocástico;

• Em redes neurais, por exemplo, o custo para se fazer backpropagation

• Considere o par (xi , yi ) amostrado do treinamento. A atualização dos

Algoritmo: Escolha um chute inicial, β (0) ∈ Rp+1 , repita:

β (k+1) = β (k) − αk ∇J(β (k) ; xi , yi ), k = 0, 1, . . .

pare quando atingir convergência.

• No GDE a taxa de aprendizagem, α, é, tipicamente, menor do que o GD

• Uma escolha de α que funciona bem na prática é uma taxa pequena o

• Métodos mais sofisticados incluem o uso de Backtracking line search ou

 Convergência mais rápida, especialmente com grandes bancos de dados ou

- Mas na verdade são 100 cópias de 1000;

- Ou seja, padrões parecidos, com mesmo efeito;

- Batch será, pelo menos, 100 vezes mais devagar.

 A trajetória estocástica permite escapar de um mı́nimo local;

x <- sample(seq(from = -5, to = 5, by = 0.1), size = 500, replace = TRUE)

−5.0 −2.5 0.0 2.5 5.0

• Pergunta: Se o termo quadrático não está no modelo, onde ele estará?

−5.0 −2.5 0.0 2.5 5.0

• Então, considere o seguinte procedimento

Y = h(x) + residuo (1)

• Se o residuo não for um ruı́do branco (mas algo correlacionado com Y )

residuo = g (x) + residuo2 (2)

Ideia simples e cada iteração é barata;

Convergência mais rápida, especialmente com grandes bancos de dados ou

A trajetória estocástica permite escapar de um mı́nimo local;