Teorico
Teorico
Teorico
Material Teórico
Algoritmos de Regressão e Classificação
Revisão Textual:
Prof.ª Dr.ª Selma Aparecida Cesarin
Algoritmos de Regressão
e Classificação
• Regressão Linear;
• Algoritmos de Classificação;
• Algoritmo de Classificação Naïve Bayes;
• Árvore de Decisões;
• Validação Cruzada e Curva Roc;
• Validação Cruzada.
OBJETIVO DE APRENDIZADO
• Apresentar as técnicas de regressão e os algoritmos de classificação, bem como o
algoritmo Naive Bayes, as árvores de decisão e, por fim, as técnicas de validação dos
modelos gerados, como a validação cruzada e a curva ROC para classificadores.
Orientações de estudo
Para que o conteúdo desta Disciplina seja bem
aproveitado e haja maior aplicabilidade na sua
formação acadêmica e atuação profissional, siga
algumas recomendações básicas:
Conserve seu
material e local de
estudos sempre
organizados.
Aproveite as
Procure manter indicações
contato com seus de Material
colegas e tutores Complementar.
para trocar ideias!
Determine um Isso amplia a
horário fixo aprendizagem.
para estudar.
Mantenha o foco!
Evite se distrair com
as redes sociais.
Seja original!
Nunca plagie
trabalhos.
Não se esqueça
de se alimentar
Assim: e de se manter
Organize seus estudos de maneira que passem a fazer parte hidratado.
da sua rotina. Por exemplo, você poderá determinar um dia e
horário fixos como seu “momento do estudo”;
No material de cada Unidade, há leituras indicadas e, entre elas, artigos científicos, livros, vídeos e
sites para aprofundar os conhecimentos adquiridos ao longo da Unidade. Além disso, você tam-
bém encontrará sugestões de conteúdo extra no item Material Complementar, que ampliarão
sua interpretação e auxiliarão no pleno entendimento dos temas abordados;
Após o contato com o conteúdo proposto, participe dos debates mediados em fóruns de discus-
são, pois irão auxiliar a verificar o quanto você absorveu de conhecimento, além de propiciar o
contato com seus colegas e tutores, o que se apresenta como rico espaço de troca de ideias e
de aprendizagem.
UNIDADE Algoritmos de Regressão e Classificação
Regressão Linear
A predição numérica ou regressão é definida como uma técnica para se pre-
ver valores numéricos a partir de uma dada entrada. Por exemplo, uma situação
industrial na qual se deseja prever a quantidade de metros cúbicos de água poluída
por um determinado componente na saída de água corrente em um processo quí-
mico, dado que esse valor está relacionado à temperatura de entrada da água.
Uma reta de regressão ou reta de ajuste ótimo é aquela para a qual a soma dos
quadrados dos resíduos é mínima.
n xy ( x )( y )
m
n x 2 x
2
b y mx
y mx,
n n
onde,
8
Tabela 1 – Com exemplos de valores de temperatura
de entrada e metros cúbicos de água poluída
Temperatura Vendas da Empresa
(/10) ( metros cúbicos)
X Y
2,4 225,0
1,6 184,0
2,0 220,0
2,6 240,0
1,4 180,0
1,6 184,0
2,0 186,0
2,2 215,0
Fonte: adaptado de (Navidi, 2014)
Modelos que contêm mais de uma variável independente são modelos de re-
gressão múltipla, que seguem o mesmo raciocínio da regressão linear com uma
única variável.
9
9
UNIDADE Algoritmos de Regressão e Classificação
Algoritmos de Classificação
As Técnicas de Classificação podem ser utilizadas para classificar objetos num
determinado número de categorias ou classes.
Por exemplo, um objeto pode ser classificado numa categoria específica com
base em seus atributos, como forma, cor e peso. Uma classificação razoável para
um objeto, que é esférico, amarelo e com menos de 60 gramas de peso pode ser
uma bola de tênis.
10
Geralmente, o resultado retorna um índice de probabilidade e associação de
classe. A saída da maioria das implementações são pontuações de LOG da proba-
bilidade para todas as classes; sendo assim, atribui-se dado objeto à classe que ele
tiver o maior índice.
P ( A C ) P( A C ) P(C )
p(C A)
P ( A) P( A)
onde
Note que:
11
11
UNIDADE Algoritmos de Regressão e Classificação
Então,
O classificador de Bayes irá, então, retornar a classe à qual o objeto tiver maior
probabilidade de estar.
Para isso, ele calcula usando a regra de Bayes para todas as classes. Note que,
caso haja mais atributos, o resultado será o produtório da probabilidade de todos
os atributos para a determinada classe.
Conforme segue:
m
P( a1 , a2 , ..., am Ci ) P( a1 C1 ) P( a2 C1 )...P( am Ci )... P( am Ci ) P( a j Ci )
j 1
Árvore de Decisões
Uma árvore de decisão consiste em nós internos que representam as decisões
correspondentes aos hiperplanos ou pontos de divisão entre as classes, e nós de
folha que representam regiões ou partições do espaço de dados, que são rotulados
com a maioridade da classe.
12
Figura 1 – Exemplo gráfico de hiperplanos que separam as classes
Fonte: Zaki; Meira, 2014
Nesse caso, os pontos de divisão criam hiperplanos que irão dividir as classes.
13
13
UNIDADE Algoritmos de Regressão e Classificação
Por outro lado, uma partição possui maior entropia ou mais desordem se os
objetos forem misturados, e não há uma classe principal; em outras palavras, há
objetos de classes diferentes misturados. A entropia mede, então, o grau de pureza
de uma classe.
k
H ( D ) P( ci D )log2 P( ci D )
i 1 ,
onde,
Caso o grupo seja puro, significa que todos os objetos são da mesma classe e
sua entropia será 0.
Note que esse tipo de cálculo pode ser aplicado a um determinado atributo, de
modo a se verificar se ele é relevante para a definição de classe, nesse caso, usando
também a entropia como base.
14
• Verdadeiro Positivo (TP – True Positive): trata-se do número de pontos
classificados corretamente como positivos;
• Falso Positivo (FP – False Positive): número de pontos classificados como
positivo; porém, é negativo para a dada classe, nesse caso, um erro;
• Falso Negativo (FN – False Negative): número de pontos classificado como
negativo para uma dada classe; porém, ele deveria ser positivo, que também
se trata de um erro do algoritmo;
• Verdadeiro Negativo (TN – True Negative): número de pontos classificados
corretamente como negativos, ou seja, de fato não pertencem à classe dada.
FP FN
Error Rate
n
TP TN
Accuracy
n
Segue um exemplo Gráfico de uma AUC para um classificador dito como bom:
Figura 3 – Exemplo Gráfico de uma AUC para um classificador dito como bom
Fonte: Próprio Autor
15
15
UNIDADE Algoritmos de Regressão e Classificação
Note que a reta entre os pontos (0,0) e (1,1) se trata de um classificador aleatório
e o classificador em questão é representado pela curva presente no Gráfico.
Validação Cruzada
A validação cruzada é uma técnica relativamente simples, na qual se pode
dividir a base de dados total de treinamento em parcela. Por exemplo, validação
cruzada de 50%, em que o classificador será treinado com os 50% de dados repre-
sentativos e validado com os outros 50%. Nesse caso, dado que se sabe o resultado
da classificação, pode-se medir a acurácia do classificador.
Dessa maneira, conseguir aferir qual parcela do conjunto total de dados repre-
senta melhor o conjunto total e gera um melhor classificador.
16
Material Complementar
Indicações para saber mais sobre os assuntos abordados nesta Unidade:
Sites
Minha Biblioteca
Como leitura complementar, o capítulo 5 do livro de mineração de dados presente na
Minha Biblioteca, capítulo dedicado aos algoritmos de classificação.
https://goo.gl/S8NnNn
Science Prog
Segue um link que ilustra um exemplo de execução do Naive Bayes no Weka.
https://goo.gl/X4GVM7
Dev Media
Segue um link no qual é possível fazer uma leitura sobre a regressão linear, bem como
observar um exemplo prático.
https://goo.gl/cvWhzS
17
17
UNIDADE Algoritmos de Regressão e Classificação
Referências
DOUGHERTY, G. Pattern Recognition and Classification: An Introduction.
2013. ed.[S.l.]: Springer, 2012.
LARSON, R.; FARBER, B. Estatística aplicada. 4. ed. São Paulo: Pearson Pren-
tice Hall,2010.
MOHAMMED, J. Zaki; MEIRA JR., Wagner. Data Mining and Analysis: Funda-
mental Concepts and Algorithms. Cambridge University Press. May 2014. Dispo-
nível em: <http://www.dataminingbook.info/pmwiki.php/Main/BookPathUploads
?action=downloadman&upname=book-20160121.pdf>. Acesso em: 7 mar. 2017.
SOUZA, Alberto Messias da Costa. Uma nova arquitetura para Internet das Coi-
sas com análise e reconhecimento de padrões e processamento com Big Data.
2015. Tese (Doutorado em Sistemas Eletrônicos) – Escola Politécnica, Universidade
de São Paulo, São Paulo, 2015. Disponível em: <http://www.teses.usp.br/teses/
disponiveis/3/3142/tde-20062016-105809/>. Acesso em: 7 mar. 2017.
18