Introdução A Data Science
Introdução A Data Science
Introdução A Data Science
Bio
Data Science
David Taylor, autor da artigo Battle of
the Data Science Venn Diagrams
(out/16) publicado no site kdnuggets.com,
pesquisou as definies de Data Science
"Work that takes more programming skills than
most statisticians have, and more statistics skills
than a programmer has."
"Applied statistics, but in San Francisco."
"The field of people who decide to print 'Data
Scientist' on their business cards and get a salary
bump."
Drew Conway,
2010
Brendan Tierney,
Steven Geringer,
Matthew Mayo,
Buzzwords importantes
Conceitos
Data Mining
Machine Learning
Big Data
Data Science
Deep Learning X
No incio...
KDD x Data Mining
Depois...
Data Mining x Machine
Learning
Machine
Learning
Atualmente
Big Data x Data Science
Data Scientist
Machine
Learning
Data Engineer
Conceitos importantes
Data Mining
Machine Learning
Big Data
Data Science
Modelo
Modelo
uma representao matemtica de um fenmeno
No nosso contexto: uma representao
simplificada de um sistema ou processo real, obtida
a partir dos dados da amostra
, portanto, uma representao dos dados
utilizados na modelagem e NO uma
representao do processo real que produziu
os dados
Um modelo de dados NO capaz de predizer
um comportamento que no est
representado nos dados de treinamento
Construo de Modelos
Atividade Preditiva
Nos problemas preditivos h uma ou mais
variveis de sada (ou variveis dependentes),
que devem ser preditas pelo modelo a partir das
variveis
de
entrada
(ou
variveis
independentes)
Atividade Descritiva
Nos problemas descritivos no h varivel de
sada
Resumem os dados
Caracterizam as propriedades interessantes
Algoritmos
Problemas Descritivos
Clusterizao
Associao
Problemas Preditivos
Classificao
Regresso
Algoritmos de
Aprendizagem No
Supervisionada
Machine
Learning
Algoritmos de
Aprendizagem
Supervisionada
Reconhecimento de
Padres
Weka
Text Mining
NL
P
Bo
W
Processamento de Linguagem
Natural
Anlise
Morfolgica
Anlise Lxica
Anlise Semntica
Anlise do Discurso
Anlise Pragmtica
Anlise Sinttica
Liddy, E.D. Enhanced Text Retrieval Using Natural
Language Processing, Bulletin of the American
Society for Information Science, Vol. 24, No. 4, 1998.
Processamento de Linguagem
Natural
Anlise Morfolgica
Analisa as formas variantes de uma determinada palavra com
relao aos seus componentes (prefixos, raiz e sufixos)
A tcnica de stemming, que reduz variantes de uma palavra
sua raiz comum para comparao de termos, um exemplo de
processamento morfolgico
Anlise Lxica
Morfolgica)
Est relacionado com a anlise da estrutura e significado de
cada palavra
Construo de uma lista de palavras que podem ter baixo
contedo semntico (stop list)
Identificao de personalidades e entidades
Classificao (etiquetador) das palavras em parte do discurso
(part-of-speech, ou POS)
Utilizao de dicionrios
Processamento de Linguagem
Natural
Anlise Sinttica (parsing)
Determina a estrutura sinttica das sentenas
Como tem que avaliar as estruturas possveis, um processo
computacionalmente caro
Fonte:
http://billhails.net/Book/images/
tflaa-tree.png
Processamento de Linguagem
Natural
Anlise Semntica
Tenta interpretar o significado no nvel de sentena
(frase) e no no nvel de palavra isolada
Nesta fase executa-se a desambiguao de palavras,
pois h um contexto de sentena
Processamento sofisticado
Anlise do Discurso
Tenta interpretar a estrutura e o significado de unidades
maiores (pargrafos, documentos, etc.)
Anlise Pragmtica
Representao de Documentos
Por questes de eficincia e conciso, no se
trabalha com o texto completo dos documentos
Para representao, recuperao, classificao e
agrupamento dos documentos utilizam-se os
termos resultantes do pr-processamento
A ideia fundamental que a semntica do
documento pode ser expressa por um conjunto de
termos
Os documentos passam a ser representados por
vetores, onde os ndices correspondem aos
termos utilizados e os valores em cada posio
representam a importncia do termo dentro do
documento
BoW (Bag-of-Words)
Para uma coleo de documentos
Fonte: http://homepages.dcc.ufmg.br/~
nivio/cursos/ri08/transp/indexing.pdf
BoW (Bag-of-Words)
Matriz Termo-Documento
Vetor
es
Ferramentas
www.kdnuggets.com/software/text.html
Acessado no dia
25/10/2016
Anlise de Sentimentos
Conceitos
Emoes
So breves, intensas e disparadas pela avaliao de um
evento ou apreciao de um objeto. Por exemplo: raiva,
tristeza, alegria, medo.
Opinies
Verbalizaes das atitudes
Adaptado de:
http://www.br-ie.org/pub/index.php/pie/article/download/2342/2097
Anlise de Sentimentos
Definio
a deteco de
atitudes/opinies
1. Sujeito (origem) da atitude
2. Objeto (aspecto) da atitude
3. Tipo da atitude
Exemplos: gostar, amar, desejar, odiar,
valorizar
Ou, simplesmente, a polaridade
ponderada
Positivo, negativo ou neutro, junto com a
intensidade
Mais comum
Fonte:
https://class.coursera.org/nlp/lecture/31
Anlise de Sentimentos
Nveis de complexidade
Tarefa simples
Identificar se a atitude (opinio) do texto
positiva ou negativa
Tarefa mdia
Mensurar a atitude (opinio) do texto
numa escala de 1 a 5, por exemplo
Tarefa difcil
Detectar o sujeito, o objeto e/ou o tipo
da atitude (opinio)
Anlise de Sentimentos
Abordagens
Classificao supervisionada
Documentos
Sentenas
No voltado para fruns, blogs, etc., onde um
mesmo autor pode expressar opinio sobre vrios
produtos/servios, alm de poder compar-los
Classificao no-supervisionada
Palavras
bottom Sentenas
up
Documentos
Classificao No-Supervisionada
Palavras
(http://www.wjh.harvard.edu/~inquirer)
2.
(
http://www.cs.uic.edu/~liub/FBS/opinion-lexicon-English.rar)
3.
SentiWordNet
(http://sentiwordnet.isti.cnr.it/)
Lxico de Sentimentos
The General
Inquirer
SentiWordNe
t
Fonte:
Lxico de Sentimentos
Lngua Portuguesa
SentiLex-PT 02
(http://
dmir.inesc-id.pt/project/SentiLex-PT_02)
4779 adjetivos
1081 nomes
489 verbos
666 expresses idiomticas
Classificao No-Supervisionada
Sentenas
A soluo mais simples calcular a
soma (ou a mdia) das polaridades das
palavras presentes na sentena
Exemplos
"Finn is stupid and idiotic -2 + -3 =
-4
"Finn is only a tiny bit stupid and not
idiotic -4
Esta abordagem no considera
AFINN uma
palavras em ingls
palavras de
negao
e lista
de de
incremento
classificadas entre -5 e +5
Estas palavras foram manualmente
rotuladas por Finn rup Nielsen entre 2009
e 2011
A verso AFINN-111 contm 2477 palavras
e frases
Classificao No-Supervisionada
Documentos
Exemplo em Python
https://github.com/sgsinclair/alta/blob/dc47e4b47b133cee24a85e9817592971e67681cd/ipynb/utilities/SimpleSent
Fonte: NTT/COPPE/UFRJ
Fonte: NTT/COPPE/UFRJ
Classificao Supervisionada
Classifica documentos/sentenas em positivo
ou negativo
Pode utilizar para treinamento base de
documentos pblicos (reviews)
C-NET
Ebay
RottenTomatoes
IMDB
https://pythonspot.com/en/python-sentiment-
http://textprocessing.com/demo/sentiment/
Anlise de Sentimentos
Dificuldades
Avaliaes racionais x emocionais
Nas avaliaes racionais, as sentenas no expressam
emoo
O som do meu telefone claro
Anlise de Sentimentos
Na prtica
Fcil
Tweets, pois so curtos e normalmente vo direto ao
ponto
Fcil/Mdio
Reviews, pois os objetos/aspectos geralmente so claros
e h pouco rudo
Difcil
Discusses, comentrios e blogs, pois h mltiplos
objetos, h comparaes, rudos, sarcasmos, etc.
Aplicaes
Anlise de
Sentimentos do
Twitter comparado
com pesquisa
Gallup de confiana
do consumidor
Brendan O'Connor, Ramnath
Balasubramanyan, Bryan R.
Routledge, and Noah A. Smith.
2010. From Tweets to Polls: Linking
Text Sentiment to Public Opinion
Time Series. In ICWSM-2010
Fonte: www.stanford.edu/class/cs124/lec/sentimen
t.pptx
Aplicaes
Dow Jones
CALM
Anlise de
Sentimentos do
Twitter
comparado com
mercado de aes
Fonte:
www.stanford.edu/class/cs124/lec/sentiment.pptx
isso!
Perguntas?
Mauricio
Onoda
monoda@gmail