BigDataeDataScience AdmirvelMundoNovo
BigDataeDataScience AdmirvelMundoNovo
BigDataeDataScience AdmirvelMundoNovo
net/publication/289253933
CITATIONS READS
0 2,841
1 author:
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
Scalable Fuzzy Time Series Models for Probabilistic Forecasting View project
All content following this page was uploaded by Petrônio Cândido de Lima e Silva on 04 January 2016.
Estrutura Estrutura
Rígida Flexível Sem
Estrutura
Atributos Atributos
Fixos Variáveis
Tamanhos Tamanhos
Fixos Variáveis
Integriadade e
Consistencia
Tipos de Dados
Estruturados
Quantitativo Qualitativo
Ordinal Contínuo
Nominal
Cardinal Discreto
Ordinal
Categorias de Dados
Bancos de Planilhas de
Dados Cálculo Texto
Imagem
Semântica dos Dados
Fonte: http://okfn.de/blog/2015/04/gespraechskreis-digitalisierung-open-data/
Quem ?
Quanto ?
Onde ?
Composição da
Informação
Quando ?
Por quê ?
Como ? O quê ?
O macro processo da informação
DADOS Sistemas de DADOS BD
Produção Operacional
Clientes Funcionários
Ofertas Planejamento
Promoções Metas
etc Promoções
CONHECIMENTO Relatórios
Cubos Data
Gerentes INFORMAÇÃO INFORMAÇÃO
Dashboards Warehouse
Data Mining
DECISÃO
Dado Dado
Conhecimento
Dado Dado
Dado
Dado
Informação Informação
Fonte: http://jp4.r0tt.com/l_5013ce00-5c4a-11e1-ba5f-a9c495600004.jpg
Tamanho dos Dados
Unidade Conversão O que representa
Bit 0 ou 1
Fonte: http://www.techtudo.com.br/artigos/noticia/2013/04/do-disquete-ao-pendrive-veja-evolucao-do-armazenamento-movel.html
Custo do Armazenamento Hoje
Pendrive 2,50
SSD 2,60
Fonte: http://www.wu.ece.ufl.edu/links/dataRate/DataMeasurementChart.html
Velocidade dos Dados
Dispositivo Velocidade Segundo Ano
Wireless
Novas Fontes de Dados
Novas Fontes de Dados
● Por quê?
○ Monitoramento da marca;
○ Monitoramento de campanhas de marketing;
○ Relacionamento com o consumidor;
○ Análise de tendências (trending topics);
○ ...
Data Explosion
O que acontece em 1 minuto na Internet?
Fonte: http://aci.info/2014/07/12/the-data-explosion-in-2014-minute-by-minute-infographic/
Internet das Coisas (IoT)
● Diversos sensores coletando dados
automaticamente;
● Dados são enviados para a internet e
armazenados;
● Usuário é alertado sobre os dados;
Internet das Coisas (IoT)
● Sensores
● GPS ● Timer
● Climáticos ● Biométricos
○ Temperatura ○ Pressão
○ Umidade ○ Temperatura
○ Precipitação Corporal
○ Velocidade do Vento ○ BPM
● Luminosidade ● Carros
Fonte: https://securityledger.com/2014/04/will-ot-big-data-create-darwinian-struggle-for-insurance-carriers/
Dados Abertos (Open Data)
Disponibilizar arquivos de dados:
● Aproveitamento
○ Os dados devem estar em formato utilizável por computador!
● Utilidade
○ Os dados devem estar livres de restrições jurídicas!
Dados Abertos Governamentais
● Lei de Acesso à Informação (LAI)
○ http://dados.gov.br/
○ http://www.portaltransparencia.gov.br/
○ http://www.transparencia.mg.gov.br/
○ http://www.ifnmg.edu.br/acessoainformacao/sobre-
o-acesso-a-informacao
○
Dados Abertos Científicos
● http://br.okfn.org/
● http://www.nature.com/sdata/
● http://blog.visual.ly/data-sources/
●
Novo cenário
Sistemas Emp Governo
Dados
Social
Media
Máquinas e sensores
Impacto da Informação
Novidade Utilidade
Visualização da Informação
● Relatórios
● Gráficos
● Indicadores de Desempenho
● Painéis de Controle (Dashboards)
● Infográficos e Data Storytelling
Business Intelligence
● Exemplos
○ http://www.paraondefoiomeudinheiro.org.
br/dataset/estado-sao-paulo-2012
○ http://ison.stratebi.es/aerobrasil/
○ http://www.it4biz.com.br/apps/dados.gov.br/obrasdopac/
○ http://www.estatisticasfutebolbrasileiro.com/
○ http://dataviva.info/
○
http://www.kdnuggets.com/images/big-data-cartoon-100000-warehouses.jpg
Big Data
Big Data
● Buzzword da moda...
● Quando o tamanho do dados faz parte do
problema!
● Alta Dimensionalidade
○ Entidades / Atributos / Instâncias
Big Data
Big Data
● 4 V's (Stapleton, 2011)
○ Volume
■ Terabytes para Petabytes de dados
○ Velocidade
■ Fluxo contínuo e rápido de novos dados
○ Variedade
■ Dados estruturados, semi e não estruturados
○ Veracidade
■ Governança de dados e qualificação entre
Consistente, Inconsistente, Incompleto, Ambíguo, ...
Fonte: https://devcentral.f5.com/blogs/us/the-four-v-rsquos-of-big-data
Big Data
Fonte: http://sweetlysocial.net/big-data-better-marketing/
Big Data
● Exemplos
○ Social Media
○ Web Logs
○ Sensor Networks
○ Cadeias de DNA
○ LHC
E o poder de processamento?
E o poder de processamento???
● Supercomputadores ???
○ $$$ #Fail
● Multicomputadores !!!
○ $$$ :-)
E o poder de processamento???
● Multicomputadores
○ Cluster
■ SIMD - Single Instruction Multiple Data
■ Rede Local
○ Grid
■ MIMD - Multiple Instruction Multiple Data
■ Distribuição geográfica
E o poder de processamento???
● Cluster = Dividir para Conquistar
○ Sharding
■ Sistema de Arquivos Distribuídos
■ Dividir os dados
○ Map/Reduce
■ Processamento Distribuído & Paralelo
■ Dividir o processamento
Cluster
● Vantagens
○ Alto Desempenho
○ Alta Disponibilidade
○ Flexibilidade
○ Custo
Sharding
● Particionamento Horizontal Replicado
○ O total de dados é dividido em vários partes
Índice
Comp N
Comp 1 Comp 2 Comp 3 Comp 4
Dados
A
B
Dados
C
D
Dados
A
C
Dados
B
D
... Dados
A
D
Map/Reduce: Processamento Distribuído
● Etapa de Mapeamento
○ O processamento total é dividido em pequenas
tarefas
○ As tarefas são enviadas para os computadores
executarem nos dados locais
○ Cada computador envia o resultado para o
computador central
Master
Mapeamento
Índice
Geren
Comp N
Comp 1 Comp 2 Comp 3 Comp 4
...
Dados
Dados Dados Dados Dados
Proc.
Proc. Proc. Proc. Proc.
Map/Reduce: Processamento Distribuído
● Etapa de Redução
○ O computador central recebe o resultado do
resultado único
Master
Redução
Índice
Geren
Comp N
Comp 1 Comp 2 Comp 3 Comp 4
...
Dados
Dados Dados Dados Dados
Proc.
Proc. Proc. Proc. Proc.
Master
Cluster
Índice
Geren
Comp N
Comp 1 Comp 2 Comp 3 Comp 4
...
Dados
Dados Dados Dados Dados
Proc.
Proc. Proc. Proc. Proc.
Até aqui...
● Tenho muitos dados
○ De muitos tipos
○ Chegando muito rápido
● Tenho muito poder computacional
○ Muitos discos
○ Muitos processadores
encontrados.
Análise
Descritiva Preditiva
Padrões Tendências
Diagnóstica Prescritiva
Causas Ações
Álgebra Inteligência
Linear Programação Bancos de Dados
Computacional
Cálculo
Design
Otimização
(Azevedo, 2008)
Processamento
Aquisição Limpeza
Pré
Armazenamento
Transformação Seleção
Problema
Processamento
Análise Modelagem
Exploratória Descritiva
Dados Hipóteses
Visualização Modelagem
Preditiva
Processam.
Teste e
Pós
Validação Implantação
Experimentação
FONTES
Dados Dados Dados
Estrut.
CLUSTER
Semi
Estrut. Pré Pós
Processamento
Processamento Processamento
Não
Estrut.
PRODUTOS
Pré Descritivo Preditivo
Processamento
Regressão
Agrupamento
Ganho de
Informação
Redes Bayesianas
SVM
Correlação
Séries Temporais
PCA
Análise de Redes Recomendação
Associação
Redes Neurais
https://community.jivesoftware.com/docs/DOC-30464
E o cientista de dados?
“Pessoa que é melhor em estatística
do que um engenheiro de software e
melhor em engenharia de software
do que um estatístico”
DJ Patil
Como se tornar um cientista de dados?
Conclusão
Conclusão
● Tudo está conectado!
● Nunca antes tivemos tantos dados,
informações e conhecimento sobre tantas
coisas;
● Há um vasto leque de possibilidades
latentes...
Conclusão
● Data Science
○ Mais do mesmo ou novidade?
○ Uma nova renascença ou uma onda passageira?
William E. Deming
"Dados são o novo petróleo!"
William E. Deming
Conclusão
Intelligence
ERP's
Data
Warehouse
Logs
Arquivos
E-mail Big Data Analytics
NoSQL
Web
Social
Media
INFORMAÇÃO
DADO CONHECIMENTO
Referências
● Azevedo, A.; Santos, M.F. KDD, SEMMA, and CRISP-DM: A Parallel Overview.
Proceedings of the IADIS European Conference on Data Mining, Amsterdam,
2008, pp. 182-185. Disponível em http://recipp.ipp.pt/handle/10400.22/136.
Acesso em 28/01/2013.
● Brewer, Eric A.: Towards Robust Distributed Systems. Portland, Oregon, July
2000. – Keynote at the ACM Symposium on Principles of Distributed Computing
(PODC). Disponível em http://www.cs.berkeley.edu/~brewer/cs262b-2004/PODC-
keynote.pdf Acesso em 27/01/2013.
● Chapman, P. et al. CRISP-DM 1.0 - Step-by-step data mining guide. 2000.
Disponível em http://www.crisp-dm.org/CRISPWP-0800.pdf. Acesso em
27/01/2013.
● Chee, Timothy; Chan, Lee-Kwun et al. Business Intelligence Systems: State-of-
the-art review and contemporary applications. In Symposium on Progress in
Information & Communication Technology 2009. p. 96-101.
● Codd, Edgar F.: A Relational Model of Data for Large Shared Data Banks. In:
Communications of the ACM 13 (1970), June, No. 6, p. 377–387
Referências
● Fayyad, U. M. et al. From data mining to knowledge discovery: an overview.
In Fayyad, U. M.et al (Eds.), Advances in knowledge discovery and data mining.
AAAI Press / The MIT Press.
● Fayyad, U. and Piatetsky-Shapiro, G. and Smyth, P. The KDD process for
extracting useful knowledge from volumes of data. Communications of the
ACM v. 39, n. 11, p. 27-34. 1996.
● Inmon, W.H. Building the data warehouse. J. Wiley. 2002.
● MacVittie, Lori. The Four V’s of Big Data. Disponível em https://devcentral.f5.
com/blogs/us/the-four-v-rsquos-of-big-data. Acesso em 27/01/2013.
● Pritchett, Dan. BASE: An ACID alternative. ACM Queue. 2008. Disponível em
http://queue.acm.org/detail.cfm?id=1394128. Acesso em 27/01/2013.
● Kimball, R.; Ross, M. et al. The data warehouse toolkit: the complete guide to
dimensional modelling. New York: 2002.
● SAS Institute. SAS Enterprise Miner – SEMMA. Disponível em http://www.sas.
com/technologies/analytics/datamining/miner/semma.html. Acessado em
27/01/2013.
View publication stats