BigDataeDataScience AdmirvelMundoNovo

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 91

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/289253933

Big Data e Data Science: Admirável Mundo Novo

Presentation · April 2015


DOI: 10.13140/RG.2.1.2665.4806

CITATIONS READS

0 2,841

1 author:

Petrônio Cândido de Lima e Silva


Instituto Federal Norte de Minas Gerais (IFNMG)
16 PUBLICATIONS 12 CITATIONS

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

pyMCDM: Multi Criteria Decision Making for Python View project

Scalable Fuzzy Time Series Models for Probabilistic Forecasting View project

All content following this page was uploaded by Petrônio Cândido de Lima e Silva on 04 January 2016.

The user has requested enhancement of the downloaded file.


Big Data e Data Science

Admirável Mundo Novo


Prof. Ms. Petrônio Cândido L. Silva
Agenda
1. O que são dados?
2. O que é Big Data?
3. E o poder de processamento?
4. O que é Data Science?
5. E o cientista de Dados?
6. Conclusão!
O que são dados?
O que são dados?

DADOS ● Simples / Escalar

INFORMAÇÃO ● Combinação de dados

CONHECIMENTO ● Combinação de informações


Categorias de Dados

Estruturado Semi-Estruturado Não Estruturado

Estrutura Estrutura
Rígida Flexível Sem
Estrutura
Atributos Atributos
Fixos Variáveis

Tamanhos Tamanhos
Fixos Variáveis

Integriadade e
Consistencia
Tipos de Dados
Estruturados

Quantitativo Qualitativo

Ordinal Contínuo
Nominal

Cardinal Discreto
Ordinal
Categorias de Dados

Estruturado Semi-Estruturado Não Estruturado

Bancos de Planilhas de
Dados Cálculo Texto

Tabelas E-mail Som

Imagem
Semântica dos Dados

Fonte: http://okfn.de/blog/2015/04/gespraechskreis-digitalisierung-open-data/
Quem ?

Quanto ?
Onde ?

Composição da
Informação

Quando ?
Por quê ?

Como ? O quê ?
O macro processo da informação
DADOS Sistemas de DADOS BD
Produção Operacional

Clientes Funcionários

Ofertas Planejamento
Promoções Metas
etc Promoções
CONHECIMENTO Relatórios
Cubos Data
Gerentes INFORMAÇÃO INFORMAÇÃO
Dashboards Warehouse
Data Mining
DECISÃO
Dado Dado

Conhecimento

Dado Dado

Dado
Dado

Informação Informação
Fonte: http://jp4.r0tt.com/l_5013ce00-5c4a-11e1-ba5f-a9c495600004.jpg
Tamanho dos Dados
Unidade Conversão O que representa
Bit 0 ou 1

Byte (B) 8 bits Uma letra

Kilobyte (KB) 1024 bytes Um parágrafo de texto

Megabyte (MB) 1024 Kb Um livro, uma música de 2 min

Gigabyte (GB) 1024 Mb 40 minutos de filme em qualidade de DVD

Terabyte (TB) 1024 Gb Três semanas e meia de vídeo de alta qualidade,

Petabyte (PB) 1024 Tb ???

Exabyte (EB) 1024 Pb ???

Zetabyte (ZB) 1024 Eb ???


Custo por Tamanho dos Dados

Fonte: http://www.techtudo.com.br/artigos/noticia/2013/04/do-disquete-ao-pendrive-veja-evolucao-do-armazenamento-movel.html
Custo do Armazenamento Hoje

Mídia Custo Médio por GB (R$)

Pendrive 2,50

SSD 2,60

Disco Rígido 0,37

Cloud 0,03 (mês)


Velocidade de comunicação
Velocidade 1 Segundo 1 Minuto 1 Hora

bits por segundo (bps) 1 7.5 B 450 B

Kilobits por segundo (Kbps) 125 B 7.3 KB 439 KB

Megabits por segundo (Mbps) 122 KB 7.3 MB 439 MB

Gigabits por segundo (Gbps) 119 MB 6,9 GB 414 GB

Fonte: http://www.wu.ece.ufl.edu/links/dataRate/DataMeasurementChart.html
Velocidade dos Dados
Dispositivo Velocidade Segundo Ano

Modem 56 K 56 Kbps 6,8 KB 1998

ADSL Até 8 Mbps 976 KB 1999

Cable Modem Até 52 Mbps 6,3 MB 2001

Ethernet 100Mbps 12,5 MB 1995

Gigabit Ethernet 1 Gbps 125 MB 1998

Wireless 108 Mbps 13,5 MB 2003

3G 384 Kbps 48 KB 2002


Custo por Velocidade dos Dados
Meio Velocidade Custo Mensal por Mbps

Celular 3G 1 Mbps 30,00

ADSL 1 Mbps 44,00

Cabo 1 Mbps 40,00

Fibra 15 Mbps 75,00

Wireless
Novas Fontes de Dados
Novas Fontes de Dados
● Por quê?
○ Monitoramento da marca;
○ Monitoramento de campanhas de marketing;
○ Relacionamento com o consumidor;
○ Análise de tendências (trending topics);
○ ...
Data Explosion
O que acontece em 1 minuto na Internet?

● 4 milhões de buscas no Google ● 220 mil fotos no Instagram


● 2,5 milhões de posts no ● 72 horas de vídeo no Youtube
Facebook ● 50 mil downloads de aplicativos
● 300 mil posts no Twitter na Apple Store
● 200 milhões de e-mails

Fonte: http://aci.info/2014/07/12/the-data-explosion-in-2014-minute-by-minute-infographic/
Internet das Coisas (IoT)
● Diversos sensores coletando dados
automaticamente;
● Dados são enviados para a internet e
armazenados;
● Usuário é alertado sobre os dados;
Internet das Coisas (IoT)
● Sensores
● GPS ● Timer
● Climáticos ● Biométricos
○ Temperatura ○ Pressão
○ Umidade ○ Temperatura
○ Precipitação Corporal
○ Velocidade do Vento ○ BPM
● Luminosidade ● Carros
Fonte: https://securityledger.com/2014/04/will-ot-big-data-create-darwinian-struggle-for-insurance-carriers/
Dados Abertos (Open Data)
Disponibilizar arquivos de dados:

● Completos ● Tratáveis por


● Primários computador
● Atuais ● Sem discriminação
● Acessíveis ● Sem propriedade
● Sem licença
Dados Abertos (Open Data)
● Existência
○ Os dados devem estar disponíveis e indexados na web!

● Aproveitamento
○ Os dados devem estar em formato utilizável por computador!

● Utilidade
○ Os dados devem estar livres de restrições jurídicas!
Dados Abertos Governamentais
● Lei de Acesso à Informação (LAI)
○ http://dados.gov.br/
○ http://www.portaltransparencia.gov.br/
○ http://www.transparencia.mg.gov.br/
○ http://www.ifnmg.edu.br/acessoainformacao/sobre-
o-acesso-a-informacao

Dados Abertos Científicos
● http://br.okfn.org/
● http://www.nature.com/sdata/
● http://blog.visual.ly/data-sources/

Novo cenário
Sistemas Emp Governo

Dados

Social
Media
Máquinas e sensores

E-mail, arquivos, etc


Novo cenário
● Todos os dados
○ Formatos diferentes entre si;
○ Gerados em velocidades distintas;
○ Validades diferentes;
○ Relacionados ou não.
Valor e Depreciação
● Alguns dados sofrem depreciação
○ Têm dada de validade
○ Custo de Oportunidade

Depois de coletados e armazenados os dados


devem rapidamente serem transformados em
informação para ser consumida!
Exclusividade Completude

Impacto da Informação

Novidade Utilidade
Visualização da Informação
● Relatórios
● Gráficos
● Indicadores de Desempenho
● Painéis de Controle (Dashboards)
● Infográficos e Data Storytelling
Business Intelligence
● Exemplos
○ http://www.paraondefoiomeudinheiro.org.
br/dataset/estado-sao-paulo-2012
○ http://ison.stratebi.es/aerobrasil/
○ http://www.it4biz.com.br/apps/dados.gov.br/obrasdopac/
○ http://www.estatisticasfutebolbrasileiro.com/
○ http://dataviva.info/

http://www.kdnuggets.com/images/big-data-cartoon-100000-warehouses.jpg
Big Data
Big Data
● Buzzword da moda...
● Quando o tamanho do dados faz parte do
problema!
● Alta Dimensionalidade
○ Entidades / Atributos / Instâncias
Big Data
Big Data
● 4 V's (Stapleton, 2011)
○ Volume
■ Terabytes para Petabytes de dados
○ Velocidade
■ Fluxo contínuo e rápido de novos dados
○ Variedade
■ Dados estruturados, semi e não estruturados
○ Veracidade
■ Governança de dados e qualificação entre
Consistente, Inconsistente, Incompleto, Ambíguo, ...
Fonte: https://devcentral.f5.com/blogs/us/the-four-v-rsquos-of-big-data
Big Data

Fonte: http://sweetlysocial.net/big-data-better-marketing/
Big Data
● Exemplos
○ Social Media
○ Web Logs
○ Sensor Networks
○ Cadeias de DNA
○ LHC
E o poder de processamento?
E o poder de processamento???
● Supercomputadores ???
○ $$$ #Fail

● Multicomputadores !!!
○ $$$ :-)
E o poder de processamento???
● Multicomputadores
○ Cluster
■ SIMD - Single Instruction Multiple Data
■ Rede Local
○ Grid
■ MIMD - Multiple Instruction Multiple Data
■ Distribuição geográfica
E o poder de processamento???
● Cluster = Dividir para Conquistar
○ Sharding
■ Sistema de Arquivos Distribuídos
■ Dividir os dados
○ Map/Reduce
■ Processamento Distribuído & Paralelo
■ Dividir o processamento
Cluster
● Vantagens
○ Alto Desempenho
○ Alta Disponibilidade
○ Flexibilidade
○ Custo
Sharding
● Particionamento Horizontal Replicado
○ O total de dados é dividido em vários partes

pequenas (shards - cacos);


○ As partes são divididas entre vários computadores

○ Cada parte tem pelo menos 3 cópias em

computadores diferentes (segurança)


Sharding Master

Índice

Comp N
Comp 1 Comp 2 Comp 3 Comp 4

Dados
A
B
Dados
C
D
Dados
A
C
Dados
B
D
... Dados
A
D
Map/Reduce: Processamento Distribuído

● Essas tarefas são executadas em duas


etapas:
○ Mapeamento
○ Redução
Map/Reduce: Processamento Distribuído

● Etapa de Mapeamento
○ O processamento total é dividido em pequenas
tarefas
○ As tarefas são enviadas para os computadores
executarem nos dados locais
○ Cada computador envia o resultado para o
computador central
Master
Mapeamento
Índice

Geren

Comp N
Comp 1 Comp 2 Comp 3 Comp 4

...
Dados
Dados Dados Dados Dados

Proc.
Proc. Proc. Proc. Proc.
Map/Reduce: Processamento Distribuído

● Etapa de Redução
○ O computador central recebe o resultado do

processamento dos outro computadores

○ Os resultados individuais são combinados em um

resultado único
Master
Redução
Índice

Geren

Comp N
Comp 1 Comp 2 Comp 3 Comp 4

...
Dados
Dados Dados Dados Dados

Proc.
Proc. Proc. Proc. Proc.
Master
Cluster
Índice

Geren

Comp N
Comp 1 Comp 2 Comp 3 Comp 4

...
Dados
Dados Dados Dados Dados

Proc.
Proc. Proc. Proc. Proc.
Até aqui...
● Tenho muitos dados
○ De muitos tipos
○ Chegando muito rápido
● Tenho muito poder computacional
○ Muitos discos
○ Muitos processadores

E o que eu faço com tudo isso???


Data Science
Ciência de Dados
● Objetivo
○ Encontrar PADRÕES e TENDÊNCIAS nos dados;
■ Novos
■ Potencialmente úteis

○ Desenvolver tecnologias a partir dos padrões

encontrados.
Análise

Descritiva Preditiva

Padrões Tendências

Diagnóstica Prescritiva

Causas Ações
Álgebra Inteligência
Linear Programação Bancos de Dados
Computacional

Cálculo
Design

Estatística Data Science


Grafos e Redes

Otimização

Análise de Metodologia Gestão de


Simulação Negócio de Pesquisa Projetos
Data Science
Processos
● KDD - Knowledge Discovery in Databases
(Fayyad, Piatetsky-Shapiro, 1996)
● SEMMA (SAS, 2000)
○ Sample, Explore, Modify, Model, Assess
● CRISP/DM (Chapman et al., 2000)
○ CRoss-Industry Standard Process for Data Mining
Data Mining

(Azevedo, 2008)
Processamento
Aquisição Limpeza

Pré
Armazenamento
Transformação Seleção
Problema

Processamento
Análise Modelagem
Exploratória Descritiva

Dados Hipóteses
Visualização Modelagem
Preditiva
Processam.

Teste e
Pós

Validação Implantação
Experimentação
FONTES
Dados Dados Dados

Proc. Proc. Proc.

Estrut.
CLUSTER

Semi
Estrut. Pré Pós
Processamento
Processamento Processamento

Não
Estrut.

PRODUTOS
Pré Descritivo Preditivo
Processamento
Regressão
Agrupamento
Ganho de
Informação
Redes Bayesianas
SVM
Correlação
Séries Temporais
PCA
Análise de Redes Recomendação

SVD Árvores de Decisão

Associação
Redes Neurais
https://community.jivesoftware.com/docs/DOC-30464
E o cientista de dados?
“Pessoa que é melhor em estatística
do que um engenheiro de software e
melhor em engenharia de software
do que um estatístico”

DJ Patil
Como se tornar um cientista de dados?
Conclusão
Conclusão
● Tudo está conectado!
● Nunca antes tivemos tantos dados,
informações e conhecimento sobre tantas
coisas;
● Há um vasto leque de possibilidades
latentes...
Conclusão
● Data Science
○ Mais do mesmo ou novidade?
○ Uma nova renascença ou uma onda passageira?

Até onde podemos chegar?


O que somos capazes de fazer?
Efeito Borboleta

"Um parafuso mal ajustado na planta de


produção de uma fábrica pode causar uma
crise econômica mundial?"
"Em Deus eu confio.
Todos os outros precisam
trazer dados"

William E. Deming
"Dados são o novo petróleo!"

William E. Deming
Conclusão
Intelligence

ERP's

Data
Warehouse
Logs
Arquivos
E-mail Big Data Analytics

NoSQL
Web
Social
Media

INFORMAÇÃO
DADO CONHECIMENTO
Referências
● Azevedo, A.; Santos, M.F. KDD, SEMMA, and CRISP-DM: A Parallel Overview.
Proceedings of the IADIS European Conference on Data Mining, Amsterdam,
2008, pp. 182-185. Disponível em http://recipp.ipp.pt/handle/10400.22/136.
Acesso em 28/01/2013.
● Brewer, Eric A.: Towards Robust Distributed Systems. Portland, Oregon, July
2000. – Keynote at the ACM Symposium on Principles of Distributed Computing
(PODC). Disponível em http://www.cs.berkeley.edu/~brewer/cs262b-2004/PODC-
keynote.pdf Acesso em 27/01/2013.
● Chapman, P. et al. CRISP-DM 1.0 - Step-by-step data mining guide. 2000.
Disponível em http://www.crisp-dm.org/CRISPWP-0800.pdf. Acesso em
27/01/2013.
● Chee, Timothy; Chan, Lee-Kwun et al. Business Intelligence Systems: State-of-
the-art review and contemporary applications. In Symposium on Progress in
Information & Communication Technology 2009. p. 96-101.
● Codd, Edgar F.: A Relational Model of Data for Large Shared Data Banks. In:
Communications of the ACM 13 (1970), June, No. 6, p. 377–387
Referências
● Fayyad, U. M. et al. From data mining to knowledge discovery: an overview.
In Fayyad, U. M.et al (Eds.), Advances in knowledge discovery and data mining.
AAAI Press / The MIT Press.
● Fayyad, U. and Piatetsky-Shapiro, G. and Smyth, P. The KDD process for
extracting useful knowledge from volumes of data. Communications of the
ACM v. 39, n. 11, p. 27-34. 1996.
● Inmon, W.H. Building the data warehouse. J. Wiley. 2002.
● MacVittie, Lori. The Four V’s of Big Data. Disponível em https://devcentral.f5.
com/blogs/us/the-four-v-rsquos-of-big-data. Acesso em 27/01/2013.
● Pritchett, Dan. BASE: An ACID alternative. ACM Queue. 2008. Disponível em
http://queue.acm.org/detail.cfm?id=1394128. Acesso em 27/01/2013.
● Kimball, R.; Ross, M. et al. The data warehouse toolkit: the complete guide to
dimensional modelling. New York: 2002.
● SAS Institute. SAS Enterprise Miner – SEMMA. Disponível em http://www.sas.
com/technologies/analytics/datamining/miner/semma.html. Acessado em
27/01/2013.
View publication stats

Você também pode gostar