Big Data 1
Big Data 1
2
Ciência de dados em um mundo de big data
3
Características do big data
4
Ciência de dados
5
Benefícios e usos da ciência de dados e big data
1. Empresas comerciais
2. As organizações governamentais
3. Monitoramento em redes sociais
4. Análise de dados financeiros
5. Dados provenientes de múltiplos em sistemas de
transporte
sensores
6. Análise de dados trafegados em redes
7. Publicidade e propaganda personalizados
6
Tipos dos dados
Dados não estruturados são dados que não são fáceis de encaixar em um modelo
de dados porque o conteúdo é específico do contexto ou variável. Um exemplo de
dados não estruturados é o seu e-mail normal. Embora o e-mail contenha
elementos estruturados como remetente, título, e corpo do texto, é um desafio
encontrar o número de pessoas que escreveram uma reclamação por e-mail sobre
um funcionário específico porque existem muitas maneiras de se referir a uma
pessoa, por exemplo. Os milhares de idiomas e dialetos diferentes complicaram
ainda mais isso.
9
Linguagem natural
10
Dados gerados por máquina
11
Dados baseados em gráficos ou de rede
“Gráfico”, neste caso, aponta para a teoria matemática dos grafos. Na teoria dos grafos, um
gráfico é uma estrutura matemática para modelar relações de pares entre objetos. Gráfico ou dados
de rede são, em resumo, dados que enfocam o relacionamento ou adjacência de objetos.
As estruturas gráficas usam nós, arestas e propriedades para representar e armazenar dados
gráficos. Dados baseados em gráficos são uma forma natural de representar redes sociais, e sua
estrutura permite calcular métricas específicas, como a influência de uma pessoa e o caminho
mais curto entre duas pessoas.
Exemplos de dados baseados em gráficos podem ser encontrados em muitos sites de mídia social.
Por exemplo, no LinkedIn você pode ver quem você conhece em qual empresa.
12
Áudio, imagem e vídeo
Áudio, imagem e vídeo são tipos de dados que apresentam desafios específicos
para um cientista de dados.
Tarefas que são triviais para os humanos, como reconhecer objetos em imagens,
acabam por ser um desafio para os computadores. MLBAM (Mídia Avançada da
Liga Principal de Beisebol) anunciaram em 2014 que aumentarão a captura de
vídeo para aproximadamente 7 TB por jogo para fins de análise ao vivo do jogo.
13
Transmissão de dados
Embora o streaming de dados possa assumir quase qualquer uma das formas
anteriores, ele tem uma vantagem extra.Os dados fluem para o sistema
quando um evento acontece, em vez de serem carregados em um
armazenamento de dados em lote. Embora este não seja realmente um tipo
diferente de dados, tratamos aqui como tal porque você precisa adaptar seu
processo para lidar com esse tipo de informação.
Exemplos são “O que é tendência” no Twitter, eventos esportivos ou
musicais ao vivo e o mercado de ações.
14
O processo de ciência de dados
O processo de ciência de dados normalmente consiste em seis
etapas:
15
Definindo o objetivo da pesquisa
A ciência é aplicada principalmente no contexto de uma organização. Quando o
negócio pede que você execute um projeto de ciência de dados, você primeiro
preparará um termo de abertura do projeto. Essa carta contém informações como
o que você vai pesquisar, como a empresa se beneficia disso, quais dados e
recursos você precisa, um cronograma e resultados.
Recuperando dados
A segunda etapa é coletar dados. Você declarou no termo de abertura do projeto
quais dados você precisa e onde você pode encontrá-lo. Nesta etapa você garante
que pode usar os dados em seu programa, o que significa verificar a existência, a
qualidade e o acesso aos dados.
16
Preparação de dados
A coleta de dados é um processo sujeito a erros; nesta fase você melhora a
qualidade do dados e prepará-los para uso nas etapas subsequentes. Esta fase
consiste em três subfases: a limpeza de dados remove valores falsos de uma
fonte de dados e inconsistências entre fontes de dados, a integração de dados
enriquece as fontes de dados combinando informações de diversas fontes de
dados, e a transformação de dados garante que os dados estejam em um
formato adequado para uso em seus modelos.
17
Exploração de dados
A exploração de dados se preocupa em construir uma compreensão mais profunda de
seus dados. Você tenta entender como as variáveis interagem entre si, a distribuição
dos dados e se há valores discrepantes. Para conseguir isso, você usa principalmente
estatísticas descritivas, técnicas visuais e modelagem simples. Esta etapa geralmente é
conhecida pela abreviatura AED, para Análise Exploratória de Dados
19
O ecossistema de big data e a ciência de dados
20
Estrutura de programação
distribuída
Depois de armazenar os dados no sistema de arquivos distribuído, você deseja
explorá-los. Um aspecto importante de trabalhar em um disco rígido distribuído é que
você não irá mover seus dados para o seu programa, mas sim você moverá seu
programa para os dados. Quando você começa do zero com uma linguagem de
programação normal de uso geral, como C, Python ou Java, você precisa lidar com as
complexidades que acompanham a distribuição da programação, como reiniciar
trabalhos que falharam, rastrear os resultados de diferentes subprocessos e assim por
diante. Felizmente, a comunidade de código aberto desenvolveu muitas estruturas
para lidar com isso para você, e elas proporcionam uma experiência muito melhor
trabalhar com dados distribuídos e lidar com muitos dos desafios que isso acarreta.
21
Estrutura de integração de dados
22
Frameworks de aprendizado de máquina
23
NLTK ou Natural Language Toolkit — Como o nome sugere, seu foco é trabalhar
com linguagem natural. É uma extensa biblioteca que vem com vários corpus de
texto para ajudá-lo a modelar seus próprios dados.
Pylearn2 – Outra caixa de ferramentas de aprendizado de máquina, mas um
pouco menos madura que o Scikit-learn.
TensorFlow – uma biblioteca Python para aprendizado profundo fornecida pelo
Google.
24
Bancos de dados NoSQL
O nome deste grupo pode ser enganoso, pois “Não” neste contexto significa “Não
Apenas." A falta de funcionalidade em SQL não é o maior motivo para a mudança de
paradigma, e muitos dos bancos de dados NoSQL implementaram eles próprios uma
versão do SQL. Mas os bancos de dados tradicionais tinham deficiências que não lhes
permitiam uma boa escalabilidade. Ao resolver vários dos problemas dos bancos de
dados tradicionais, os bancos de dados
crescimento infinito NoSQL permitem uma virtualmente de
propriedades do big data: a suadados. Estas
o poder de armazenamento deficiências
ou processamento não
pode escalar além de um único dizem
nó e eles respeito a com streaming,
não têm como lidar todas as
gráfico
ou formas não estruturadas de dados.
25
Ferramentas de agendamento
26
Ferramentas de benchmarking
Esta classe de ferramentas foi desenvolvida para otimizar sua instalação de big
data, fornecendo conjuntos de perfis padronizados. Um conjunto de perfis é
obtido de um conjunto representativo de grandes trabalhos de dados.
Benchmarking e otimização da infraestrutura e configuração de big data nem
sempre são tarefas para os próprios cientistas de dados, mas para um profissional
especializado em criação de infraestrutura de TI; portanto, eles não são abordados
neste livro. Usando uma infraestrutura otimizada pode fazer uma grande
diferença de custos. Por exemplo, se você puder ganhar 10% em um
cluster de 100 servidores, você economiza o custo de 10 servidores.
27
Implantação do sistema
Configurar uma infraestrutura de big data não é uma tarefa fácil e ajudar os
engenheiros a implantação de novos aplicativos no cluster de big data é onde as
ferramentas de implantação do sistema brilhar. Eles automatizam amplamente a
instalação e configuração de componentes de big data. Esta não é uma tarefa
central de um cientista de dados.
28
Programação de serviço
29
Segurança
Você quer que todos tenham acesso a todos os seus dados? Você provavelmente
precisa ter controle refinado sobre o acesso aos dados, mas não deseja gerenciar
isso de forma aplicação por aplicação. As ferramentas de segurança de big data
permitem que você tenha acesso central e controle refinado sobre o acesso aos
dados. A segurança de big data tornou-se um tema em sua por direito próprio, e
os cientistas de dados geralmente só são confrontados com isso como
consumidores de dados; raramente eles próprios implementarão a segurança.
30
Introdução ao Hadoop
31
Conclusão
32
Obrigad
o 33