0% acharam este documento útil (0 voto)
9 visualizações

Big Data 1

Enviado por

Zefanias
Direitos autorais
© © All Rights Reserved
Formatos disponíveis
Baixe no formato PPTX, PDF, TXT ou leia on-line no Scribd
0% acharam este documento útil (0 voto)
9 visualizações

Big Data 1

Enviado por

Zefanias
Direitos autorais
© © All Rights Reserved
Formatos disponíveis
Baixe no formato PPTX, PDF, TXT ou leia on-line no Scribd
Você está na página 1/ 33

Mineração de Dados em

um mundo de big data


Discentes: Docentes:
Manuel, Edmildo Roxan Cadir
Amilde Sambo, Ruben
Zefanias Elias Manhiça
Nhatsave, Ernesto
Introdução

Devido aos avanços tecnológicos dos últimos anos, principalmente no que se


refere à grande produção de dados (Big Data), fez-se necessário a aplicação de
métodos que pudessem extrair informações desse volume de dados. Pensando
nisso, este trabalho apresenta por meio de uma revisão de literatura, os conceitos
centrais da Mineração de Dados e Big Data.

2
Ciência de dados em um mundo de big data

Big data é um termo genérico para qualquer coleção de conjuntos de dados


tão grandes ou complexos que torna-se difícil processá-los usando técnicas
tradicionais de gerenciamento de dados como, por exemplo, os
SGBD(sistemas de gerenciamento de base de dados).
O SGBD amplamente adotado tem sido considerado há muito tempo como
uma solução única para todos, mas as demandas de lidar com big data
mostraram o contrário. A ciência de dados envolve o uso de métodos para
analisar grandes quantidades de dados e extrair o conhecimento que eles
contêm.

3
Características do big data

Volume — Quantos dados existem?


Estima-se que, até 2020, existam cerca de 35 ZB(10^21 bytes) de dados armazenados no mundo

Variedade — Quão diversos são os diferentes tipos de dados?


Velocidade — A que velocidade os novos dados são gerados?

Muitas vezes estas características são complementadas com um quarto V, a


veracidade: quão precisos são os dados?

4
Ciência de dados

A ciência de dados é uma extensão evolutiva da estatística capaz de lidar


com o enormes quantidades de dados produzidos hoje. Ele adiciona
métodos da ciência da computação ao repertório de estatísticas.
As principais coisas que diferenciam um cientista de dados de um
estatístico são a capacidade de trabalhar com big data e a experiência em
aprendizado de máquina, computação e construção de algoritmos.

5
Benefícios e usos da ciência de dados e big data

1. Empresas comerciais
2. As organizações governamentais
3. Monitoramento em redes sociais
4. Análise de dados financeiros
5. Dados provenientes de múltiplos em sistemas de
transporte
sensores
6. Análise de dados trafegados em redes
7. Publicidade e propaganda personalizados

6
Tipos dos dados

Na ciência de dados e no big data, você encontrará muitos tipos diferentes de


dados, e cada um deles tende a exigir diferentes ferramentas e técnicas. As
principais categorias de dados são estes:
● Estruturado
● Não estruturado
● Linguagem natural
● Gerado por máquina
● Baseado em gráfico
● Áudio, vídeo e imagens
● Transmissão
7
Dados estruturados

Dados estruturados são dados que dependem de um modelo de dados e residem


em um campo fixo dentro de um registro. Como tal, muitas vezes é fácil
armazenar dados estruturados em tabelas dentro de bases de dados ou ficheiros
Excel.

Tabela 1 - Dados Estruturados 8


Dados não estruturados

Dados não estruturados são dados que não são fáceis de encaixar em um modelo
de dados porque o conteúdo é específico do contexto ou variável. Um exemplo de
dados não estruturados é o seu e-mail normal. Embora o e-mail contenha
elementos estruturados como remetente, título, e corpo do texto, é um desafio
encontrar o número de pessoas que escreveram uma reclamação por e-mail sobre
um funcionário específico porque existem muitas maneiras de se referir a uma
pessoa, por exemplo. Os milhares de idiomas e dialetos diferentes complicaram
ainda mais isso.

9
Linguagem natural

A linguagem natural é um tipo especial de dados não estruturados; é um desafio


processar porque requer conhecimento de técnicas e linguística específicas de
ciência de dados.
Peça a duas pessoas que ouçam para a mesma conversa. Eles terão o mesmo
significado? O significado do mesmo as palavras podem variar quando vindas de
alguém chateado ou alegre.

10
Dados gerados por máquina

Dados gerados por máquina são informações criadas automaticamente por um


computador, processo, aplicação ou outra máquina sem intervenção humana.
A análise de dados de máquina depende de ferramentas altamente escaláveis,
devido ao seu alto volume e velocidade. Exemplos de dados de máquina são logs
de servidores web, registros de detalhes de chamadas, dados de rede, logs de
eventos e telemetria

11
Dados baseados em gráficos ou de rede
“Gráfico”, neste caso, aponta para a teoria matemática dos grafos. Na teoria dos grafos, um
gráfico é uma estrutura matemática para modelar relações de pares entre objetos. Gráfico ou dados
de rede são, em resumo, dados que enfocam o relacionamento ou adjacência de objetos.

As estruturas gráficas usam nós, arestas e propriedades para representar e armazenar dados
gráficos. Dados baseados em gráficos são uma forma natural de representar redes sociais, e sua
estrutura permite calcular métricas específicas, como a influência de uma pessoa e o caminho
mais curto entre duas pessoas.

Exemplos de dados baseados em gráficos podem ser encontrados em muitos sites de mídia social.
Por exemplo, no LinkedIn você pode ver quem você conhece em qual empresa.

12
Áudio, imagem e vídeo

Áudio, imagem e vídeo são tipos de dados que apresentam desafios específicos
para um cientista de dados.
Tarefas que são triviais para os humanos, como reconhecer objetos em imagens,
acabam por ser um desafio para os computadores. MLBAM (Mídia Avançada da
Liga Principal de Beisebol) anunciaram em 2014 que aumentarão a captura de
vídeo para aproximadamente 7 TB por jogo para fins de análise ao vivo do jogo.

13
Transmissão de dados

Embora o streaming de dados possa assumir quase qualquer uma das formas
anteriores, ele tem uma vantagem extra.Os dados fluem para o sistema
quando um evento acontece, em vez de serem carregados em um
armazenamento de dados em lote. Embora este não seja realmente um tipo
diferente de dados, tratamos aqui como tal porque você precisa adaptar seu
processo para lidar com esse tipo de informação.
Exemplos são “O que é tendência” no Twitter, eventos esportivos ou
musicais ao vivo e o mercado de ações.

14
O processo de ciência de dados
O processo de ciência de dados normalmente consiste em seis
etapas:

15
Definindo o objetivo da pesquisa
A ciência é aplicada principalmente no contexto de uma organização. Quando o
negócio pede que você execute um projeto de ciência de dados, você primeiro
preparará um termo de abertura do projeto. Essa carta contém informações como
o que você vai pesquisar, como a empresa se beneficia disso, quais dados e
recursos você precisa, um cronograma e resultados.
Recuperando dados
A segunda etapa é coletar dados. Você declarou no termo de abertura do projeto
quais dados você precisa e onde você pode encontrá-lo. Nesta etapa você garante
que pode usar os dados em seu programa, o que significa verificar a existência, a
qualidade e o acesso aos dados.

16
Preparação de dados
A coleta de dados é um processo sujeito a erros; nesta fase você melhora a
qualidade do dados e prepará-los para uso nas etapas subsequentes. Esta fase
consiste em três subfases: a limpeza de dados remove valores falsos de uma
fonte de dados e inconsistências entre fontes de dados, a integração de dados
enriquece as fontes de dados combinando informações de diversas fontes de
dados, e a transformação de dados garante que os dados estejam em um
formato adequado para uso em seus modelos.

17
Exploração de dados
A exploração de dados se preocupa em construir uma compreensão mais profunda de
seus dados. Você tenta entender como as variáveis interagem entre si, a distribuição
dos dados e se há valores discrepantes. Para conseguir isso, você usa principalmente
estatísticas descritivas, técnicas visuais e modelagem simples. Esta etapa geralmente é
conhecida pela abreviatura AED, para Análise Exploratória de Dados

Modelagem de dados ou construção de modelo


Nesta fase você usa modelos, conhecimento de domínio e insights sobre os dados que
você encontrou nas etapas anteriores para responder à questão de pesquisa. Você
seleciona uma técnica nas áreas de estatística, aprendizado de máquina,
pesquisa operacional e assim por diante. Construir um modelo é um processo
iterativo que envolve a seleção das variáveis para o modelo, execução do modelo e
diagnóstico do modelo.
18
Apresentação e automação
Por fim, você apresenta os resultados ao seu negócio. Esses resultados podem
assumir muitas formas, variando de apresentações a relatórios de pesquisa. Às
vezes você precisará automatizar a execução do processo porque a empresa
desejará usar os insights que você tenha obtido em outro projeto ou permitir que
um processo operacional use o resultado de seu modelo.

19
O ecossistema de big data e a ciência de dados

Atualmente existem muitas ferramentas e estruturas de big data, e é fácil se


perder porque novas tecnologias aparecem rapidamente. É muito mais fácil
quando você percebe que o ecossistema big data pode ser agrupado em
tecnologias que possuem objetivos e funcionalidades semelhantes, que
discutiremos nesta seção.

20
Estrutura de programação
distribuída
Depois de armazenar os dados no sistema de arquivos distribuído, você deseja
explorá-los. Um aspecto importante de trabalhar em um disco rígido distribuído é que
você não irá mover seus dados para o seu programa, mas sim você moverá seu
programa para os dados. Quando você começa do zero com uma linguagem de
programação normal de uso geral, como C, Python ou Java, você precisa lidar com as
complexidades que acompanham a distribuição da programação, como reiniciar
trabalhos que falharam, rastrear os resultados de diferentes subprocessos e assim por
diante. Felizmente, a comunidade de código aberto desenvolveu muitas estruturas
para lidar com isso para você, e elas proporcionam uma experiência muito melhor
trabalhar com dados distribuídos e lidar com muitos dos desafios que isso acarreta.
21
Estrutura de integração de dados

Depois de instalar um sistema de arquivos distribuído, você precisará adicionar


dados. Você precisa mover dados de uma fonte para outra, e é aqui que funciona o
quadro de integração de dados, como Apache Sqoop e Apache Flume Excel. O
processo é semelhante a um extrair, transformar e carregar processos em um data
warehouse tradicional

22
Frameworks de aprendizado de máquina

Quando você tiver os dados disponíveis, é hora de extrair os insights cobiçados. É


aqui que você confia nas áreas de aprendizado de máquina, estatística e
matemática aplicada. A biblioteca de aprendizado de máquina mais popular para
Python é a Scikit-learn. É um excelente caixa de ferramentas de aprendizado de
máquina. Existem, é claro,outras bibliotecas Python:

PyBrain para redes neurais — Redes neurais são algoritmos de aprendizagem


que imitam o cérebro humano na aprendizagem de mecânica e complexidade. As
redes neurais são muitas vezes considerado como avançado e caixa preta.

23
NLTK ou Natural Language Toolkit — Como o nome sugere, seu foco é trabalhar
com linguagem natural. É uma extensa biblioteca que vem com vários corpus de
texto para ajudá-lo a modelar seus próprios dados.
Pylearn2 – Outra caixa de ferramentas de aprendizado de máquina, mas um
pouco menos madura que o Scikit-learn.
TensorFlow – uma biblioteca Python para aprendizado profundo fornecida pelo
Google.

O cenário não termina com as bibliotecas Python, é claro. Spark é um novo


mecanismo de aprendizado de máquina licenciado pelo Apache, especializado em
aprendizado de máquina em tempo real.

24
Bancos de dados NoSQL

O nome deste grupo pode ser enganoso, pois “Não” neste contexto significa “Não
Apenas." A falta de funcionalidade em SQL não é o maior motivo para a mudança de
paradigma, e muitos dos bancos de dados NoSQL implementaram eles próprios uma
versão do SQL. Mas os bancos de dados tradicionais tinham deficiências que não lhes
permitiam uma boa escalabilidade. Ao resolver vários dos problemas dos bancos de
dados tradicionais, os bancos de dados
crescimento infinito NoSQL permitem uma virtualmente de
propriedades do big data: a suadados. Estas
o poder de armazenamento deficiências
ou processamento não
pode escalar além de um único dizem
nó e eles respeito a com streaming,
não têm como lidar todas as
gráfico
ou formas não estruturadas de dados.

25
Ferramentas de agendamento

As ferramentas de agendamento ajudam a automatizar tarefas repetitivas e


acionar trabalhos com base em eventos como adicionar um novo arquivo a uma
pasta. Eles são semelhantes a ferramentas como CRON no Linux mas são
desenvolvidos especificamente para big data. Você pode usá-los, por exemplo,
para iniciar uma Tarefa MapReduce sempre que um novo conjunto de dados
estiver disponível em um diretório.

26
Ferramentas de benchmarking

Esta classe de ferramentas foi desenvolvida para otimizar sua instalação de big
data, fornecendo conjuntos de perfis padronizados. Um conjunto de perfis é
obtido de um conjunto representativo de grandes trabalhos de dados.
Benchmarking e otimização da infraestrutura e configuração de big data nem
sempre são tarefas para os próprios cientistas de dados, mas para um profissional
especializado em criação de infraestrutura de TI; portanto, eles não são abordados
neste livro. Usando uma infraestrutura otimizada pode fazer uma grande
diferença de custos. Por exemplo, se você puder ganhar 10% em um
cluster de 100 servidores, você economiza o custo de 10 servidores.

27
Implantação do sistema

Configurar uma infraestrutura de big data não é uma tarefa fácil e ajudar os
engenheiros a implantação de novos aplicativos no cluster de big data é onde as
ferramentas de implantação do sistema brilhar. Eles automatizam amplamente a
instalação e configuração de componentes de big data. Esta não é uma tarefa
central de um cientista de dados.

28
Programação de serviço

Suponha que você tenha feito um aplicativo de previsão de futebol de classe


mundial no Hadoop e você deseja permitir que outras pessoas usem as previsões
feitas pelo seu aplicativo. No entanto, você não tem ideia da arquitetura ou
tecnologia de todos que desejam usar suas previsões. As ferramentas de serviço
se destacam aqui, expondo aplicações de big data a outras aplicações como um
serviço. Às vezes, os cientistas de dados precisam expor seus modelos por meio
de Serviços. O exemplo mais conhecido é o serviço REST; REST significa
transferência de estado representacional. É frequentemente usado para alimentar
sites com dados

29
Segurança

Você quer que todos tenham acesso a todos os seus dados? Você provavelmente
precisa ter controle refinado sobre o acesso aos dados, mas não deseja gerenciar
isso de forma aplicação por aplicação. As ferramentas de segurança de big data
permitem que você tenha acesso central e controle refinado sobre o acesso aos
dados. A segurança de big data tornou-se um tema em sua por direito próprio, e
os cientistas de dados geralmente só são confrontados com isso como
consumidores de dados; raramente eles próprios implementarão a segurança.

30
Introdução ao Hadoop

Terminaremos este capítulo com uma pequena aplicação em um contexto de big


data. Para isso usaremos uma imagem do Hortonworks Sandbox. Esta é uma
máquina virtual criada pela Hortonworks para experimentar alguns aplicativos de
big data em uma máquina local.

31
Conclusão

Utilizando as técnicas e algoritmos de mineração de dados, torna-se possível atuar


sobre o Big Data para tratar esse conjunto de dados, pois as maneiras tradicionais
de armazenagem e classificação não são suficientes para trabalhar sobre esse
volume de formatos tão variados.

32
Obrigad
o 33

Você também pode gostar