Teorico I
Teorico I
Teorico I
Inserir de Dados
Aqui
Inserir
Não Estruturados
Título Aqui
Introdução a Big Data
Revisão Textual:
Profa. Dra. Silvia Albert
Introdução a Big Data
Caro Aluno(a)!
Normalmente, com a correria do dia a dia, não nos organizamos e deixamos para o
último momento o acesso ao estudo, o que implicará o não aprofundamento no material
trabalhado ou, ainda, a perda dos prazos para o lançamento das atividades solicitadas.
Assim, organize seus estudos de maneira que entrem na sua rotina. Por exemplo, você
poderá escolher um dia ao longo da semana ou um determinado horário todos ou alguns
dias e determinar como o seu “momento do estudo”.
Após o contato com o conteúdo proposto, participe dos debates mediados em fóruns de
discussão, pois estes ajudarão a verificar o quanto você absorveu do conteúdo, além de
propiciar o contato com seus colegas e tutores, o que se apresenta como rico espaço de
troca de ideias e aprendizagem.
Bons Estudos!
UNIDADE
Introdução a Big Data
Introdução ao Tema
Ao analisarmos as notícias e tendências do mundo da tecnologia da informação
podemos perceber que existe um termo que está sendo repetido com muita frequência:
“Big Data”. Esse é um campo de estudo empolgante, que engloba vários aspectos
tecnológicos nem sempre bem compreendidos. Nesta unidade, você será apresentado
a conceitos que envolvem esse maravilhoso mundo e que serão importantes para a
compreensão do funcionamento dos bancos de dados não-relacionais.
A primeira impressão que o termo Big Data nos passa é que é uma tecnologia para
trabalhar com grande volume de dados. Essa ideia é, em parte, verdadeira, mas esse
campo abrange muito mais do que isso.
Outro desafio com que o Big Data lida é a variedade de fontes de dados. Apenas
10% (dez por cento) dos dados disponíveis são estruturados, isto é, estão no formato
tradicional de tuplas em um banco de dados, os outros 90% (noventa por cento) dos
dados estão em formato não-estruturados, sendo que esses últimos são provenientes de
várias fontes como: contratos, formulários, imagens, manuais, raios-x, e-mails, PDFs,
mensagens instantâneas, documentos, páginas da WEB, áudio e vídeo.
Tratar grandes volumes de dados e grande variedade de dados nos leva a perguntar:
qual é o tempo de resposta desse ambiente? Quanto tempo estamos dispostos a esperar
por uma resposta do sistema? É comum que as respostas a essas perguntas seja “o mais
rápido possível, de preferência instantaneamente”.
Podemos dizer, então, que Big Data trata de grandes volumes de dados (Volume),
com informações vindas de diversas fontes (Variedade) e produzem respostas rápidas
(Velocidade). Nesta unidade, iremos considerar apenas estes três requisitos.
Para abordar os três requisitos que definimos para esta unidade, precisamos nos
colocar questões que pertencem a dois aspectos que envolvem Big Data:
6
• Declaração de problema: Como processar Big Data usando o estado-da-arte da
tecnologia atual sem “estourar” o limite de tempo e o orçamento?
Onde está o “gargalo” do processamento? A velocidade das CPUs está cada vez
maior, mas a velocidade de acesso a disco ou a volumes de discos convencionais, ainda
é lenta. O aumento da velocidade de CPU não beneficia muito os programas que têm
necessidade de acessar grandes volumes de dados.
Entre essas três propriedades, somente duas podem ser garantidas ao mes-
mo tempo.
Veremos a seguir alguns sistemas que auxiliam a vencer essa limitação imposta tanto
pelo banco de dados estruturados quanto pelo banco de dados não-relacionais.
Em relação à tolerância a particionamento, veremos como ela pode ser fornecida pelo
Hadoop Distributed File System (HDFS). O Hadoop Distributed File System (HDFS)
é um sistema de arquivos altamente tolerante a falhas, projetado para executar em har-
dware, padrão de baixo custo. O HDFS disponibiliza acesso de alto rendimento para os
dados do aplicativo e é adequado para aplicativos com grandes conjuntos de dados.
7
7
UNIDADE
Introdução a Big Data
O termo NoSQL é de 1998 e é abreviação para “not-only SQL”, indicando que não proces-
saria apenas instruções SQL. O site https://goo.gl/Z3Rh fornece uma lista atualizada dos
principais bancos NoSQL disponíveis no mercado. Alguns dos principais bancos NoSQL são:
• Oracle NoSQL • Voldemort • BigTable
• IBM Cloudant • MongoDB • DynamoDB
• Cassandra
Uma de suas características marcantes é que ele é “schema free”, ou seja, não segue
o modelo tradicional dos bancos de dados relacional, permitindo que cada registro
armazenado em seu banco tenha uma estrutura diferente do registro anterior.
8
É um banco que permite escalabilidade horizontal, ou seja, permite aumentar o
número de máquinas disponíveis. A escalabilidade horizontal em modelos relacionais
seria inviável devido a concorrência. Como nos modelos NoSQL não existem bloqueios,
esse tipo de escalabilidade é a mais viável.
O NoSQL possui suporte à replicação de uma forma nativa o que provê uma
escalabilidade maior e também uma diminuição do tempo gasto para a recuperação de
informações. Uma API simples é fornecida para que o acesso às informações seja feito
da forma mais rápida possível.
Iremos trabalhar com um banco de dados orientado para documentos, chamado MongoDB.
O banco MongoDB usa a estrutura <Chave><Valor>, uma IDE on-line: https://goo.gl/5YmcIu
O software para instalação gratuita pode ser encontrado em https://goo.gl/0gZsq7
9
9
UNIDADE
Introdução a Big Data
10
Material Complementar
Indicações para saber mais sobre os assuntos abordados nesta Unidade:
Vídeos
Big Data Storymap
História do Big Data, como surgiu e evoluiu ao longo dos anos.
https://youtu.be/iFyGuvyesw4
Big Data Architecture Patterns
Vários modelos de implementação de Big Data. Altamente recomendado para os inciantes.
https://youtu.be/-N9i-YXoQBE
Explaining Big Data
Aprofunda alguns conceitos vistos no vídeo anterior (Big Data Architecture Patterns). É
interessante assistir este vídeo agora e revê-lo após ter estudado o módulo 2.
https://youtu.be/7D1CQ_LOizA
Introduction to Hadoop
Introdução gráfica ao Hadoop. É interessante assisti-lo para consolidar os conceitos de
Map/Reduce
https://youtu.be/Pq3OyQO-l3E
11
11
UNIDADE
Introdução a Big Data
Referências
DATE, C.J.. Introdução a Sistemas de Bancos de Dados. Trad. Daniel Vieira. Rio de
Janeiro: Elsiever Editora, 2015.
12