Conceitos Fundamentais de Big Data
Conceitos Fundamentais de Big Data
Conceitos Fundamentais de Big Data
Big Data
Apresentação
Esta unidade visa apresentar uma introdução sobre Big Data, trazendo questões essenciais
para o entendimento desse conceito que impacta a gestão dos dados e a aplicação de uma
cultura Data Driven.
Aqui, você vai aprender como chegamos a esse cenário, em que lidar com capacidades
brutais de dados se tornou um ponto de atenção importante para que não haja gargalos e
limitações, no que diz respeito ao uso dos dados a favor das grandes corporações.
Também vamos conceituar essa arquitetura, caracterizando os seus principais elementos
e apresentando os tipos mais comuns de Big Data que encontraremos no cotidiano da
área de dados.
A partir do momento em que a internet deixou de ser uma ferramenta exclusiva para
uso das forças militares e começou a se popularizar entre pessoas comuns, a necessidade
de armazenamento e processamento de dados foi se tornando algo crítico.
Cada ação realizada em websites e, posteriormente, em aplicativos de redes sociais
passou a ser entendida como algo de valor, que precisava ser registrada e analisada, com o
objetivo de capturar informações relevantes, as quais logo seriam entendidas e se tornariam
diferenciais competitivos.
Mas não foi só isso. A explosão do uso de aplicativos para realizar qualquer tarefa do
dia a dia, bem como a geração de dados em tempo real, através de sensores e dispositivos,
faculdade.grancursosonline.com.br 1 de 10
Professor(a): Anderson Nascimento
tendo como base a Internet of Things (IoT), fez com que esse processo fosse encarado
como algo ainda mais crítico.
Saiba mais sobre Internet das Coisas (IOT), acessando o artigo Internet das Coisas:
o que é, como funciona e exemplos de uso.
Disponível em: https://www.techtudo.com.br/noticias/2022/10/o-que-e-internet-
das-coisas-veja-como-funciona-a-iot-e-exemplos-de-uso.ghtml (acesso em 19
jun. 2023.)
O conceito de Big Data surgiu no início dos anos 2000, quando o mundo começou a
lidar com uma quantidade cada vez maior de dados gerados por empresas, redes sociais,
dispositivos, sensores e outros meios digitais. Essa expressão passou a ser utilizada para
descrever o desafio de lidar com esse grande volume de informações.
O Big Data não é especificamente uma ferramenta, como várias pessoas podem
equivocadamente pensar, mas sim o conjunto de tecnologias que permitirão o processamento
de grandes volumes de dados, na velocidade e no tempo certos, para obter os conhecimentos
necessários para a aplicação desses dados no processo de tomada de decisão.
Tendo por base tal afirmação, vale a pena citar que o termo “Big Data” começou a ganhar
destaque quando, na década de 2000, o analista Doug Laney publicou um artigo chamado
faculdade.grancursosonline.com.br 2 de 10
Professor(a): Anderson Nascimento
Os 3 Vs do Big Data: Volume, Velocidade e Variedade. Nesse artigo, ele destacou que o Big
Data é caracterizado não apenas pelo grande volume de informações, como também pela
velocidade em que os dados são gerados e pela variedade de fontes e formatos.
Esses três “Vs” se tornaram não só uma referência comum para descrever o conceito,
mas uma base para o que viria a seguir em termos de definição da tecnologia.
O conceito inicial dos 3 Vs do Big Data foi ampliado para os atualmente conhecidos 5
Vs, que representam um ponto de partida para todo e qualquer estudo sobre o Big Data.
Os 5 Vs são volume, velocidade, variedade, veracidade e valor, tal qual a Figura 1 exibe.
faculdade.grancursosonline.com.br 3 de 10
Professor(a): Anderson Nascimento
Agora, vejamos o que cada uma dessas características representa em uma arquitetura
de Big Data:
• Volume
O volume de dados pode ser medido em terabytes, petabytes, exabytes ou até zettabytes.
Para gerenciar e aproveitar esses dados, em grande escala, são necessárias soluções
de armazenamento distribuído, tecnologias de processamento paralelo e técnicas de
compactação eficientes.
O infográfico exposto na Figura 2 traz um pouco da dimensão da extensão dos formatos
de dados existentes atualmente.
faculdade.grancursosonline.com.br 4 de 10
Professor(a): Anderson Nascimento
• Velocidade
A velocidade diz respeito à taxa de geração, ingestão e processamento dos dados. Com
o surgimento da Internet das Coisas (IoT), redes sociais em tempo real, dispositivos móveis
e outras fontes de dados, os dados são gerados e transmitidos em alta velocidade.
O Big Data lida com a necessidade de processar esses dados em tempo real ou próximo
ao tempo real, para obter insights valiosos e tomar decisões oportunas.
A velocidade de processamento também é relevante quando se trata de analisar grandes
volumes de dados em um prazo razoável. Isso envolve o uso de tecnologias de processamento
distribuído, como o processamento paralelo em cluster, que permite o processamento
simultâneo de tarefas em várias máquinas.
faculdade.grancursosonline.com.br 5 de 10
Professor(a): Anderson Nascimento
• Variedade
A variedade está relacionada à diversidade de tipos e fontes de dados. Além dos dados
estruturados tradicionais, armazenados em bancos de dados relacionais, o Big Data lida
com dados semiestruturados e não estruturados.
Esses dados podem incluir texto livre, áudio, vídeo, imagens, logs de eventos, feeds de
redes sociais, e-mails, documentos e muito mais.
A variedade de formatos e fontes torna o processamento e a análise dos dados
desafiadores. É necessário utilizar técnicas de integração de dados e modelagem flexível
para lidar com diferentes formatos e garantir que as informações relevantes sejam extraídas
adequadamente.
• Veracidade
• Valor
faculdade.grancursosonline.com.br 6 de 10
Professor(a): Anderson Nascimento
Como abordamos aqui, o Big Data é a capacidade de lidar com diversos tipos de dados
e em quantidades verdadeiramente consideráveis. Esses dados, como são advindos de
diversas fontes e tipos diferentes, naturalmente também possuem composições diferentes.
Os dados que compõem um Big Data podem ser basicamente classificados em três
tipos: estruturados, semiestruturados e não estruturados. A Figura 3 faz uma alusão à
organização desses tipos de dados.
faculdade.grancursosonline.com.br 7 de 10
Professor(a): Anderson Nascimento
EXEMPLO
Informações armazenadas em bancos de dados SQL, planilhas e tabelas diversas.
O Big Data semiestruturado se refere a dados que possuem algum nível de estrutura,
mas não se enquadram perfeitamente em um formato tabular rígido. Esses dados contêm
informações adicionais, como metadados, tags ou marcadores que fornecem contexto
sobre o conteúdo.
Possui formato flexível de armazenamento e processamento, pois não segue um formato
rígido, como o Big Data estruturado. Técnicas como análise de texto, processamento de
linguagem natural e mineração de dados são frequentemente usadas para extrair informações
e insights importantes desses dados.
EXEMPLO
Arquivos no formato XML (Extensible Markup Language), que permitem que os dados sejam
organizados hierarquicamente e que contenham marcadores que descrevam a sua estrutura e
as características dos dados. Os arquivos de dados do tipo JSON (JavaScript Object Notation)
também podem ser citados nesse caso. Outro exemplo são arquivos de e-mail, que possuem
um formato estruturado, até certo ponto, e não estruturados, a partir da elaboração da
mensagem.
• Big Data não estruturado
O Big Data não estruturado diz respeito a dados que não possuem uma estrutura
definida e não podem ser organizados facilmente em tabelas ou formatos tabulares. Esses
dados são gerados em grande quantidade a partir de diversas fontes de dados diferentes.
Assim, o Big Data não estruturado é desafiador, em termos de armazenamento,
processamento e análise, pois requer técnicas avançadas de processamento de dados
para extrair informações úteis. A análise de imagem e vídeo, o processamento de fala, o
processamento de texto, o reconhecimento de padrões e o aprendizado de máquina são
algumas das técnicas utilizadas para explorar dados não estruturados.
faculdade.grancursosonline.com.br 8 de 10
Professor(a): Anderson Nascimento
EXEMPLO
Mídias sociais, vídeos, áudios, imagens, documentos, feeds de sensores e outros formatos
não padronizados.
Além dessas classificações, é importante destacar que também é possível encontrar dados
que se enquadram em uma combinação de características estruturadas, semiestruturadas
e não estruturadas, o que é conhecido como “Big Data híbrido”. Esse tipo de Big Data requer
abordagens flexíveis e adaptáveis para lidar com diferentes formatos e estruturas de dados.
Nesta aula, fizemos uma introdução aos conceitos essenciais do Big Data. Vimos que esse
termo representa uma revolução na forma como coletamos, armazenamos, processamos
e analisamos dados em larga escala.
Com a convergência de mecanismos de interação e, com isso, a explosão da geração
de dados provenientes de diversas fontes – como dispositivos conectados, redes sociais e
sistemas empresariais –, surgem não só os desafios de armazenagem e processamento, mas
também oportunidades corporativas significativas. Isso porque, ao dominar as técnicas e
ferramentas de Big Data, as organizações podem extrair insights valiosos, tomar decisões
mais informadas e impulsionar a inovação, em diversas áreas, abrindo caminho para uma
arquitetura orientada aos dados.
Os 5 Vs do Big Data são volume, velocidade, variedade, veracidade e valor, e eles nos
ajudam a compreender a complexidade desses conjuntos de dados, além de representarem
o alicerce fundamental para compreendermos esse conceito a partir daí.
O Big Data tem o potencial de transformar a forma como vivemos, trabalhamos
e interagimos, desempenhando um papel fundamental na era da informação em que
estamos imersos.
Materiais Complementares
faculdade.grancursosonline.com.br 9 de 10
Professor(a): Anderson Nascimento
Referências
HURWITZ, Judith et al. Big Data Para Leigos. [s.l.]: Editora Alta Books, 2015. E-book.
ISBN 9786555206906. Disponível em: https://integrada.minhabiblioteca.com.br/#/
books/9786555206906/. Acesso em: 19 jun. 2023.
MORAIS, Izabelly Soares de et al. Introdução a Big Data e internet das coisas (IOT).
Porto Alegre: SAGAH, 2018. Livro digital. (1 recurso on-line). ISBN 9788595027640. Dis-
ponível em: https://integrada.minhabiblioteca.com.br/books/9788595027640. Acesso
em: 19 jun. 2023.
SANTOS, Roger R.; BORDIN, Maycon V.; NUNES, Sergio E. et al. Fundamentos de Big Data.
[s.l.]: Grupo A, 2021. E-book. ISBN 9786556901749. Disponível em: https://integrada.
minhabiblioteca.com.br/#/books/9786556901749/. Acesso em: 19 jun. 2023.
faculdade.grancursosonline.com.br 10 de 10