Ebook Bdfv3

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 177

Big Data

Fundamentos 3.0

Data Science Academy

Data Science Academy


A Data Science Academy é um portal de ensino online
especializado em Big Data, Machine Learning, Inteligência
Artificial, Blochchain, RPA e tecnologias relacionadas.
Data Science
Academy Nosso objetivo é fornecer aos alunos conteúdo de alto nível
por meio do uso de computador, tablet ou smartphone, em
qualquer lugar, a qualquer hora, 100% online e 100% em
português.

Nossa
Escola

Data Science Academy


www.datascienceacademy.com.br
www.datascienceacademy.com.br
Data Science Academy - Localização
No Brasil e no Mundo.

Data Science Academy


www.datascienceacademy.com.br
www.datascienceacademy.com.br
Conteúdo
Programático

Capítulo 1 Capítulo 2 Capítulo 3 Capítulo Capítulo 5


4

Introduçã O Que é Big Sistemas de Armazenamento Cloud


o Data? Armazenament e Processamento Computing
o de Dados Paralelo

Capítulo 6 Capítulo 7 Capítulo 8 Capítulo 9 Capítulo


10

MLOps e Dados Como ETL - Extração, Como Iniciar Avaliação Final


DataOps Serviço Transformação Um Projeto e Certificado
e Carga de de Big Data de Conclusão
Dados

Data Science Academy


Big Data
Fundamentos 3.0
Avaliação Final,
Certificado de
Conclusão e E-book do
Curso

Data Science Academy

Data Science Academy


Avaliação Final, Certificado de Conclusão e E-book do
Curso

Questões Tentativas Aproveitamento


50 3 70%

Data Science Academy


Big Data
Fundamentos 3.0
Qual o Público Alvo Deste
Curso?

Data Science Academy

Data Science Academy


Qual o Público Alvo Deste Curso?

Este é um curso teórico. Apenas relaxe e


aproveite o conhecimento que será trazido a
você.

Qualquer pessoa interessada em aprender


sobre o universo do Big Data pode
acompanhar este curso!

Este curso é pré-requisito recomendado para


todos os demais cursos em nosso portal.

Data Science Academy


Big Data
Fundamentos 3.0
Introdução
O Que é Big Data?

Data Science Academy

Data Science Academy


Big Data
Fundamentos 3.0
Fatos Sobre o Big Data

Data Science Academy

Data Science Academy


Fatos Sobre o Big Data

Big Data
Neste exato momento, uma
verdadeira enxurrada de dados, ou
2.5 quin5lhões de bytes por dia, é
gerada para nortear indivíduos,
empresas e governos, e está
dobrando a cada dois anos.

Data Science Academy


Fatos Sobre o Big Data

Big Data
Cerca de 90% de todos os dados
gerados no planeta, foram
gerados nos últimos 2 anos.

Data Science Academy


Fatos Sobre o Big Data

Big Data
Aproximadamente 80% dos
dados são não-estruturados ou
estão em diferentes formatos, o
que dificulta a análise.

Data Science Academy


Fatos Sobre o Big Data

Big Data
Toda vez que fazemos uma compra,
uma ligação ou interagimos nas
redes sociais, estamos produzindo
esses dados.

Data Science Academy


Fatos Sobre o Big Data

E com a recente conectividade em


objetos, tal como relógios, carros e até
geladeiras, as informações capturadas
se tornam massivas e podem ser
cruzadas para criar modelos preditivos
cada vez mais elaborados, apontando
e, até prevendo, o comportamento de
empresas e clientes.

Data Science Academy


O Que é Big Data?

Big Data é uma coleção de conjuntos de dados, grandes e complexos,


que não podem ser processados por bancos de dados ou aplicações
de processamento tradicionais.

Data Science Academy


O Que é Big Data?

O Google estima que a humanidade criou nos últimos 5 anos, o equivalente


a 300 Exabytes de dados ou seja:
300.000.000.000.000.000.000 bytes de dados.

Data Science Academy


O Que é Big Data?

Podemos definir o conceito de Big Data como sendo conjuntos de dados


extremamente amplos e que, por este motivo, necessitam de ferramentas
especialmente preparadas para lidar com grandes volumes, velocidade e
variedade, de forma que toda e qualquer informação disponível nos dados
possa ser encontrada, analisada e aproveitada em tempo hábil.

Data Science Academy


O Que é Big Data?

De maneira mais simplista, a ideia também pode


ser compreendida como a análise de grandes
quan5dades de dados para a geração de
resultados importantes que, em volumes menores,
dificilmente seriam alcançados.

Data Science Academy


O Que é Big Data?

O Big Data nos dá uma visão


clara do que é granular!

Data Science Academy


O Que é Big Data?

No mundo do Big Data não temos de nos


fixar na causalidade; podemos descobrir
padrões e correlações nos dados que
nos propiciem novas e valiosas ideias.

Data Science Academy


Big Data
Fundamentos 3.0
Os 4 V's do Big Data

Data Science Academy

Data Science Academy


Os 4Vs do Big Data

Data Science Academy


Os 4 V's do Big Data

Volume Variedade
Tamanho dos Dados. Formato dos Dados

Velocidade Veracidade
Geração dos Dados.
Confiabilidade dos Dados
Data Science Academy
Os 4 V's do Big Data

àEspera-se que 40 zettabytes de dados sejam criados por ano no


Volume mundo;
àCerca de 2.5 quintillionbytes de dados são criados por dia;
Tamanho dos Dados.
àExistem atualmente cerca de 6 bilhões de telefones móveis no
planeta;
àCada empresa americana armazena cerca de 100 Terabytes de
dados.

Data Science Academy


Os 4 V's do Big Data

à150 exabytes é a esNmaNva de dados que foram gerados


Variedade especificamente para tratamento de casos de doença em todo o
mundo por ano desde 2011;
Formato dos Dados.
àMais de 4 bilhões de horas por mês são usadas para assisNr
vídeos no YouTube;
à30 bilhões de imagens são publicadas por mês no Facebook;
à200 milhões de usuários aNvos por mês, publicam 400 milhões
de tweets por dia.

Data Science Academy


Os 4 V's do Big Data

à1 terabyte de informação é criada durante uma única sessão


Velocidade da bolsa de valores Americana, a New York Stock Exchange
(NYSE);
Geração dos Dados.
àAproximadamente 100 sensores estão instalados nos carros
modernos para monitorar nível de combustível, pressão dos
pneus e muitos outros aspectos do veículo;
à18.9 bilhões de conexões de rede já existem no mundo.

Data Science Academy


Os 4 V's do Big Data

àAtualmente, 1 em cada 3 gestores tem experimentado


Veracidade problemas relacionados a veracidade dos dados para tomar
decisões de negócios.
Confiabilidade dos Dados.

àAlém disso, esNma-se que 3.1 trilhões de dólares por ano sejam
desperdiçados devido a problemas de qualidade dos dados.

Data Science Academy


Big Data
Fundamentos 3.0
Big Data x Ciência de
Dados

Data Science Academy

Data Science Academy


Big Data x Ciência de Dados

Big Data e Ciência de Dados são a mesma coisa?

Não

Big Data é a matéria-prima, ou seja, dados.


Ciência de Dados é um conjunto de técnicas para análise de dados.

Quando aplicamos Ciência de Dados ao Big Data extraímos valor e


então temos o que é chamado de Big Data Analytics.
Data Science Academy
Big Data
Fundamentos 3.0
Exemplos de
Aplicação do Big Data
Analytics

Data Science Academy

Data Science Academy


Exemplos de Aplicação do Big Data Analytics

Uma Rede de Supermercados pode


Uma Companhia Área pode extrair,
extrair, armazenar, processar e
armazenar, processar e analisar
analisar dados de compras a fim de
dados de viagens dos passageiros a
detectar padrões e organizar os
fim de oferecer rotas com maior
produtos de forma a aumentar as
probabilidade de venda.
vendas.

Uma Rede de Hotéis pode extrair,


Uma Rede de Hospitais pode
armazenar, processar e analisar
extrair, armazenar, processar e
dados de comentários de clientes
analisar dados de exames médicos
em redes sociais para customizar
a fim de personalizar e oDmizar o
seus serviços, aumentar as vendas
atendimento dos pacientes.
e reduzir custos.

Data Science Academy


Big Data
Fundamentos 3.0
Sistemas de
Armazenamento de
Dados

Data Science Academy

Data Science Academy


Big Data
Fundamentos 3.0
O V de Volume em Big
Data

Data Science Academy

Data Science Academy


O V de Volume em Big Data

O V de Volume é crítico em Big Data.

Como vamos armazenar grandes conjuntos


de dados?

Como vamos acessar grandes conjuntos de


dados armazenados?

Precisamos realmente armazenar tudo?

Data Science Academy


Big Data
Fundamentos 3.0
Como Armazenamos Big
Data?

Data Science Academy

Data Science Academy


Como Armazenamos Big Data?

Em linhas gerais o armazenamento pode


ser feito com base na seguinte regra:

Os dados são estruturados ou podem ser Os dados NÃO são estruturados ou NÃO podem
estruturados antes do armazenamento? ser estruturados antes do armazenamento?

Usamos um Data Warehouse! Usamos um Data Lake ou um Data Store!

Data Science Academy


Big Data
Fundamentos 3.0
Bancos de Dados
Relacionais x Bancos de
Dados NoSQL

Data Science Academy

Data Science Academy


Bancos de Dados Relacionais x Bancos de Dados NoSQL

Bancos de Dados Relacionais são bancos de dados


estruturados e com schema (organização dos dados) bem
definido.

O schema é definido e criado antes do armazenamento


dos dados.

Um Data Warehouse, por exemplo, é criado com alguma


tecnologia de banco relacional como SGBD (Sistema
Gerenciador de Banco de Dados) Oracle, IBM DB2,
MicrosoQ SQL Server, MySQL, PostgreSQL e muitos
outros.

Em um banco de dados relacional os dados são


organizados em tabelas que se relacionam.

Data Science Academy


Bancos de Dados Relacionais x Bancos de Dados NoSQL

Bancos de Dados Não Relacionais (NoSQL) partem do


princípio que os dados podem ser semi ou não
estruturados e que outros tipos de relacionamentos
podem existir entre os dados.

Podemos usar Bancos de Dados Não Relacionais (NoSQL)


para construir Data Lakes e Data Stores (Data Lakes e Data
Stores são conceitos, como veremos mais adiante).

Normalmente não precisamos definir o schema antes do


armazenamento ou o schema é definido no momento do
armazenamento dos dados.

Existem diversos tipos de bancos de dados NoSQL.

Data Science Academy


Big Data
Fundamentos 3.0
Definindo Data
Warehouses

Data Science Academy

Data Science Academy


Definindo Data Warehouses

Um Data Warehouse (DW) é um sistema de armazenamento


que conecta e harmoniza grandes quanDdades de dados de
muitas fontes diferentes.

Seu objeDvo é alimentar a inteligência de negócios (Business


Intelligence), relatórios e análises e oferecer suporte aos
requisitos de negócio, para que as empresas possam
transformar seus dados em insights e tomar decisões
inteligentes baseadas em dados.

Os DWs armazenam dados atuais e históricos em um único


lugar e atuam como a única fonte de informações confiáveis
para uma organização.

Data Science Academy


Definindo Data Warehouses

Data Science Academy


Definindo Data Warehouses

Os dados fluem para um DW a parDr de sistemas


transacionais (como ERP e CRM), bancos de dados e fontes
externas, como sistemas de parceiros, disposiDvos de Internet
das Coisas (IoT), aplicaDvos de mídia social - geralmente em
uma cadência regular.

O surgimento da computação em nuvem causou uma


mudança no cenário.

Nos úlDmos anos, os locais de armazenamento de dados


mudaram da infraestrutura local tradicional para vários locais,
incluindo nuvem privada e nuvem pública.

O schema deve ser definido antes do processo de


armazenamento dos dados.

Data Science Academy


Definindo Data Warehouses

Os DWs modernos são projetados para lidar com dados


estruturados e não estruturados, como vídeos, arquivos de
imagem e dados de sensor (embora Data Lakes ainda sejam
opções melhores para dados não estruturados).

Alguns aproveitam a análise integrada e a tecnologia de banco


de dados in-memory (que mantém o conjunto de dados na
memória do computador em vez de no armazenamento em
disco) para fornecer acesso em tempo real a dados confiáveis
e impulsionar a tomada de decisões.

Sem DW é muito difícil combinar dados de fontes


heterogêneas, garantir que estejam no formato certo para
análise e obter uma visão atual e de longo alcance dos dados
ao longo do tempo.

Data Science Academy


Definindo Data Warehouses

Bene'cios do DW:

• Melhor Análise de Negócios: com o DW, os tomadores de decisão têm


acesso a dados de várias fontes e não precisam mais tomar decisões com
base em informações incompletas.

• Consultas Mais Rápidas: os DWs são construídos especificamente para


recuperação e análise rápida de dados. Com um DW, você pode consultar
rapidamente grandes quanDdades de dados consolidados com pouco ou
nenhum suporte de TI.

• Melhoria da Qualidade dos Dados: antes de serem carregados no DW, os


dados passam por um processo de limpeza garanDndo que os dados sejam
transformados em um formato consistente para apoiar análises - e decisões -
com base em dados precisos e de alta qualidade.

• Visão Histórica: ao armazenar dados históricos ricos, um data warehouse


permite que os tomadores de decisão aprendam com tendências e desafios
passados, façam previsões e conduzam a melhoria conbnua dos negócios.
Data Science Academy
Definindo Data Warehouses

Temos um curso inteiro aqui na DSA sobre


como construir DWs locais e em nuvem.

É o primeiro curso da Formação Engenheiro de


Dados, o curso de Design e Implementação de
Data Warehouses.

Data Science Academy


Big Data
Fundamentos 3.0
Definindo Data Lakes

Data Science Academy

Data Science Academy


Definindo Data Lakes

Fontes de Armazenamento Limpeza e Análise, Relatórios,


Dados em Formato Bruto Transformação Machine Learning

Data Science Academy


Definindo Data Lakes

Um Data Lake é um repositório centralizado que permite armazenar


todos os dados estruturados e não estruturados em qualquer
escala. Podemos armazenar os dados como estão na fonte, sem ter
que primeiro estruturá-los e executar diferentes Dpos de análises -
de painéis e visualizações a processamento de Big Data, análises em
tempo real e aprendizado de máquina para orientar melhores
decisões.

Dependendo dos requisitos, uma empresa bpica exigirá um Data


Warehouse e um Data Lake, pois eles atendem a diferentes
necessidades e casos de uso.

A estrutura dos dados ou schema (esquema) não é definida quando


os dados são capturados. Isso significa que você pode armazenar
todos os dados em formato bruto sem a necessidade de saber quais
perguntas de negócio deverão ser respondidas no futuro.

Data Science Academy


Definindo Data Lakes

Diferentes tipos de análises, como consultas SQL, análises de Big


Data, pesquisa de texto, análises em tempo real e aprendizado de
máquina, podem ser usados para descobrir insights.

Os Data Lakes permitem que as empresas gerem diferentes tipos de


percepções sobre os dados, desde relatórios sobre dados históricos
até modelos preditivos criados com Machine Learning.

O principal desafio de uma arquitetura de Data Lake é que os dados


brutos são armazenados sem supervisão do conteúdo. Para que um
Data Lake torne os dados utilizáveis, ele precisa ter mecanismos
definidos para catalogar e proteger os dados. Sem esses elementos,
os dados não podem ser encontrados ou confiáveis, resultando em
um “Pântano de Dados” (Data Swamp). Atender às necessidades de
públicos mais amplos exige que os Data Lakes tenham governança,
gestão de metadados, consistência semântica e controles de acesso.

Data Science Academy


Definindo Data Lakes

Data Lake é um conceito e pode ser construído com diferentes


tecnologias como Apache Hadoop ou Bancos de Dados NoSQL.

Podemos importar dados do DW para o Data Lake e vice-versa


dependendo das necessidades de negócio da empresa.

Para o DW normalmente usamos ETL (Extração, Transformação e


Carga).

Para o Data Lake normalmente usamos ELT (Extração, Carga e


Transformação).

Data Lakes e DWs podem fazer parte de uma grande estrutura


central de armazenamento chamada Data Hub.

Data Science Academy


Definindo Data Lakes

Benefícios do Data Lake:

• Armazenamento em Formato Bruto: não precisamos limpar e transformar


os dados antes do armazenamento.

• Importação de Qualquer Quantidade de Dados em Tempo Real: os dados


são coletados de várias fontes e movidos para o Data Lake em seu formato
original. Este processo permite dimensionar dados de qualquer tamanho,
enquanto economiza tempo de definição de estruturas de dados, esquema e
transformações.

• Repositório Central Para Todos os Dados da Empresa: os Data Lakes


permitem que várias funções como Cientistas de Dados, Engenheiros de
Machine Learning, Analistas de Dados e Analistas de Negócios, acessem
dados com sua ferramenta analítica específica.

• Sem Necessidade de Movimentação dos Dados: análises podem ser


executadas sem necessidade de mover os dados para um sistema de análise
separado.
Data Science Academy
Definindo Data Lakes

Temos um curso inteiro aqui na DSA sobre


como construir Data Lakes locais e em nuvem.

É o segundo curso da Formação Engenheiro de


Dados, o curso Data Lake – Design, Projeto e
Integração.

Data Science Academy


Big Data
Fundamentos 3.0
Definindo Data Stores

Data Science Academy

Data Science Academy


Definindo Data Stores

Um Data Store é um repositório para armazenar e gerenciar de forma persistente coleções de dados que
incluem não apenas dados estruturados, mas também Dpos de armazenamento variado, como documentos,
dados no formato de chave-valor, filas de mensagens e outros formatos de arquivo.

Os Dpos mais comuns de Data Stores:

• Armazenamento de chave-valor (Redis, Memcached)


• Motor de pesquisa de texto completo (ElasDc Search)
• Fila de mensagens (Apache Kaja)
• Sistema de arquivos distribuídos (Hadoop HDFS, AWS S3)

Data Science Academy


Definindo Data Stores

Benefícios do Data Store:

• Armazenamento de Variados Tipos de Dados: dados que não se encaixam


em outros repositórios de armazenamento.

• Flexibilidade: armazenamento de dados aderente às necessidades da


aplicação final.

• Suporte a Dados Semi-Estruturados: dados que possuem alguma


organização prévia, mas que devem ser usados em seu formato original.

• Custo Total Menor: por se tratar de um tipo simplificado de armazenamento


o custo total tende a ser menor que outra solução de armazenamento.

Data Science Academy


Definindo Data Stores

Temos um curso inteiro aqui na DSA voltado


para Modelagem de diferentes sistemas de
armazenamento.

É o segundo curso da Formação Arquiteto de


Dados, o curso Modelagem de Bancos de
Dados Relacionais, Não Relacionais e Data
Stores.

Data Science Academy


Big Data
Fundamentos 3.0
Sistemas Híbridos de
Armazenamento

Data Science Academy

Data Science Academy


Sistemas Híbridos de Armazenamento

Com o avanço do Big Data veremos cada vez mais sistemas híbridos de
armazenamento, com dados armazenados em diferentes 5pos de
repositórios, local ou na nuvem.

Data Science Academy


Sistemas Híbridos de Armazenamento

DWs, Data Lakes e Data Stores serão usados em conjunto criando assim
uma grande estrutura de armazenamento de dados, um Data Hub.

Data Science Academy


Big Data
Fundamentos 3.0
Armazenamento e
Processamento
Paralelo

Data Science Academy

Data Science Academy


Big Data
Fundamentos 3.0
O Que é um Cluster de
Computadores?

Data Science Academy

Data Science Academy


O Que é um Cluster de Computadores?

Um servidor é um computador,
geralmente com alta capacidade
computacional, que “serve” (fornece)
serviços de armazenamento, aplicações
ou bancos de dados.

Data Science Academy


O Que é um Cluster de Computadores?

Um servidor possui escalabilidade


vertical, ou seja, há um limite até onde
conseguimos incluir mais espaço em
disco, mais processadores e mais
memória RAM.

Data Science Academy


O Que é um Cluster de Computadores?

Um cluster de computadores é um
conjunto de servidores com um mesmo
propósito visando fornecer um tipo de
serviço, como armazenamento ou
processamento de dados.

Data Science Academy


O Que é um Cluster de Computadores?

Um cluster possui escalabilidade


horizontal, ou seja, se quisermos
aumentar a capacidade computacional
incluímos mais máquinas no cluster
(além da escalabilidade verNcal de cada
máquina individual no cluster).

Data Science Academy


O Que é um Cluster de Computadores?

Clusters de computadores são cada vez


mais usados em Big Data, o que nos
permite realizar armazenamento e
processamento paralelo através de
diversas máquinas (diversos servidores).

Data Science Academy


Big Data
Fundamentos 3.0
O Que é Armazenamento
Paralelo?

Data Science Academy

Data Science Academy


O Que é Armazenamento Paralelo?

Com clusters de computadores


aumentamos de forma considerável a
capacidade computacional.

Data Science Academy


O Que é Armazenamento Paralelo?

O armazenamento paralelo consiste em


distribuir o armazenamento de dados através
de diversos servidores (computadores), o que
permite aumentar de forma considerável a
capacidade de armazenamento usando
hardware de baixo custo.

Serviço Serviço Serviço Serviço

Dados
Dados Dados Dados Dados

Data Science Academy


Big Data
Fundamentos 3.0
Software para
Armazenamento Paralelo
- Apache Hadoop

Data Science Academy

Data Science Academy


Software para Armazenamento Paralelo - Apache Hadoop

O armazenamento paralelo consiste em


distribuir o armazenamento de dados através
de diversos servidores (computadores), o que
permite aumentar de forma considerável a
capacidade de armazenamento usando
hardware de baixo custo.

Serviço Serviço Serviço Serviço

Dados
Dados Dados Dados Dados

Data Science Academy


Software para Armazenamento Paralelo - Apache Hadoop

E como gerenciamos o armazenamento


paralelo através de diversos computadores?

Serviço Serviço Serviço Serviço

Dados
Dados Dados Dados Dados

Data Science Academy


Software para Armazenamento Paralelo - Apache Hadoop

Precisamos de um sistema de arquivos


distribuído. Seu computador pessoal tem um
sistema de arquivos (NTFS, ext3, etc…), mas
ele não foi desenvolvido para
armazenamento distribuído.

Serviço Serviço Serviço Serviço

Dados
Dados Dados Dados Dados

Data Science Academy


Software para Armazenamento Paralelo - Apache Hadoop

Entre algumas opções, o Apache Hadoop HDFS


(Hadoop Distributed File System) tem se mostrado
a solução ideal para gerenciar o armazenamento
distribuído em um cluster de computadores.

O HDFS é o software responsável pela gestão do


cluster de computadores definindo como os
arquivos serão distribuídos através do cluster.

Com o HDFS podemos construir um Data Lake que


roda sobre um cluster de computadores e permite
o armazenamento de grandes volumes de dados
com hardware commodity (de baixo custo).

Isso permitiu que o Big Data pudesse ser usado em


larga escala!

Data Science Academy


Big Data
Fundamentos 3.0
Processamento
Paralelo de Big Data

Data Science Academy

Data Science Academy


Processamento Paralelo de Big Data

Resolvemos um problema! Podemos agora


armazenar grandes quanDdades de dados em
um cluster de computadores através de
armazenamento paralelo de dados.

Mas como vamos processar os dados se eles


estão agora distribuídos em diversos
computadores?

Data Science Academy


Processamento Paralelo de Big Data

No processamento paralelo o objetivo é dividir


uma tarefa em várias sub-tarefas e executá-las
em paralelo.

O Apache Hadoop MapReduce e o Apache


Spark são dois frameworks para esse propósito.

Data Science Academy


Processamento Paralelo de Big Data

Ao usar um framework de processamento


paralelo, as sub-tarefas são levadas para o
processador da máquina do cluster onde os
dados estão armazenados, aumentando assim a
velocidade de processamento de grandes
volumes de dados.

Data Science Academy


Big Data
Fundamentos 3.0
Arquitetura de
Armazenamento e
Processamento Paralelo

Data Science Academy

Data Science Academy


Arquitetura de Armazenamento e Processamento
Paralelo

Considerando o Apache Hadoop, teríamos


o seguinte esquema:

Master Node Worker Node Worker Node

Data Science Academy


Arquitetura de Armazenamento e Processamento
Paralelo

O HDFS é um serviço rodando em todas as


máquinas do cluster, sendo um NameNode
para gerenciar o cluster e os DataNodes
que fazem o trabalho de armazenamento
propriamente dito. Master Node Worker Node Worker Node

Data Science Academy


Arquitetura de Armazenamento e Processamento
Paralelo

O MapReduce também é um serviço


rodando em todas as máquinas do cluster,
sendo um Job Tracker para gerenciar o
processamento e os Task Trackers que fazem
o trabalho de processamento. Master Node Worker Node Worker Node

Data Science Academy


Arquitetura de Armazenamento e Processamento
Paralelo

O Job Tracker consulta o NameNode a fim


de saber a localização dos blocos de dados
nas máquinas do cluster.

Master Node Worker Node Worker Node

Data Science Academy


Arquitetura de Armazenamento e Processamento
Paralelo

Os Task Trackers se comunicam com os


DataNodes para obter os dados do disco,
executar o processamento e então retornar
o resultado ao Job Tracker.
Master Node Worker Node Worker Node

Data Science Academy


Arquitetura de Armazenamento e Processamento
Paralelo

Essa arquitetura permite armazenar e


processar grandes quantidades de dados e
assim extrair valor do Big Data através da
análise de dados.
Master Node Worker Node Worker Node

Data Science Academy


Big Data
Fundamentos 3.0
Cloud Computing

Data Science Academy

Data Science Academy


Big Data
Fundamentos 3.0
O Que é Cloud
Computing?

Data Science Academy

Data Science Academy


O Que é Cloud Computing?

Data Science Academy


O Que é Cloud Computing?

A Computação em Nuvem (Cloud Computing)


é a entrega de serviços de computação -
incluindo servidores, armazenamento, bancos
de dados, rede, software, análise e
inteligência - pela Internet (“a nuvem”) para
oferecer recursos flexíveis, inovação e
economia de escala.

Data Science Academy


O Que é Cloud Computing?

Normalmente, pagamos apenas pelos serviços


em nuvem que usamos, ajudando a reduzir os
custos operacionais, operar a infraestrutura
de forma mais eficiente e escalar conforme as
necessidades de negócios mudam.

Data Science Academy


Big Data
Fundamentos 3.0
Cloud Computing e Big
Data

Data Science Academy

Data Science Academy


Cloud Computing e Big Data

Data Science Academy


Big Data
Fundamentos 3.0
MLOps e DataOps

Data Science Academy

Data Science Academy


Big Data
Fundamentos 3.0
O Que é Machine
Learning?

Data Science Academy

Data Science Academy


O Que é Machine Learning?

O Que é Machine Learning?

Machine Learning é uma sub-área da Inteligência Artificial (IA) e da


Ciência da Computação que se concentra no uso de dados e algoritmos
para imitar a forma como os humanos aprendem, melhorando
gradativamente sua precisão.

Data Science Academy


O Que é Machine Learning?

O Que é Machine Learning?

Data Science Academy


O Que é Machine Learning?

O Que é Machine Learning?

Data Science Academy


O Que é Machine Learning?

O Que é Machine Learning?

Dados Algoritmo Modelo

Data Science Academy


Big Data
Fundamentos 3.0
O Pipeline de Machine
Learning

Data Science Academy

Data Science Academy


O Pipeline de Machine Learning

Preparação dos Dados Construção e Treinamento do Deploy do Modelo


Modelo

Preparação dos
Dados Modelagem Deploy
Dados
Limpeza Seleção do Deploy
Algoritmo
Transformação Processamento
ODmização de
Normalização
Hiperparâmetros
Processamento
Treinamento

Teste e Avaliação

Engenheiro de Cientista de Cientista de Dados / Engenheiro de


Dados Dados Engenheiro de IA Machine Learning
Data Science Academy
O Pipeline de Machine Learning

Preparação dos Dados Construção e Treinamento do Deploy do Modelo


Modelo

Preparação dos
Dados Modelagem Deploy
Dados
Limpeza Seleção do Deploy
Algoritmo
Transformação Processamento
Otimização de
Normalização
Hiperparâmetros
Processamento
Treinamento

Teste e Avaliação

Engenheiro de CienDsta de CienDsta de Dados / Engenheiro de


Dados Dados Engenheiro de IA Machine Learning
Data Science Academy
O Pipeline de Machine Learning

Preparação dos Dados Construção e Treinamento do Deploy do Modelo


Modelo

Preparação dos
Dados Modelagem Deploy
Dados
Limpeza Seleção do Deploy
Algoritmo
Transformação Processamento
ODmização de
Normalização
Hiperparâmetros
Processamento
Treinamento

Teste e Avaliação

Engenheiro de Cientista de Cientista de Dados / Engenheiro de


Dados Dados Engenheiro de IA Machine Learning
Data Science Academy
O Pipeline de Machine Learning

Preparação dos Dados Construção e Treinamento do Deploy do Modelo


Modelo

Preparação dos
Dados Modelagem Deploy
Dados
Limpeza Seleção do Deploy
Algoritmo
Transformação Processamento
Otimização de
Normalização
Hiperparâmetros
Processamento
Treinamento

Teste e Avaliação

Engenheiro de CienDsta de CienDsta de Dados / Engenheiro de


Dados Dados Engenheiro de IA Machine Learning
Data Science Academy
O Pipeline de Machine Learning

Preparação dos Dados Construção e Treinamento do Deploy do Modelo


Modelo

Preparação dos
Dados Modelagem Deploy
Dados
Limpeza Seleção do Deploy
Algoritmo
Transformação Processamento
ODmização de
Normalização
Hiperparâmetros
Processamento
Treinamento

Teste e Avaliação

Engenheiro de Cientista de Cientista de Dados / Engenheiro de


Dados Dados Engenheiro de IA Machine Learning
Data Science Academy
Big Data
Fundamentos 3.0
O Que é Machine
Learning Ops?

Data Science Academy

Data Science Academy


O Que é Machine Learning Ops?

Pipeline de Dados

Data Science Academy


O Que é Machine Learning Ops?

Data Science Academy


O Que é Machine Learning Ops?

Data Science Academy


O Que é Machine Learning Ops?

MLOps é um conjunto de práDcas para colaboração e comunicação


entre CienDstas de Dados e profissionais de operações.

MLOps é normalmente tarefa do Engenheiro de Machine Learning.

A aplicação dessas práDcas aumenta a qualidade, simplifica o


processo de gerenciamento e automaDza a implantação de modelos
de aprendizado de máquina em ambientes de produção em grande
escala. É mais fácil alinhar os modelos às necessidades de negócios,
bem como aos requisitos regulamentares.

MLOps visa unificar o desenvolvimento de sistemas de ML (dev) e a


implantação de sistemas de ML (ops) para padronizar e agilizar a
entrega conbnua de modelos de alto desempenho em produção.

Data Science Academy


Big Data
Fundamentos 3.0
DevOps, MLOps, AIOps,
DataOps

Data Science Academy

Data Science Academy


DevOps, MLOps, AIOps, DataOps

DevOps é uma abordagem para desenvolvimento de software que


acelera o ciclo de vida de construção usando automação. O
DevOps se concentra na implantação contínua de software,
aproveitando os recursos de TI sob demanda e automatizando a
integração, o teste e a implantação de código. Essa fusão de
desenvolvimento de software (“dev”) e operações de TI (“ops”)
reduz o tempo de implantação, diminui o tempo de lançamento
no mercado, minimiza defeitos e diminui o tempo necessário para
resolver problemas.

Data Science Academy


DevOps, MLOps, AIOps, DataOps

Usando DevOps, empresas conseguiram reduzir o tempo do ciclo


de lançamento de software de meses para literalmente segundos.
Essa descoberta permitiu o crescimento e liderança em mercados
emergentes e em ritmo acelerado. Empresas como Google,
Amazon e muitas outras agora lançam software muitas vezes por
dia. Ao melhorar a qualidade e o tempo de ciclo dos lançamentos
de código, o DevOps merece muito crédito pelo sucesso dessas
empresas.

Data Science Academy


DevOps, MLOps, AIOps, DataOps

Várias empresas se especializaram em DevOps ao longo do


tempo e diversas novas ferramentas surgiram.

Então, por que não levar o mesmo conceito para a Ciência de


Dados?

E assim nasceram:

MLOps – Operação do fluxo de trabalho em Machine Learning.

AIOps – Operação do fluxo de trabalho em IA.

DataOps – Conceito mais recente que abrange toda a operação


de dados de uma empresa.

Data Science Academy


Big Data
Fundamentos 3.0
O Que é DataOps?

Data Science Academy

Data Science Academy


O Que é DataOps?

DataOps (Operações de Dados) é uma metodologia ágil e


orientada a processos para desenvolver e entregar
análises.

DataOps fornece as ferramentas, processos e estruturas


organizacionais para apoiar a empresa focada em dados.

DataOps é a capacidade de habilitar soluções, desenvolver


produtos de dados e aZvar dados para valor comercial em
todas as camadas de tecnologia, da infraestrutura à
experiência do usuário final.

Data Science Academy


O Que é DataOps?

O objeZvo do DataOps é agilizar o design, o


desenvolvimento e a manutenção de aplicaZvos com base
em dados e análise de dados. Busca melhorar a forma
como os dados são gerenciados e os produtos são criados
e coordenar essas melhorias com os objeZvos do negócio.

As equipes de DataOps também buscam orquestrar dados,


ferramentas, código e ambientes do início ao fim, com o
objeZvo de fornecer resultados reproduzíveis.

As equipes de DataOps tendem a ver os pipelines analíZcos


como análogos às linhas de produção de uma fábrica,
sendo que aqui a matéria-prima é o Big Data.

Data Science Academy


O Que é DataOps?

Operações de Dados Produto Final

Data Science Academy


O Que é DataOps?

Operações de Dados Produto Final

Data Science Academy


Big Data
Fundamentos 3.0
Big Data x Small Data

Data Science Academy

Data Science Academy


Big Data x Small Data

Small Data
Big Data
Dados que estão disponíveis
Grandes volumes de dados,
em quanDdade mínima
com muita variedade e
suficiente para compreensão
gerados em alta velocidade.
humana.

Data Science Academy


Big Data
Fundamentos 3.0
Dados Como Serviço

Data Science Academy

Data Science Academy


Big Data
Fundamentos 3.0
Data as a Service (DaaS)

Data Science Academy

Data Science Academy


Data as a Service (DaaS)

Data as a Service (DaaS) é uma estratégia de


gerenciamento de dados que visa alavancar os
dados como um ativo de negócios para maior
agilidade no processo de análise.

Faz parte das ofertas “as a service” que se tornaram


cada vez mais populares desde a expansão da
Internet nos anos 1990, que começou com a
introdução do Software as a Service (SaaS).

Semelhante a outros modelos “como serviço”, o


DaaS fornece uma maneira de gerenciar as grandes
quantidades de dados que as organizações geram
todos os dias e fornecer essas informações valiosas
em toda a empresa para a tomada de decisões
baseada em dados.
Data Science Academy
Big Data
Fundamentos 3.0
Arquitetura DaaS

Data Science Academy

Data Science Academy


Arquitetura DaaS

Data Science Academy


Arquitetura DaaS

A Arquitetura DaaS (Data as a Service) se


concentra no provisionamento de dados de uma
variedade de fontes sob demanda por meio do
uso de APIs.

Projetado para simplificar o acesso aos dados, o


DaaS oferece conjuntos de dados já tratados ou
fluxos de dados para serem consumidos em uma
variedade de formatos, geralmente unificados
usando virtualização de dados.

Na verdade, uma Arquitetura DaaS pode incluir


uma variedade de tecnologias de gerenciamento
de dados, incluindo virtualização de dados,
serviços de dados, análise de autoatendimento
(Self-Service Analytics) e catalogação de dados.

Data Science Academy


Big Data
Fundamentos 3.0
Principais Benefícios de
DaaS

Data Science Academy

Data Science Academy


Principais Benefícios de DaaS

Caminho Mais
MoneZzação de Redução de
Rápido Para
Dados Custos
Inovação

Agilidade no
Processo de Menor Risco no Uso Criação de Uma
Decisão Baseado de Dados Cultura Data-Driven
em Dados

Data Science Academy


Big Data
Fundamentos 3.0
ETL - Extração,
Transformação e Carga
de Dados

Data Science Academy

Data Science Academy


Big Data
Fundamentos 3.0
Definindo ETL

Data Science Academy

Data Science Academy


Definindo ETL

Data Science Academy


Definindo ETL

Data Science Academy


Big Data
Fundamentos 3.0
ETL x ELT

Data Science Academy

Data Science Academy


ETL x ELT

Extract,
Transform,
Load

Extract,
Load,
Transform

Data Science Academy


ETL x ELT

Data Science Academy


ETL x ELT

Data Science Academy


Big Data
Fundamentos 3.0
Como Iniciar um
Projeto de Big Data?

Data Science Academy

Data Science Academy


Big Data
Fundamentos 3.0
O que é o Big Data
Analytics?

Data Science Academy

Data Science Academy


O que é o Big Data Analytics?

Data Science Academy

Data Science Academy


Data Science Academy
Big Data
Fundamentos 3.0
Como as Empresas
Estão Utilizando o Big
Data?

Data Science Academy

Data Science Academy


Como as Empresas Estão Utilizando o Big Data?

Manufatura

Data Science Academy


Data Science Academy
Como as Empresas Estão Utilizando o Big Data?

Finanças

Data Science Academy


Data Science Academy
Como as Empresas Estão Utilizando o Big Data?

Saúde

Data Science Academy


Data Science Academy
Como as Empresas Estão Utilizando o Big Data?

Varejo

Data Science Academy


Data Science Academy
Big Data
Fundamentos 3.0
Casos de Uso de Big
Data

Data Science Academy

Data Science Academy


Como as Empresas Estão Utilizando o Big Data?

Data Science Academy


Data Science Academy
Como as Empresas Estão Utilizando o Big Data?

A companhia de entretenimento em cassinos está usando o


ambiente Hadoop para identificar diferentes segmentos de

hsp://caesarscorporate.com consumidor e criar campanhas de marketing específicas para cada


um deles.

Data Science Academy


Data Science Academy
Como as Empresas Estão Utilizando o Big Data?

O novo ambiente reduziu o tempo de processamento de 6 horas


para 45 minutos para posições-chave. Isso permitiu à Caesars
promover uma análise de dados mais rápida e exata, aprimorando
hsp://caesarscorporate.com a experiência de consumidor e fazendo com que a segurança
atendesse os requisitos do setor de pagamentos com cartões.

Data Science Academy


Data Science Academy
Como as Empresas Estão Utilizando o Big Data?

A empresa agora processa mais de 3 milhões de registros por hora.

http://caesarscorporate.com

Data Science Academy


Data Science Academy
Como as Empresas Estão Utilizando o Big Data?

http://www.cerner.com

Data Science Academy


Data Science Academy
Como as Empresas Estão Utilizando o Big Data?

A empresa de tecnologia para o setor de saúde


construiu um hub de dados corporaNvos no CDH
(Cloudera DistribuNon), para criar uma visão mais
compreensível de qualquer paciente, condição ou
http://www.cerner.com tendência.

Data Science Academy


Data Science Academy
Como as Empresas Estão Utilizando o Big Data?

A tecnologia ajuda a Cerner e seus clientes a


monitorarem mais de 1 milhão de pacientes
diariamente.
http://www.cerner.com

Data Science Academy


Data Science Academy
Como as Empresas Estão Utilizando o Big Data?

Entre outras coisas, ela colabora na determinação


mais exata da probabilidade de um paciente estar
com infecção em sua corrente sanguínea.
http://www.cerner.com

Data Science Academy


Data Science Academy
Como as Empresas Estão Utilizando o Big Data?

http://www.eharmony.com.br

Data Science Academy


Data Science Academy
Como as Empresas Estão Utilizando o Big Data?

O site de namoro online recentemente atualizou seu


ambiente na nuvem, usando o CDH para analisar um
volume massivo e variado de dados.
http://www.eharmony.com.br

Data Science Academy


Data Science Academy
Como as Empresas Estão Utilizando o Big Data?

A tecnologia ajuda a eHarmony a disponibilizar novas


combinações a milhões de pessoas diariamente.
http://www.eharmony.com.br

Data Science Academy


Data Science Academy
Como as Empresas Estão Utilizando o Big Data?

O novo ambiente cloud acomoda análises mais


complexas, criando resultados mais personalizados e
http://www.eharmony.com.br
aumentando a chance de sucesso nos relacionamentos.

Data Science Academy


Data Science Academy
Como as Empresas Estão Utilizando o Big Data?

hsp://www.mastercard.com/br

Data Science Academy


Data Science Academy
Como as Empresas Estão Utilizando o Big Data?

A empresa foi a primeira a implementar a


distribuição CDH do Hadoop após receber
cerNficação PCI completa.
http://www.mastercard.com/br

Data Science Academy


Data Science Academy
Como as Empresas Estão Utilizando o Big Data?

A companhia usou os servidores Intel para integrar


conjuntos de dados a outros ambientes já cerNficados.

http://www.mastercard.com/br

Data Science Academy


Data Science Academy
Como as Empresas Estão Utilizando o Big Data?

A MasterCard incenNva seus clientes a adotarem o


sistema através do seu braço de serviços profissionais,
o MasterCard Advisors.
hsp://www.mastercard.com/br

Data Science Academy


Data Science Academy
Como as Empresas Estão Utilizando o Big Data?

hsps://farmlogs.com

Data Science Academy


Data Science Academy
Como as Empresas Estão Utilizando o Big Data?

A companhia de sooware para gerenciamento de


produções agrícolas usa analyNcs em tempo real
rodando nos processadores Intel Xeon E5 para fornecer
dados sobre colheita, condições de planNo e estado da
https://farmlogs.com
vegetação para 20% das fazendas americanas.

Data Science Academy


Data Science Academy
Como as Empresas Estão Utilizando o Big Data?

A tecnologia ajuda os fazendeiros a aumentarem a


produNvidade de seus acres.
hsps://farmlogs.com

Data Science Academy


Data Science Academy
Como as Empresas Estão Utilizando o Big Data?

Data Science Academy hsp://www.nipponpaint.com


Data Science Academy
Como as Empresas Estão Utilizando o Big Data?

Uma das maiores fornecedoras de Nnta da Ásia usa os


processadores Intel Xeon E7 v2 para compreender o
comportamento de clientes, oNmizar sua cadeia de
suprimentos e melhorar suas campanhas de markeNng.
http://www.nipponpaint.com

Data Science Academy


Data Science Academy
Como as Empresas Estão Utilizando o Big Data?

A Nippon Paint agora testa um novo sistema baseado no


Hadoop para usufruir das ferramentas de alto desempenho
e processar Big Data.
hsp://www.nipponpaint.com

Data Science Academy


Data Science Academy
Como as Empresas Estão Utilizando o Big Data?
Outras empresas usando Hadoop:
Empresa Especificações Técnicas Utilização
Hadoop é utilizado em soluções de relatórios e Machine
Facebook Mais de 12 TB de storage
Learning
Hadoop é usado desde 2010 para o processamento de logs
Twitter --
e tweets
Todos os dados do LinkedIn passam através de um cluster
LinkedIn 4100 nodes Hadoop
Hadoop
4500 nodes Hadoop e mais
Yahoo! Usado no portal do Yahoo
de 1 TB de storage
Um dos maiores clusters Hadoop que se tem notícia, usado
Ebay 4000 nodes Hadoop para processar as mais de 300 milhões de pesquisas feitas
pelos usuários
Data Science Academy
Data Science Academy
Como as Empresas Estão Utilizando o Big Data?
Outras empresas usando Hadoop:

Empresa Especificações Técnicas Utilização


Projetos de Big Data na área financeira,
Accenture De acordo com a demanda do cliente
telecom e varejo
Plataforma de Rede Social, utiliza o Hadoop
Ning --
para relatórios e Big Data Analytics
690 nodes em cluster Hadoop,
Usa Hadoop para geração de conteúdo e
Spotify totalizando 38 TB de memória RAM e 28
agregação de dados
PB de storage

Fox 70 nodes Hadoop Usado para análise de logs e Machine Learning

Data Science Academy


Data Science Academy
Como as Empresas Estão Utilizando o Big Data?

O Hadoop já é realidade!

Data Science Academy


Data Science Academy
Big Data
Fundamentos 3.0
Como Iniciar um
Projeto de Big Data?

Data Science Academy

Data Science Academy


Como Iniciar um Projeto de Big Data?

1. Definição do Business Case


2. Planejamento do Projeto
3. Definição dos Requisitos Técnicos
4. Criação de um “Total Business Value
Assessment”

Data Science Academy


Data Science Academy
Big Data
Fundamentos 3.0
Encerramento

Data Science Academy

Data Science Academy


Obrigado Por Acompanhar Este Curso!

Palavra Final do Instrutor

Por Onde Eu Começo?

Avaliação Final

3 tentaDvas, 50 questões, 120 minutos

Certificado de Conclusão

E-Book do Curso
Data Science Academy
Muito Obrigado!

Tenha Uma Excelente


Jornada de Aprendizado.

Data Science Academy

Data Science Academy

Você também pode gostar