Ebook Bdfv3

Big Data
Fundamentos 3.0
Data Science Academy

A Data Science Academy é um portal de ensino online
especializado em Big Data, Machine Learning, Inteligência
Artificial, Blochchain, RPA e tecnologias relacionadas.
Data Science
Academy Nosso objetivo é fornecer aos alunos conteúdo de alto nível
por meio do uso de computador, tablet ou smartphone, em
qualquer lugar, a qualquer hora, 100% online e 100% em
português.
Nossa
Escola

www.datascienceacademy.com.br
Data Science Academy - Localização
No Brasil e no Mundo.

Conteúdo
Programático
Capítulo 1 Capítulo 2 Capítulo 3 Capítulo Capítulo 5

4
Introduçã O Que é Big Sistemas de Armazenamento Cloud

o Data? Armazenament e Processamento Computing
o de Dados Paralelo
Capítulo 6 Capítulo 7 Capítulo 8 Capítulo 9 Capítulo

10
MLOps e Dados Como ETL - Extração, Como Iniciar Avaliação Final

DataOps Serviço Transformação Um Projeto e Certificado
e Carga de de Big Data de Conclusão
Dados

Big Data
Fundamentos 3.0
Avaliação Final,
Certificado de
Conclusão e E-book do
Curso

Avaliação Final, Certificado de Conclusão e E-book do
Curso
Questões Tentativas Aproveitamento

50 3 70%

Big Data
Fundamentos 3.0
Qual o Público Alvo Deste
Curso?

Qual o Público Alvo Deste Curso?
Este é um curso teórico. Apenas relaxe e

aproveite o conhecimento que será trazido a
você.
Qualquer pessoa interessada em aprender

sobre o universo do Big Data pode
acompanhar este curso!
Este curso é pré-requisito recomendado para

todos os demais cursos em nosso portal.

Big Data
Fundamentos 3.0
Introdução
O Que é Big Data?

Big Data
Fundamentos 3.0
Fatos Sobre o Big Data

Big Data
Neste exato momento, uma
verdadeira enxurrada de dados, ou
2.5 quin5lhões de bytes por dia, é
gerada para nortear indivíduos,
empresas e governos, e está
dobrando a cada dois anos.

Big Data
Cerca de 90% de todos os dados
gerados no planeta, foram
gerados nos últimos 2 anos.

Big Data
Aproximadamente 80% dos
dados são não-estruturados ou
estão em diferentes formatos, o
que dificulta a análise.

Big Data
Toda vez que fazemos uma compra,
uma ligação ou interagimos nas
redes sociais, estamos produzindo
esses dados.

E com a recente conectividade em

objetos, tal como relógios, carros e até
geladeiras, as informações capturadas
se tornam massivas e podem ser
cruzadas para criar modelos preditivos
cada vez mais elaborados, apontando
e, até prevendo, o comportamento de
empresas e clientes.

O Que é Big Data?
Big Data é uma coleção de conjuntos de dados, grandes e complexos,

que não podem ser processados por bancos de dados ou aplicações
de processamento tradicionais.

O Que é Big Data?
O Google estima que a humanidade criou nos últimos 5 anos, o equivalente

a 300 Exabytes de dados ou seja:
300.000.000.000.000.000.000 bytes de dados.

O Que é Big Data?
Podemos definir o conceito de Big Data como sendo conjuntos de dados

extremamente amplos e que, por este motivo, necessitam de ferramentas
especialmente preparadas para lidar com grandes volumes, velocidade e
variedade, de forma que toda e qualquer informação disponível nos dados
possa ser encontrada, analisada e aproveitada em tempo hábil.

O Que é Big Data?
De maneira mais simplista, a ideia também pode

ser compreendida como a análise de grandes
quan5dades de dados para a geração de
resultados importantes que, em volumes menores,
dificilmente seriam alcançados.

O Que é Big Data?
O Big Data nos dá uma visão

clara do que é granular!

O Que é Big Data?
No mundo do Big Data não temos de nos

fixar na causalidade; podemos descobrir
padrões e correlações nos dados que
nos propiciem novas e valiosas ideias.

Big Data
Fundamentos 3.0
Os 4 V's do Big Data

Os 4Vs do Big Data

Volume Variedade
Tamanho dos Dados. Formato dos Dados
Velocidade Veracidade
Geração dos Dados.
Confiabilidade dos Dados
àEspera-se que 40 zettabytes de dados sejam criados por ano no

Volume mundo;
àCerca de 2.5 quintillionbytes de dados são criados por dia;
Tamanho dos Dados.
àExistem atualmente cerca de 6 bilhões de telefones móveis no
planeta;
àCada empresa americana armazena cerca de 100 Terabytes de
dados.

à150 exabytes é a esNmaNva de dados que foram gerados

Variedade especificamente para tratamento de casos de doença em todo o
mundo por ano desde 2011;
Formato dos Dados.
àMais de 4 bilhões de horas por mês são usadas para assisNr
vídeos no YouTube;
à30 bilhões de imagens são publicadas por mês no Facebook;
à200 milhões de usuários aNvos por mês, publicam 400 milhões
de tweets por dia.

à1 terabyte de informação é criada durante uma única sessão

Velocidade da bolsa de valores Americana, a New York Stock Exchange
(NYSE);
Geração dos Dados.
àAproximadamente 100 sensores estão instalados nos carros
modernos para monitorar nível de combustível, pressão dos
pneus e muitos outros aspectos do veículo;
à18.9 bilhões de conexões de rede já existem no mundo.

àAtualmente, 1 em cada 3 gestores tem experimentado

Veracidade problemas relacionados a veracidade dos dados para tomar
decisões de negócios.
Confiabilidade dos Dados.
àAlém disso, esNma-se que 3.1 trilhões de dólares por ano sejam
desperdiçados devido a problemas de qualidade dos dados.

Big Data
Fundamentos 3.0
Big Data x Ciência de
Dados

Big Data x Ciência de Dados
Big Data e Ciência de Dados são a mesma coisa?
Não
Big Data é a matéria-prima, ou seja, dados.

Ciência de Dados é um conjunto de técnicas para análise de dados.
Quando aplicamos Ciência de Dados ao Big Data extraímos valor e

então temos o que é chamado de Big Data Analytics.
Big Data
Fundamentos 3.0
Exemplos de
Aplicação do Big Data
Analytics

Exemplos de Aplicação do Big Data Analytics
Uma Rede de Supermercados pode

Uma Companhia Área pode extrair,
extrair, armazenar, processar e
armazenar, processar e analisar
analisar dados de compras a fim de
dados de viagens dos passageiros a
detectar padrões e organizar os
fim de oferecer rotas com maior
produtos de forma a aumentar as
probabilidade de venda.
vendas.
Uma Rede de Hotéis pode extrair,

Uma Rede de Hospitais pode
armazenar, processar e analisar
extrair, armazenar, processar e
dados de comentários de clientes
analisar dados de exames médicos
em redes sociais para customizar
a fim de personalizar e oDmizar o
seus serviços, aumentar as vendas
atendimento dos pacientes.
e reduzir custos.

Big Data
Fundamentos 3.0
Sistemas de
Armazenamento de
Dados

Big Data
Fundamentos 3.0
O V de Volume em Big
Data

O V de Volume em Big Data
O V de Volume é crítico em Big Data.
Como vamos armazenar grandes conjuntos

de dados?
Como vamos acessar grandes conjuntos de

dados armazenados?
Precisamos realmente armazenar tudo?

Big Data
Fundamentos 3.0
Como Armazenamos Big
Data?

Como Armazenamos Big Data?
Em linhas gerais o armazenamento pode

ser feito com base na seguinte regra:
Os dados são estruturados ou podem ser Os dados NÃO são estruturados ou NÃO podem
estruturados antes do armazenamento? ser estruturados antes do armazenamento?
Usamos um Data Warehouse! Usamos um Data Lake ou um Data Store!

Big Data
Fundamentos 3.0
Bancos de Dados
Relacionais x Bancos de
Dados NoSQL

Bancos de Dados Relacionais x Bancos de Dados NoSQL
Bancos de Dados Relacionais são bancos de dados

estruturados e com schema (organização dos dados) bem
definido.
O schema é definido e criado antes do armazenamento

dos dados.
Um Data Warehouse, por exemplo, é criado com alguma

tecnologia de banco relacional como SGBD (Sistema
Gerenciador de Banco de Dados) Oracle, IBM DB2,
MicrosoQ SQL Server, MySQL, PostgreSQL e muitos
outros.
Em um banco de dados relacional os dados são

organizados em tabelas que se relacionam.

Bancos de Dados Relacionais x Bancos de Dados NoSQL
Bancos de Dados Não Relacionais (NoSQL) partem do

princípio que os dados podem ser semi ou não
estruturados e que outros tipos de relacionamentos
podem existir entre os dados.
Podemos usar Bancos de Dados Não Relacionais (NoSQL)

para construir Data Lakes e Data Stores (Data Lakes e Data
Stores são conceitos, como veremos mais adiante).
Normalmente não precisamos definir o schema antes do

armazenamento ou o schema é definido no momento do
armazenamento dos dados.
Existem diversos tipos de bancos de dados NoSQL.

Big Data
Fundamentos 3.0
Definindo Data
Warehouses

Definindo Data Warehouses
Um Data Warehouse (DW) é um sistema de armazenamento

que conecta e harmoniza grandes quanDdades de dados de
muitas fontes diferentes.
Seu objeDvo é alimentar a inteligência de negócios (Business

Intelligence), relatórios e análises e oferecer suporte aos
requisitos de negócio, para que as empresas possam
transformar seus dados em insights e tomar decisões
inteligentes baseadas em dados.
Os DWs armazenam dados atuais e históricos em um único

lugar e atuam como a única fonte de informações confiáveis
para uma organização.


Os dados fluem para um DW a parDr de sistemas

transacionais (como ERP e CRM), bancos de dados e fontes
externas, como sistemas de parceiros, disposiDvos de Internet
das Coisas (IoT), aplicaDvos de mídia social - geralmente em
uma cadência regular.
O surgimento da computação em nuvem causou uma

mudança no cenário.
Nos úlDmos anos, os locais de armazenamento de dados

mudaram da infraestrutura local tradicional para vários locais,
incluindo nuvem privada e nuvem pública.
O schema deve ser definido antes do processo de

armazenamento dos dados.

Os DWs modernos são projetados para lidar com dados

estruturados e não estruturados, como vídeos, arquivos de
imagem e dados de sensor (embora Data Lakes ainda sejam
opções melhores para dados não estruturados).
Alguns aproveitam a análise integrada e a tecnologia de banco

de dados in-memory (que mantém o conjunto de dados na
memória do computador em vez de no armazenamento em
disco) para fornecer acesso em tempo real a dados confiáveis
e impulsionar a tomada de decisões.
Sem DW é muito difícil combinar dados de fontes

heterogêneas, garantir que estejam no formato certo para
análise e obter uma visão atual e de longo alcance dos dados
ao longo do tempo.

Bene'cios do DW:
• Melhor Análise de Negócios: com o DW, os tomadores de decisão têm

acesso a dados de várias fontes e não precisam mais tomar decisões com
base em informações incompletas.
• Consultas Mais Rápidas: os DWs são construídos especificamente para

recuperação e análise rápida de dados. Com um DW, você pode consultar
rapidamente grandes quanDdades de dados consolidados com pouco ou
nenhum suporte de TI.
• Melhoria da Qualidade dos Dados: antes de serem carregados no DW, os

dados passam por um processo de limpeza garanDndo que os dados sejam
transformados em um formato consistente para apoiar análises - e decisões -
com base em dados precisos e de alta qualidade.
• Visão Histórica: ao armazenar dados históricos ricos, um data warehouse

permite que os tomadores de decisão aprendam com tendências e desafios
passados, façam previsões e conduzam a melhoria conbnua dos negócios.
Temos um curso inteiro aqui na DSA sobre

como construir DWs locais e em nuvem.
É o primeiro curso da Formação Engenheiro de

Dados, o curso de Design e Implementação de
Data Warehouses.

Big Data
Fundamentos 3.0
Definindo Data Lakes

Fontes de Armazenamento Limpeza e Análise, Relatórios,

Dados em Formato Bruto Transformação Machine Learning

Um Data Lake é um repositório centralizado que permite armazenar

todos os dados estruturados e não estruturados em qualquer
escala. Podemos armazenar os dados como estão na fonte, sem ter
que primeiro estruturá-los e executar diferentes Dpos de análises -
de painéis e visualizações a processamento de Big Data, análises em
tempo real e aprendizado de máquina para orientar melhores
decisões.
Dependendo dos requisitos, uma empresa bpica exigirá um Data

Warehouse e um Data Lake, pois eles atendem a diferentes
necessidades e casos de uso.
A estrutura dos dados ou schema (esquema) não é definida quando

os dados são capturados. Isso significa que você pode armazenar
todos os dados em formato bruto sem a necessidade de saber quais
perguntas de negócio deverão ser respondidas no futuro.

Diferentes tipos de análises, como consultas SQL, análises de Big

Data, pesquisa de texto, análises em tempo real e aprendizado de
máquina, podem ser usados para descobrir insights.
Os Data Lakes permitem que as empresas gerem diferentes tipos de

percepções sobre os dados, desde relatórios sobre dados históricos
até modelos preditivos criados com Machine Learning.
O principal desafio de uma arquitetura de Data Lake é que os dados

brutos são armazenados sem supervisão do conteúdo. Para que um
Data Lake torne os dados utilizáveis, ele precisa ter mecanismos
definidos para catalogar e proteger os dados. Sem esses elementos,
os dados não podem ser encontrados ou confiáveis, resultando em
um “Pântano de Dados” (Data Swamp). Atender às necessidades de
públicos mais amplos exige que os Data Lakes tenham governança,
gestão de metadados, consistência semântica e controles de acesso.

Data Lake é um conceito e pode ser construído com diferentes

tecnologias como Apache Hadoop ou Bancos de Dados NoSQL.
Podemos importar dados do DW para o Data Lake e vice-versa

dependendo das necessidades de negócio da empresa.
Para o DW normalmente usamos ETL (Extração, Transformação e

Carga).
Para o Data Lake normalmente usamos ELT (Extração, Carga e

Transformação).
Data Lakes e DWs podem fazer parte de uma grande estrutura

central de armazenamento chamada Data Hub.

Benefícios do Data Lake:
• Armazenamento em Formato Bruto: não precisamos limpar e transformar

os dados antes do armazenamento.
• Importação de Qualquer Quantidade de Dados em Tempo Real: os dados

são coletados de várias fontes e movidos para o Data Lake em seu formato
original. Este processo permite dimensionar dados de qualquer tamanho,
enquanto economiza tempo de definição de estruturas de dados, esquema e
transformações.
• Repositório Central Para Todos os Dados da Empresa: os Data Lakes

permitem que várias funções como Cientistas de Dados, Engenheiros de
Machine Learning, Analistas de Dados e Analistas de Negócios, acessem
dados com sua ferramenta analítica específica.
• Sem Necessidade de Movimentação dos Dados: análises podem ser

executadas sem necessidade de mover os dados para um sistema de análise
separado.
Temos um curso inteiro aqui na DSA sobre

como construir Data Lakes locais e em nuvem.
É o segundo curso da Formação Engenheiro de

Dados, o curso Data Lake – Design, Projeto e
Integração.

Big Data
Fundamentos 3.0
Definindo Data Stores

Um Data Store é um repositório para armazenar e gerenciar de forma persistente coleções de dados que
incluem não apenas dados estruturados, mas também Dpos de armazenamento variado, como documentos,
dados no formato de chave-valor, filas de mensagens e outros formatos de arquivo.
Os Dpos mais comuns de Data Stores:
• Armazenamento de chave-valor (Redis, Memcached)

• Motor de pesquisa de texto completo (ElasDc Search)
• Fila de mensagens (Apache Kaja)
• Sistema de arquivos distribuídos (Hadoop HDFS, AWS S3)

Benefícios do Data Store:
• Armazenamento de Variados Tipos de Dados: dados que não se encaixam

em outros repositórios de armazenamento.
• Flexibilidade: armazenamento de dados aderente às necessidades da

aplicação final.
• Suporte a Dados Semi-Estruturados: dados que possuem alguma

organização prévia, mas que devem ser usados em seu formato original.
• Custo Total Menor: por se tratar de um tipo simplificado de armazenamento

o custo total tende a ser menor que outra solução de armazenamento.

Temos um curso inteiro aqui na DSA voltado

para Modelagem de diferentes sistemas de
armazenamento.
É o segundo curso da Formação Arquiteto de

Dados, o curso Modelagem de Bancos de
Dados Relacionais, Não Relacionais e Data
Stores.

Big Data
Fundamentos 3.0
Sistemas Híbridos de
Armazenamento

Sistemas Híbridos de Armazenamento
Com o avanço do Big Data veremos cada vez mais sistemas híbridos de
armazenamento, com dados armazenados em diferentes 5pos de
repositórios, local ou na nuvem.

Sistemas Híbridos de Armazenamento
DWs, Data Lakes e Data Stores serão usados em conjunto criando assim
uma grande estrutura de armazenamento de dados, um Data Hub.

Big Data
Fundamentos 3.0
Armazenamento e
Processamento
Paralelo

Big Data
Fundamentos 3.0
O Que é um Cluster de
Computadores?

O Que é um Cluster de Computadores?
Um servidor é um computador,
geralmente com alta capacidade
computacional, que “serve” (fornece)
serviços de armazenamento, aplicações
ou bancos de dados.

Um servidor possui escalabilidade

vertical, ou seja, há um limite até onde
conseguimos incluir mais espaço em
disco, mais processadores e mais
memória RAM.

Um cluster de computadores é um
conjunto de servidores com um mesmo
propósito visando fornecer um tipo de
serviço, como armazenamento ou
processamento de dados.

Um cluster possui escalabilidade

horizontal, ou seja, se quisermos
aumentar a capacidade computacional
incluímos mais máquinas no cluster
(além da escalabilidade verNcal de cada
máquina individual no cluster).

Clusters de computadores são cada vez

mais usados em Big Data, o que nos
permite realizar armazenamento e
processamento paralelo através de
diversas máquinas (diversos servidores).

Big Data
Fundamentos 3.0
O Que é Armazenamento
Paralelo?

O Que é Armazenamento Paralelo?
Com clusters de computadores

aumentamos de forma considerável a
capacidade computacional.

O Que é Armazenamento Paralelo?
O armazenamento paralelo consiste em

distribuir o armazenamento de dados através
de diversos servidores (computadores), o que
permite aumentar de forma considerável a
capacidade de armazenamento usando
hardware de baixo custo.
Serviço Serviço Serviço Serviço
Dados
Dados Dados Dados Dados

Big Data
Fundamentos 3.0
Software para
Armazenamento Paralelo
- Apache Hadoop

Software para Armazenamento Paralelo - Apache Hadoop
O armazenamento paralelo consiste em

distribuir o armazenamento de dados através
de diversos servidores (computadores), o que
permite aumentar de forma considerável a
capacidade de armazenamento usando
hardware de baixo custo.
Dados

E como gerenciamos o armazenamento

paralelo através de diversos computadores?
Dados

Precisamos de um sistema de arquivos

distribuído. Seu computador pessoal tem um
sistema de arquivos (NTFS, ext3, etc…), mas
ele não foi desenvolvido para
armazenamento distribuído.
Dados

Entre algumas opções, o Apache Hadoop HDFS

(Hadoop Distributed File System) tem se mostrado
a solução ideal para gerenciar o armazenamento
distribuído em um cluster de computadores.
O HDFS é o software responsável pela gestão do

cluster de computadores definindo como os
arquivos serão distribuídos através do cluster.
Com o HDFS podemos construir um Data Lake que

roda sobre um cluster de computadores e permite
o armazenamento de grandes volumes de dados
com hardware commodity (de baixo custo).
Isso permitiu que o Big Data pudesse ser usado em

larga escala!

Big Data
Fundamentos 3.0
Processamento
Paralelo de Big Data

Processamento Paralelo de Big Data
Resolvemos um problema! Podemos agora

armazenar grandes quanDdades de dados em
um cluster de computadores através de
armazenamento paralelo de dados.
Mas como vamos processar os dados se eles

estão agora distribuídos em diversos
computadores?

No processamento paralelo o objetivo é dividir

uma tarefa em várias sub-tarefas e executá-las
em paralelo.
O Apache Hadoop MapReduce e o Apache

Spark são dois frameworks para esse propósito.

Ao usar um framework de processamento

paralelo, as sub-tarefas são levadas para o
processador da máquina do cluster onde os
dados estão armazenados, aumentando assim a
velocidade de processamento de grandes
volumes de dados.

Big Data
Fundamentos 3.0
Arquitetura de
Armazenamento e
Processamento Paralelo

Arquitetura de Armazenamento e Processamento
Paralelo
Considerando o Apache Hadoop, teríamos

o seguinte esquema:
Master Node Worker Node Worker Node

Paralelo
O HDFS é um serviço rodando em todas as

máquinas do cluster, sendo um NameNode
para gerenciar o cluster e os DataNodes
que fazem o trabalho de armazenamento
propriamente dito. Master Node Worker Node Worker Node

Paralelo
O MapReduce também é um serviço

rodando em todas as máquinas do cluster,
sendo um Job Tracker para gerenciar o
processamento e os Task Trackers que fazem
o trabalho de processamento. Master Node Worker Node Worker Node

Paralelo
O Job Tracker consulta o NameNode a fim

de saber a localização dos blocos de dados
nas máquinas do cluster.

Paralelo
Os Task Trackers se comunicam com os

DataNodes para obter os dados do disco,
executar o processamento e então retornar
o resultado ao Job Tracker.

Paralelo
Essa arquitetura permite armazenar e

processar grandes quantidades de dados e
assim extrair valor do Big Data através da
análise de dados.

Big Data
Fundamentos 3.0
Cloud Computing

Big Data
Fundamentos 3.0
O Que é Cloud
Computing?

O Que é Cloud Computing?

A Computação em Nuvem (Cloud Computing)

é a entrega de serviços de computação -
incluindo servidores, armazenamento, bancos
de dados, rede, software, análise e
inteligência - pela Internet (“a nuvem”) para
oferecer recursos flexíveis, inovação e
economia de escala.

Normalmente, pagamos apenas pelos serviços

em nuvem que usamos, ajudando a reduzir os
custos operacionais, operar a infraestrutura
de forma mais eficiente e escalar conforme as
necessidades de negócios mudam.

Big Data
Fundamentos 3.0
Cloud Computing e Big
Data

Cloud Computing e Big Data

Big Data
Fundamentos 3.0
MLOps e DataOps

Big Data
Fundamentos 3.0
O Que é Machine
Learning?

O Que é Machine Learning?
Machine Learning é uma sub-área da Inteligência Artificial (IA) e da

Ciência da Computação que se concentra no uso de dados e algoritmos
para imitar a forma como os humanos aprendem, melhorando
gradativamente sua precisão.



Dados Algoritmo Modelo

Big Data
Fundamentos 3.0
O Pipeline de Machine
Learning

O Pipeline de Machine Learning
Preparação dos Dados Construção e Treinamento do Deploy do Modelo

Modelo
Preparação dos
Dados Modelagem Deploy
Dados
Limpeza Seleção do Deploy
Algoritmo
Transformação Processamento
ODmização de
Normalização
Hiperparâmetros
Processamento
Treinamento
Teste e Avaliação
Engenheiro de Cientista de Cientista de Dados / Engenheiro de

Dados Dados Engenheiro de IA Machine Learning

Modelo
Preparação dos
Dados
Algoritmo
Otimização de
Normalização
Hiperparâmetros
Processamento
Treinamento
Teste e Avaliação
Engenheiro de CienDsta de CienDsta de Dados / Engenheiro de


Modelo
Preparação dos
Dados
Algoritmo
ODmização de
Normalização
Hiperparâmetros
Processamento
Treinamento
Teste e Avaliação


Modelo
Preparação dos
Dados
Algoritmo
Otimização de
Normalização
Hiperparâmetros
Processamento
Treinamento
Teste e Avaliação
Engenheiro de CienDsta de CienDsta de Dados / Engenheiro de


Modelo
Preparação dos
Dados
Algoritmo
ODmização de
Normalização
Hiperparâmetros
Processamento
Treinamento
Teste e Avaliação

Big Data
Fundamentos 3.0
O Que é Machine
Learning Ops?

O Que é Machine Learning Ops?
Pipeline de Dados



MLOps é um conjunto de práDcas para colaboração e comunicação

entre CienDstas de Dados e profissionais de operações.
MLOps é normalmente tarefa do Engenheiro de Machine Learning.
A aplicação dessas práDcas aumenta a qualidade, simplifica o

processo de gerenciamento e automaDza a implantação de modelos
de aprendizado de máquina em ambientes de produção em grande
escala. É mais fácil alinhar os modelos às necessidades de negócios,
bem como aos requisitos regulamentares.
MLOps visa unificar o desenvolvimento de sistemas de ML (dev) e a

implantação de sistemas de ML (ops) para padronizar e agilizar a
entrega conbnua de modelos de alto desempenho em produção.

Big Data
Fundamentos 3.0
DevOps, MLOps, AIOps,
DataOps

DevOps, MLOps, AIOps, DataOps
DevOps é uma abordagem para desenvolvimento de software que

acelera o ciclo de vida de construção usando automação. O
DevOps se concentra na implantação contínua de software,
aproveitando os recursos de TI sob demanda e automatizando a
integração, o teste e a implantação de código. Essa fusão de
desenvolvimento de software (“dev”) e operações de TI (“ops”)
reduz o tempo de implantação, diminui o tempo de lançamento
no mercado, minimiza defeitos e diminui o tempo necessário para
resolver problemas.

Usando DevOps, empresas conseguiram reduzir o tempo do ciclo

de lançamento de software de meses para literalmente segundos.
Essa descoberta permitiu o crescimento e liderança em mercados
emergentes e em ritmo acelerado. Empresas como Google,
Amazon e muitas outras agora lançam software muitas vezes por
dia. Ao melhorar a qualidade e o tempo de ciclo dos lançamentos
de código, o DevOps merece muito crédito pelo sucesso dessas
empresas.

Várias empresas se especializaram em DevOps ao longo do

tempo e diversas novas ferramentas surgiram.
Então, por que não levar o mesmo conceito para a Ciência de

Dados?
E assim nasceram:
MLOps – Operação do fluxo de trabalho em Machine Learning.
AIOps – Operação do fluxo de trabalho em IA.
DataOps – Conceito mais recente que abrange toda a operação

de dados de uma empresa.

Big Data
Fundamentos 3.0
O Que é DataOps?

O Que é DataOps?
DataOps (Operações de Dados) é uma metodologia ágil e

orientada a processos para desenvolver e entregar
análises.
DataOps fornece as ferramentas, processos e estruturas

organizacionais para apoiar a empresa focada em dados.
DataOps é a capacidade de habilitar soluções, desenvolver

produtos de dados e aZvar dados para valor comercial em
todas as camadas de tecnologia, da infraestrutura à
experiência do usuário final.

O Que é DataOps?
O objeZvo do DataOps é agilizar o design, o

desenvolvimento e a manutenção de aplicaZvos com base
em dados e análise de dados. Busca melhorar a forma
como os dados são gerenciados e os produtos são criados
e coordenar essas melhorias com os objeZvos do negócio.
As equipes de DataOps também buscam orquestrar dados,

ferramentas, código e ambientes do início ao fim, com o
objeZvo de fornecer resultados reproduzíveis.
As equipes de DataOps tendem a ver os pipelines analíZcos

como análogos às linhas de produção de uma fábrica,
sendo que aqui a matéria-prima é o Big Data.

O Que é DataOps?
Operações de Dados Produto Final

O Que é DataOps?
Operações de Dados Produto Final

Big Data
Fundamentos 3.0
Big Data x Small Data

Big Data x Small Data
Small Data
Big Data
Dados que estão disponíveis
Grandes volumes de dados,
em quanDdade mínima
com muita variedade e
suficiente para compreensão
gerados em alta velocidade.
humana.

Big Data
Fundamentos 3.0
Dados Como Serviço

Big Data
Fundamentos 3.0
Data as a Service (DaaS)

Data as a Service (DaaS)
Data as a Service (DaaS) é uma estratégia de

gerenciamento de dados que visa alavancar os
dados como um ativo de negócios para maior
agilidade no processo de análise.
Faz parte das ofertas “as a service” que se tornaram

cada vez mais populares desde a expansão da
Internet nos anos 1990, que começou com a
introdução do Software as a Service (SaaS).
Semelhante a outros modelos “como serviço”, o

DaaS fornece uma maneira de gerenciar as grandes
quantidades de dados que as organizações geram
todos os dias e fornecer essas informações valiosas
em toda a empresa para a tomada de decisões
baseada em dados.
Big Data
Fundamentos 3.0
Arquitetura DaaS

Arquitetura DaaS

Arquitetura DaaS
A Arquitetura DaaS (Data as a Service) se

concentra no provisionamento de dados de uma
variedade de fontes sob demanda por meio do
uso de APIs.
Projetado para simplificar o acesso aos dados, o

DaaS oferece conjuntos de dados já tratados ou
fluxos de dados para serem consumidos em uma
variedade de formatos, geralmente unificados
usando virtualização de dados.
Na verdade, uma Arquitetura DaaS pode incluir

uma variedade de tecnologias de gerenciamento
de dados, incluindo virtualização de dados,
serviços de dados, análise de autoatendimento
(Self-Service Analytics) e catalogação de dados.

Big Data
Fundamentos 3.0
Principais Benefícios de
DaaS

Principais Benefícios de DaaS
Caminho Mais
MoneZzação de Redução de
Rápido Para
Dados Custos
Inovação
Agilidade no
Processo de Menor Risco no Uso Criação de Uma
Decisão Baseado de Dados Cultura Data-Driven
em Dados

Big Data
Fundamentos 3.0
ETL - Extração,
Transformação e Carga
de Dados

Big Data
Fundamentos 3.0
Definindo ETL

Definindo ETL

Definindo ETL

Big Data
Fundamentos 3.0
ETL x ELT

ETL x ELT
Extract,
Transform,
Load
Extract,
Load,
Transform

ETL x ELT

ETL x ELT

Big Data
Fundamentos 3.0
Como Iniciar um
Projeto de Big Data?

Big Data
Fundamentos 3.0
O que é o Big Data
Analytics?

O que é o Big Data Analytics?

Big Data
Fundamentos 3.0
Como as Empresas
Estão Utilizando o Big
Data?

Como as Empresas Estão Utilizando o Big Data?
Manufatura

Finanças

Saúde

Varejo

Big Data
Fundamentos 3.0
Casos de Uso de Big
Data


A companhia de entretenimento em cassinos está usando o

ambiente Hadoop para identificar diferentes segmentos de
hsp://caesarscorporate.com consumidor e criar campanhas de marketing específicas para cada

um deles.

O novo ambiente reduziu o tempo de processamento de 6 horas

para 45 minutos para posições-chave. Isso permitiu à Caesars
promover uma análise de dados mais rápida e exata, aprimorando
hsp://caesarscorporate.com a experiência de consumidor e fazendo com que a segurança
atendesse os requisitos do setor de pagamentos com cartões.

A empresa agora processa mais de 3 milhões de registros por hora.
http://caesarscorporate.com

http://www.cerner.com

A empresa de tecnologia para o setor de saúde

construiu um hub de dados corporaNvos no CDH
(Cloudera DistribuNon), para criar uma visão mais
compreensível de qualquer paciente, condição ou
http://www.cerner.com tendência.

A tecnologia ajuda a Cerner e seus clientes a

monitorarem mais de 1 milhão de pacientes
diariamente.

Entre outras coisas, ela colabora na determinação

mais exata da probabilidade de um paciente estar
com infecção em sua corrente sanguínea.

http://www.eharmony.com.br

O site de namoro online recentemente atualizou seu

ambiente na nuvem, usando o CDH para analisar um
volume massivo e variado de dados.

A tecnologia ajuda a eHarmony a disponibilizar novas

combinações a milhões de pessoas diariamente.

O novo ambiente cloud acomoda análises mais

complexas, criando resultados mais personalizados e
aumentando a chance de sucesso nos relacionamentos.

hsp://www.mastercard.com/br

A empresa foi a primeira a implementar a

distribuição CDH do Hadoop após receber
cerNficação PCI completa.
http://www.mastercard.com/br

A companhia usou os servidores Intel para integrar

conjuntos de dados a outros ambientes já cerNficados.
http://www.mastercard.com/br

A MasterCard incenNva seus clientes a adotarem o

sistema através do seu braço de serviços profissionais,
o MasterCard Advisors.
hsp://www.mastercard.com/br

hsps://farmlogs.com

A companhia de sooware para gerenciamento de

produções agrícolas usa analyNcs em tempo real
rodando nos processadores Intel Xeon E5 para fornecer
dados sobre colheita, condições de planNo e estado da
https://farmlogs.com
vegetação para 20% das fazendas americanas.

A tecnologia ajuda os fazendeiros a aumentarem a

produNvidade de seus acres.
hsps://farmlogs.com

Data Science Academy hsp://www.nipponpaint.com

Uma das maiores fornecedoras de Nnta da Ásia usa os

processadores Intel Xeon E7 v2 para compreender o
comportamento de clientes, oNmizar sua cadeia de
suprimentos e melhorar suas campanhas de markeNng.
http://www.nipponpaint.com

A Nippon Paint agora testa um novo sistema baseado no

Hadoop para usufruir das ferramentas de alto desempenho
e processar Big Data.
hsp://www.nipponpaint.com

Outras empresas usando Hadoop:
Empresa Especificações Técnicas Utilização
Hadoop é utilizado em soluções de relatórios e Machine
Facebook Mais de 12 TB de storage
Learning
Hadoop é usado desde 2010 para o processamento de logs
Twitter --
e tweets
Todos os dados do LinkedIn passam através de um cluster
LinkedIn 4100 nodes Hadoop
Hadoop
4500 nodes Hadoop e mais
Yahoo! Usado no portal do Yahoo
de 1 TB de storage
Um dos maiores clusters Hadoop que se tem notícia, usado
Ebay 4000 nodes Hadoop para processar as mais de 300 milhões de pesquisas feitas
pelos usuários
Outras empresas usando Hadoop:
Empresa Especificações Técnicas Utilização

Projetos de Big Data na área financeira,
Accenture De acordo com a demanda do cliente
telecom e varejo
Plataforma de Rede Social, utiliza o Hadoop
Ning --
para relatórios e Big Data Analytics
690 nodes em cluster Hadoop,
Usa Hadoop para geração de conteúdo e
Spotify totalizando 38 TB de memória RAM e 28
agregação de dados
PB de storage
Fox 70 nodes Hadoop Usado para análise de logs e Machine Learning

O Hadoop já é realidade!

Big Data
Fundamentos 3.0
Como Iniciar um
Projeto de Big Data?

Como Iniciar um Projeto de Big Data?
1. Definição do Business Case

2. Planejamento do Projeto
3. Definição dos Requisitos Técnicos
4. Criação de um “Total Business Value
Assessment”

Big Data
Fundamentos 3.0
Encerramento

Obrigado Por Acompanhar Este Curso!
Palavra Final do Instrutor
Por Onde Eu Começo?
Avaliação Final
3 tentaDvas, 50 questões, 120 minutos
Certificado de Conclusão
E-Book do Curso
Muito Obrigado!
Tenha Uma Excelente

Jornada de Aprendizado.

Ebook Bdfv3

Enviado por

Direitos autorais:

Formatos disponíveis

Ebook Bdfv3

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Ebook Bdfv3

Enviado por

Direitos autorais:

Formatos disponíveis

Big Data

Data Science Academy

Data Science Academy

Data Science Academy

Data Science Academy

Capítulo 1 Capítulo 2 Capítulo 3 Capítulo Capítulo 5

Introduçã O Que é Big Sistemas de Armazenamento Cloud

Capítulo 6 Capítulo 7 Capítulo 8 Capítulo 9 Capítulo

MLOps e Dados Como ETL - Extração, Como Iniciar Avaliação Final

Data Science Academy

Data Science Academy

Data Science Academy

Questões Tentativas Aproveitamento

Data Science Academy

Data Science Academy

Data Science Academy

Este é um curso teórico. Apenas relaxe e

Qualquer pessoa interessada em aprender

Este curso é pré-requisito recomendado para

Data Science Academy

Data Science Academy

Data Science Academy

Data Science Academy

Data Science Academy

Data Science Academy

Data Science Academy

Data Science Academy

Data Science Academy

E com a recente conectividade em

Data Science Academy

Big Data é uma coleção de conjuntos de dados, grandes e complexos,

Data Science Academy

O Google estima que a humanidade criou nos últimos 5 anos, o equivalente

Data Science Academy

Podemos definir o conceito de Big Data como sendo conjuntos de dados

Data Science Academy

De maneira mais simplista, a ideia também pode

Data Science Academy

O Big Data nos dá uma visão

Data Science Academy

No mundo do Big Data não temos de nos

Data Science Academy

Data Science Academy

Data Science Academy

Data Science Academy

àEspera-se que 40 zettabytes de dados sejam criados por ano no

Data Science Academy

à150 exabytes é a esNmaNva de dados que foram gerados

Data Science Academy

à1 terabyte de informação é criada durante uma única sessão

Data Science Academy

àAtualmente, 1 em cada 3 gestores tem experimentado

Data Science Academy

Data Science Academy

Data Science Academy

Big Data e Ciência de Dados são a mesma coisa?

Big Data é a matéria-prima, ou seja, dados.

Quando aplicamos Ciência de Dados ao Big Data extraímos valor e