51.2023 - Fundamentos de Big Data
51.2023 - Fundamentos de Big Data
51.2023 - Fundamentos de Big Data
de Big Data
PROFESSOR
Dr. Flavio Ceci
FICHA CATALOGRÁFICA
Reitor
Wilson de Matos Silva
MINHA HISTÓRIA
MEU CURRÍCULO
Olá, aluno(a), vou contar um pouco a minha história!
Nasci em uma cidade do interior da área continental da
grande Florianópolis. Sempre fui uma criança curiosa e
queria entender como as máquinas funcionavam. Ao ter
contato com os computadores no início da década de 90,
tive a certeza de que queria trabalhar com eles e, se pos-
sível, torná-los cada vez mais inteligentes. Em paralelo,
descobri outra paixão: a música! Aprendi a tocar violão,
guitarra e baixo, e pude participar de várias bandas de
rock. Foi em consequência da música que encontrei os
meus grandes amigos.
Como esperado, iniciei a graduação em Ciência da
Computação. Aos finais de semana, era muito fácil de
me encontrar: geralmente, estava tocando violão com
os meus amigos nos bancos da pista de skate de minha
cidade. A música me acompanhou durante toda a minha
graduação e durante todo o meu primeiro emprego. Com
Aqui você pode
conhecer um 17 anos, tive a minha carteira de trabalho assinada pela
pouco mais sobre primeira vez. A minha função era a de técnico de informá-
mim, além das
tica e, com o salário, eu pagava os custos da graduação e
informações do
meu currículo. ajudava em casa. No entanto, quando estava no quarto
ano, decidi que era o momento de buscar novos desafios
e comecei a estagiar como programador. Na área de de-
senvolvimento de sistemas, ocupei várias cadeiras.
Ainda na graduação, descobri outra paixão: a área da
Inteligência Artificial (IA). Quando estava no último ano da
graduação, fui selecionado para trabalhar como desen-
volvedor em um instituto de pesquisa que desenvolvia
soluções baseadas em IA e em dados para vários setores.
Foram quase nove anos de experiência naquele ambiente.
Também cursei o mestrado e o doutorado, a fim aprofun-
dar os meus estudos em relação ao uso de dados (princi-
palmente, os não estruturados) para a tomada de decisão
e para a extração de conhecimento. Quando iniciei o mes-
trado, comecei a namorar com quem seria a minha esposa.
Ao finalizar o mestrado, dei início a carreira de docente.
Quando terminei o doutorado, mergulhei na área da ciência
de dados, atuando como cientista de dados. Nesse perío-
do, auxiliei na construção de processos e na divulgação da
cultura de dados na organização em que eu fazia parte.
Na sequência, fui chamado para ser gestor da área
de Data Science em uma instituição financeira e, no
mesmo ano recebi, a notícia que mudou a minha vida:
eu seria pai! Atualmente, além de me aventurar como
diretor de tecnologia em uma empresa focada no de-
senvolvimento de soluções analíticas, meu foco e meu
desafio estão na criação e no desenvolvimento do meu
amado filho... Joaquim!
PROVOCAÇÕES
INICIAIS
Com o advento das plataformas de conteúdo e o movimento da chamada Web 2.0, todo
usuário da Internet deixou de ser apenas consumidor e passou a ser, também, produtor de
conteúdo, o que causou um enorme crescimento dos dados publicados. Esse fenômeno foi
potencializado com a evolução das tecnologias móveis e diante da evolução das redes de
dados, como a 3G, a 4G e, agora, a 5G.
As organizações perceberam que muitos dados são disponibilizados na Internet pelos pró-
prios consumidores e usuários. Esses dados, em muitos casos, representam as suas opiniões,
comportamentos, preferências e dentre outras informações que podem ser muito valiosas
para o processo de tomada de decisão.
Outras questões importantes são: quais seriam os profissionais que poderiam apoiar uma
organização em um cenário como esse? Quais são as principais competências e habilidades
que eles devem ter? Como é possível organizar tudo isso de forma que as organizações pos-
sam aproveitar esses dados e informações?
As organizações têm aberto cada vez mais vagas para cientistas de dados. Não só, mas
também buscam estruturar as áreas focadas em dados, a fim de construir ambientes de Big
Data que possam ser governados e tenham profissionais que consigam fazer uso desse am-
biente. Assim, dados internos são cruzados e insights e análises são gerados para a camada
tomadora de decisão.
Outro aspecto que deve ser focalizado em uma área de dados é a adequação dos processos
internos da organização, com o objetivo de respeitar a Lei Geral de Proteção de Dados (LGPD),
garantindo que sejam desenvolvidas as soluções focadas nos usuários e nos clientes, mas
sem infringir a legislação.
As questões expostas até este momento são muito comuns. São poucas as organizações que
têm maturidade analítica para terem profissionais e processos que trabalhem em um am-
biente de Big Data. Diante disso, neste livro, conheceremos a jornada de um jovem empreen-
dedor chamado Anderson, que objetiva ter um negócio que envolva o contexto da música.
Acompanharemos a implantação dos primeiros sistemas de informação para a estruturação
dos dados internos e a disponibilização das ferramentas analíticas.
Outros dois personagens muito importantes nessa história são Joaquim, que é um estudante
de Ciência de Dados o qual acompanhará e apoiará toda a jornada, e Lara, que é a principal
responsável pela área de tecnologia da organização. A narrativa sobre a empresa de Ander-
son e as ações tomadas por Joaquim e Lara são inspiradas em casos e em situações reais, já
vividas e relatadas por outros profissionais que atuam nessa área.
É visível que muitos são os desafios para as organizações fazerem uso de um ambiente de
Big Data e que, para se chegar até esse aspecto, é preciso aperfeiçoar as ferramentas e as
soluções de tecnologia, e obter maturidade analítica. Tudo isso ficará bem claro mediante a
presença e a participação de Joaquim e Lara durante toda a história.
O que será que já foi publicado sobre os principais desafios para o uso de ambientes de
Big Data nas organizações? Agora, é o momento de você pesquisar na Internet e em artigos
alguns cases de implantação de soluções para ambientes de Big Data. Conheça, sobretudo,
os desafios encontrados.
RECURSOS DE
IMERSÃO
REALIDADE AUMENTADA PENSANDO JUNTOS
Sempre que encontrar esse ícone, Ao longo do livro, você será convida-
esteja conectado à internet e inicie do(a) a refletir, questionar e trans-
o aplicativo Unicesumar Experien- formar. Aproveite este momento.
ce. Aproxime seu dispositivo móvel
da página indicada e veja os recur-
sos em Realidade Aumentada. Ex- EXPLORANDO IDEIAS
plore as ferramentas do App para
saber das possibilidades de intera- Com este elemento, você terá a
ção de cada objeto. oportunidade de explorar termos
e palavras-chave do assunto discu-
tido, de forma mais objetiva.
RODA DE CONVERSA
1
11 2
53
SISTEMAS DE INTRODUÇÃO
INFORMAÇÃO E À CIÊNCIA DE
CONHECIMENTO DADOS
3
89 4 125
INTRODUÇÃO TECNOLOGIAS
AO BIG DATA DE APOIO AO
BIG DATA
5
163
BIG DATA E AS
ORGANIZAÇÕES
1
Sistemas de
Informação e
Conhecimento
Dr. Flavio Ceci
12
UNICESUMAR
13
UNIDADE 1
Anderson ficou bastante preocupado com os desafios que tem pela frente, mas
entende que é um caminho sem volta, ainda mais depois de experienciar um
momento de pânico como o vivido durante a pandemia ocasionada pelo vírus
Covid-19. Anderson sabe que o digital é um caminho sem volta e precisa se pre-
parar para isso. Assim, buscou as anotações que fez em seus cadernos durante a
disciplina que trabalhou os Sistemas de Informação e relembrou alguns aspectos
que podem auxiliar em sua proposta de solução:
■ É importante conhecer as diferenças entre dados, informação e conheci-
mento, a fim de direcionar os seus próximos passos para a transformação
digital de sua empresa.
■ Os Sistemas de Informação chamados de Enterprise Resource Planning
(ERPs) podem auxiliar no tratamento dos dados operacionais e transa-
cionais. Além disso, podem proporcionar uma visão unificada dos seus
vários setores e departamentos (inclusive os novos, que terão que ser ela-
borados para atenderem aos desafios do digital).
■ Os sistemas de Customer Relationship Management (CRM) objetivam
melhorar o relacionamento com o cliente.
■ Os sistemas de apoio à decisão e o Business Intelligence (BI) visam apre-
sentar indicadores para apoiar as tarefas gerenciais e a tomada de decisão.
14
UNICESUMAR
Será que existem soluções grátis de ERP, CRM e BI no mercado? Qual é a re-
lação existente entre essas ferramentas? É possível apenas realizar o download da
ferramenta e utilizá-la? Essas são questões muito importantes a serem levantadas.
Auxilie Anderson a responder essas perguntas por intermédio de uma pesquisa
na Internet. Leia tudo o que encontrar em relação à essas indagações.
É perceptível que o entendimento em relação ao que é dado, informação e
conhecimento é primordial para entender como cada um dos tipos de Sistemas
de Informação podem apoiar os processos de uma organização. No caso dos
sistemas ERPs, é preciso ter um processo de configuração para que, de fato, ele
“espelhe” os processos das organizações. Já no caso dos CRMs, é necessário repen-
sar toda a estratégia organizacional, para que ela seja focada no cliente. Já nos
sistemas de BI, é preciso considerar os indicadores que, de fato, representem
os elementos vinculados às perguntas estratégicas da organização.
Apanhe um bloco de papel, uma caneta e anote os aspectos que lhe chama-
ram a atenção a partir da pesquisa feita. Você pode anotar as características das
soluções que encontrou e complementar os seus apontamentos de acordo com
o aprofundamento que realizaremos a partir de agora. Ao final, verificaremos se
as soluções pesquisadas também ajudariam Anderson em sua jornada. Aperte os
cintos, porque há muita emoção pela frente!
DIÁRIO DE BORDO
15
UNIDADE 1
EXPLORANDO IDEIAS
16
UNICESUMAR
17
UNIDADE 1
Destaque
Leia um trecho da música “Faroeste Caboclo” da banda de rock nacion-
al Legião Urbana:
Foi quando conheceu uma menina
E de todos os seus pecados ele se arrependeu
Maria Lúcia era uma menina linda
E o coração dele pra ela o Santo Cristo prometeu.
Tanto o trecho apresentado quanto toda a letra da música são dotados de dados
não estruturados. Entretanto, na prática, o que isso quer dizer? Quando lemos o
trecho exposto, o interpretamos e sabemos o que os termos e as suas delimita-
ções representam, temos ciência de que “Maria Lúcia” é uma pessoa e que o seu
nome se trata de um nome composto. Já um computador não sabe se o termo é
“Maria”, “Maria Lúcia”, “Maria Lúcia era”, “Lúcia” ou “Lúcia era”. Assim são os dados
não estruturados, tais como os dados relacionados ao diálogo do comercial dos
chinelos Havaianas.
Por fim, para Castro e Ferrari (2016), os dados semiestruturados correspon-
dem à combinação dos elementos dos dados estruturados com os não estruturados.
Diante disso, você pode estar se perguntando: como isso é possível? É possível
apresentar um exemplo? A resposta é: sim! Considere os e-mails: eles possuem
alguns dados estruturados, tais como o assunto, o destinatário e o título. Depois, há
um grande campo em que se pode escrever qualquer coisa. Os campos “assunto”,
“destinatário” e “título” são dados estruturados, mas o campo aberto é não estrutu-
rado. Portanto, o e-mail é entendido como um exemplo de dados semiestruturados.
Agora que você já sabe tudo sobre dados, podemos passar para o estudo da
informação. Ainda em relação à propaganda dos chinelos Havaianas, saber que
a Susana Vieira usa Havaianas tamanho 37 é uma informação. Para se chegar a
essa informação, foi necessário utilizar os dados de base e processá-los levando
em consideração os elementos do domínio (cenário). Segundo Melo (2002), para
se ter uma informação, é preciso realizar uma análise do fato envolvido a partir
dos dados, o que gera um conjunto de operações que abrange desde a síntese até
o processamento dos dados.
18
UNICESUMAR
Processamento
Dados Informação
Segundo Ceci (2012, p. 19, grifos nossos), “para transformar informação em co-
nhecimento não basta apenas a aplicação de uma etapa de processamento (como
no caso dos dados para a informação), é necessário um processo de síntese por
parte de quem está consumindo a informação”.
19
UNIDADE 1
PENSANDO JUNTOS
Em relação ao cenário vivido por Anderson (nosso jovem empreendedor), qual é a sua
relação com os dados, as informações e o conhecimento?
Sistemas de Informação
Os Sistemas de Informação já fazem parte do nosso dia a dia. Basta irmos até um
mercado de médio ou de grande porte ou até uma farmácia que os encontrare-
mos. Eles também estão presentes em postos de gasolina, cinemas, restaurantes e
em vários outros setores. Todos esses exemplos de Sistemas de Informação fazem
parte de um tipo de sistema em especial, o chamado de Sistema de Informação
Operacional (ou transacional). Assim como o próprio nome sugere, trata-se de
20
UNICESUMAR
PENSANDO JUNTOS
O que foi exposto era um dos aspectos que Anderson mais buscava. Com a sua proposta
de solução, percebemos que ele está no caminho certo. Contudo, os Sistemas de Informa-
ção podem apoiar os gestores em quais aspectos?
De acordo com Laudon e Laudon (2001), o uso dos Sistemas de Informação re-
flete diretamente na forma com que os gestores decidem, planejam e determinam
quais produtos e serviços são produzidos ou ofertados. Para Gouveia e Ranito
(2004), um dos principais objetivos de um Sistema de Informação é apoiar no
processo de tomada de decisão, permitindo a geração de dados estruturados e de
informações de maneira adequada, considerando o seu custo, tempo e formato.
PENSANDO JUNTOS
Será que, na prática, basta que uma organização compre um Sistema de Informação para
obter todos os benefícios provenientes?
21
UNIDADE 1
A pergunta exposta foi feita por Anderson, quando estava refletindo sobre a com-
pra de Sistemas de Informação para a sua empresa. Em detrimento do fato de que
não obteve resposta a partir das suas anotações relacionadas à disciplina cursada
durante a graduação, Anderson passou a pesquisar alguns sistemas na Internet
que apoiam as mais diversas áreas. A primeira área para a qual ele resolveu buscar
um sistema foi a parte de controle de estoque, já que era um elemento que não
estava finalizado em sua loja e, com a inserção do canal via e-commerce, seria
ainda mais importante ter total controle sobre os seus processos.
Contudo, Anderson não encontrou nenhum sistema que atendesse exata-
mente os seus processos. Diante disso, chegou à seguinte conclusão: “tenho duas
alternativas: ou contrato alguma empresa para desenvolver o meu sistema de
controle de estoque ou adapto os meus processos internos e, se possível, a forma
com que o sistema está desenvolvido”.
A reflexão feita por Anderson foi muito acertada. Hoje, um dos grandes pro-
blemas que se tem durante a adoção de um Sistema de Informação é justamente
a falta de sinergia entre a forma com que o sistema foi desenvolvido e os pro-
cessos internos da organização. Realmente, as duas alternativas pensadas pelo
jovem empreendedor são as mais pragmáticas. No entanto, não é permitido um
sistema que não se relacione com os processos internos, pois, assim, não haverá
uma coleta eficiente dos dados de entrada e um suporte efetivo aos processos.
Anderson continuou a tecer a sua reflexão e entendeu que o ideal seria so-
licitar a construção de um sistema feito especificamente para atender às suas
demandas e ao seu processo de controle de estoque. Todavia, quando realizou
os orçamentos com as empresas de desenvolvimento de software da região, fi-
cou bastante preocupado, pois o valor era muito mais alto do que poderia pagar.
Havia, ainda, um tempo considerável de desenvolvimento. Diante da situação
em questão, Anderson cogitou a possibilidade de buscar sistemas “de prateleira”,
a fim de reorganizar os seus processos para que eles estivessem em sintonia com
os elementos do sistema adquirido.
Logo após a implantação do sistema de controle de estoque, Anderson já
notou os grandes benefícios que ele trouxe para a sua operação. Com o sistema,
era muito fácil fazer o processo de coleta e armazenamento dos dados e das in-
formações relacionadas ao estoque e disseminar essas informações aos demais
funcionários da empresa. De fato, esse era o caminho correto para levar a sua
empresa até a Internet e ampliar os seus canais de venda.
22
UNICESUMAR
23
UNIDADE 1
Apoio às estratégias e
decisões executivas
Descrição da Imagem: na figura, são apresentados os três níveis organizacionais no que diz respeito ao
tipo de tomada de decisão na forma de uma pirâmide. Na base da pirâmide, estão as decisões de apoio às
operações e aos processos. Na camada do meio da pirâmide, está o apoio à tomada de decisão gerencial.
Por fim, no topo da pirâmide, há o apoio às estratégicas e às decisões executivas.
Anderson, mais uma vez, chegou a uma conclusão correta: realmente, os Sistemas
de Informação têm tipos específicos para apoiar os processos que podem estar
mais focados em uma camada em especial. Contudo, a primeira grande divisão
é realizada entre os sistemas de apoio a operações e os sistemas de apoio à deci-
são gerencial. O sistema de controle de estoque é um sistema focado em apoiar
processos e transações, ou seja, tem foco no apoio à camada de base da pirâmide,
em que estão a maioria dos funcionários e gestores com cargos de supervisores,
coordenadores ou líderes técnicos.
Esses sistemas apoiam diretamente as principais operações das organizações.
Um tipo muito conhecido e utilizado de sistemas de apoio a operações são os
sistemas Enterprise Resource Planning (ERP), que apresentam uma visão unifi-
cada de toda a organização, propõem soluções para vários setores, mas também
há a possibilidade de visualização única, cruzando várias dimensões do negócio.
Quando Anderson descobre os sistemas ERPs, entende que essa pode ser uma
24
UNICESUMAR
ótima solução para os seus problemas. No entanto, pelo fato de que não deseja
cometer o mesmo equívoco, avança um pouco mais nos estudos em relação aos
tipos de Sistemas de Informação.
Ainda em relação aos sistemas de apoio a operações, há os seguintes tipos:
sistemas de processamento de transações (que é o caso dos sistemas ERP), siste-
mas de controle de processos e sistemas colaborativos. A figura a seguir apresenta
mais detalhadamente os tipos de Sistemas de Informação:
Sistemas de
Informação
Sistemas
Apoio às Sistema de Apoio à Tomada
de Apoio às
Operações Apoio Gerencial de Decisão Gerencial
Operações
Descrição da Imagem: a figura apresenta, em forma de organograma, os tipos dos Sistemas de Informação.
Na imagem, constam dois tipos: os sistemas de apoio às operações, que, assim como o próprio nome já sugere,
apoiam as operações organizacionais, e os sistemas de apoio gerencial, cujo foco recai no apoio à tomada
de decisão gerencial da organização. Abaixo dos sistemas de apoio às operações, há três outros subtipos: o
sistema de processamento de transações, os sistemas de controle de processos (geralmente apoiam processos
industriais) e os sistemas colaborativos (em que a colaboração se dá entre equipes e grupos de trabalho).
Já abaixo dos sistemas de apoio gerencial, há mais três subtipos: os sistemas de informação gerencial (que
geram relatórios padronizados para os gerentes), os sistemas de apoio à decisão e os sistemas de informação
executiva, cujo foco está na geração de informações estratégicas para os executivos da organização.
25
UNIDADE 1
26
UNICESUMAR
“
O sistema ERP tem como objetivo permitir que as empresas possuam
uma maior integração entre os processos da organização, pois quanto
mais preciso e ágil o fluxo das informações, maior vai ser a velocidade
com que esta informação será processada, o que é essencial para aten-
der a velocidade do mercado globalizado. Integrar estes processos de
uma maneira que permita que a informação flua rapidamente, sem
o auxílio da tecnologia de informação é humanamente impossível
(GONÇALVES; LIMA, 2010, p. 61).
A partir dos anos 2000, com a progressão do poder computacional e da banda larga
da Internet, os sistemas ERPs puderam ser facilmente plugáveis em bases externas
e com fornecedores, constituindo, desse modo, um sistema único para fazer todo o
processo de apoio à operação da organização. Ao ler sobre a evolução dos sistemas
ERPs, Anderson estava mais do que convencido de que esse seria o substituto ideal
para o seu sistema de controle de estoque e para as demais planilhas que eram man-
tidas para o gerenciamento de vários setores, inclusive os que a sua empresa teria a
partir da sua inserção no e-commerce.
Anderson ficou muito empolgado com a possibilidade de ter um sistema que
pudesse apoiá-lo em todos os processos que vinha fazendo manualmente. Todavia,
continuou buscando informações sobre o que deveria ser feito ou qual estratégia
deve ser adotada para escolher e implantar um sistema de ERP. Foi nesse momento
em que encontrou o trabalho de Breternitz (2004), que apresenta duas etapas para a
seleção da ferramenta de ERP:
■ Etapa 1: nesta etapa, deve-se buscar informações sobre os principais forne-
cedores de ERPs, selecionando os mais qualificados e limitando, se possível,
de três a quatro.
■ Etapa 2: na sequência, é preciso pedir uma proposta técnica detalhada, a
fim de verificar a aderência das funcionalidades e dos processos com os das
áreas de negócio da organização. Tudo isso objetiva uma menor quantidade
de personalização das funções, o que implica no valor da solução final.
Anderson ficou ainda mais empolgado com tudo e, rapidamente, iniciou a primeira
fase. Entretanto, foi alertado de que era importante considerar a infraestrutura com-
putacional para executar o ERP, ou seja, se essa infraestrutura estaria disponibilizada
de maneira interna ou na nuvem. Depois de realizar mais pesquisas, Anderson optou
pelas ferramentas de ERP que fossem disponibilizadas como serviço (SaaS), ou seja,
27
UNIDADE 1
sem a necessidade de instalação. Diante disso, a primeira etapa já havia sido concre-
tizada. Na sequência, deu início ao mapeamento dos processos internos existentes, a
fim de avaliar qual ERP estaria mais aderente ou que apresentaria um melhor pro-
cesso a ser implantado.
Nesse momento, Anderson chamou todos os funcionários para conversar sobre a
nova implantação e sobre os processos que haviam sido mapeados. Repassou todos os
processos para a equipe, falou sobre o sistema ERP, explicou que teriam os processos
internos já desenvolvidos e preservados pela ferramenta e, para as áreas que ainda
não havia processos definidos, o fornecedor apresentaria sugestões de processos para
tirar vantagens da ferramenta contratada. Por fim, falou sobre a grande descoberta
que foi a aquisição do sistema ERP como serviço (SaaS) e sustentou que ninguém
precisaria se preocupar com a infraestrutura de servidores, visto que o sistema já era
integrado com grande parte dos fornecedores.
Havia um cliente dentro da loja que assistiu a todo o discurso do Anderson. O
cliente o chamou em um canto da loja e lhe disse: “Muito legal o sistema ERP que
você adquiriu. Muito inteligente a abordagem de tê-lo contratado como serviço, mas,
uma dúvida: você terá acesso a todos os dados armazenados, certo?”. Anderson ficou
sem chão, pois ainda não havia pesquisado em relação ao acesso à base de dados.
Diante da situação, pensou que o cliente não sabia muito sobre o assunto e tentou
alterar o rumo da conversa: “Joaquim, os vinis do Audioslave que você encomendou
já chegaram! Vou buscá-los para você!”.
Anderson andou até o depósito e pensou: o Joaquim é um garoto muito inteli-
gente. Ele deve estar fazendo graduação em alguma área relacionada aos dados. Uma
vez, disse-me que o seu pai trabalhava como executivo em uma empresa de dados e
teve toda a sua carreira na área de tecnologia. Acredito que vale a pena entender um
pouco mais o motivo de sua pergunta.
Anderson colocou o vinil do Audioslave dentro da sacola em conjunto com um
jogo de palhetas de brinde. Foi até o rapaz e lhe disse: “Joaquim, está aqui a sua com-
pra. Também estou te dando algumas palhetas de presente. Contudo, diga-me: qual
graduação você cursa?”. Joaquim conferiu as palhetas, ficou muito agradecido com o
presente e falou: “Muito obrigado! Sobre a minha graduação, estou no segundo ano
do curso de Ciência de Dados e estou gostando muito”.
Anderson não sabia exatamente para qual área o curso era voltado e ficou
com vergonha de perguntar. Assim, foi direto ao assunto: “Por que você me per-
guntou sobre acesso à base de dados do ERP?”. Joaquim adorou a sua pergun-
28
UNICESUMAR
29
UNIDADE 1
De fato, Anderson percebeu que, dos 20 mil clientes que fizeram compras em sua
loja on-line, apenas 100 mantêm um relacionamento com a sua loja. Ele conseguiu
fazer esse levantamento por meio do ERP implantado. Outro aspecto que também
o deixou muito preocupado é o de que, com a ampliação das lojas físicas, esse re-
lacionamento também foi perdido com os novos clientes, principalmente nas lojas
novas. Foi então que se lembrou de que, logo depois que havia estudado os sistemas
ERP e iniciado o seu processo de implantação, havia anotado que estudaria o CRM.
Anderson foi até a livraria mais próxima e buscou livros que trabalhassem o
CRM. Lá, descobriu que a sigla significa Customer Relationship Management e,
em português, pode ser traduzida como Gerenciamento do Relacionamento com
o Cliente. Já se empolgou apenas pela tradução do nome, pois era exatamente isso
que precisava implantar em seu negócio. Algo que Anderson sempre acreditou
e confirmou ao observar o negócio de seu pai é o de que, mantendo um relacio-
namento com o cliente, há um processo de fidelização e a receita recorrente é
muito mais garantida. Segundo Pinheiro (2008), o CRM não diz respeito apenas
à tecnologia, mas a uma estratégia de negócio focada no entendimento das ne-
cessidades atuais do cliente e de possíveis compras futuras. Assim, é composto
por um processo de captura e armazenamento dos dados do cliente ao longo do
tempo. As informações são unificadas e de fácil acesso.
Ao ler a definição exposta, Anderson entendeu mais uma oportunidade que
o CRM estaria lhe proporcionando. Pela primeira vez, compreendeu o sentido
da recomendação que o seu cliente, Joaquim, havia lhe dado: Anderson tem total
acesso aos dados armazenados por intermédio da ferramenta de ERP implantada,
o que facilitaria muito o trabalho de implantação de uma ferramenta de CRM.
De acordo com Pinheiro (2008, p. 18), algumas ações constituem um ambien-
te de gerenciamento de relacionamento. São elas:
“
Identificação dos melhores clientes de uma organização;
Ter o controle sobre campanhas com objetivos e metas claras;
Produzir indicadores para as equipes de vendas;
Apoiar as estratégias de transformação de potenciais clientes;
Recuperar clientes perdidos;
Aumentar a lucratividade;
Otimizar os processos de vendas;
Permitir a personalização do atendimento a partir de um relacio-
namento individualizado.
30
UNICESUMAR
1 - Contatar, qualificar e
1 - Projetar, desenvolver e
converter público-alvo em
executar campanhas
clientes
2 - Definir público-alvo
2 - Rastrear oportunidades
3 - Criar base de dados
3 - Fechar pedidos
CRM
1 - Gerenciar atendimentos
2 - Conduzir treinamentos 1 - Entregar demanda
3 - Fornecer serviços 2 - Faturar
4 - Desenvolver base de
conhecimento
Figura 4 - Funcionalidades de um CRM / Fonte: Sanchez (2014 apud ALVES, 2018, p. 125).
Descrição da Imagem: a figura apresenta as funcionalidades de uma solução de CRM a partir de quatro
dimensões: vendas, pedidos, suporte e marketing. Em vendas, são apresentadas as funcionalidades de: 1)
contatar, qualificar e converter público-alvo em clientes; 2) rastrear oportunidades; e 3) fechar pedidos. Já no
pilar “pedidos”, há: 1) entregar demanda; e 2) faturar. No pilar “suporte”, há: 1) gerenciar atendimentos; 2)
conduzir treinamentos; 3) fornecer serviços; e 4) desenvolver base de conhecimento. Por fim, no pilar “marke-
ting”, constam: 1) projetar, desenvolver e executar campanhas; 2) definir público-alvo; e 3) criar base de dados.
A Figura 4 expõe a visão de Alves (2018), que sustenta que o CRM tem fun-
cionalidades para as áreas de marketing, de vendas, de pedidos e de suporte, o
que demonstra ser uma solução muito versátil e, de fato, pode contribuir para a
estratégia da organização. Anderson adorou saber que poderia estar apoiando
diretamente as quatro áreas mencionadas e pensou no que seria necessário fazer
para implantar uma solução como essa. Para se ter uma solução de CRM efetiva
e de sucesso, é preciso lançar um novo olhar sobre a empresa e a sua estratégia.
Em outras palavras, segundo Pinheiro (2008), é necessário:
31
UNIDADE 1
32
UNICESUMAR
Oito meses se passaram desde que foi implantada a solução de CRM. Os processos
foram revistos para estarem sempre voltados ao cliente, a fim proporcionar a me-
lhor experiência. Além do mais, foram criadas áreas de apoio, tais como a área de
experiência do cliente (internamente chamada de UX), com o objetivo de analisar
todos os processos com o cliente no centro. A área de marketing ganhou o auxílio do
marketing digital e, assim, aumentou a recorrência de compra dos clientes que apenas
visitavam os canais digitais e conquistou novos fregueses, chegando a uma base de,
aproximadamente, 100 mil clientes. Anderson estava muito feliz com toda a evolução
do seu negócio e abriu a sua primeira loja fora do estado do Paraná, em Florianópolis,
Santa Catarina. Em sua percepção, ter implantando uma solução de CRM realmente
o auxiliou no processo de relacionamento com o seu cliente, uma vez que permitiu
que ele o conhecesse melhor e mantivesse um canal de comunicação sempre aberto.
Era uma terça-feira à tarde. A sua loja matriz estava com muitos clientes e Ander-
son reconheceu um que estava testando uma guitarra: era o Joaquim. Anderson quis
lhe contar os seus últimos passos e relatar como a dica que ele havia dado sobre ter
acesso às bases de dados do sistema de ERP facilitou muito o processo de implantação
da ferramenta de CRM. Joaquim ficou muito feliz em ajudar Anderson, sobretudo
porque realmente havia sentido uma diferença no relacionamento da loja com ele, ao
receber comunicações sobre promoções e descontos no dia do seu aniversário, por
exemplo. Eles conversaram muito sobre os sistemas implantados e como o uso de
dados e de informações levaram o negócio de Anderson a crescer tanto e, agora, con-
tar com quase 100 funcionários e 100 mil clientes. Em um determinado momento,
Joaquim perguntou a Anderson qual era a tecnologia ele estava utilizando para a sua
solução de Business Intelligence (BI). Anderson não soube ao certo responder e falou
que não havia uma solução de BI. Diante disso, parou por um minuto para refletir.
33
UNIDADE 1
Joaquim estava dedilhando uma guitarra Fender Jazz Master e Anderson pergun-
tou: “Como uma solução de BI poderia ajudar o meu negócio? Eu já tenho um sistema
ERP que me permite ter uma visão de toda a minha operação de maneira centralizada
e tenho uma solução de CRM que permite que eu me relacione melhor com o meu
cliente. O que uma solução de BI iria me agregar?”. Joaquim elogiou o timbre da guitar-
ra e começou a expressar a sua visão sobre o assunto. Sob a ótica de Joaquim, a empresa
de Anderson precisa controlar mais de perto a execução de sua estratégia e garantir
uma forma fácil de acompanhar as metas das áreas de negócio e dos funcionários a
partir do uso de um sistema de apoio a decisão. Nesse caso, uma solução de BI seria
ótima, já que ela deve partir da formulação de um conjunto de perguntas estratégicas
que guiarão a modelagem de dados e a construção dos indicadores que serão acom-
panhados pelas áreas de negócio. Joaquim reforçou que, no caso dessas soluções, não
há nada “pronto”, mas é necessário desenvolver algo com base especificamente no seu
negócio e respeitando a estratégia organizacional desenvolvida.
Anderson ficou muito agradecido por toda a explicação que Joaquim deu e per-
guntou se poderia contar com ele na construção desse projeto, já que os seus cola-
boradores do setor de TI tinham uma visão muito mais focada em infraestrutura de
tecnologia do que propriamente em dados. Joaquim ficou muito feliz com a possi-
bilidade de participar de um projeto como esse. Ele já havia participado de outros
projetos de dados junto de seu pai, mas seria a primeira vez que ele estaria à frente
de um projeto desses sozinho. Joaquim deixou bem claro para Anderson a sua falta
de experiência em conduzir projetos como esse, mas explicou que coletaria todo o
material que tem estudado em sua graduação e os compartilharia com ele, para que
possam, juntos, pensar nas etapas do projeto.
No que diz respeito a uma solução de BI, Joaquim sabe que não se trata apenas
de tecnologia. Uma solução de BI está diretamente ligada às perguntas estratégicas
que têm indicadores como respostas. Esses indicadores auxiliam no controle e na
medição de como a organização está “caminhando”, além de possibilitarem o acom-
panhamento, em tempo real, da eficiência das estratégias e das ações tomadas pelos
dirigentes da organização. Essa primeira fase pode ser considerada uma etapa de
análise de requisitos do negócio e é composta pelos seguintes feitos:
■ Definição das perguntas estratégicas da organização: como perguntas
estratégicas, são entendidos os principais questionamentos que os gestores
têm e que estão relacionados com a estratégia definida, a fim de se chegar
aos objetivos principais.
34
UNICESUMAR
35
UNIDADE 1
■ Em quais cidades devo abrir lojas físicas para atender o meu cliente
cada vez melhor?
◊ Quantidade de clientes com, pelo menos, uma compra por mês por
estado e cidade.
• Filtros: idade, sexo, profissão, loja da última compra, estado e
cidade.
◊ Quantidade média de compras por cliente por estado e cidade.
• Filtros: idade, sexo, profissão, loja da última compra, estado e
cidade;
◊ Quantidade de clientes com apenas uma compra por estado e cidade.
• Filtros: idade, sexo, profissão, loja da última compra, estado e
cidade.
◊ Gasto médio dos clientes por estado e cidade.
• Filtros: idade, sexo, profissão, loja da última compra, estado e
cidade.
36
UNICESUMAR
Descrição da Imagem: a figura apresenta um protótipo de um painel. O seu objetivo não é apresentar
dados reais, mas demonstrar como as informações podem ser apresentadas, ao deixar em evidência os ele-
mentos gráficos e visuais que podem ser utilizados para essa representação. Na figura, são expostos alguns
indicadores em forma de cartões e a partir do uso de tabelas, gráficos de pizza, gráficos de área e de linha.
Quando se trata das soluções tecnológicas para BI, há o que é chamado de arqui-
tetura típica de BI, que diz respeito a um conjunto de componentes com tarefas
bem definidas, ligadas entre si e que respeitam um padrão do ciclo de vida do
dado para a informação. É possível ter uma arquitetura típica de BI pelo fato de
existirem características comuns de utilização das soluções de BI, o que permite
a existência de um conjunto de componentes que atendam a essas características.
O quadro a seguir apresenta mais detalhes:
37
UNIDADE 1
Quadro 2 - Características de utilização das soluções de BI / Fonte: Sell (2006 apud CECI, 2012, p. 56).
38
UNICESUMAR
SERVIÇOS RELATÓRIOS
DATA WAREHOUSE
BARRAMENTO DE DADOS
ETL ODS
RH
SUPRIMENTOS
DASHBOARDS
ETL
LOGÍSTICA DATA MART
VIEWS
P&D
ETL ALERTAS
ÁREA DE
WRITE-BACKS
ESTAGIAMENTO
ANALYSIS
VENDAS
DATA MART
CLIENTES SCORECARDS
METADADOS E SEGURANÇA i
Figura 6 - Arquitetura tradicional de BI com os principais componentes
Fonte: Silva (2011, p. 34).
Descrição da Imagem: a figura apresenta a arquitetura tradicional de BI. Na imagem, ela está dividida em três
quadrantes: o que está à esquerda é o das fontes de dados dos sistemas operacionais. Nele, estão represen-
tados vários bancos de dados separados, um de cada área de negócio, tais como finanças, RH, suprimentos,
logísticas, dentre outros. O primeiro quadrante está ligado ao segundo pelo processo de ETL. No segundo qua-
drante, encontram-se as bases de estagiamentos e o ODS, que, a partir de um barramento de dados, permite
a adição, via processo de ETL, ao Data Warehouse, que é composto por vários Data Marts. Por fim, o segundo
quadrante é ligado ao terceiro pelas informações que são consumidas. O terceiro quadrante está focado em
ser a área de apresentação, que pode utilizar alguns recursos, tais como relatórios, OLAP, dashboards, alertas
ou scorecards. Todos os quadrantes são apoiados por uma camada transversal de metadados e segurança.
39
UNIDADE 1
Para que os dados sejam migrados às bases dos sistemas operacionais para o
Data Warehouse, é necessária a aplicação de ferramentas de ETL. Comumente,
as ferramentas de ETL são desenvolvidas após a modelagem do Data Warehouse,
tendo em vista que devem levar em consideração os modelos de dados das fontes
de origem e de destino. A seguir, são detalhados os processos principais da ETL:
■ Extração: o processo de extração consiste em ir até as fontes de origem,
que podem estar disponíveis em um banco de dados ou em arquivos, ler
o seu conteúdo e deixá-los disponíveis para as próximas etapas.
■ Transformação: é o coração do processo de ETL. Nessa etapa, todos os
dados extraídos das fontes de origem são tratados e limpos. Além do mais,
é nessa fase que são aplicadas as regras de negócio para garantir a geração
do novo dado ou informação relacionada às características do negócio.
Por fim, o dado é disponibilizado e transformado para ser gravado (per-
sistido) na fonte de dados do destino. No caso da arquitetura tradicional,
diz respeito ao Data Warehouse.
■ Carga: o processo de carga consiste em apanhar o dado ou informação
já transformada e salvá-la nas fontes de dados de destino.
40
UNICESUMAR
Descrição da Imagem: a figura demonstra o processo de padronização de dados. Assim, são apresentadas
três tabelas de origem. A primeira representa o sexo, que é dividido em “masculino” e em “feminino”. A se-
gunda representa o “M” ou “F”. A terceira expressa “0” ou “1”. Após o processo de padronização, é identificado
“M” para “masculino” e “F” para “feminino”. Todas as demais tabelas do Data Warehouse que utilizarem essa
informação o farão a partir do que já padronizado.
41
UNIDADE 1
Descrição da Imagem: a figura apresenta um exemplo de como se pode entender a analogia das
fotografias distribuídas pela dimensão “tempo” de um Data Warehouse. Assim, na tabela de origem,
encontra-se todo o detalhamento de vendas por cliente por dia. Já na tabela destino, há apenas o valor
total vendido (já calculado) por dia.
42
UNICESUMAR
id_dim_quem: INTEGER
valores: VARCHAR
Rel_01
43
UNIDADE 1
Os DWs são orientados a assuntos e cada assunto será convertido em uma ta-
bela fato. Essa tabela tem medidas, que são os valores numéricos que somam,
totalizam ou consolidam os valores que estão organizados e distribuídos em di-
mensões. As tabelas permitem fazer filtros e combinações entre as visões para
as medidas consolidadas dentro das tabelas fato.
De acordo com Ceci (2012), as tabelas de dimensões geralmente estão ligadas a
quatro perguntas básicas: quando? Quem? Onde? O quê? Para complementar o seu
entendimento sobre os fatos, as dimensões e as medidas, observe o quadro a seguir:
Quadro 3 - Tabela descritiva de fatos, medidas e dimensões / Fonte: Sell (2006, p. 31).
44
UNICESUMAR
dim_profissao
id_profissao interger(10)
dim_cidade
profissao varchar(255) dim_sexo
id_cidade interger(10)
id_sexo interger(10)
cidade varchar(255)
sexo varchar(255)
fato_cliente
id_cidade interger(10)
id_estado interger(10)
id_profissao interger(10)
dim_estado id_sexo interger(10) dim_loja
id_estado interger(10) id_loja interger(10) id_loja interger(10)
estado varchar(255) id_idade interger(10) loja varchar(255)
novoCliente interger(1)
quantidade interger(10)
dim_idade
id_idade interger(10)
idade interger(10)
45
UNIDADE 1
46
UNICESUMAR
47
AGORA É COM VOCÊ
São sistemas que apresentam uma visão unificada dos dados transacionais das áreas
da empresa, permitindo uma visão sistêmica e integrada.
a) CRM.
b) Sistemas operacionais.
c) Mineração de dados.
d) BI.
e) ERP.
3. O Business Intelligence (BI) representa uma importante solução para que as organi-
zações possam acompanhar os seus indicadores mais de perto.
Assinale a alternativa que não se relaciona com o conceito de Business Intelligence (BI):
48
AGORA É COM VOCÊ
4. Os dados utilizados pelas soluções de BI, em sua grande maioria, fazem uso de pro-
cessos para a limpeza e para a transformação, de modo que os indicadores sejam
sempre confiáveis.
49
CONFIRA SUAS RESPOSTAS
1. E.
A explicação se encaixa perfeitamente nos ERPs.
2. E.
Os SADs foram construídos inicialmente para apoiar a camada tomadora de decisão,
ao garantir que tivessem os principais indicadores para guiar as suas decisões. No en-
tanto, hoje, são utilizados para todos os níveis, pois trazem informações sumarizadas
para apoio, inclusive a operação.
3. A.
O Business Intelligence (BI) não se trata de uma tecnologia específica, mas um con-
junto de técnicas, metodologias e tecnologias que auxiliam no processo de tomada
de decisão inteligente.
4. B.
Na arquitetura tradicional de uma solução de Business Intelligence (BI), é utilizada a
modelagem dimensional como a base para as bases de dados.
5. C.
O processo de ETL é o responsável por extrair os dados das fontes transacionais,
transformá-los e, depois, carregá-los às bases dimensionais.
50
REFERÊNCIAS
ALVES, E. B. Sistemas de Informações em Marketing: uma visão 360 das informações merca-
dológicas. Curitiba: InterSaberes, 2018.
GOUVEIA, L. B.; RANITO, J. Sistemas de informação de apoio à gestão. Porto: Sociedade Por-
tuguesa de Inovação, 2004.
51
MEU ESPAÇO
2
Introdução à
Ciência de Dados
Dr. Flavio Ceci
54
UNICESUMAR
Certo dia, uma senhora entrou na loja matriz e pediu para conversar com
Anderson. Ao chegar, ficou surpreso, pois não a conhecia. Ela disse que era a mãe
do Joaquim e explicou que ele se formaria naquele final de semana e precisava
comprar cordas para a sua guitarra, já que tocaria na formatura com a sua banda.
Depois que o projeto de BI foi finalizado, Joaquim focou em finalizar o seu curso
de graduação, por isso, não continuou atuando na empresa com Anderson. No
entanto, enviou um convite de formatura pela sua mãe. A mãe do Joaquim não
sabia qual corda o filho utilizava, mas sabia que ele comprava três jogos de corda
todo mês e comentou esse fato com Anderson, que rapidamente foi até o sistema
e, em poucos segundos, já sabia qual era o jogo de corda utilizado. Todavia, houve
uma surpresa: o jogo de corda não estava em estoque!
Depois de 15 segundos em silêncio, Anderson, envergonhado, explicou para
a mãe de Joaquim que, infelizmente, estava sem o jogo de cordas em estoque,
mas que ela poderia adquiri-lo em uma loja da concorrência que estava próxima.
Anderson anotou o nome do jogo de cordas e o endereço da outra loja. Para ele,
esse fato foi marcante: como aconteceu algo assim, ainda mais com um cliente
tão antigo como o Joaquim? O que adianta realizar um excelente trabalho em
relação ao relacionamento com os clientes, se o mix de produto ainda não está
adequado por lojas? Quantos clientes deixaram de comprar em suas lojas físicas
pelo fato de não haver o produto esperado?
Durante a formatura de Joaquim, Anderson pensou em como seria impor-
tante ter dois recursos analíticos para o seu negócio:
■ Saber quais clientes estão propensos a deixar de comprar em sua loja.
■ Saber qual seria o mix ideal de produto por loja.
Joaquim foi até a mesa onde Anderson estava para conversar e perguntar o que
ele achou do show de sua banda. Anderson deu os parabéns pela formatura e pelo
excelente show que fizeram. Ele ficou muito orgulhoso de ter visto que a maioria dos
instrumentos e equipamentos da banda de Joaquim foram fornecidos por ele. Dian-
te disso, Anderson pediu desculpas a Joaquim no que diz respeito à falta do jogo de
corda que ele sempre compra e falou sobre dois recursos analíticos que gostaria de
ter em sua loja. Depois, perguntou se Joaquim conhecia algo que poderia ajudá-lo.
55
UNIDADE 2
56
UNICESUMAR
Joaquim ficou feliz com a proposta e, obviamente, aceitou! Ele já sabia que
não faltavam oportunidades para profissionais da área de ciência de dados e, com
ele, não foi diferente.
Você achou interessante o Modelo de Churn? Faça uma pesquisa na Internet
e leia artigos para saber como funciona uma ferramenta como essa. Joaquim ini-
ciará o seu trabalho como cientista de dados: quais são as principais habilidades
e competências que ele deve ter para desempenhar um excelente trabalho em
relação à sua profissão?
Faça uma pesquisa sobre o questionamento apresentado para que Joaquim
esteja preparado para iniciar o seu trabalho. Uma maneira de planejar é saber
quais pontos deverão ser desenvolvidos enquanto estiver ocupando a função que
lhe foi determinada na empresa de Anderson.
A ciência de dados está diretamente ligada às áreas de negócio, visto que é
uma fonte geradora de estudos, ferramentas e suporte analítico. O cientista de da-
dos deve ser uma pessoa curiosa e inquieta, pois precisa querer entender os dados
em detalhes e compreender as correlações que existem entre eles. Para isso, deve
ter conhecimento sobre matemática/estatística, computação e negócio (alguns
autores falam em ciência). Dentro da área, ele também pode decidir se deseja
aprofundar os seus conhecimentos em subáreas vinculadas aos três pilares men-
cionados. Esses são os aspectos que nortearão o desenvolvimento desta unidade.
DIÁRIO DE BORDO
57
UNIDADE 2
A expressão “ciência de dados” não é recente. Existem registros do seu uso a partir da
década de 60. Contudo, a sua conotação obtida nos últimos anos é completamente
diferente da inicial. Para compreender o que é ciência de dados, é necessário, pri-
meiramente, entender o que é ciência. Segundo o Dicionário Michaelis, “ciência” é
um “conhecimento sistematizado como campo de estudo” e um “conjunto de conhe-
cimentos teóricos e práticos canalizados para um determinado ramo de atividade”
(MICHAELIS, [2021], on-line)¹.
Diante do exposto, é perceptível que o termo “ciência” está totalmente relacio-
nado ao contexto proposto pela ciência de dados, que objetiva agrupar e relacionar
os conhecimentos de várias áreas levando em consideração todo o ciclo de vida do
dado, que pode ser observado a seguir:
■ Captura: estrutura as formas e os métodos de captura de dados de maneira
estruturada, semi ou não estruturada, a fim de que sejam utilizados em seus
estudos.
■ Tratamento: realiza transformações e cruzamentos necessários para tornar
o dado passível de ser analisado posteriormente.
■ Armazenamento: refere-se à persistência do dado, que pode ter passado pela
etapa de tratamento, ou não, em bases relacionais ou Not only SQL (NoSQL).
■ Processamento: consiste na transformação do dado em uma informação
a partir da aplicação de regras de negócio, por meio do uso de elementos
de contextualização do dado ou por intermédio da construção de modelos,
por exemplo.
■ Análise: etapa em que são feitos cruzamentos, estudos e aplicação de técnicas
para a mineração e a exploração de dados e informações.
■ Apresentação: diz respeito ao modo com que as análises são apresentadas ou
entregues para os usuários ou sistemas. Geralmente, são utilizados recursos
visuais ou numéricos para apoiar a entrega das análises.
■ Descarte: há uma falsa percepção de que, quanto mais dados armazenados,
melhor. Esse fato não é verdade, tendo em vista que os dados que não são
relevantes geram custos de armazenamento e processamento. Portanto, de-
vem ser descartados.
Ao observar os processos apresentados, é fácil perceber o motivo pelo qual a área tem
58
UNICESUMAR
o termo “ciência” em seu nome. Para cada processo, existe um conjunto de compe-
tências e habilidades interdisciplinares envolvidas, o que a torna uma área bastante
abrangente e com possibilidades distintas de focos. Segundo Amaral (2016, p. 4),
“normalmente, a Ciência de Dados é associada de forma equivocada apenas aos
processos de análise de dados, onde com o uso de estatística, aprendizado de máquina
ou a simples aplicação de filtro se produz informação e conhecimento”.
Para dar suporte a todos os processos, existem três pilares principais que funda-
mentam a ciência de dados. Eles são apresentados na figura a seguir:
Ciência de Dados
Matemática/Estatística
Ciência/Pesquisa
Computação
Descrição da Imagem: a figura apresenta um retângulo horizontal com o título “Ciência de dados”. Abaixo,
estão outros três retângulos verticais, a fim de representar a ideia de serem os pilares que suportam a ciên-
cia de dados. Os retângulos verticais são: «Computação», «Matemática/Estatística» e «Ciência/Pesquisa”.
59
UNIDADE 2
Aprendizado
Ciência da de Máquina Matemática
Computação e Estatística
CIÊNCIA
DE DADOS
Análise
Desenvolvimento de Dados
de Software
Visualização
Curadoria digital da informação
de Dados
Conhecimento
do Domínio
Descrição da Imagem: a figura apresenta três círculos e há uma intersecção no centro. Os três círculos
têm os seguintes títulos: “Ciência da Computação”, “Matemática e Estatística” e “Conhecimento de Domí-
nio”. Na intersecção entre “Ciência da Computação” e “Matemática e Estatística”, há o título “Aprendizado
de Máquina”. Já na intersecção entre “Ciência da Computação” e “Conhecimento do Domínio”, há os títulos
“Desenvolvimento de Software” e “Curadoria Digital de Dados”. Na intersecção entre “Matemática e Es-
tatística” e “Conhecimento de Domínio”, há os títulos “Análise de Dados” e “Visualização da Informação”.
Por fim, na intersecção entre as três grandes áreas, há o termo “Ciência de Dados”.
60
UNICESUMAR
A visão exposta pela Figura 2 foi originalmente desenvolvida por Conaway (2010)
e é muito interessante, pois demonstra como se dá a combinação entre as áreas
e expõe quais são as intersecções entre as áreas e as disciplinas relacionadas. Um
exemplo é o fato de que a aprendizagem de máquina se relaciona diretamente
com a computação, a matemática e a estatística.
As empresas que têm uma área de dados ou ciência de dados realmente têm
uma equipe multidisciplinar. No caso de Joaquim, ele é formado em Ciência de
Dados, portanto, já é dotado dessa interdisciplinaridade construída durante a sua
formação. Hoje, ele é um profissional mais versátil para a empresa de Anderson,
pois, de fato, conhece um pouco sobre cada uma das áreas envolvidas. O que
falta para Joaquim exercer o seu papel enquanto cientista de dados na empresa
em questão é saber sobre o negócio. Em detrimento do fato de que é apaixonado
por música, o processo é um pouco mais fácil. Entretanto, de qualquer forma,
deve conhecer os elementos da estratégia organizacional, saber como se dá os
principais processos das áreas do negócio e ter ciência de quais são os principais
desafios e oportunidades já mapeados. Desse modo, Joaquim conseguirá exercer
melhor o seu papel e gerará análises realmente relevantes para o negócio.
Em seu primeiro dia de trabalho, Joaquim pediu para que Anderson se apro-
fundasse em seu negócio, com o objetivo de preencher a lacuna que foi exposta
no parágrafo anterior. Na perspectiva da organização da empresa, Joaquim foi
inserido na área de tecnologia e desenvolvimento, que é gerenciada por Lara,
uma cientista da computação com MBA em Gestão Estratégica e especialização
em Engenharia de Projeto de Software. Ela era muito compreensiva e gostava
bastante da área de dados. Depois de ter mergulhado nos processos e nos detalhes
do domínio do negócio, Joaquim foi levado até a sua mesa. Em relação ao seu
trabalho, estaria alocado na área de Lara, mas também responderia diretamente
à Anderson, a fim de que pudesse ser acessado pela presidência e auxiliasse Lara
nas questões relacionadas aos dados.
Esse arranjo foi interessante para a organização, pois potencializou a área da
tecnologia e desenvolvimento, ao incluir uma pessoa preocupada com os dados,
independentemente do projeto ou do contexto. Além disso, permitia que Joaquim
acompanhasse as questões estratégicas e as principais dores do negócio, para que
pudesse negociar com Lara quando atuaria em cada uma dessas demandas e pro-
jetos. O grande foco de Joaquim é o de tornar a empresa de Anderson totalmente
dirigida por dados (Data-Driver Organization).
61
UNIDADE 2
Segundo Anderson (2015), muitas organizações são dirigidas por dados, pelo
fato de terem vários relatórios e a necessidade de tomada de decisões a partir
deles. O mesmo processo ocorre nas instituições que carregam vários modelos
de predição ou previsão, mas que não têm nenhuma relação com os seus proces-
sos de negócio. Nesse sentido, quando dizemos a respeito de uma organização
dirigida por dados, estamos nos referindo à construção de ferramentas analíticas,
habilidades e, principalmente, de uma cultura em que o foco esteja no dado.
PENSANDO JUNTOS
Para uma organização ser dirigida por dados, não basta ter apenas tecnologia, mas tam-
bém é exigida maturidade analítica por parte dos seus colaboradores e a existência de
uma cultura de dados.
62
UNICESUMAR
Lara pediu para Joaquim fazer um levantamento dos principais métodos e técni-
cas que utilizará no seu dia a dia, para que fosse possível dimensionar os recursos
computacionais necessários para executar as suas tarefas e automatizar as execu-
ções em um ambiente de produção.
63
UNIDADE 2
Figura 3 - Exemplo de IDE para interação com banco de dados / Fonte: o autor.
Descrição da Imagem: a figura demonstra uma ferramenta de interação com um banco de dados. Na
parte superior, podem ser inseridas as instruções SQL, enquanto, na parte inferior, é apresentado o
resultado em forma de tabela.
EXPLORANDO IDEIAS
64
UNICESUMAR
O processo de análise com base em indicadores também pode ser feito a partir
dos dashboards disponíveis na organização ou por intermédio de consultas, com a
aplicação de filtros e cruzamentos nas bases do Data Warehouse. Nos dashboards, é
possível navegar nos indicadores de maneira gráfica e com o uso de gráficos e séries
históricas, a fim de facilitar os processos de análise. Esse recurso permite que analis-
tas que não tenham tanto conhecimento técnico possam fazer as suas análises sem
a necessidade de conhecer o banco de dados ou a linguagem SQL. A figura a seguir
apresenta um exemplo de um dashboard utilizado para fazer análises explícitas:
Descrição da Imagem: a figura apresenta a visão de um painel estilo dashboard. Nele, há vários gráficos
que apresentam visões distintas para os indicadores relacionados a um mesmo domínio.
65
UNIDADE 2
Descrição da Imagem: a figura exemplifica um gráfico de dispersão, que objetiva apresentar os valores
distribuídos por um plano cartesiano em conjunto com os dados distribuídos por eixos verticais e hori-
zontais. Na figura, é demonstrada a relação do tempo de entrega pela quantidade de caixas. O gráfico
evidencia que, quanto mais caixas, mais tempo é utilizado. No entanto, à medida que o número de caixas
aumenta, a razão da progressão diminui, ou seja, o valor aumentado sofre uma redução gradativa.
Em seu levantamento, até o presente momento, Joaquim está calmo, pois, para de-
senvolver os seus estudos com base nas técnicas e nos métodos apresentados, não
foi necessária nenhuma ferramenta robusta, um supercomputador ou até mesmo a
criação de um ambiente na nuvem para trabalhar com dados massivos. O gráfico de
dispersão apresentado na Figura 5 foi desenvolvido pela planilha eletrônica Excel,
mas poderia ser gerado por meio das linguagens R, Python ou Java. Joaquim comen-
66
UNICESUMAR
tou com Lara que acredita que, nesse estágio da empresa, seja importante que os seus
colaboradores tenham acesso às ferramentas de planilha eletrônica, uma vez que é
uma forma de democratizar a tomada de decisão por dados, estimular, evoluir a cul-
tura de dados da organização e dar liberdade para as áreas de negócio fazerem as suas
análises em relação ao que não está materializado em indicadores em soluções de BIs.
Ainda sobre os recursos visuais que podem auxiliar no processo de análise ex-
ploratória, há os diagramas de caixa e os histogramas. No caso do diagrama de caixa,
é possível observar como os dados estão distribuídos nos quatro quartis, averiguar
o valor da mediana e conhecer os dados que fogem do intervalo esperado (outliers).
Esses gráficos são muito utilizados para acompanhar as evoluções das ações na bolsa
de valores, que, em muitos casos, omite as informações dos quartis e da mediana. A
figura a seguir apresenta um exemplo de uso do diagrama de caixa:
18
16
14
12
Resposta
10 Máx.
3º. quartil
8 Mediana
1º. quartil
6 Mín.
4
2
0
A1 A2 A3 A4
Grupo
Figura 6 - Exemplo de diagrama de caixa (Ibovespa) / Fonte: Capela e Capela (2011, p. 363).
Descrição da Imagem: a figura apresenta um diagrama de caixa. Nele, há quatro grupos: A1, A2, A3 e A4.
Para cada grupo, há valores expressos na caixa. Assim, na parte superior da linha, há o máximo. Na parte
superior da caixa, há o terceiro quartil. Na metade da caixa, há a mediana. Na parte inferior da caixa, há o
primeiro quartil e, na parte inferior da linha, há o mínimo. Esse diagrama busca apresentar a distribuição
estatística dos valores referentes a uma variável ou grupo.
67
UNIDADE 2
Descrição da Imagem: na figura, há uma nuvem de termos, que representa um conjunto de palavras que
são representativas em um texto ou em uma coleção de documentos. Além disso, na nuvem de termos,
o tamanho das palavras (tamanho da fonte que está sendo utilizada) é diretamente ligado a frequência
com que a palavra aparece. Dessa forma, é possível visualizar quais são os principais termos.
68
UNICESUMAR
na computacional é aplicação
de técnicas computacionais na Preparação
dos Dados
tentativa de encontrar padrões Implantação
ocultos em dados” e, “enquanto
Modelagem
o aprendizado de máquina trata Dados
69
UNIDADE 2
70
UNICESUMAR
■ Tarefa não supervisionada: são tarefas que não precisam de uma base já
classificada como treinamento para que possam ser executadas. Por exem-
plo, o agrupamento e a associação são tarefas não supervisionadas.
Amaral (2016) desenvolveu uma tabela que explicita quais algoritmos estão re-
lacionados a cada uma das tarefas de aprendizado de máquina:
Tarefas Tipos de Algoritmos Algoritmos
Naive Bayes
Bayes
BaysNet
Party
Regras
Classificação Decision Table
Random Forest
Árvores de decisão
J48
K-means
Agrupamento Baseado em protótipo
K-medoids
Apriori
Associação
FP Growth
Joaquim entende que ainda não é o momento de detalhar cada um dos algoritmos
e focará apenas em sua descrição. Nesse contexto, os algoritmos chamados “Ba-
yes” utilizam cálculos simples de probabilidade, mais especificamente baseados
na teoria de Thomas Bayes. Segundo Amaral (2016, p. 101), “dos valores de cada
atributo, o algoritmo vai avaliar o quanto ele contribui para classificar a instância
como boa ou ruim, construindo uma tabela de probabilidade”. Depois, é feita a
soma dos índices com os valores, a fim de classificá-los como bons ou maus. Ao
final, o valor de classe que tiver o maior índice é o selecionado.
Os tipos de algoritmos baseados em regras têm uma etapa de treinamento. Nela,
são identificados padrões nas variáveis presentes e, na sequência, é gerado um conjun-
to de regras a serem utilizadas na classificação de novos casos e elementos. Muitas ve-
71
UNIDADE 2
zes, esses modelos são transformados em árvores de decisões: assim como o próprio
nome sugere, os atributos e as instâncias são organizados em forma de nós e arestas,
a fim de representarem a navegabilidade que existe entre as regras construídas. Ao
final da árvore, há uma classificação, ou seja, quando é chegada em uma folha (nó
que não tem mais nenhum filho), existe uma classificação.
As redes neurais artificiais dizem respeito a uma área muito recorrente, mas que
não é nova. Os primeiros estudos realizados pela matemática ocorreram entre a dé-
cada de 60 e 70. No entanto, as redes foram deixadas em segundo plano durante um
tempo, pelo fato de exigirem um poder computacional considerado alto para a época.
Nas últimas décadas, com a evolução dos computadores e, principalmente, com o
surgimento dos ambientes de alta performance na nuvem, as redes neurais voltaram
aos holofotes, ao proporem soluções viáveis para serem utilizadas pelas empresas.
Nessa área, o objetivo é reproduzir a forma de funcionamento do cérebro. Desse
modo, neurônios artificiais aprendem e são organizados em camadas. Na prática, o
processo de andamento dentro da rede de neurônio é constantemente ajustado e, em
consequência disso, o aprendizado é constante e evolutivo. É muito utilizado para o
reconhecimento facial, por exemplo, que, apesar de cortarmos o cabelo ou trocarmos
de óculos, permite que o processo ainda aconteça de maneira assertiva. No Quadro
1, é observável que as redes neurais carregam algoritmos focados em mais de uma
tarefa e são bastante versáteis no que se refere à aplicabilidade.
Os algoritmos de agrupamento por densidade são formas de agrupamento não
parametrizadas que fazem os processos de identificação de elementos próximos.
Nesse caso, o fato de não serem parametrizadas significa que não é necessário expor
previamente a quantidade de cluster a ser gerada. Já em relação aos algoritmos de
agrupamento baseados em protótipos, é preciso informar quantos clusters devem
ser gerados e, a partir desse número, os elementos são organizados por proximidade,
ou seja, pelas suas características comuns. Contudo, assim como já afirmamos, não é
necessário o processo de treinamento.
Ao finalizar a fase do levantamento, Joaquim estava com todos os aspectos ma-
peados. Ele apresentou o resultado do seu levantamento para Lara e comentou que,
naquele momento, não era necessário adquirir novos computadores, nem a compra
de serviço na nuvem para executar os processos de mineração de dados. Entretanto,
à medida que a massa de dados aumentasse, seria preciso realizar uma expansão
na infraestrutura. Lara ficou muito satisfeita com o trabalho de Joaquim e fez mais
uma solicitação: que fossem levantadas quais ferramentas, além das linguagens de
72
UNICESUMAR
Descrição da Imagem: a figura apresenta uma tela de trabalho da ferramenta Weka. No menu, à esquer-
da, há as configurações para a seleção de uma etapa de treino de um modelo de clusterização. Na parte
superior, é apresentado um gráfico de dispersão com a organização dos elementos por cores. Assim,
cada cor é um cluster gerado. Na parte inferior, à direita, é exposta a distribuição dos dados por cluster,
demonstrando o percentual de cada um.
73
UNIDADE 2
Descrição da Imagem: a figura apresenta a ferramenta Orange e como ela está organizada. Desse modo,
no menu, à esquerda, estão disponíveis as opções de processamento e os algoritmos disponíveis e or-
ganizados pela tarefa em questão. Também são demonstrados os ícones referentes aos processos de
manipulação de dados. Cada ícone pode ser arrastado para a área de workflow, que fica à direita. Nessa
área, é preciso organizar os processos de maneira linear, ligando as entradas e as saídas. Ao final, os
valores podem ser visualizados ou salvos em algum tipo de arquivo escolhido.
Essa ferramenta é ideal para quem precisa fazer estudos simples e está iniciando
os estudos relacionados à área de mineração e análise de dados.
74
UNICESUMAR
Descrição da Imagem: a figura apresenta a ferramenta Knime. A sua organização é parecida com a da fer-
ramenta Orange. Ao lado esquerdo, há três painéis empilhados. Na parte superior, é possível navegar pelas
pastas dos projetos, que estão salvas no sistema de arquivo do computador. Já no segundo painel, estão as
opções de componentes e as ferramentas que podem ser adicionadas ao workflow em questão. No terceiro
painel, são organizados os tipos de componentes e as ferramentas, considerando a sua natureza de uso
(como manipulação de dados e visualizações). À direita, há um espaço para a construção do workflow que
será utilizado como processo e, na parte inferior, há a console com os logs de execução do processo criado.
Joaquim também procurou uma ferramenta mais completa e com recursos para
análises mais complexas. Em sua pesquisa, encontrou uma que é chamada Knime
(https://www.knime.com). A Figura 11 apresenta um exemplo de sua interface
gráfica. A Knime é uma plataforma que tem uma versão grátis e uma versão
paga, com foco no uso profissional. Também é baseada em fluxos, mas apresenta
um nível de personalização e configuração bastante grande, o que a torna uma
ferramenta muito poderosa, mas de complexidade maior.
Ao finalizar o levantamento das ferramentas, foi verificado que não era necessário
adquirir uma nova licença, já que as três ferramentas podem ser utilizadas à medida
que as necessidades analíticas se tornem mais complexas ou a maturidade analítica
da organização seja elevada. Lara ficou muito feliz com o resultado de todo o levan-
tamento, inclusive das ferramentas. Com a parceria com o Joaquim, já tem em mente
qual será o novo desafio que demandará ao cientista de dados.
75
UNIDADE 2
76
UNICESUMAR
Descrição da Imagem: a figura apresenta a sigla “GD” no centro e há um círculo em volta do termo com
os seguintes elementos: i) “o quê?”, que sustenta que o foco da governança corporativa se dá sobre os
recursos dos dados, das informações e do conhecimento, que são considerados ativos empresariais; ii)
“por quê?”, que inclui mercado, clientes, regulações: aderência/compliance, reputação, qualidade, segu-
rança e fontes variáveis de dados: ERP, SCM, SFA e PLM; iii) “onde?”, que abrange as áreas sensíveis da
empresa, tais como clientes, fornecedores e produtos, as áreas recentemente juntadas e as áreas de
Master Data (MD); iv) “quando?”, que está dentro de um planejamento estratégico em vários anos e inclui
um ciclo de projetos dentro do Programa de GD; v) “quem?”, que se refere às pessoas, à comunicação,
aos papeis envolvidos nas áreas de negócios sensíveis, ao gestor de dados da área de negócio e TI, ao
escritório de dados e ao comitê gestor de Governança de Dados; vi) “como?”, que diz respeito ao proces-
so de Governança de Dados sobre domínios (qualidade, MDM, BI, analytics), às políticas sobre direitos,
padrões, responsabilidade, controle de segurança, privacidade, regras de negócio e riscos, às medições
de qualidade de dados e ao programa de GD, tais como projetos com retornos claros e imediatos; e vii)
“quanto?”, que abrange ROI, recursos, custos e ganhos intangíveis, e custo negativo - Data Flaws.
77
UNIDADE 2
Em seu livro, Carlos Barbieri (2011) explica a visão geral da Governança de Da-
dos (GD) a partir do 5W e 2H. A seguir, são detalhados cada item da Figura 12:
Joaquim e Lara partiram para o levantamento das pessoas que eram os agentes
de dados da organização. A partir dessa lista, foram identificados os possíveis
Responsáveis Técnicos (RTs) de cada área de negócio, que serão os envolvidos
no processo de levantamento e especificação das bases de dados e indicadores.
Após o levantamento das pessoas, foi feita uma reunião para informar o im-
portante papel que eles terão no processo de implantação da Governança de
Dados da empresa. Os dois evidenciaram alguns problemas que a organização
78
UNICESUMAR
enfrenta e como a implantação pode ajudá-los a não terem que conviver com
esses problemas novamente.
Ao final da apresentação, uma garota chamada Carolina levantou a mão
e perguntou: “Vocês sabem em qual nível de maturidade de governança nós
estamos?”. Naquele momento, Joaquim ficou assustado. Ele havia esqueci-
do de considerar algum modelo de maturidade em Governança de Dados
para posicionar o atual e os futuros estados. Por sorte, lembrou-se de um
modelo proposto pela Gartner Group, o chamado Enterprise Information
Management (EIM), que tem níveis de maturidade definidos e pode ajudar
as organizações a saberem onde pretendem chegar. Assim, é possível gerar
um plano estratégico para o alcance das metas estabelecidas. A Figura 13
apresenta mais detalhes:
Projetos multiorganizacionais
Evolução
Reativo (nível 2)
compartilhando dados e informações
Descrição da Imagem: a figura apresenta uma seta que aponta para cima e é intitulada “Evolução”, a
fim de demonstrar a evolução entre os níveis: 0 - Ausente (decisão estratégica sem informação adequa-
da); 1 - Consciente (entendimento do valor da organização); 2 - Reativo (projetos multiorganizacionais
compartilhando dados e informação); 3 - Proativo (a informação é compreendida como necessária para
a melhoria de performance do negócio); 4 - Gerenciado (a informação é entendida como ativo crítico); e
5 - Efetivo (o valor da informação é obtido via cadeia de fornecimento da informação).
79
UNIDADE 2
80
UNICESUMAR
81
UNIDADE 2
Processo Padrão
para a Governança
de Dados
Descrição da Imagem: a figura apresenta uma hierarquia. Nela, há um processo maior, o chamado “Pro-
cesso padrão para a Governança de Dados”, que se especializa em quatro processos inferiores: “Processo
de definição para a estruturação da Governança de Dados”, “Processo definido para qualidade de dados”,
“Processo definido para o MDM” e “Processo definido para a segurança de dados”.
82
UNICESUMAR
EXPLORANDO IDEIAS
O Master Data Management (MDM) é um conjunto de processos, técnicas e ferramentas que or-
ganizam os dados da organização em um banco de dados unificado. Nele, os dados já estão va-
lidados e transformados, e expressam conceitos únicos para todos os domínios da organização.
Fonte: o autor.
Camada de
Indicadores
(DW)
Camada de Acesso
(MDM)
Descrição da Imagem: a figura apresenta uma pirâmide com três camadas. A base tem o seguinte título:
“Camada de Dados Transacionais (ERP, CRM e e-commerce, por exemplo)”. A camada central é chamada
de “Camada de Acesso (MDM)”, enquanto a camada superior é intitulada “Camada de Indicadores (DW)”.
83
UNIDADE 2
de dados têm acesso à Camada de Acesso, que, geralmente, é implementada com base
no conceito de MDM. Ela é uma camada totalmente governada e deve ter processos
de gestão de acesso e segurança de dados. Em outras palavras, para um usuário, só são
visíveis os dados que ele tem permissão para visualizar. Por fim, a Camada de Indica-
dores é, de modo geral, implementada em forma de Data Warehouse e é consumida
por dashboards, que compõem uma solução de BI. Nesse caso, todos os indicadores
são governados e submetidos às políticas de acesso e segurança da informação.
Como se pode perceber, o processo de definição da segurança da informação
é muito importante e deve ser contemplado quando se fala em GD. Dois aspectos
iniciais são o processo de gestão de acesso e formação dos perfis, que se refere ao
mapeamento do que cada agente de dado pode acessar, e a obtenção de ferramentas
tecnológicas que garantam esse acesso (e seus filtros). A GD deve ter processos para
a inclusão, manutenção e exclusão de privilégios de acesso por perfil dos agentes de
dados. Além do mais, é importante que toda a decisão de acesso seja colegiada entre
os gestores e, em muitos casos, concedidas apenas com a autorização dos diretores.
Posteriormente, Joaquim e Lara passaram a definir os processos de qualidade
de dados, que abrangem uma das etapas mais importantes para a implantação da
GD. A qualidade de dados pode ser definida com base em várias dimensões, assim
como Barbieri (2019) sustenta:
■ Integridade de dados: dado confiável que passou por um processo de ava-
liação e pelas regras de negócio (se houver), garantindo a sua sinergia com
os conceitos definidos.
■ Segurança e privacidade dos dados: garantia de que não sejam inseridos,
nas bases, dados sensíveis ou que venham a ferir alguma legislação, como a
Lei Geral de Proteção de Dados.
■ Documentação: ter clareza sobre a natureza dos dados, o seu ciclo de vida,
atualização, regras de negócio e conceitos vinculados. Essa documentação
deve estar acessível para todos os envolvidos.
■ Dados qualificados para a tomada de decisão: está relacionado ao fato de
os dados analíticos estarem organizados em repositórios do tipo DW, MDM
ou outros que tenham processos de transformação e limpeza atrelados.
Por fim, Joaquim e Lara buscaram algumas ferramentas para apoiá-los no processo
de garantia da qualidade de dados e conheceram em cinco ferramentas. De acordo
com Barbieri (2011), são elas:
84
UNICESUMAR
85
AGORA É COM VOCÊ
Assinale a alternativa que apresenta o nome de, pelo menos, três níveis desse modelo:
86
CONFIRA SUAS RESPOSTAS
1. D.
2. A.
Tarefa supervisionada: diz respeito às atividades que precisam de uma etapa de trei-
namento para que possam ser executadas. Classificação é uma tarefa supervisionada.
Tarefa não supervisionada: refere-se às tarefas que não precisam de uma base já
classificada como treinamento para que possam ser executadas. Agrupamento e
associação são tarefas não supervisionadas.
3. E.
Os nomes das seis fases são: ausente, consciente, reativo, proativo, gerenciado e
efetivo.
87
REFERÊNCIAS
AMARAL, F. Introdução à Ciência de Dados: mineração de dados e big data. Rio de Janeiro: Alta
Books, 2016.
ANDERSON, C. Creating a Data-Driven Organization: practical advice from the trenches. Uni-
ted States of America: O’Reilly Media, 2015.
BARBIERI, C. BI2 - Business Intelligence: modelagem & qualidade. São Paulo: Elsevier, 2011.
BARBIERI, C. Governança de dados: práticas, conceitos e novos caminhos. Rio de Janeiro: Alta
Books, 2019.
CAPELA, M. V.; CAPELA, J. M. V. Elaboração de gráficos box-plot em planilhas de cálculo. In: CON-
GRESSO DE MATEMÁTICA APLICADA E COMPUTACIONAL, 1., 2011, Uberlândia. Anais [...]. Uber-
lândia: CMAC, 2011.
CONAMAY, D. The data science venn diagram. Drew Conway, 30 set. 2010. Disponível em:
http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram. Acesso em: 17 fev. 2021.
RAMOS, J. L. C. et al. CRISP-EDM: uma proposta de adaptação do Modelo CRISP-DM para mine-
ração de dados educacionais. In: SIMPÓSIO BRASILEIRO DE INFORMÁTICA NA EDUCAÇÃO, 31.,
2020, Natal. Anais [...]. Natal: SBC, 2020.
RAUTENBERG, S.; CARMO, P. R. V. do. Big Data e Ciência de Dados: complementariedade concei-
tual no processo de tomada de decisão. Brazilian Journal of Information Science: Research
Trends, v. 13, n. 1, p. 56-67, 2019.
REFERÊNCIAS ON-LINE
¹Em: https://michaelis.uol.com.br/moderno-portugues/busca/portugues-brasileiro/ci%-
C3%AAncia/. Acesso em: 17 fev. 2021.
88
3
Introdução ao
Big Data
Dr. Flavio Ceci
Ao adicionar a ciência de dados nas entregas analíticas, foi dado um salto muito
importante, visto que foi possível conhecer melhor os clientes, o que potencializou
ainda mais as soluções de CRM. Nesse contexto, foram desenvolvidos os Modelos
de Churn, que demonstram a probabilidade de um cliente já fidelizado deixar de
comprar na loja. Também foi entendido o comportamento de compra dos clientes,
o que permitiu a proposição de um mix de produtos por loja considerando o mês
do ano, o que diminui ao máximo a possibilidade de um cliente não encontrar o que
procura em uma loja física. Esse mesmo estudo foi estendido para o ambiente digital,
já que foi elaborada uma série de indicadores e alertas para a área de compra, de
modo que os clientes do e-commerce também não tivessem problema em encontrar
os produtos que necessitavam.
Tanto a área de CRM quanto a área de compras estavam em êxtase com as novas
entregas analíticas feitas pela área de Lara. As equipes comentavam que a chegada
de Joaquim complementou muito a área da tecnologia, que já vinha fazendo um
excelente trabalho, mas que, claramente, obteve um ganho ainda maior com o in-
gresso do novo integrante, que tem a sua mente totalmente dirigida por dados e
sempre levanta questões relacionadas ao ciclo de vida do dado e, principalmente, à
sua utilização para o negócio.
A área de logística também estava muito satisfeita com as novas ferramentas de-
senvolvidas para apoiar o processo de descentralização do seu estoque em forma de
vários centros de distribuição (CD) espalhados
pelo país. Os estudos feitos foram essenciais
para saber quais seriam as cidades mais estra-
tégicas para a instalação dos centros e para co-
nhecer o ciclo de vida de cada um dos produtos
durante a distribuição entre os CDs, levando
em consideração o mix ideal
de produtos por loja e a
frequência de vendas com
90
UNICESUMAR
91
UNIDADE 3
92
UNICESUMAR
DIÁRIO DE BORDO
93
UNIDADE 3
Anderson, mais uma vez, ficou muito animado com a alternativa apresentada por
Lara e Joaquim. Ele se impressionou com a possibilidade de identificar tendên-
cias, com o objetivo de antecipar compras ou parcerias e estar preparado para
as futuras demandas de seus clientes. Evidentemente, Anderson sabe que esse
tipo de abordagem carrega uma taxa de erro embutida, já que diz respeito aos
processos de previsões e predições.
A empresa teve um crescimento muito grande e Anderson decidiu vender par-
te dela para um grupo de empresários. Diante disso, precisa justificar o seu novo
investimento em infraestrutura para suportar as novas soluções baseadas em Big
Data e pediu para que Joaquim e Lara desenvolvessem um relatório para todos os
executivos da empresa. Nesse documento, era preciso esclarecer o que é Big Data,
como ele pode beneficiar a organização, como se dá a sua formação e quais são os
principais métodos e técnicas. Dessa forma, seria possível adquirir espaço na pauta
do conselho, para que, na próxima reunião, fossem tratadas as questões relacionadas
ao valor ou ao conjunto de despesas necessárias para a implantação da solução.
Inicialmente, é necessário entender o que é Big Data. O primeiro equívoco
é acreditar que se trata apenas de um conjunto gigantesco de dados armazena-
dos ou crer que há uma definição ou entendimento único para esse termo. Para
tornar o seu entendimento mais fácil, são apresentadas algumas características
incontestáveis a seu respeito:
■ Tem bases com grandes quantidades de dados, estruturados ou não es-
truturados. Não há a possibilidade de armazenamento desses dados por
meio de abordagens tradicionais.
■ São utilizadas tecnologias, geralmente, com processamento paralelo e
distribuído, para que seja possível manipular essa grande quantidade de
dados.
■ Pode prover importantes repositórios para a ciência de dados desenvolver
os seus modelos ou ferramentas analíticas, com o objetivo de apoiar o
processo de tomada de decisão.
Alguns autores, tais como Taurion (2013) e Hurwitz et al. (2016), explicam as caracte-
rísticas comuns dos ambientes de Big Data. Um exemplo são os 3Vs, que abrangem:
94
UNICESUMAR
95
UNIDADE 3
A seguir, são detalhados os três novos “V”s propostos ao modelo dos 3Vs
inicial. Essa proposta foi feita por Akhtar (2018) e aprofundada por Rautenberg
e Carmo (2019):
■ Veracidade: está diretamente ligada a qualidade dos dados que estão sen-
do inseridos na base de dados massiva da organização. Portanto, é preciso
evitar a inserção de dados que não são relevantes ao domínio de aplicação.
■ Variabilidade: entendimento dos eventos sazonais ou das situações que
possam influenciar os dados armazenados. Essa informação é importante
para que não sejam gerados ruídos e para que se possa tratar o fenômeno
de maneira isolada e adequada.
■ Valor: é um dos aspectos principais de um projeto de Big Data, que en-
tende que os dados ali armazenados são valiosos para a organização.
Por que foi necessário adicionar novas características às soluções de Big Data?
EXPLORANDO IDEIAS
É interessante refletir sobre a inclusão dos novos 3Vs. Essa atitude demonstra claramente
uma mudança de mentalidade nos processos de construção e de uso das soluções de
Big Data. Em um primeiro momento, havia uma preocupação muito grande em relação
à infraestrutura computacional, para que fosse possível armazenar e processar grandes
quantidades de dados produzidos por segundo. Por outro lado, em um segundo momen-
to, tornou-se visível uma preocupação com a obtenção e o armazenamento de um dado
de melhor qualidade. Essa alteração ocorreu, visto que foi constatado que dados que não
são relevantes geram custos de armazenamento e de processamento e, em muitos casos,
levam a tomada de decisão de forma equivocada.
As características “veracidade”, “variabilidade” e “valor” estão muito vinculadas à ideia de
se ter um maior controle e conhecimento dos dados. Além disso, evidenciam o quão valio-
sos esses dados podem ser para a tomada de decisão, o que se trata de uma informação
extremamente importante para justificar os investimentos dessa natureza, já que permite
mensurar o ganho de faturamento a partir das novas fontes e ferramentas analíticas.
Fonte: o autor.
96
UNICESUMAR
97
UNIDADE 3
Descoberta
Ex. As vendas cresceram porque foi Ex. Sempre que é lançado um novo
aumentada a meta dos vendedores. instrumento numa terça-feira as
vendas são muito maiores.
Entendimento
Figura 2 - Diferença de BI para Big Data / Fonte: o autor.
Descrição da Imagem: a figura é composta por duas áreas. A primeira, que está no lado esquerdo, refere-se
ao Business Intelligence (termo que está de destaque) e, logo abaixo, está escrito: “Foco: ‘porque’”. Na se-
quência, é dado o seguinte exemplo: “As vendas cresceram porque foi aumentada a meta dos vendedores”.
Entre o quadro do Business Intelligence e o próximo, que está no lado direito, há uma seta que contém o
termo “Descoberta”. O seguinte quadro tem o termo em destaque: “Big Data”. Na sequência, está escrito:
“Foco: ‘o que’” e é apresentado o seguinte exemplo: “Sempre que é lançado um novo instrumento em uma
terça-feira, as vendas são muito maiores”. Também há uma seta que parte do quadro dois para o quadro
um e carrega o seguinte termo: “Entendimento”.
98
UNICESUMAR
Primeiramente, pode parecer loucura deixar de ter um valor exato para se ter
apenas um fato. Todavia, diariamente, todos nós utilizamos abordagens como essa.
Um exemplo é o motor de busca do Google. Sempre que é feita uma busca por um
termo comum, como “Big Data”, será apresentada uma listagem de páginas e, no ro-
dapé do site, há um número muito grande, o qual representa a quantidade de páginas
aproximadas que foram encontradas. A Figura 3 apresenta esse exemplo. Um fato
importante a se considerar é o de que sempre que fazemos uma consulta como essa,
temos o resultado muito rapidamente. Se fossemos apresentar o número exato de
páginas que possuem o termo Big Data em seu conteúdo, muito provavelmente, não
teríamos a resposta de nossa consulta em um dia. Em outras palavras, nós aceitamos
um número gigantesco enquanto um indicador qualitativo, que nos expressa que
existem muitas páginas sobre o assunto, embora saibamos que o valor não é exato.
Descrição da Imagem: a figura apresenta uma captura da tela do motor de busca do Google. Nela, é ex-
posto o termo: “Big Data”. O resultado da busca tem a seguinte descrição: “Aproximadamente 7.210.000.000
resultados (0,89 segundos)”.
Sempre que nos sentimos confortáveis com um tipo de decisão que não temos o valor
exato, mas aceitamos a real confusão dos dados, estamos preparados para utilizar um
ambiente de Big Data a nosso favor. Essa foi uma reflexão que Lara e Joaquim fizeram
sobre o cenário que estavam vivendo e decidiram, mais uma vez, que deveriam tra-
balhar desse modo para evoluir a cultura de dados da empresa. Em um curto espaço
de tempo, os gestores também se sentiriam confortáveis com a utilização desse tipo
de abordagem. Com o objetivo de estabelecermos uma comparação, apresentamos
um quadro desenvolvido por Davenport (2014):
Dados formatados em
Tipo de dado Formato não estruturado
linhas e em colunas
99
UNIDADE 3
Dezenas de terabytes
Volume de dados 100 terabytes a petabytes
ou menos
O termo “Big Data” começou a aparecer com mais frequência em 2010, visto que pas-
sou a ser percebido pelas organizações enquanto uma estratégia para a sua evolução e
100
UNICESUMAR
Competências chave
• Arquitetura de participação
Modelos leves de • Aproveitamento da Fim do ciclo de liberação
programação inteligência coletiva do software
Descrição da Imagem: a figura apresenta um modelo em que há um retângulo no centro com o seguinte
texto: “Posicionamento estratégico (a web como plataforma). Competências-chave: arquitetura de partici-
pação e aproveitamento da inteligência coletiva”. Ao redor desse retângulo, existem sete retângulos com os
seguintes conteúdos: “Ênfase nos usuários, e não na tecnologia”; “O comportamento do usuário não está
predeterminado”; “O software melhora à medida que mais pessoas o utilizam; “Fim do ciclo de liberação do
software”; “Modelos leves de programação”; “Experiência e conhecimento pessoal dos usuários”; e “Confiar
em seus usuários”.
101
UNIDADE 3
Assim como é visualizado no centro da Figura 4, a web passou a ser tratada como
plataforma. Por isso, foi possível formular uma arquitetura de participação em
que recursos, tais como blogs e wikis, permitiam a publicação de conteúdos e
que outros usuários também pudessem dar a sua opinião, construindo, assim,
uma cultura de colaboração e de construção coletiva. A partir da Web 2.0, os
usuários passaram a produzir muito conteúdo em seus blogs, a postar fotos e,
principalmente, emitir opiniões sobre produtos, serviços e empresas em geral.
São exemplos atuais de plataformas de Web 2.0: Facebook, Twitter, Instagram e
LinkedIn. A figura a seguir ilustra as principais diferenças entre os recursos da
web clássica (ou Web 1.0) em relação à Web 2.0:
Figura 5 - Diferenças entre a Web 1.0 e Web 2.0 / Fonte: adaptada de Silva e Leão (2009).
Descrição da Imagem: a figura apresenta dois quadros. O da esquerda tem o seguinte título: “Web 1.0” e
apresenta as seguintes características em seu interior: o utilizador é consumidor da informação; dificuldades
inerentes à programação e à aquisição de um software específico para a criação de páginas web; para ter um
espaço na rede, na maioria dos servidores, é preciso pagar; menor número de ferramentas e possibilidades.
Já no quadro localizado no lado direito, o título é: “Web 2.0” e as características que são apresentadas em
seu interior são: o utilizador é consumidor e produtor de informação; facilidades de criação e na edição de
páginas on-line; o utilizador tem vários servidores para disponibilizar as suas páginas de forma gratuita;
número de ferramentas e possibilidades ilimitadas.
102
UNICESUMAR
EXPLORANDO IDEIAS
103
UNIDADE 3
Crescimento
de 50 vezes
do início de 2010 30.000
ao final de 2020
(Exabytes) 20.000
10.000
2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020
Descrição da Imagem: na figura, é apresentado um gráfico de barras. Nas linhas, estão presentes os anos
entre 2009 e 2020. O gráfico demonstra que a quantidade de dados aumentou 50 vezes de 2010 a 2020.
104
UNICESUMAR
EU INDICO
105
UNIDADE 3
106
UNICESUMAR
Identificação
Comunicação Sensores
Serviços Computação
Semântica
Descrição da Imagem: na figura, há, no centro, uma solução de IoT que está ligada a alguns ícones com os
seguintes dizeres: comunicação, identificação, sensores, computação, semântica e serviço.
107
UNIDADE 3
108
UNICESUMAR
em seu cotidiano e o seu ambiente deve estar preparado para isso, o que reforça o
argumento a ser apresentado para a diretoria no que diz respeito à importância de
se desenvolver uma infraestrutura para suportar um ambiente de Big Data.
Carolina, que era a gerente de projetos de aplicativos para dispositivos móveis
da empresa e já havia contribuído com o projeto, ao perguntar para Joaquim
e Lara sobre a utilização de modelos de maturidade analítica, contribui ainda
mais com o trabalho de nossa querida dupla: Carolina se lembrou de que um
dos recursos previstos para o aplicativo da loja é o de registrar toda a interação
do cliente, a fim de complementar o seu perfil, ao levantar informações sobre
interesses. Outro aspecto que será registrado se refere às coordenadas de GPS de
uso do aplicativo. Essas informações podem ser utilizadas para gerar alertas de
promoções personalizadas e para identificar os locais em que os clientes passam
e se lembram da loja, o que pode ser uma informação utilizada para a área de
expansão das lojas físicas.
Com a observação feita por Carolina, ficou ainda mais evidente a necessidade
de se ter uma infraestrutura de Big Data, tendo em vista que muitos dados serão
coletados pelo aplicativo e devem estar disponíveis para as áreas analíticas da or-
ganização, para que, assim, complementem a construção de novas ferramentas e
análises. Lara e Joaquim já tinham todos os argumentos a serem apresentados para
a diretoria e sabiam que seria solicitada uma prévia do investimento. Para isso, seria
necessário entender melhor quais são os métodos e as técnicas que são aplicados
em um ambiente de Big Data. Em um futuro próximo, eles poderiam levantar os
principais fornecedores de tecnologia para apoiá-los na implantação desse ambien-
te. Esse é o próximo destino que os dois percorrerão. Estão cada vez mais próximos
a aprovação e o desafio da implantação de todo o ambiente de Big Data.
109
UNIDADE 3
Aplicações
(visualizações, BI, Analytics)
Código da Aplicação
Dados
Infraestrutura
de plataforma
Armazenamento
Descrição da Imagem: a figura apresenta as camadas de uma solução de Big Data. A camada de base está
relacionada com o armazenamento. Na sequência, há a camada de infraestrutura de plataforma, seguida
pela camada de dados. Depois, há a camada de código da aplicação, seguida pela camada de visão dos ne-
gócios. Nela, há, entre parênteses, os seguintes exemplos: modelos e cubos. Por fim, na camada superior,
há as aplicações e, entre parênteses, estão: visualizações, BI e analytics.
A figura apresenta as várias camadas que compõem uma solução de Big Data. A
seguir, elas são explicadas detalhadamente:
110
UNICESUMAR
PENSANDO JUNTOS
Será que a utilização de Data Warehouse é a melhor alternativa para receber os dados
coletados de várias fontes distintas e inseridos em uma solução de Big Data?
Nesse momento, a nossa dupla começou a refletir sobre as premissas de uma solu-
ção baseada em Data Warehouse em relação a uma solução de Big Data. Um dos
aspectos principais na construção de um Data Warehouse é a utilização de um
processo de ETL e uma das grandes responsabilidades da fase de “transformação”
é justamente validar os dados e aplicar as regras de negócio, a fim de garantir
que os dados inseridos estejam limpos e validados. Quando consideramos um
ambiente de Big Data, milhares de novos dados podem ser gerados por segundo,
o que tornaria inviável um processo de limpeza e aplicação de regras de negócio
durante a fase de ingestão dos dados.
111
UNIDADE 3
112
UNICESUMAR
Processamento Batch em
Workload Processamento Batch
larga escala
Programação flexível
SQL ANSI SQL, Propriedades ACID
envolvendo SQL
Quadro 2 - Diferenças entre um Data Warehouse e um Data Lake / Fonte: Pires (2017, p. 10-11).
É evidente que as soluções de Data Lake e Data Warehouse podem ser utilizadas
em conjunto e de maneira sinérgica, de modo que cada uma focará em um tipo
de dados e será utilizada por processos analíticos distintos. Essa abordagem pode
ser chamada de solução híbrida e a figura a seguir apresenta mais detalhes sobre
esse tipo de solução:
113
UNIDADE 3
Solução Híbrida
Dados multi estruturados
Conjunto de dados completos
Capacidades analíticas
Governança de dados
Figura 9 - Soluções híbridas de Data Warehouse e Data Lake / Fonte: Pires (2017, p. 12).
Descrição da Imagem: a figura tem dois quadrados. O primeiro é intitulado “Data Warehouse” e possui as
seguintes características: dados estruturados, suporte em tempo real, capacidades analíticas e governança
de dados. No segundo quadrado, há o título “Data Lake” e as seguintes características: dados multi estrutu-
rados, conjunto de dados completos e perspectiva histórica/contexto. Os dois quadrados apontam para um
círculo central, intitulado “Solução híbrida”. Ele tem as seguintes características: dados multi estruturados,
conjunto de dados completos, capacidades analíticas e governança de dados.
Lara e Joaquim entendem que precisam ter as duas soluções em uma perspectiva
híbrida para apoiar os processos analíticos que já estão instalados e funcionando,
como as soluções de Business Intelligence, que já têm uma grande entrega de
valor para a empresa, mas estão abertas para os dados massivos e externos à or-
ganização. A partir do entendimento da chamada solução híbrida, que mantém
as características principais das soluções baseadas em Data Warehouse e Data
Lake, ambos passaram a desenhar uma arquitetura para a infraestrutura de dados
que suportasse o legado analítico, permitindo a construção de novas dimensões
e fatos a partir dos dados vindos do Data Lake e a disponibilização dessa essa in-
fraestrutura aos processos de análises exploratórias e rotinas de ciências de dados.
A partir de algumas discussões, foi obtido um desenho que demonstra as
camadas lógicas do repositório analíticos de dados. Eles o chamaram de Data
Lake, que é composto por três camadas: uma chamada “estagiamento” (staging),
outra denominada “acesso” e última “de indicadores”. A figura a seguir apresenta
a organização das camadas lógicas:
114
UNICESUMAR
Camada de Indicadores
Data Lake
Camada de Acesso
Camada de Staging
Descrição da Imagem: a figura apresenta um retângulo na vertical com o título “Data Lake”. Esse retângulo
está ligado a outros três retângulos horizontais. O inferior tem o título “Camada de Staging”, o do meio é
chamado de “Camada de Acesso” e o superior é intitulado “Camada de Indicadores”.
Cada camada do Data Lake tem uma responsabilidade e uma forma de imple-
mentação bem definida. Lembre-se de que essa é uma visão lógica da proposta
de solução. Quando partir para a implementação, é possível ter mais de uma
tecnologia em uma camada e uma tecnologia sendo compartilhada por camadas
lógicas distintas. A seguir, as camadas são descritas com detalhes:
■ Camada de Staging: é a camada inferior da arquitetura lógica proposta.
Nela, são armazenados os dados brutos à medida que são coletados. Ela não é
acessível por agentes de dados humanos, apenas por sistemas de carga e pelo
administrador do ambiente. Além disso, pode ser desenvolvida utilizando
criptografia dos dados de base ou por compactação (dependendo do tipo
de tecnologia escolhida). É possível ter todos os dados externos coletados e
uma réplica dos dados gerados a partir dos sistemas internos da organização.
■ Camada de Acesso: reside os dados coletados e armazenados na cama-
da de staging, já processados e modelados de acordo com os domínios
da empresa. Eles podem ser modelados utilizando o conceito de Master
Data Management (MDM). Essa é a camada que os analistas de dados
consumem para gerar os seus relatórios de operação e gerenciais. Nela, é
possível gerar bases exclusivas para a área da ciência de dados construir
os seus estudos e modelos de apoio à decisão.
■ Camada de Indicadores: representa a camada superior da arquitetura de
dados proposta. Tradicionalmente, é desenvolvida utilizando uma mode-
115
UNIDADE 3
EXPLORANDO IDEIAS
Intelligence.
Para se ter uma solução de MDM na camada de acesso de um Data Lake, é neces-
sário ter uma governança de dados implantada. Outra observação importante é a
de que o MDM pode ser utilizado para apoiar os processos de ETL para a carga
da camada de indicadores.
Obtidas as conclusões expostas e diante do desenho da arquitetura lógica da
infraestrutura de dados formulado, surgiram mais algumas dúvidas:
■ Como garantir que a estrutura da camada de estagiamento mantenha
quantidades de dados realmente grandes?
■ Como garantir que todo os dados sejam processados em tempo hábil
para a tomada de decisão?
116
UNICESUMAR
Sistema Distribuído
Visão Unificada
Descrição da Imagem: a figura mostra três servidores com a representação de um banco de dados em
cada um deles, os três servidores estão ligados entre si, e existe um rótulo: Sistema Distribuído, esses três
servidores estão dentro de uma chave que dá a ideia que as três máquinas estão contidas no quarto servidor
que possui o rótulo: Visão Unificada.
A figura mostra um conjunto de servidores que tem estruturas físicas distintas, mas
que são utilizadas a partir de uma visão unificada, ou seja, como se houvesse apenas
um servidor com somente um sistema de arquivo. Para se obter essa visão unifi-
cada, é necessário conhecer a ideia de sistemas de arquivos distribuídos. Quando
falamos de um sistema de arquivo, referimo-nos a uma estrutura básica dentro de
um sistema operacional de um computador que faz a gestão dos dados a nível de
armazenamento do disco rígido (ou outra tecnologia de armazenamento utilizada).
117
UNIDADE 3
Ele sabe o local em que o arquivo está armazenado, como fazer o seu acesso facilita-
do e demais recursos. Já quando nos referimos a um sistema de arquivo distribuído,
estamos tratando de um sistema que já tem todos os recursos de um sistema de
arquivo, mas analisa vários sistemas de arquivos distintos armazenados em servi-
dores diferentes e que são acessíveis como se fosse apenas um sistema de arquivo.
Ao se aprofundarem ainda mais nessa temática, Lara e Joaquim chegaram a
um importante conceito: o MapReduce. A figura 12 apresenta mais detalhes sobre
o fluxo de dados no MapReduce:
Fonte(s) de Dados
Descrição da Imagem: a figura apresenta, em sua parte superior, uma fonte de dados. A partir dos seus
dados brutos, é passada por um processo de Map (na imagem, são apresentados quatro processos de
Map em paralelo), cuja saída são os dados selecionados que são agregados em uma barreira com o nome:
“Coletar dados e criar lista de resultado”. A partir dessa barra, três processos de reduce consomem dados
em paralelo, gerando dados processados.
118
UNICESUMAR
Assim como o próprio nome sugere, o MapReduce é composto por dois prin-
cipais processos: o de Map e o de Reduce. Eles são detalhados a seguir:
■ Map: a função Map, assim como o próprio nome já sugere, objetiva
mapear. Para quem tem experiência em programação, é muito similar
à ideia dos mapas de algumas linguagens de programação, que são
estruturas do tipo: chave e valor que abstraem fisicamente o dado ar-
mazenado. Basta apenas pedir o dado que a função se encarregará de
encontrá-lo e entregá-lo. No entanto, é importante reforçar que esse
dado pode vir combinado com outros dados relacionados.
119
UNIDADE 3
120
UNICESUMAR
121
AGORA É COM VOCÊ
1. O termo Big Data não se refere a uma tecnologia específica, mas a um cenário, mo-
mento e um ambiente.
122
CONFIRA SUAS RESPOSTAS
1. D.
2. A.
3. B.
São repositórios massivos de dados multi estruturados que podem ser organizados
em camadas para facilitar o processo de inserção dos dados. São exemplos: camada
de staging, camada de acesso e camada de indicadores.
123
REFERÊNCIAS
AKHTAR, S. M. F. Big Data Architect’s Handbook: a guide to building proficiency in tools and
systems used by leading big data experts. Birmingham: Packt Publishing, 2018.
BLATTMANN, U.; SILVA, F. C. C. da. Colaboração e interação na Web 2.0 e Biblioteca 2.0. Revis-
ta ACB, v. 12, n. 2, p. 191-215, 2007.
HURWITZ, J. et al. Big Data para leigos. Rio de Janeiro: Alta Books, 2016.
ISOTANI, S.; BITTENCOURT, I. I. Dados abertos conectados. São Paulo: Novatec, 2015.
NEVES, O. M. de C. Evolução das políticas de Governo Aberto no Brasil. In: CONGRESSO CON-
SAD DE GESTÃO PÚBLICA, 6., 2013, Brasília. Anais [...]. Brasília: CONSAD, 2013.
PIRES. F. M. M. Data Lake em Viticultura: big data management na agricultura. 2017. Dis-
sertação (Mestrado em Gestão da Informação) – Universidade Nova de Lisboa, Lisboa, 2017.
RAUTENBERG, S.; CARMO, P. R. V. do. Big Data e ciência de dados: complementariedade con-
ceitual no processo de tomada de decisão. Brazilian Journal of Information Science, v. 13,
n. 1, p. 56-67, 2019.
SANTOS, B. P. et al. Internet das coisas: da teoria à prática. In: SIQUEIRA, F. A. et al. (org.). Livro
de Minicursos SBRC 2016. Porto Alegre: SBC, 2016. p. 1-50.
SILVA, B. L.; LEÃO, M. A contribuição da web 2.0 no processo de ensino e aprendizagem de Quí-
mica. Enseñanza de las ciencias: revista de investigación y experiencias didácticas, n. extra 0,
p. 3107-3113, 2009.
SINCLAIR, B. Como usar a Internet das Coisas para alavancar seus negócios. São Paulo:
Autêntica Business, 2018.
124
4
Tecnologias de
apoio ao Big
Data
Dr. Flavio Ceci
126
UNICESUMAR
127
UNIDADE 4
É sabido que os bancos de dados chamados Not only SQL (NoSQL, que, em
português, significa “não somente SQL”) são fortemente utilizados para apoiar os
ambientes massivos de dados. Esse tipo de solução não faz uso do modelo entida-
de-relacional baseado em tabelas e em relacionamentos com as chaves primária
e estrangeira. Logo, conhecer esse tipo de solução pode ser um importante passo
para quem deseja ingressar nesse universo de soluções de Big Data. Assim, Lara
e Joaquim deverão conhecer os vários tipos de soluções NoSQL, saber qual é a
diferença entre as soluções de NoSQL de primeira e segunda geração, e explicar
o que seria uma abordagem NoSQL híbrida.
Que tal apoiar Lara e Joaquim nessa jornada? Faça uma pesquisa na Internet
para saber um pouco mais sobre:
■ Quais são os tipos de bancos de dados NoSQL?
■ O que significa um banco de dados NoSQL de primeira e de segunda
geração?
■ Como seria um banco de dados NoSQL híbrido?
DIÁRIO DE BORDO
128
UNICESUMAR
129
UNIDADE 4
130
UNICESUMAR
O primeiro modelo de dados NoSQL que Lara e Joaquim se depararam foi o cha-
mado “chave/valor”. Ele tem uma forma de armazenamento muito parecida com a
estrutura de dados chamada “hash” (tabelas de espalhamento), em que os objetos são
indexados por uma única chave que remete a um valor de formato qualquer (inclu-
sive um objeto). Ao ler essa informação, Joaquim ficou mais tranquilo: ele não sabia
da existência de bancos apoiados em chave/valor, mas conhecia o conceito de tabelas
hash, que foi estudado em algumas disciplinas, tais como a de estrutura de dados.
As tabelas hash são estruturas focadas no processo de busca de valores a
partir de uma chave. Para isso, todos os valores são “espalhados” em endereços
que têm chaves vinculadas a ela, diminuindo o tempo de busca necessário. No
caso dos bancos baseados em chave/valor, a ideia é a mesma, o que os caracte-
rizam como bancos focados na busca por objetos a partir de um valor-chave
que pode ser definido para a estrutura.
EXPLORANDO IDEIAS
131
UNIDADE 4
{
“nome”: “Miguel”,
“idade”: 23,
“matrícula”: 9812,
“curso”: “Medicina Veterinária”
}
O próximo registro armazenado poderia ser:
{
“nome”: “Lua”,
“idade”: 23,
“matrícula”: 9813,
“curso”: “Design”,
“turno”: “Noturno”
}
Perceba que o segundo objeto armazenado tem um atributo turno que não havia sido
inserido. Essa atitude é possível, em consequência de os bancos não relacionais serem
livres de esquema. Dessa forma, o modelo chave/valor pode utilizar qualquer um
dos atributos como chave para encontrar os objetos (por exemplo, a chave pode ser
o atributo “matricula”). Segundo Lóscio, Oliveira e Pontes (2011, p. 7), “as operações
disponíveis para manipulação de dados são bem simples, como o get( ) e o set( ), que
permitem retornar e capturar valores, respectivamente. A desvantagem deste modelo
é que não permite a recuperação de objetos por meio de consultas mais complexas”.
O objeto JSON pode ser armazenado como um valor literal, mas não é pos-
sível executar um processo de filtro ou busca por um atributo em especial. Por
esse motivo, Lóscio, Oliveira e Pontes (2011) comentam que há uma desvantagem
em relação à recuperação de objetos a partir de consultas mais complexas, dado
que, de fato, é necessário fazer uma busca exata pela chave em questão. Essa es-
trutura é muito utilizada por bancos de dados em memória, com o objetivo de
fazer cache de aplicação Web, ou por bancos que armazenam estados de objetos
durante um processo. A figura a seguir apresenta uma representação gráfica de
como os dois objetos apresentados estariam organizados em um banco chave/
valor, considerando o valor da matrícula como a chave utilizada:
132
UNICESUMAR
Chave Valor
Descrição da Imagem: a figura apresenta duas colunas. Uma tem o título “Chave” e a outra tem o título
“Valor”. Abaixo da coluna “Chave”, há uma elipse com o valor 9812 que aponta para um retângulo, o qual
está abaixo da coluna “Valor”. O conteúdo do retângulo é o seguinte: {“nome”: “Miguel”, “idade”: 23, “ma-
trícula”: 9812, “curso”: “Medicina Veterinária”}. Abaixo, há o mesmo exemplo, mas com a chave 9813, que
aponta para os valores: {“nome”: “Lua”, “idade”: 23, “matrícula”: 9813, “curso”: “Design”, “turno”: “Noturno”}.
133
UNIDADE 4
TABELA
Descrição da Imagem: a figura apresenta um grande retângulo com o título “Tabela”, que busca agregar
todos os retângulos que estão abaixo. Assim, abaixo do retângulo “Tabela”, há outros dois retângulos. O
primeiro, que é mais estreito, é chamado de “Família de coluna 1”. Abaixo, há apenas uma coluna chamada
“Nome”, que possui valores armazenados. Ao lado do retângulo “Tabela”, está um retângulo mais largo, o
“Família de coluna 2”, que tem duas colunas de retângulos abaixo, as denominadas: “Celular” e “Telefone”.
Abaixo de cada uma das colunas, há os valores que as correspondem.
134
UNICESUMAR
135
UNIDADE 4
Descrição da Imagem: na figura, são demonstradas duas formas e ambas carregam um conjunto de ele-
mentos. Uma forma é chamada de “Coleção: aluno” e a outra é intitulada “Coleção: professor”. Dentro das
duas formas, há elementos muito parecidos, mudando apenas os valores dos atributos. Na “Coleção: aluno”,
estão duas colunas: uma é chamada de “Chave” e a outra é denominada “Valor”. Abaixo da coluna “Chave”,
há uma elipse com o valor 9812, que aponta para um retângulo que está abaixo da coluna “Valor” e é dota-
do do seguinte conteúdo: {“nome”: “Miguel”, “idade”: 23, “matrícula”: 9812, “curso”: “Medicina Veterinária”}.
Abaixo, há o mesmo exemplo, mas com a chave 9813 e com o valor {“nome”: “Lua”, “idade”: 23, “matrícula”:
9813, “curso”: “Design”, “turno”: “Noturno”}. Já na “Coleção: professor”, estão duas colunas: uma é intitulada
“Chave” e a outra é denominada “Valor”. Abaixo da “Chave”, existe uma elipse com o valor 123, que aponta
para um retângulo que está abaixo da coluna “Valor” e carrega o seguinte conteúdo: {“nome”: “Flavio”, “ida-
de”: 35, “matrícula”: 123, “curso”: “Ciência de Dados”}. Abaixo, há o mesmo exemplo, mas com a chave 124 e
com o valor: {“nome”: “Ana”, “idade”: 38, “matrícula”: 124, “curso”: “Engenharia Elétrica”, “turno”: “Noturno”}.
136
UNICESUMAR
GERENTE DE TI
GUITARRA
TRABALHA COMO
TOCA
Descrição da Imagem: a figura apresenta um grafo. Há um nó central com o título “Lara” e uma aresta
cujo título é “Trabalha como”. Essa aresta está ligada a uma seta que vai até outro nó, que é chamado de
“Gerente de TI”. O nó “Lara” também tem uma aresta com título “toca” ligado ao nó “Baixo”. Também há
uma aresta chamada “chefe de” ligada aos nós “Joaquim” e “Carol”. A partir do nó “Joaquim”, há uma aresta
“trabalha como” ligada ao nó “Cientista de Dados”. Por outro lado, a aresta “toca” está ligada ao nó “Guitarra”.
137
UNIDADE 4
138
UNICESUMAR
Joaquim tinha vontade de testar todos os bancos de dados NoSQL que havia
levantado em sua pesquisa. Todavia, sabia que, com o tempo disponível, não seria
possível. Assim, chegou até o trabalho desenvolvido por Faraon (2018), que expõe
uma lista de vantagens e desvantagens em relação ao uso de soluções NoSQL. A
seguir, são apresentadas as vantagens:
■ Esquema flexível: também conhecido como “livre de esquema”, represen-
ta a ideia de não haver uma estrutura rígida para armazenar dados sobre
um mesmo assunto ou temática. Assim, há flexibilidade no armazena-
mento e simplicidade na organização dos domínios de dados.
■ Escalonamento e desempenho: o processo de crescimento dessas so-
luções é horizontal, ou seja, são soluções distribuídas que permitem que
novos nós computacionais sejam adicionados (ou retirados), o que torna
a infraestrutura computacional elástica e otimiza os recursos utilizados.
■ Replicação de dados: a forma de replicação dos dados feitos pelos ban-
cos NoSQL permite o compartilhamento e a distribuição dos dados de
forma automática e transparente. Isso faz com que o processo de substi-
tuição de um servidor seja simplificado.
■ Disponibilidade: diante do processo de replicação dos dados, há uma
grande disponibilidade, já que os dados estão replicados e distribuídos.
Mesmo que haja um problema em um recurso, ele pode ser facilmente
substituído, sem a necessidade de tornar o ambiente indisponível.
Após apresentar as vantagens no que diz respeito ao uso dos bancos NoSQL,
Faraon (2018) expõe as desvantagens da utilização desse tipo de banco de dados:
■ Linguagem: não existe uma linguagem padrão, assim como há no SQL,
para interagir com os bancos NoSQL. Isso gera curvas de aprendizagem e
personalização de aplicações para a troca de soluções desse tipo.
■ Consistência: é sabido que, para se ter dados e informações distribuídas
com performance, flexibilidade e disponibilidade, não é possível garantir a
consistência de todos os dados armazenados. Desse modo, é possível haver
dados desatualizados e duplicados em um nó.
■ Esquema flexível: em consequência do esquema flexível, todo o controle de
integridade e de consistência é de responsabilidade da camada de aplicação.
139
UNIDADE 4
140
UNICESUMAR
■ NuoDB: tem versões pagas e de licença livre, mas com restrições de escala-
bilidade. Internamente, é estruturado em uma arquitetura de duas camadas
que facilita o seu processo de distribuição e uso.
■ CockroachDB: converte as instruções SQL em instruções chave/valor pela
velocidade de manipulação. Tem versão paga e licença livre.
141
UNIDADE 4
142
UNICESUMAR
AGRUPAMENTO HADOOP
SERVIDOR COMMODITY
DATA
NAME NODE NODE
DATA
SERVIDOR NODE
COMMODITY
SERVIDOR DATA
COMMODITY NODE
Descrição da Imagem: na figura, é apresentado um armário com vários servidores armazenados. Assim, é
exposto o detalhamento de três servidores. Um é chamado de “Name Node”, que está em conjunto com uma
instância do “Data Node”. Já nos outros dois outros servidores existe apenas uma instância de Data Node.
143
UNIDADE 4
em que os dados chegam ao sistema com uma baixa latência de resposta. [...] Dado
uma sequência de dados (um stream), uma série de operações é aplicada a cada
elemento no stream”. Há algumas ferramentas que implementam o conceito de
processamento de streams e alguns exemplos são apresentados a seguir:
■ Apache Storm: framework de computação distribuída para o processa-
mento de streaming. Desenvolvido em Clojure, é de código aberto e tem
licença livre. As aplicações são desenhadas em forma de grafo acíclico
dirigido.
■ Spark Streaming: pode ler dados a partir de HDFS, Kafka e outras fontes
de dados. Isso permite que o processamento seja feito tanto em streaming
quanto em batch, ao utilizar todo o potencial do Spark.
■ Hadoop Streaming: solução de streaming para trabalhar dentro do ecos-
sistema Hadoop.
■ Apache Flink: escrito em Java e em Scala, é um framework de processa-
mento distribuído que trabalha tanto com streaming quanto com pro-
cessamento em batch. Não tem um sistema de armazenamento e é com-
patível com HDFS, Kafka, Apache Cassandra, dentre outros.
■ Apache Kafka: escrito em Java e em Scala, é uma plataforma de código
aberto para processamento distribuído. Já tem uma camada de armaze-
namento e é baseado no conceito de fila de mensagens.
144
UNICESUMAR
Calcula as
temperaturas
máximas e
mínimas
Dados Dados de
coletados Filtro dos Combina as saída
dados informações
Calcula
média das
temperaturas
Operador
Dados
Descrição da Imagem: na figura, há a primeira etapa, chamada de “Dados coletados”. Assim, é visualizada
uma seta que vai até um operador (processo) intitulado “Filtro de Dados”. A partir dessa etapa, há duas
setas que saem em paralelo: a superior vai até o operador “Calcula as temperaturas máximas e mínimas” e
a segunda segue para o operador “Calcula média das temperaturas”. Ambos os operadores apontam para
o próximo operador no fluxo, cujo título é “Combina as informações”. Ao final, uma seta informa: “Dados
de saída”.
“
. Processo: é o componente mais simples. Trata-se de uma trans-
formação aplicada a um dado de entrada, gerando uma saída.
. Pipeline: é resultante da combinação sequencial de transformações,
produzindo resultados intermediários utilizados pelo seu sucessor,
sendo uma extensão do modelo de processo, mas considerada uma
estrutura única, por ser recorrente em modelos de workflows.
145
UNIDADE 4
Processo
Pipeline
Agregação de dados
Distribuição de dados
Redistribuição de dados
Dados
Transformações
Fluxo de dados
Descrição da Imagem: a figura apresenta vários tipos de estruturas que podem existir em um workflow.
Inicialmente, é apresentada a ideia de processo. Assim, há um dado de entrada, uma transformação e
uma saída. Na sequência, é exposto um exemplo de pipeline, em que dois processos estão encadeados.
Também é apresentado o conceito de agregação de dados. Nele, há três conjuntos de dados de entrada,
uma transformação e um dado de saída. Depois, é apresentado o conceito de distribuição de dados, o qual
é dotado de um dado de entrada, uma transformação e três dados de saída. Por fim, é exposto o conceito
de redistribuição, que carrega três dados de entrada, uma transformação e três dados de saída.
146
UNICESUMAR
147
UNIDADE 4
148
UNICESUMAR
“
. Permite que se possa lidar com estruturas complexas de uma maneira
ilustrativa e de fácil consumo, se fazendo valer de estruturas gráficas
e cores para facilitar o entendimento do domínio e da mensagem que
se deseja passar;
. Ajudar na percepção das propriedades existentes nos dados mapea-
dos que não foram previstas inicialmente;
. Destacar problemas nos dados em sua coleção. Com um visualizador
adequado, os erros nos dados são rapidamente detectados;
. Recolher simultaneamente propriedades grandes ou pequenas
de dados;
. Redução dos recursos cognitivos mobilizados pelo usuário para pro-
cessar e analisar as informações (alta interação do usuário, tendo suas
percepções conduzidas para um fácil acesso à riqueza dos dados);
. Simplificação da busca por informação (uma grande quantidade de
dados em um pequeno espaço, tendo a possibilidade de agrupamento
de dados por critérios);
. Aumento das estruturas de possibilidade de detecção (relações de
dados com a consolidação de se reagrupamento);
. Interferência perceptiva utilizando a percepção visual (alguns pro-
blemas são óbvios com uma representação visual, como um mapa de
localização de metrô).
149
UNIDADE 4
“
. Permite um processamento mais rápido de informação relacio-
nal, seja por analogia direta, quando se trata de relações espaciais,
seja por analogia metafórica, com base no poder de processamen-
to da percepção visual;
. Representa externamente um conjunto de informações que já .
não são necessárias para manter a memória do trabalho, mas que
pode ser acessado;
. Permite perceber tratamentos feitos ao dado, seja em formato
simbólico ou via inferência.
Descrição da Imagem: a figura apresenta a ideia de um fluxo. No primeiro passo, estão os «Dados de
Origem», que são passam pela tarefa “Transformação de dados” na forma de “Tabela de Dados”. A partir
da tarefa “Mapa de Visualização”, os dados são gerados como “Abstração Visual”. Por fim, a partir da tarefa
“Transformação Visual”, é gerada uma “Visualização” a ser analisada por um usuário.
A figura apresenta todo o fluxo de maneira prática, desde o seu início, que se
dá pelo dado, até a visualização por parte do usuário, além de explicitar a tarefa
que está envolvida na migração de um passo ao outro. Um aspecto importante
é o de que, a partir da tarefa “Transformação de dados”, é gerada uma “Tabela de
dados”. Isso demonstra que existe um processo de estruturação dos dados, para
que eles possam ser utilizados em um processo de abstração visual, o que só será
150
UNICESUMAR
Descrição da Imagem: a figura apresenta os princípios de Gestalt. Cada princípio é apresentado em uma
linha e existem três colunas. Na primeira, há o princípio, na segunda, é apresentada uma explicação e, na
terceira, há uma representação gráfica. No total, são apresentados cinco princípios. O primeiro princípio é
«Proximidade» e, na segunda coluna, está a seguinte explicação: “Objetos que estão próximos uns aos outros
e podem ser percebidos como grupos”. A representação gráfica demonstra exatamente o que é descrito. O
segundo princípio é “Similaridade” e a descrição para esse princípio é: “ Objetos com atributos similares que
podem ser percebidos como grupos”. O terceiro princípio é “Caixa” e a descrição apresentada é: “Objetos
que aparecem limitados por uma zona em comum e podem ser percebidos como grupo”. O quarto princípio
diz respeito à “Continuidade” e a sua definição é a seguinte: “Objetos que aparecem alinhados como uma
continuação do anterior e podem ser percebidos como grupo”. Por fim, o princípio “Conexão” é apresentado
e a sua descrição é a seguinte: “ Objetos que aparecem interligados e podem ser percebidos como um grupo”.
151
UNIDADE 4
“
. Barra: um gráfico de barras (também chamado gráfico de co-
lunas) permite a exibição ou comparação de vários conjuntos de
dados. Os gráficos de barras mais úteis são: histograma e gráfico de
barras empilhadas;
. Curvas: exibe os dados como um conjunto de pontos conectados
por uma linha. Este tipo de diagrama é particularmente adequado
para que apresentem os melhores dados em forma de vários grupos
como, por exemplo, as vendas totais ao longo de vários anos;
. Área: exibe os dados como áreas ou superfícies, cada zona é refor-
çada pelas cores ou padrões diferentes. Este tipo de gráfico é o mais
adequado para apresentações de dados para um número limitado
de grupos;
. Setores: apresenta dados na forma de um gráfico de pizza com
fatias diferentes ou seções, são enfatizados por cores ou padrões
diferentes. Este tipo de diagrama pode mostrar apenas um grupo
de dados;
. Anel: um diagrama de anel se assemelha a um gráfico de pizza
que exibe dados por seções de um círculo ou de um anel. Com este
tipo de gráfico é possível selecionar vários diagramas de anéis para
vários conjuntos de dados;
. Colunas 3D: exibe dados em séries de objetos tridimensionais,
dispostos lado a lado em planos tridimensionais. Também exibe
valores das relações extremas, por exemplo, as diferenças de vendas
por cliente e por país;
152
UNICESUMAR
153
UNIDADE 4
EXPLORANDO IDEIAS
Os infográficos são representações visuais que podem combinar figuras, textos e elemen-
tos gráficos para representar uma ideia, notícia ou análise, por exemplo, a fim de gerar
um maior engajamento ao leitor, de modo que ele interaja com o conteúdo apresentado,
realize a sua reflexão e o entenda de maneira rápida (e, muitas vezes, descontraída).
Fonte: o autor.
154
UNICESUMAR
155
UNIDADE 4
Além da análise dos textos extraídos das redes sociais, Joaquim explorou os in-
dicadores de vendas que já estavam disponíveis na solução de BI e apresentou várias
informações em relação às vendas de guitarras Jackson e, sobretudo, as que tinham a
cor rosa. Outra base utilizada foi criada por ele, na qual foram relacionadas as apari-
ções de músicos ao instrumento utilizado. Além do mais, foi possível correlacionar
essas informações com as vendas e verificar quais artistas impulsionam a venda de
instrumentos. Agora, era o momento de apanhar esses dados e informações, a fim
de organizá-los como uma espécie de história. Para isso, formulou uma sequência
de tópicos e mensagens que queria apresentar:
■ Comentários sobre a aparição de John Mayer e a guitarra Jackson rosa.
■ Formular o engajamento dos usuários e as quantidades de comentários po-
sitivos.
■ Evidenciar a evolução das vendas de guitarras da marca Jackson.
■ Apresentar o aumento na venda de instrumentos a partir da aparição do
artista em programas.
Joaquim já tinha um roteiro que continha os passos e a história que pretendia contar.
Faltava apenas o último item apresentado por Knaflic (2017), que era: o que quero
que essas pessoas entendam ao final? A mensagem que Joaquim queria transmitir era
a de que o setor de compras deveria adquirir algumas guitarras Jackson de cor rosa.
Foi dessa forma que concluiu a sua história e o resultado foi positivo. Todos os que
assistiram à apresentação ou receberam o relatório (que seguia a mesma narrativa)
elogiaram a forma com que ele apresentou os dados e as informações e concordaram
em comprar alguns exemplares da guitarra para tê-las no estoque.
Joaquim ficou pensativo sobre o gestor da área de compras, que era daltônico, e
constatou a importância de se pensar nesse fato antes de gerar os gráficos e os recur-
sos visuais. Diante disso, perguntou-se se não teria um conjunto de boas práticas em
relação à construção de gráficos e recorreu mais uma vez ao livro da Knaflic (2017).
Nele, extraiu algumas dicas e fez questão de listá-las e enviá-las a todos os colegas da
área de tecnologia. São elas:
■ Quando há apenas um ou dois números a serem apresentados, utilize um
texto simples e que dê destaque aos números em questão.
■ Quando for apresentar tabelas com muitos dados numéricos, o uso de cor ou
tons de uma cor podem apoiar a visualização (mapa de calor).
156
UNICESUMAR
O primeiro grande desafio que a nossa dupla teve na etapa de implantação do am-
biente de Big Data foi selecionar o tipo de banco de dados a ser utilizado em cada
camada do Data Lake. A camada mais básica é a “camada de estagiamento” ou “cama-
da de staging”. Nela, é preciso armazenar os dados brutos oriundos das mais distintas
fontes de dados. Os dados internos da organização estavam todos estruturados em
forma de banco de dados relacional, ou seja, havia uma visão em forma de tabelas.
Já os dados coletados da Web, em sua maioria, eram recuperados no formato JSON.
157
UNIDADE 4
158
AGORA É COM VOCÊ
1. Os bancos de dados não relacionais são uma importante solução para os ambientes mas-
sivos de dados e os bancos NoSQL podem ser classificados em quatro tipos principais.
2. Em um ambiente de Big Data, para que seja possível ter acesso aos dados de maneira
rápida, é necessário trabalhar com ambientes de processamento distribuído.
159
CONFIRA SUAS RESPOSTAS
1. D.
2. C.
• Processamento em lote.
• Processamento de streams.
3. A.
160
REFERÊNCIAS
ALVAREZ, G. M.; CECI, F.; GONÇALVES, A. L. Análise comparativa dos bancos orientados a grafos
de primeira e segunda geração: uma aplicação na análise social. In: ENCONTRO DE INOVAÇÃO
EM SISTEMAS DE INFORMAÇÃO, 3., 2016, Florianópolis. Anais [...]. Florianópolis: EISI, 2016.
AMARAL, F. Introdução à ciência de dados: mineração de dados e Big Data. Rio de Janeiro:
Alta Books, 2016.
DIANA, M. de; GEROSA, M. A. Nosql na web 2.0: um estudo comparativo de bancos não-rela-
cionais para armazenamento de dados na web 2.0. In: WORKSHOP DE TESES E DISSERTAÇÕES
EM BANCO DE DADOS, 9., 2010, [S. l.]. Anais [...]. [S. l.: s. n.], 2010.
HURWITZ, J. et al. Big Data para leigos. Rio de Janeiro: Alta Books, 2016.
KNAFLIC, C. N. Storytelling com dados: um guia sobre visualização de dados para profissio-
nais de negócios. Rio de Janeiro: Alta Books, 2017.
KNOB, R. et al. Uma análise de soluções NewSQL. In: ESCOLA REGIONAL DE BANCO DE DADOS,
15., 2019, Porto Alegre. Anais [...]. Porto Alegre: SBC, 2019.
161
MEU ESPAÇO
5
Big Data e as
organizações
Dr. Flavio Ceci
Depois de alguns meses de trabalho constante, o ambiente de Big Data foi finalmen-
te implantado na empresa de Anderson. Nesse sentido, foi possível estruturar um
Data Lake em três camadas, ao migrar o Data Warehouse existente para a camada
de indicadores do Data Lake. As bases operacionais e transacionais de todos os
sistemas de informação foram replicadas na camada de staging e, além desses dados
internos, coletores foram configurados para extrair os dados de redes sociais, sites
de notícias e blogs especializados e armazená-los na camada em questão.
A camada intermediária entre a camada de staging e a de indicadores é a
chamada camada de acesso. Nela, há uma visão unificada e já tratada dos dados
da organização, sejam eles internos, sejam eles externos, mediante a utilização
dos conceitos de dados mestres (MDM). Em paralelo ao desenvolvimento da
infraestrutura de armazenamento massivo de dados, também foi configurado
todo o ambiente para o processamento distribuído.
Quando foi iniciada a implantação, Lara ficou muito preocupada, pois os
profissionais que atuavam na área de tecnologia não dominavam a maioria das
tecnologias selecionadas por ela e por Joaquim. Para isso, tiveram que buscar
novos profissionais. A maioria das pessoas selecionadas eram colegas de curso do
próprio Joaquim. Em detrimento de o contexto de trabalho desses profissionais
serem muito focados em ambientes de Big Data e de ciência de dados, Lara achou
que seria mais correto pedir para que o próprio Joaquim fosse o gestor direto
dessa nova equipe. Anderson adorou a ideia e disse que seria um excelente desafio.
Em paralelo ao processo de implantação de um ambiente de Big Data, Joa-
quim buscou outros profissionais com perfil analítico para compor a sua equipe.
O novo gestor tomou essa atitude, visto que sabia que, a partir do momento em
que essa nova estrutura fosse entregue, seria necessário mostrar os benefícios de
maneira clara, sobretudo o retorno obtido a partir do investimento feito, ou seja,
qual foi o real benefício financeiro obtido.
Passaram-se três meses desde a implantação do Data Lake. Joaquim e os
membros de sua equipe conseguiram gerar modelos de previsão de churn e mo-
delos de apoio à área de CRM, à área de marketing e à área comercial. Os resul-
tados foram ótimos! Mesmo em um curto espaço de tempo, já eram perceptíveis
os resultados da empresa e o investimento foi pago em pouco mais de um mês.
Joaquim estava muito feliz em poder conduzir um time voltado aos dados e
tinha total apoio de sua gestora direta. Entretanto, ele não sabia que Anderson e
os demais diretores tinham outros planos para a nossa querida dupla.
164
UNICESUMAR
165
UNIDADE 5
166
UNICESUMAR
O que você acha de ajudar o nosso querido Joaquim em mais essa pesquisa?
Na Internet, procure relatos ou estudos de casos de pessoas ou empresas que já
tenham passado pelo processo de implementação de uma área relacionada à
ciência de dados. Um aspecto importante é identificar os papéis envolvidos em
uma área de ciência de dados.
É visível que não há um único caminho para a construção de uma área de
dados e não há muitas informações disponíveis na Internet. Todavia, qualquer
caso de sucesso é obtido a partir de uma área de base, tais como tecnologia, de
dados, BI, modelagem, dentre outras. O importante é que os dirigentes estejam
preparados para ter uma organização dirigida por dados e, para isso, a área deve
ter autonomia em relação às outras áreas de negócio ou de tecnologia para ela-
borar e implantar as suas ferramentas e processos.
Chegou o momento de fazer as suas anotações acerca dos aspectos que lhe
chamaram a atenção a partir da pesquisa feita. Não deixe de anotar as principais
ideias identificadas na criação de uma área de dados, os papéis envolvidos e as
suas principais atividades. Esses são os elementos que nos apoiarão durante esta
unidade, a fim de sabermos como Joaquim lidará com esse novo desafio. Aperte
os cintos e sigamos em frente!
DIÁRIO DE BORDO
167
UNIDADE 5
Área de dados
168
UNICESUMAR
169
UNIDADE 5
Permite um aumento
Pode se tornar um gargalo na velocidade da
para organizações com evolução na
maturidade analítica maturidade analítica e
mediana nas entregas analíticas
Descrição da Imagem: a figura apresenta duas colunas. A primeira diz respeito aos “Agentes de dados
centralizados”, que têm as seguintes características: “Alto controle dos processos, das documentações e
dos elementos de governança de dados”, “Ideal para as organizações com baixa maturidade analítica”,
“Desenvolvimento de indicadores e análises de bases governadas” e “Pode se tornar um gargalo para as
organizações com maturidade analítica mediana”. Já a segunda coluna se refere aos “Agentes de dados
distribuídos”, que têm as seguintes características: “Exige a existência de bases governadas, com indica-
dores e processos já criados”, “Deve estimular o uso de dados e capacitar as equipes para que façam
o uso da infraestrutura desenvolvida”, “A área tem algumas equipes para manter a infraestrutura, os
processos e as ferramentas corporativas” e “Aumenta a evolução da maturidade das entregas analíticas”.
170
UNICESUMAR
Joaquim entendeu que a empresa já tem maturidade analítica mediana, o que per-
mite que a área seja construída com os agentes de dados de maneira distribuída.
Em outras palavras, Joaquim deve estimular o desenvolvimento dos analistas das
áreas de negócio, para que tenham condições de desenvolver as suas visões analíti-
cas sem depender de pessoas da sua área. Para isso, devem se pautar no Data Lake
desenvolvido e nas ferramentas corporativas. Além disso, serão necessárias a rea-
lização de treinamentos e a elaboração de guildas de temáticas relacionadas à área.
Dessa forma, será possível compartilhar as questões técnicas, as boas práticas e os
conceitos para todas as áreas da empresa, disseminando, assim, a cultura de dados,
o que proporcionará a evolução das competências analíticas dos agentes de dados.
EXPLORANDO IDEIAS
O conceito de guilda é muito comum em organizações que trabalham com times multi-
disciplinares e autogerenciáveis que se organizam em squads. As squads tem como foco
um produto, um projeto, um módulo ou um serviço específico e todos os integrantes da
equipe devem estar 100% concentrados no objetivo. Considerando o fato que, na equipe,
existem profissionais com várias competências (programadores, designers, analistas de
negócio, testers, dentre outros), a troca de conhecimento técnico entre os profissionais
com competências similares é garantida nas guildas. Para exemplificar, as guildas permi-
tem que todos os programadores de squad distintas possam se reunir para que troquem
experiências e apresentem boas práticas.
Fonte: o autor.
171
UNIDADE 5
Após algumas pesquisas, Joaquim leu nas obras de Aiken e Gorman (2014) e
Anderson (2015), que a área de dados deve responder diretamente ao presidente da
empresa. Isso significa que ela deve ser autossuficiente, ou seja, não deve depender
de profissionais de outras equipes, mesmo que tenham competências similares. Por
esse motivo, Joaquim não iria mais responder diretamente a Lara e seria necessário
mover alguns profissionais da área de tecnologia para a sua nova área. Assim, o pri-
meiro passo foi fazer uma lista dos recursos e das ferramentas desenvolvidas pela
área de tecnologia que deveriam ser levados para a sua área. Lara o ajudou a pensar
nos elementos presentes na lista, que é apresentada com mais detalhes a seguir:
■ Data Lake: todas as bases analíticas estão concentradas nas três camadas
do Data Lake. Essa base deve ser gerenciada e mantida na área de da-
dos, pois é nela que estão concentrados todos os indicadores e os dados
já processados e validados em forma de MDM. O Data Lake deve ser
acessível para todas as áreas de negócio da organização, sempre respei-
tando as políticas de acesso e segurança para que cada agente de dados
acesse somente as informações previamente acordadas entre os gestores
das áreas de negócio.
■ Solução de BI: a construção de dashboards deve ser descentralizada,
ou seja, cada área de negócio deve ter a capacidade de construir as suas
visualizações a partir dos indicadores já modelados dentro da camada
de Data Warehouse do Data Lake. Se for necessário elaborar novos in-
dicadores, é preciso solicitar à área de dados, para que sejam respeitadas
todas as dimensões de governança. A área de dados é a responsável por
gerar os indicadores executivos, que são consumidos pelos diretores e
pela presidência da empresa. Dessa forma, há um único aspecto para a
validação dos principais indicadores que são utilizados pelos executivos.
■ Governança de dados: deve ser acessível a toda a organização, de modo
a apoiar todas as operações relacionadas aos dados das áreas de negócio.
A área de dados é a responsável por orquestrar as definições dos proces-
sos de governança e fazer o processo de monitoramento e validação dos
recursos analíticos que são desenvolvidos na organização. Além disso,
pode chancelar selos de maturidade analítica (ouro, prata e bronze) para
as bases, os indicadores e os dashboards desenvolvidos, a fim de saber em
qual camada da organização é possível utilizar essas informações para o
processo de tomada de decisão.
172
UNICESUMAR
Área de Dados
Dashboards das
Áreas de negócio
Data Lake • Dashboards corporativos
• Modelos estatísticos /
computacionais
• Estudos avançados
Governança de Dados
Descrição da Imagem: a figura apresenta uma área delimitada que tem todos os elementos que são de
responsabilidade da área de dados. Assim, há uma figura que representa o Data Lake, que é acessado
por uma imagem que ilustra as ferramentas analíticas. Nessa ilustração, estão descritos três elementos:
dashboards corporativos, modelos estatísticos/computacionais e estudos avançados. Também há uma
camada em que a sua maior parte está inclusa na área de dados, que é a governança de dados. Por fim,
há uma figura que demonstra os indicadores em um dashboard com o seguinte título: “Dashboards das
áreas de negócio”. Além de ele estar ligado à governança de dados, também tem acesso ao Data Lake.
173
UNIDADE 5
Alta
Distribuição das tarefas analíticas
Baixa Alta
Maturidade analítica
Figura 3 - Relação entre a distribuição das tarefas analíticas e a maturidade organizacional
Fonte: o autor.
Descrição da Imagem: a figura apresenta um gráfico de linha. No eixo vertical, está escrito: “Distribuição
das tarefas analíticas”. Em sua extremidade inferior, está redigido “baixa” e, na extremidade superior,
está escrito “alta”. No eixo horizontal, está escrito “Maturidade analítica” e, em seu início, está redigido
“baixa” e, no fim, “alta”. Entre os eixos, existe uma linha tracejada que demonstra a relação linear entre
as duas dimensões. Assim, quanto maior for a maturidade analítica da organização, maior poderá ser a
distribuição das tarefas analíticas nas áreas de negócio.
174
UNICESUMAR
175
UNIDADE 5
176
UNICESUMAR
Descrição da Imagem: a figura apresenta um funil com três círculos. Cada círculo apresenta uma compe-
tência do analista de BI e de negócio, a saber: banco de dados, negócio e ferramentas de análise. Na saída
do funil, está escrito “Analista de BI e de negócio”, a fim de gerar a ideia de junção das três competências
na composição do profissional em questão.
177
UNIDADE 5
178
UNICESUMAR
Matemática
/estatística
Banco de Negócio
Dados
Ferramentas
de análise
Analista de Dados
Figura 5 - Principais competências de um analista de dados / Fonte: o autor.
Descrição da Imagem: a figura apresenta um funil com quatro círculos dentro. Dentre todos, três círculos
são apresentados no funil do analista de BI e de negócio, que são: banco de dados, negócio e ferramentas
de análise. Contudo, o último círculo, que é intitulado “Matemática/estatística”, carrega uma cor diferente,
a fim de evidenciar que se trata de uma competência nova.
179
UNIDADE 5
Matemática
/estatística
Computação Ciência
Ferramentas
de análise
Cientista de Dados
Figura 6 - Principais competências de um cientista de dados / Fonte: o autor.
Descrição da Imagem: a figura apresenta a mesma analogia do funil presente na imagem anterior, ao
concentrar quatro círculos que são combinados à expressão “Cientista de dados”, que está presente no
fim do funil. Os quatro círculos são: computação, ciência (ambos adicionados em um círculo de cor verde),
matemática/estatística e negócio.
180
UNICESUMAR
Existem muitas vagas para os cientistas de dados e esse fato se dá por dois moti-
vos: primeiro, pela falta de mão de obra qualificada para atuar nos projetos ana-
líticos e, depois, em detrimento de que os cientistas de dados têm competência
para atuar em várias frentes, o que facilita para uma empresa que deseja iniciar
uma área de dados, tendo em vista que esse profissional poderá apoiar grande
parte das análises. Na prática, foi o que acompanhamos na empresa de Anderson:
Joaquim foi contratado como cientista de dados e estruturou vários processos
e ambientes em conjunto com a equipe de TI de Lara, o que fez com que eles
também evoluíssem em suas carreiras.
181
UNIDADE 5
182
UNICESUMAR
183
UNIDADE 5
184
UNICESUMAR
185
UNIDADE 5
186
UNICESUMAR
187
UNIDADE 5
Análise de
requisitos Projeto Requisitos
Analista de BI /
Negócio Demandas
Indicadores/
Dashboards
Chamados Prioriza
demandas
Estrutura de Projetos
Bases / cargas
Bases
Bases / cargas
Análises
Modelagem
Analista de Dados
Data Lake Serviços Inteligentes
Descrição da Imagem: a figura apresenta os atores envolvidos nos fluxos de atividades da área de dados.
Inicialmente, há o demandante de uma área de negócio, que, caso tenha uma solicitação de sustenta-
ção, realiza a abertura de um chamado. Por outro lado, caso tenha a solicitação de um novo projeto, a
transfere para o comitê de dados. O analista de BI e de negócio faz a análise de requisitos e, caso eles
estejam relacionados aos indicadores, são entregues em forma de dashboards. Os analistas de dados
fazem análises a partir dos dashboards e do Data Lake. O comitê de dados prioriza o desenvolvimento
dos projetos e dos chamados abertos pelas áreas de negócio. Os engenheiros de dados controlam as
cargas e disponibilizam as bases analíticas para os demais profissionais da área. Os cientistas de dados
analisam as demandas de projetos e desenvolvem serviços inteligentes, estudos ou modelos estatísticos
a partir dos dados do Data Lake.
188
UNICESUMAR
O comitê de dados também pode ser utilizado para apresentar boas práticas
no uso de dados, ministrar treinamentos de ferramentas, divulgar novas bases de
dados e indicadores, validar novas políticas de governança de dados, apresentar e
chancelar mudanças nos selos de maturidade das bases de dados ou dos recursos
analíticos, além de ser um ponto de encontro para a divulgação da cultura de
dados, tentando tornar a organização cada vez mais dirigida por dados.
A governança de dados é um dos importantes pilares de uma organização
dirigida por dados e é uma das grandes responsabilidades da área de dados.
A GD é a grande orquestradora das políticas é a responsável por conduzir o
seu processo de criação, manutenção e monitoramento. Todas as áreas devem
aplicar e respeitar as políticas e a área de dados fornece o apoio para a melhor
execução das tarefas, além de expressar os processos de acompanhamento e
monitoria, o que garante que todo o ambiente de dados esteja devidamente
disponível e governado.
Joaquim finalizou o processo de desenho da área de dados. Ele já tinha defini-
do os principais objetivos da área, quais eram os cargos e as funções, delimitado
o fluxo de trabalho e expresso todo o processo de priorização. Além disso, fez a
montagem de sua equipe, ao transferir alguns profissionais da área de TI e ao
contratar novos profissionais. De acordo com o combinado, assumiu a solução
de BI, o ambiente de Big Data e todo o controle e gestão do Data Lake, além de
ofertar novos serviços e possibilidades de novos projetos para as áreas de negócio.
189
UNIDADE 5
“
Titular: Pessoa natural a quem se refere os dados pessoais que são
o objeto de tratamento;
Controlador: Pessoa natural ou jurídica, de direito público ou pri-
vado, a quem competem as decisões referentes ao tratamento dos
dados pessoais;
Operador: Pessoa natural ou jurídica, de direito público ou privado,
que realiza, Tratamento de dados pessoais em nome do controlador;
Encarregado: Pessoa natural, indicada pelo controlador, que atua
como canal de comunicação entre o controlador e os titulares e a
autoridade nacional.
ANPD - ENCARREGADO DA
AUTORIDADE NACIONAL DE PROTEÇÃO DE DADOS
PROTEÇÃO DE DADOS PESSOAIS
Descrição da Imagem: na figura, é apresentado o termo “Titular” com a seguinte descrição: “Pessoa a
quem se referem os dados pessoais que são objeto de tratamento”. Depois, é apresentada a expressão:
“Agentes de tratamento” e são expostos dois tipos: “Controlador: é quem decide como serão tratados os
dados pessoais” e “Operador: quem realiza o tratamento de dados em nome do controlador”. Também é
apresentado o: “Encarregado da proteção de dados pessoais”, que possui a seguinte descrição: “Pessoa
indicada pelo controlador para atuar como canal de comunicação entre o controlador, os titulares dos
dados e a ANPD”. Por fim, é exposta a “ANPD - Autoridade Nacional de Proteção de Dados”, que carrega
a seguinte descrição: “Órgão da administração pública responsável por zelar, implementar e fiscalizar o
cumprimento da LGPD”.
190
UNICESUMAR
A LGPD prevê que toda organização tenha um técnico responsável pelas transfor-
mações dos dados pessoais. Esse profissional é o responsável por garantir que a lei
está sendo executada corretamente. Em caso de uma vistoria por parte da ANPD,
é esse profissional que será chamado para acompanhar o processo e ser respon-
sabilizado. O mercado tem se referido a esse profissional como o Data Protection
Officer (DPO), que pode ser traduzido como o responsável pela proteção de dados.
EXPLORANDO IDEIAS
A missão do DPO é receber as reclamações e comunicações dos titulares dos dados, bem
como prestar os devidos esclarecimentos e garantir que sejam tomadas as medidas neces-
sárias ao cumprimento das regras e das boas práticas de proteção de dados. Deverá, ainda,
receber comunicações da autoridade nacional de proteção de dados (ANPD) e adotar as pro-
vidências eventualmente exigidas, bem como orientar os funcionários e os contratados da
entidade a respeito das práticas a serem tomadas em relação à proteção de dados pessoais.
Fonte: OAB (2019, p. 79).
“
Dados identificados: são aqueles que você consegue saber quem
é o titular, nome, identidade, CPF, etc.
Dados identificáveis: são dados que você não consegue diretamen-
te saber quem é o titular, mas em contato com outras informações
você consegue atingir seu objetivo: o número do cartão de crédito,
o IP do computador, nome da empresa que a pessoa trabalha, etc.
Dados sensíveis: classificados pela nova legislação, requerem ainda
mais cuidado na sua guarda, acesso e manuseio, pois estão relacio-
nados à origem étnica ou racial, crenças religiosas, filiação sindical,
direcionamento político, orientação sexual e especialmente, infor-
mações relativas à saúde, genética ou biométrica.
191
UNIDADE 5
192
UNICESUMAR
Diretoria de dados
Joaquim, já posicionado em sua nova mesa, próxima dos demais diretores, en-
tendeu que teria um orçamento para a sua diretoria e seria necessário ampliar
ainda mais a capacidade de atendimento das demandas das áreas de negócio.
Entretanto, a sua primeira missão era entender o que exatamente um diretor de
dados (ou CDO - Chief Data Officer) faz em uma organização.
O CDO é o diretor que está focado nos processos e nas áreas relacionadas à
infraestrutura de dados. Ele está diretamente ligado com o CAO (Chief Analytics
Officer) e, no caso da empresa em que Joaquim está atuando, ele desempenhará
o papel das duas diretorias, o que é comum de se encontrar em organizações que
ainda têm pontos de evolução na cultura e nos processos relacionados aos dados.
O entendimento é o de que o CDO tem uma perspectiva mais computacional e
atua muito próximo do diretor de tecnologia (CTO - Chief Technology Officer
ou CIO - Chief Information Officer), a fim de cuidar das áreas que trabalham
com a infraestrutura de dados. Já no caso do CAO, ele está mais ligado ao uso dos
dados para a tomada de decisão. Em organizações menores, é comum encontrar
apenas um desses dois profissionais agrupando as duas frentes (ANDERSON,
2015; AIKEN; GORMAN, 2014).
193
UNIDADE 5
Agora, é o momento de Joaquim olhar para a sua área, que cresceu cinco vezes
desde que foi montada e quebrada em outras áreas. Vejamos:
■ Área de infraestrutura de dados: está focada nos processos relacio-
nados ao Data Lake da organização, garantindo que a governança de
dados sempre seja aplicada.
■ Área de Business Intelligence e Governança de Dados: é a área que
está focada na construção dos indicadores e dos painéis corporativos
(utilizado pela presidência). Além do mais, gerencia todos os processos
de criação e manutenção das políticas de governança de dados.
■ Área de ciência de dados: focada na construção de modelos e estudos
avançados e no desenvolvimento de componentes inteligentes para uso
das áreas de negócio.
■ Área de projetos e pesquisa: área responsável por fazer pesquisas de
novos produtos e serviços de dados. Além disso, estrutura pesquisas com
usuários e especifica novos projetos da diretoria.
Carolina teve a liberdade de escolher a área que gostaria de gerenciar e foram chama-
dos outros colaboradores para liderar as três novas áreas. Joaquim estava completa-
mente realizado, pois teve a oportunidade de acompanhar toda a evolução analítica
da empresa de Anderson e pode aplicar os seus conhecimentos. Era desafiado dia-
riamente e chegou até a maior cadeira da organização no contexto de dados e apoio
a tomada de decisão.
Agora, tinha o desafio de fazer a empresa crescer ainda mais e disseminar cada
vez mais a cultura de dados entre todos os colaboradores. Qual será o próximo desafio
que a vida está preparando para Joaquim? Bom, esse já é assunto para um novo livro!
194
UNICESUMAR
195
AGORA É COM VOCÊ
a) A área de dados pode ser 100% distribuída, mesmo não tendo processos for-
malizados.
b) A governança de dados é de responsabilidade da área de tecnologia.
c) As áreas de dados e de tecnologia representam a mesma coisa. Elas apenas
carregam o nome diferente.
d) A área de dados pode ser distribuída, mas, para isso, é exigida certa maturidade
analítica.
e) A governança de dados deve ser respeitada pela área de dados e orquestrada
pela área de tecnologia.
2. Existem muitos cargos que podem ser necessários para uma área de dados. Em rela-
ção à principal atribuição de um engenheiro de dados, assinale a alternativa correta:
196
CONFIRA SUAS RESPOSTAS
1. D.
O processo de distribuição dos agentes de dados pelas áreas de negócio tem relação
direta com o grau de evolução analítica que da organização. Em outras palavras,
quanto maior for a maturidade analítica, maior pode ser a distribuição das tarefas e
recursos para as áreas de negócio.
2. E.
O engenheiro de dados deve zelar pela infraestrutura de dados e atuar na construção
de ETLs e recursos de um ambiente de Big Data.
3. B.
A LGPD objetiva empoderar o titular dos dados, ao evidenciar quando os seus dados
serão armazenados o que se pretende fazer com eles.
197
REFERÊNCIAS
A2C. LGPD no marketing digital: como adequar a sua estratégia. São Paulo: Blog Digital, 2019.
AIKEN, P.; GORMAN, M. A função do chief data officer: reorganizando os cargos executivos
para alavancar o seu mais valioso ativo. Rio de Janeiro: Campus 2014.
ANDERSON, C. Creating a data-driven organization: practical advice from the trenches. Se-
bastopol: O’Reilly Media, 2015.
MIRANDA, M. G. Lei Geral de Proteção de Dados - LGPD. [S. l.: s. n.], 2019.
OAB. O que estão fazendo com os meus dados? A importância da Lei Geral de Proteção de
Dados. Recife: OAB Pernambuco, 2019.
198
MEU ESPAÇO
MEU ESPAÇO