Ciência de Dados e Aplicações de Big Data para Tomada de Decisões
Ciência de Dados e Aplicações de Big Data para Tomada de Decisões
Ciência de Dados e Aplicações de Big Data para Tomada de Decisões
Brasília-DF.
Elaboração
Produção
APRESENTAÇÃO.................................................................................................................................. 5
INTRODUÇÃO.................................................................................................................................... 8
UNIDADE I
INTRODUÇÃO À CIÊNCIA DE DADOS...................................................................................................... 9
CAPÍTULO 1
DEFINIÇÃO DE CIÊNCIA DE DADOS.......................................................................................... 9
CAPÍTULO 2
ÁREAS DE CONHECIMENTO.................................................................................................... 13
CAPÍTULO 3
DADOS E TOMADA DE DECISÃO............................................................................................. 23
UNIDADE II
CIÊNCIA DE DADOS E BIG DATA......................................................................................................... 30
CAPÍTULO 1
E O QUE SÃO DADOS?............................................................................................................ 30
CAPÍTULO 2
BIG DATA................................................................................................................................ 36
CAPÍTULO 3
TRATAMENTO DOS DADOS....................................................................................................... 46
UNIDADE III
TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS.................................................................... 49
CAPÍTULO 1
TÉCNICAS DE IA...................................................................................................................... 49
CAPÍTULO 2
FERRAMENTAS DE MANIPULAÇÃO DE DADOS.......................................................................... 60
CAPÍTULO 3
AI E BIG DATA....................................................................................................................... 70
UNIDADE IV
CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS ......................................................................... 73
CAPÍTULO 1
GESTÃO DE DADOS................................................................................................................ 73
CAPÍTULO 2
CICLO DE VIDA DOS DADOS................................................................................................... 78
CAPÍTULO 3
ONDE ENCONTRAR DADOS.................................................................................................... 93
UNIDADE V
APLICAÇÕES EM BIG DATA................................................................................................................. 102
CAPÍTULO 1
NETFLIX................................................................................................................................. 102
CAPÍTULO 2
AIRBNB................................................................................................................................. 106
CAPÍTULO 3
BI E EDUCAÇÃO .................................................................................................................. 109
UNIDADE VI
CARREIRAS EM CIÊNCIA DE DADOS................................................................................................... 115
CAPÍTULO 1
PROFISSIONAL DE CIÊNCIA DE DADOS.................................................................................. 115
REFERÊNCIAS................................................................................................................................. 126
4
Apresentação
Caro aluno
Conselho Editorial
5
Organização do Caderno
de Estudos e Pesquisa
A seguir, apresentamos uma breve descrição dos ícones utilizados na organização dos
Cadernos de Estudos e Pesquisa.
Provocação
Textos que buscam instigar o aluno a refletir sobre determinado assunto antes
mesmo de iniciar sua leitura ou após algum trecho pertinente para o autor
conteudista.
Para refletir
Questões inseridas no decorrer do estudo a fim de que o aluno faça uma pausa e reflita
sobre o conteúdo estudado ou temas que o ajudem em seu raciocínio. É importante
que ele verifique seus conhecimentos, suas experiências e seus sentimentos. As
reflexões são o ponto de partida para a construção de suas conclusões.
Atenção
6
Saiba mais
Sintetizando
7
Introdução
Objetivos
»» Apresentar os conceitos e os fundamentos da Ciência de Dados.
8
INTRODUÇÃO À UNIDADE I
CIÊNCIA DE DADOS
CAPÍTULO 1
Definição de Ciência de Dados
Com a Ciência de Dados, é possível mudar essa massa de dados brutos em informações
de negócios e, em seguida, ajudar as empresas na tomada de decisões a vislumbrar
melhores resultados.
9
UNIDADE I │ INTRODUÇÃO À CIÊNCIA DE DADOS
Os conceitos são muito semelhantes, mas as duas ciências têm papéis e abordagens
diferentes. A Business Intelligence usa análise de dados “descritiva” ou “retrospectiva”
para tentar responder à seguinte pergunta: “O que aconteceu?”. Já a Ciência de Dados
faz uso de análise preditiva e descobre “o que vai ser ou poderia acontecer”.
Pesquisar na internet
Os principais motores de busca na internet usando Ciência de Dados na aprendizagem
da ciência e da máquina visam encontrar os resultados mais refinados em frações de
segundo. O desempenho e a flexibilidade dos motores de busca hoje só são possíveis
devido a dados científicos.
Publicidade digital
Praticamente todo o material de marketing digital é selecionado por algoritmos que
usam dados científicos. Com isso, as organizações obtêm um resultado muito melhor
do que o marketing convencional, uma vez que o marketing digital é montado com
base no histórico do usuário. É por essa razão que duas pessoas podem ver anúncios
diferentes na mesma página – trata-se do famoso serviço personalizado!
Sistemas de recomendação
Fazendo uma análise do perfil de usuário com os dados do seu histórico de pesquisa,
torna-se possível obter uma melhor compreensão dos tipos de propostas que melhor
se adequam a cada pessoa, e isso é o que acontece, por exemplo, quando vemos novas
sugestões de amigos no Facebook e no LinkedIn, bem como indicações de séries e filmes
no Netflix, além de dicas e sugestões sobre os produtos no site da Amazon.
Reconhecimento de imagem
Usando algoritmos de reconhecimento de imagem, várias aplicações são prováveis,
como o código de barras que permite capturar uma imagem com o seu smartphone
para ser capaz de usar a versão web do Whatsapp e também o recurso de tags para
marcar conhecidos nas fotos publicadas em redes sociais.
10
INTRODUÇÃO À CIÊNCIA DE DADOS │ UNIDADE I
Logística
A UPS, uma empresa do ramo de logística, desenvolveu um sistema chamado Orion,
que é responsável por gerenciar as rotas de seus caminhões de entrega nos EUA. Esse
sistema foi desenvolvido, desde 2008, com a informação de sua frota nas rotas, o tempo
parado dos veículos e até mesmo se os motoristas estavam usando cintos de segurança.
A partir daí, desenvolveu um algoritmo complexo para resolver os problemas da rota de
caminhão. Isso gerou uma impressionantes 1.000 páginas com o código que transforma
dados em instruções para otimizar rotas de caminhões. Atualmente, esse sistema é capaz
de otimizar rotas em segundos; rodando em segundo plano, a atualização é sempre a
mesma, a fim de garantir a melhor rota para seus caminhões, fazendo com que a UPS
economize até 50 milhões de dólares ao ano.
Saúde
Walgreens utiliza análises avançadas nas lojas de drogarias para o atendimento ao
paciente, avaliando melhor suas condições e fornecendo recomendações que melhoram
a saúde e prevenem futuras despesas médicas.
E-commerce de viagem
Muitas organizações de comércio eletrônico de viagens, como Booking, Trivago,
Expedia, entre outros, usam a Ciência de Dados para melhorar os resultados em seu
motor de busca, trazendo ao cliente não apenas os resultados de pesquisa sobre hotéis
e voos, mas também sugerem serviços complementares para essas viagens (reservas de
carros, pacotes de destino turísticos, seguro de viagem etc.).
Serviços financeiros
A Ciência de Dados ajuda a analisar e compreender os dados sobre os gastos passados,
concessões de crédito, entre outras variáveis – assim, os bancos podem traçar os perfis
que são capazes de projetar a probabilidade de um cliente se tornar inadimplente ou
não.
11
UNIDADE I │ INTRODUÇÃO À CIÊNCIA DE DADOS
Comparação de preços
Com o imenso volume de dados gerados pela grande quantidade de lojas virtuais, sites
como Buscapé, Trivago, Bondfaro, entre muitos outros utilizam dados científicos para
exibir os preços mais baixos do produto que o cliente está procurando.
Cientista de dados
Os cientistas de dados são profissionais da nova geração com conhecimentos em
Matemática, Estatística e Ciências da Computação, com especialização em análise de
dados e soluções para possíveis problemas decorrentes desses dados complexos.
Mercado de trabalho
O profissional dessa área está entre os melhores profissionais da América, de acordo
com uma lista de local da Glassdoor. O elevado número de vagas (devido ao pequeno
número de profissionais qualificados), boa remuneração e a satisfação no local de
trabalho foram os fatores que colocaram a profissão no topo da lista. De acordo com
uma pesquisa realizada pela IBM, a demanda por esses profissionais deverá aumentar
para 28% até 2020 e, atualmente, 60% da demanda por esses profissionais é do setor
de finanças.
12
CAPÍTULO 2
Áreas de conhecimento
Uma grande área de estudo para os dados da ciência é a mineração de dados. A mineração
de dados é o processo de descoberta de informações úteis em grandes conjuntos de
dados, utilizando a análise matemática para derivar padrões e tendências que existem
nos dados. Normalmente, essas regras não podem ser descobertas por exploração de
dados tradicional, porque as relações são demasiado complexas ou porque há uma
grande quantidade de dados.
1. definição do problema;
2. preparação de dados;
3. exploração de dados;
13
UNIDADE I │ INTRODUÇÃO À CIÊNCIA DE DADOS
4. modelagem;
Integração Exibição
de da fonte
serviços de dados
Designer de
mineração de
dados
O Microsoft SQL Server Data Mining fornece um ambiente integrado para a criação e
a manipulação de modelos de mineração de dados. Esse ambiente inclui: o Servidor
de Desenvolvimento Estúdio SQL, que contém algoritmos de mineração de dados e
ferramentas de consulta que facilitam a construção de uma solução completa para uma
variedade de projetos; e o SQL Server Management Studio, que contém ferramentas
para procurar padrões e gerenciar a extração objetos de dados.
14
INTRODUÇÃO À CIÊNCIA DE DADOS │ UNIDADE I
Definição do problema
O primeiro passo do processo de mineração de dados, como mostrado na figura a
seguir, é definir claramente o problema e considerar métodos para usar os dados para
fornecer-lhe respostas.
Integração de serviços
... – implementando e ...
atualizando modelos
Essa fase inclui a análise de requisitos de negócios, para definir o escopo do problema,
que define os parâmetros usados para avaliar o modelo e, finalmente, a definição de
metas específicas para o projeto de mineração. Essas tarefas podem ser traduzidas em
perguntas como:
»» O problema que você está tentando resolver se reflete nas políticas e nos
processos de negócios?
»» Que tipo de dados que você tem, e que tipo de informação está em cada
coluna? Se houver várias tabelas, como eles estão conectados? Você deve
fazer alguma limpeza, agregação ou de processamento para torná-los
dados utilizáveis?
Para responder a essas perguntas, você pode precisar realizar um estudo sobre a
disponibilidade de dados para investigar as necessidades dos usuários de negócios no
15
UNIDADE I │ INTRODUÇÃO À CIÊNCIA DE DADOS
que diz respeito aos dados disponíveis. Se os dados não são suficientes para atender às
necessidades dos usuários, pode ser necessário redefinir o projeto.
Você também precisa considerar como os resultados do modelo podem ser incorporados
em KPIs (Key Performance Indicators) utilizados para avaliar o andamento dos
negócios.
Preparação de dados
A segunda fase do processo de mineração de dados, como se mostra no diagrama a
seguir, é para consolidar dados limpos identificados na etapa de definição do problema.
Integração de
... serviços – ...
preparando dados
16
INTRODUÇÃO À CIÊNCIA DE DADOS │ UNIDADE I
a qualidade dos dados para cada transação; assim, você pode precisar usar alguma
forma de criação de perfil de dados e ferramentas de filtragem de dados e de limpeza
automática, tais como as previstas no Integration Services, Microsoft SQL Server 2012
Master Data Services ou o SQL Server Data Quality Services para explorar os dados e
encontrar inconsistências. Para mais informações, consulte estes recursos:
É importante saber que os dados utilizados na mineração não devem ser armazenados
em um cubo OLAP (on-line analytical processing) nem em um banco de dados relacional,
embora ambos podem ser usados como fontes de dados. Você pode fazer mineração
de dados utilizando qualquer fonte de dados definida como uma fonte de dados do
Analysis Services. Isso inclui arquivos de texto, planilhas do Excel e dados de outros
fornecedores externos.
Explorando dados
A terceira fase do processo de mineração de dados, como se mostra no diagrama a
seguir, é a de explorar os dados preparados.
Exibição de fonte
... de dados – ...
explorando dados
Você deve compreender os dados para tomar decisões apropriadas para criar modelos
de mineração. As técnicas de exploração incluem o cálculo dos valores mínimos e
máximos, os cálculos de médias e desvios padrão e a análise da distribuição dos dados.
Por exemplo, quando se analisam a máxima, a mínima e a média, você pode determinar
que os dados não são representativos para os seus clientes ou processos de negócios,
e você deve obter dados mais equilibradas ou rever os pressupostos que determinam
suas expectativas. Os desvios padrão e outros valores de distribuição podem fornecer
informações úteis sobre a estabilidade e a precisão dos resultados.
17
UNIDADE I │ INTRODUÇÃO À CIÊNCIA DE DADOS
Um desvio padrão grande indica que incluir mais dados pode ser útil para melhorar o
modelo. Os dados que desviam muito de uma distribuição padrão podem ser distorcidos
ou representar uma imagem precisa do problema real – o que torna difícil, no entanto,
o ajuste de um modelo aos dados.
Você pode usar ferramentas como o Master Data Services para investigar as fontes de
dados disponíveis e determinar a sua disponibilidade para mineração de dados. Você
pode usar ferramentas como o SQL Server Data Quality Services ou criador de perfil no
Integration Services para analisar a distribuição dos dados e resolver problemas como
dados incorretos ou ausentes.
Depois de definir suas origens, devem-se combinar os dados em uma exibição da fonte
de dados usando o designer de exibição da fonte de dados no SQL Server Data Tools.
Esse designer também contém várias ferramentas que você pode usar para explorar os
dados e verificar se eles vão trabalhar para criar um modelo.
Observe que, quando você cria um modelo, o Analysis Services cria automaticamente
resumos estatísticos dos dados do modelo, que estão disponíveis para uso em relatórios
ou para análise detalhada.
Criando modelos
A quarta fase do processo de mineração de dados, como mostra o diagrama a seguir,
é a criação do modelo de mineração. Ele vai usar o conhecimento obtido na etapa de
explorar dados para ajudar a definir e criar os modelos.
Designer de
... mineração de dados ...
– criando modelos
18
INTRODUÇÃO À CIÊNCIA DE DADOS │ UNIDADE I
Você define as colunas de dados que você deseja usar para criar uma estrutura de
mineração, que é vinculada à fonte de dados, mas não contém dados, na realidade,
até que seja transformada. Ao processar a estrutura de mineração, o Analysis Services
gera agregados e outros dados estatísticos que podem ser usados para a análise. Essa
informação pode ser usada por qualquer modelo de mineração com base na estrutura.
Para mais informações sobre como as estruturas de mineração estão relacionados com
modelos de mineração, consulte Arquitetura Lógica (Analysis Services – mineração
de dados).
Você também pode usar parâmetros para ajustar cada algoritmo e aplicar filtros para os
dados de treinamento para usar apenas um subconjunto de dados, criando resultados
diferentes. Depois de passar os dados por meio do modelo, o objeto do modelo de
mineração contém resumos e padrões que podem ser consultados ou utilizados para a
predição.
Você pode definir um novo modelo usando as ferramentas ou o assistente de dados SQL
Server Data Mining linguagem DMX (data mining extensions). Para mais informações
sobre como usar o assistente de mineração de dados, consulte assistente de mineração
(Analysis Services – mineração de dados). Para mais informações sobre como usar
DMX, consulte dados de referência mining extensions (DMX).
É importante lembrar que sempre que os dados mudarem, você deve atualizar a
estrutura e o modelo de mineração. Quando você atualizar uma estrutura de mineração
reprocessando-a, o Analysis Services recupera os dados de origem, incluindo quaisquer
novos se os dados de origem são atualizados dinamicamente e repovoarem a estrutura
de mineração. Você pode optar por atualizar os modelos com base na estrutura, o que
19
UNIDADE I │ INTRODUÇÃO À CIÊNCIA DE DADOS
significa que eles vão ser treinados sobre os novos dados – ou você pode, ainda, manter
o modelo como está.
Designer de
... mineração de dados ...
– validando modelos
20
INTRODUÇÃO À CIÊNCIA DE DADOS │ UNIDADE I
Se nenhum dos modelos criados na etapa modelagem tiver um bom desempenho, pode
voltar a um estágio anterior do processo, redefinir o problema e investigar os dados
para o conjunto de dados original.
Integração de serviços
... – implantando e ...
atualizando modelos
»» Use modelos para criar previsões, que podem ser usados para tomar
decisões comerciais utilizando o SQL Server e a linguagem DMX.. Para
mais informações, consulte referência DMX (extensões DMX).
21
UNIDADE I │ INTRODUÇÃO À CIÊNCIA DE DADOS
22
CAPÍTULO 3
Dados e tomada de decisão
A cada dia que passa, a tecnologia avança para a resolução de problemas do cotidiano,
e, com todo esse progresso tecnológico, as ferramentas para a tomada de decisões
tornam-se mais precisas.
Fazer uso de instrumentos que medem os dados gerados pela internet, e até mesmo
consumidores finais de usuários mercados físicos, é essencial para tomar as melhores
decisões.
As formas de capturar dados relevantes tornaram-se melhores – hoje foi muito mais
fácil de controlar o público-alvo em seu perfil, fornecedores e funcionários também.
Mas é importante notar que as velhas formas de obtenção de dados primários ainda
não morreram; pelo contrário, estão em pleno andamento. Para usar as melhores
ferramentas para a tomada de decisão, é preciso lembrar que os módulos de decisão
são parte das atividades diárias.
23
UNIDADE I │ INTRODUÇÃO À CIÊNCIA DE DADOS
O formato dessas decisões passa por todas as fases de funcionamento de uma empresa,
desde a sua gestão de topo (presidente, acionistas e diretores) para o que chamamos
de “chão de fábrica” (aqueles que estão totalmente empenhados em estratégias de
execução).
Estratégica
Tática/gerencial
As decisões táticas são tratadas pela gestão e coordenação da empresa cindida das
unidades departamentais. Essas decisões são:
Operacional
24
INTRODUÇÃO À CIÊNCIA DE DADOS │ UNIDADE I
A seguir, veja uma seleção que realizamos com as 10 principais ferramentas que são
essenciais para a tomada de decisões.
Pesquisa
A pesquisa é uma das ferramentas mais poderosas para opiniões de captura, para o
perfil e para obter informações primárias e secundárias. Podemos usar dois tipos de
pesquisa, que podem traçar objetivos comuns, mas em diferentes cenários. Existem
dois tipos de pesquisa:
Matriz SWOT
Ajudar Viradas
Interno (organização) Força Fraqueza
No exterior (ambiente) Oportunidade Ameaças
25
UNIDADE I │ INTRODUÇÃO À CIÊNCIA DE DADOS
Essa é a ferramenta mais eficaz no campo da análise de cenários, seja interna ou externa.
»» forças;
»» fraquezas;
»» ameaças;
»» oportunidades.
Teorias são as origens do administrador clássico, são o ponto de partida para a tomada
de decisão eficiente.
26
INTRODUÇÃO À CIÊNCIA DE DADOS │ UNIDADE I
Gráficos
Os gráficos podem ser usados por todas as áreas dentro de uma empresa para demonstrar
o desempenho das ações tomadas pelos serviços.
Tipos de gráficos:
»» gráfico de linha;
»» gráfico de setores.
Tabelas
Diagramas
Ele pode ser formulado usando conceitos qualitativos e quantitativos, mas sua essência
está totalmente voltada para as estatísticas.
»» por pontos;
»» por linhas;
»» por superfície.
27
UNIDADE I │ INTRODUÇÃO À CIÊNCIA DE DADOS
Controle de qualidade
Essa ferramenta é projetada para ter em conta o grau de satisfação que as ações da
empresa têm sobre seus clientes, acionistas, funcionários, parceiros e fornecedores.
Sistemas de informação
Essa ferramenta é projetada para espalhar os dados que representam informações aos
usuários e clientes.
Questionários e entrevistas
28
INTRODUÇÃO À CIÊNCIA DE DADOS │ UNIDADE I
Podemos dizer que esse tipo de ferramenta é um complemento para a pesquisa. O objetivo
da utilização dessa ferramenta é a busca de dados primários que possam efetivamente
contribuir para a melhoria das decisões já tomadas e as decisões estratégicas no novo
design.
29
CIÊNCIA DE UNIDADE II
DADOS E BIG DATA
CAPÍTULO 1
E o que são dados?
A grande tecnologia de dados ainda é muito nova, mas começa a despertar o interesse do
mercado. Seu conceito ainda está em construção e, como é fértil, prolifera-se nas mais
diversas áreas do conhecimento, o que contribui para certa confusão, uma vez que pode
adquirir significados diferentes, dependendo do ângulo a ser visto. As organizações de
TI podem definir grandes dados como um pacote de soluções que pode simplesmente
ser posto em prática por meio da aquisição de seu provedor de tecnologia.
Big data não é apenas um debate sobre a tecnologia, mas sobre como as empresas
podem usar a montanha de dados que está agora disponível para todos.
E de onde veio o termo dado? O termo dado veio da palavra latina datum, que significa
“aquilo que se dá”. Um dado é um documento, uma informação ou testemunho que
permite que você saiba algo ou deduza as consequências legítimas de um fato, e que
suporta as operações.
30
CIÊNCIA DE DADOS E BIG DATA │ UNIDADE II
quantificada do original. É muito importante saber e lembrar que cada texto é um fato,
uma sequência de dados, mesmo que seja inelegível para o leitor.
31
UNIDADE II │ CIÊNCIA DE DADOS E BIG DATA
Seria o conhecimento! São informações que estão organizadas com uma determinada
forma lógica aplicada e que também são capazes de representar e criar um ambiente de
aplicação para a informação criada.
No meio científico, dizemos que um dado em sua forma primária não tem um significado,
somente se usado no processo de tomada de decisão ou a execução de cálculos por um
processamento adequado e tendo em conta o seu contexto. Em geral, os dados são uma
representação simbólica, um atributo ou uma entidade.
Conhece-se como uma base de dados (ou database, de acordo com o termo em inglês)
todos os dados no mesmo ambiente que são armazenados sistematicamente para que
possam ser utilizados no futuro. Esses bancos de dados podem ser estáticos (quando os
dados armazenados não variam ao longo do tempo) ou dinâmicos (alterações de dados
ao longo do tempo e que, portanto, requerem atualizações periódicas).
32
CIÊNCIA DE DADOS E BIG DATA │ UNIDADE II
Os dados não eram mais considerados estáticos e banais, cuja utilidade terminava
depois que o objetivo da coleta era alcançado. Em vez disso, os dados se tornaram
matéria-prima dos negócios, um recurso econômico vital usado para criar uma nova
forma de valor econômico.
É importante distinguir big data de lotes de dados ou dados massivos. Em big data,
três componentes são aplicáveis: volume, variedade e velocidade (esses elementos
serão detalhados mais à frente, acrescentando-se valor e veracidade). São o tamanho, a
complexidade e a inquietação dos grandes recursos de dados que explicam os métodos
pelos quais esses recursos são projetados, operados e analisados.
Para propósitos científicos, às vezes, é necessário analisar todos os dados de uma matriz
de uma única vez. As análises de grandes matrizes são intensivas do ponto de vista
computacional e podem requerer os recursos de um supercomputador.
33
UNIDADE II │ CIÊNCIA DE DADOS E BIG DATA
Os recursos de big data não são equivalentes a uma grande planilha, e os dados não são
analisados em sua totalidade. As análises de big data são processos que contemplam
múltiplos passos pelos quais o dado é extraído, filtrado e transformado, com análises,
muitas vezes, de forma fragmentada e, outras vezes, recursiva.
De maneira simples, de acordo com Jim Davis Senior, vice presidente e diretor de
marketing da SAS (empresa americana de software e serviços de business anlytics),
quando se excede a capacidade convencional de um sistema de banco de dados, você
está tratando de big data (LeakBusiness, 2013). Antes de isso acontecer, você tem o
que a SAS define como growing data ou dados em crescimento, que são uma grande
quantidade de dados, mas que ainda não excedem as limitações do banco de dados
convencional.
O termo big data tem recebido, na atualidade, diversas contribuições para sua
conceituação. Parte delas trata o termo como uma referência de mercado ou mesmo
de “moda”; outros já consideram um conceito mal definido e pouco compreendido
(TAURION, 2013), mas que merece ser estudado.
O potencial do big data para criar vantagem competitiva vem influenciando a forma
como os negócios e as organizações são gerenciados. Isso ocorre por meio da análise,
que pode ser um elemento fundamental dos esforços das organizações para melhorar
seu desempenho (MANYIKA et al., 2011).
Entre os grandes difusores deste último conceito, encontra-se a empresa IBM que, por
meio de sua tecnologia voltada para Question Answering (QA), concebeu uma máquina,
dentro de uma iniciativa de marketing, capaz de processar grandes volumes de dados e
competir de igual para igual com especialistas humanos em um programa de TV estilo
pergunta-resposta (IBM, 2011).
Para Gandomi et al. (2015), o grande volume de dados, ou big data, está em uma
constante e rápida evolução. Assim, sua definição acaba gerando dúvidas e perguntas
sobre como isso dará certo e/ou se a subárea ganhará mercado. Uma pesquisa
on-line realizada pela empresa Harris Interactive (2012) consolidou as respostas de 154
executivos a respeito de como eles definiriam o termo big data.
34
CIÊNCIA DE DADOS E BIG DATA │ UNIDADE II
De acordo com o McKinsey Global Institute, “big data refere-se aos conjuntos de dados
cujo tamanho está além da capacidade de ferramentas típicas de software de banco
de dados para capturar, armazenar, gerenciar e analisar” (BiggData, 2018). Já para o
IDC, big data é apresentado como “(...) uma nova geração de tecnologias e arquiteturas,
projetadas economicamente para extrair valor de volumes muito grandes de uma larga
variedade de dados, permitindo alta velocidade de captura, descoberta e análise”.
Por outro lado, Mayer-Schonberger e Cukier (2013) enfatizam que, mesmo havendo
uma crença implícita entre os tecnólogos, na qual o big data remonta à revolução do
silício, a evolução do big data é a continuação da antiga busca da humanidade por medir,
registrar e analisar o mundo. Para os autores, os sistemas modernos de tecnologia da
informação (TI) possibilitam big data, mas não são os únicos responsáveis pelo seu
surgimento.
Pospiec e Feldens (2012) enfetizam que big data possui como desafio a existência de
um equilíbrio desfavorável entre os dados disponíveis, conceitos atuais e tecnologias
de informação. Como um resultado, não existe qualquer apoio para uma tão grande
quantidade de informações que, de acordo Callebaut (2012), aumenta de tamanho e
está a aumentar a velocidade.
35
CAPÍTULO 2
Big data
No Brasil, várias revistas (VEJA, 2013; CIÊNCIA HOJE, 2013; EXAME, 2012)
publicaram relatórios que têm o conceito de grandes dados como “revolução de dados”
ou como um fenômeno big data, enfatizando suas aplicações, particularmente na área
comercial e de negócios. Jornais nacionais, como O Globo, também exploraram o tema
em 2012. As reportagens procuraram contextualizar o assunto, a fim de esclarecer os
leitores sobre o que se trata de big data.
Como vimos, não existe uma definição rigorosa para o termo função data big, pois é um
conceito relativamente novo; porém sua definição é melhorar a consolidação do termo e
a percepção, ao longo do tempo, do seu valor para qualquer tipo de uso. No início, a tese
era de que o volume de informações tinha crescido tanto que a quantidade gerada não
é mais considerada um componente importante da memória do computador, em sua
forma de processamento. Por isso, os engenheiros tiveram de melhorar as ferramentas
utilizadas para análise.
Uma maneira de pensar sobre a questão hoje é: big data refere-se a trabalhar em grande
escala (não podendo ser feito em uma escala menor), para extrair novas ideias e criar
novas formas de valor aos mercados em mudança, as organizações, a relação entre os
cidadãos e os governos etc., mas esse é apenas o começo. A era da big data desafia a
maneira como vivemos e interagimos com o mundo. Mas a coisa mais importante é
que a empresa terá de conter um pouco a obsessão com a causalidade e substituí-la por
correlações simples: sem saber o porquê, apenas o quê.
Em big data, os dados podem revelar aspectos que não se pensou ser possíveis e,
portanto, não foram perseguidos, gerando novos conhecimentos e sem precedentes
para aqueles que têm a vontade e as ferramentas para fazê-lo. O grande desafio é como
usar os dados como um negócio de matéria-prima, criando, assim, uma nova forma de
valor econômico.
36
CIÊNCIA DE DADOS E BIG DATA │ UNIDADE II
e do valor da avalanche de informações diárias,” os autores dizem que não existe uma
definição estrita do termo, mesmo se você trouxer uma maneira de definir big data.
Não existe uma definição estrita do termo. [...] Uma maneira de pensar
sobre a questão hoje - nós usamos este livro - é: Big Data refere-se a
trabalhar em grande escala que não pode ser feito em uma escala menor,
para extrair novas ideias e criar novas formas de valor de modo que os
mercados, as organizações em mudança, a relação entre os cidadãos e
os governos, etc. (MAYER-SCHONBERGER; CUKIER, 2013, p. 54).
Os dados de grande termo são utilizados principalmente para descrever grande base de
dados, que, em comparação às bases de dados não estruturados, incluem tradicionais
que necessitam de uma análise em tempo real (CHEN et al., 2014).
Uma definição importante para big data pode ser encontrada no Gartner IT Glossary
(Glossário de Tecnologia da Informação), que define big data como ativos de informação
de grande volume, alta velocidade ou de grande variedade, que requer formas inovadoras
e econômicas de processar informações, permitindo, dessa forma, maior visibilidade,
tomada de decisão e automação de processos.
Mesmo fora da literatura, o conceito não segue uma linha de pensamento única. De
forma geral, o big data fala em tratar grandes volumes de dados com grande velocidade
e a partir de uma variedade de informações (TAURION, 2013; BROWN, 2013). Outras
definições para o termo são apresentadas no quadro 2, porém, sem rigidez conceitual.
Em essência, big data relaciona-se com previsões. Apesar de ser descrito como um ramo
da ciência da computaçãoo chamado inteligência artificial e, mais especificamente,
uma área chamada “aprendizado de máquina”, essa ideia é enganosa. Big data não
tem a ver com tentar ensinar um computador a pensar como ser humano (MAYER-
SCHONBERGER; CUKIER, 2013).
37
UNIDADE II │ CIÊNCIA DE DADOS E BIG DATA
Autores Definições
Kim, Trimi, e Ji-Hyong Trata-se de um termo geral para a enorme quantidade de dados digitais coletados a partir de todo os tipos de
(2014) fontes.
Mahrt e Scharkow (2013) Denotam um maior conjunto de dados ao longo do tempo, conjunto de dados estes que são grandes demais
para serem manipulados por infraestruturas de armazenamento e processamento regulares.
Davenport (2012) e Dados demasiadamente volumosos ou muito desestruturados para serem gerenciados e analisados através de
Kwon (2014) meios tradicionais.
Di Martino et al. (2014) Refere-se ao conjunto de dados cujo tamanho está além da habilidade de ferramentas típicas de banco de
dados em capturar, gerenciar e analisar.
Rajesh (2013) São conjuntos de dados que são tão grandes que se tornam difíceis de trabalhar com o uso de ferramentas
atualmente disponíveis.
Mahrt e Scharkow (2013) Denotam um maior conjunto de dados ao longo do tempo, conjuntos de dados estes que são grandes demais
para serem manipulados por infraestruturas de armazenamento e processamento regulares.
Esses dois exemplos demonstram o valor científico e social de grandes dados, bem como
a medida em que eles podem se tornar uma fonte de valor econômico. Esses exemplos
marcam duas maneiras pelas quais o mundo dos grandes dados vão, de fato, mudando
a economia, a ciência e a saúde, e interferem no governo, na educação, nas ciências
sociais e em todos os outros aspectos da sociedade.
Apesar de estarmos apenas nos primórdios do big data, ele é usado todos os dias. Filtros
de spam são projetados para adaptar automaticamente a mudanças nos tipos de lixo
eletrônico. Sites de namoro são acoplados em termos de como seus vários recursos
correspondem aos dos relatórios anteriores. Auto Broker smartphone analisa nossas
ações e adiciona novas palavras para seus dicionários com base no que está escrito.
Em primeiro lugar, big data é misturado com o volume de dados gerados; no entanto, ele
não é apenas o tamanho do volume, mas também a variedade de dados não estruturados,
dentro e entre organizações, que devem ser validados para obter a verdade e tratados
em uma velocidade adequada para atingir o valor do negócio.
38
CIÊNCIA DE DADOS E BIG DATA │ UNIDADE II
Para Taurion (2013), o volume é definitivamente uma das fortes características que
definem esse fenômeno de dados grandes, no entanto, para completar a composição,
ele também sugere a existência de duas outras fortes características: variedade e
velocidade. Esses três Vs (volume, variedade e velocidade) formam a estrutura básica
que compõe a maior área de dados.
Ainda segundo Taurion (2013), apenas a companhia Google processa, sozinha, mais
de 24 pentabytes de dados por dia, e o Facebook faz upload de pelo menos 10 milhões
de novas fotos a cada hora. Sendo assim, os dados de hoje vêm em todos os tipos de
formato, sendo gerados milhões de dados por segundo e vindo de diversas fontes,
interferindo nas dimensões velocidade e variedade.
Autores Definições
Cavalcanti (2015) Em geral, equivocadamente, a população associa big data apenas ao volume grande de dados digitais
disponíveis nas redes. Porém, a maior significância do big data vem da variedade (maneiras distintas) de
dados. São dados transacionais, das redes sociais, gps… e dos assuntos os mais variados. Costumamos dizer
que big data está associado a 4 “V”s: volume (quantidade), variedade (diversidade), veracidade (são dados
coletados on-line, na hora que estamos fazendo algo; não é uma “pesquisa”, na qual perguntamos coisas às
pessoas) e velocidade (os dados estão imediatamente disponíveis na nuvem).
Brown (2014) Big data é volume, velocidade, variedade. Então significa que você tem uma ou mais dessas três coisas.
Costa (2015) Big data é um ecossistema que se alimenta e retroalimenta de dados o tempo todo, de dados que estão
digitalizados ou não e dos quais se tem a necessidade de tirar valor.
Taurion (2014) Resumindo o que é big data em uma simples fórmula para conceitualizá-lo: big data = volume + variedade +
velocidade + veracidade, tudo agregado + valor.
Moura (2015) Teoricamente é aglutinar diversas informações em diversas fontes em um único depositório. Seria a
manutenção, a orientação e o enriquecimento de um banco de dados de diversas fontes. Na prática, isso
é feito por meio de um depositório em nuvem, ou seja, de um depositório próprio que utiliza todas essas
informações.
Guerreiro (2014) Big data se refere à necessidade de uma organização lidar com dados que, para serem analisados e gerarem
resultados, demandam capacidade muito além daquela de que a empresa dispõe, seja com relação ao volume
(mais comum), velocidade de tratamento ou variedade de formatos.
Lima Júnior Big data é conjunto de dados (dataset) cujo tamanho está além da habilidade de ferramentas típicas de banco
(2014) de dados em capturar, gerenciar e analisar.
Fonte: ANTONIUTTI, 2015.
39
UNIDADE II │ CIÊNCIA DE DADOS E BIG DATA
que foi adquirido pela Gartner em 2005. Nesse relatório, Laney (2001) identifica três
grandes desafios da gestão de dados: volume, velocidade e variedade, que atualmente
são amplamente utilizados na definição de big data (GANDOMI et al., 2015).
Pouco tempo depois, as características do big data passaram a ser descritas como
os 4Vs: volume, variedade, velocidade e valor. Esses quatro Vs foram amplamente
reconhecidos, já que enfatizam o significado e a necessidade do big data. Essa definição
indica o problema mais crítico do big data, que é como descobrir valor de base de dados
em grande escala, vários tipos e rápida geração (CHEN et al., 2014).
Mais recentemente, a veracidade dos dados passou a ser considerada também tão
importante quanto o volume.
»» Volume
Conforme apresentado anteriormente, volume é a dimensão mais
comum nos conceitos de big data, visto que o fenômeno “vem chamando
atenção pela acelerada escala em que volumes cada vez maiores de
dados são criados pela sociedade” (TAURION, 2013). Preimesberger
(2011) simplifica essa dimensão contabilizando-a: “terabytes, petabytes
e eventualmente exabytes” de dados criados por seres humanos e
por máquinas. Além disso, o mesmo autor ressalta a dificuldade de
“armazenar, proteger e tornar acessível”.
Segundo Tankard (2012), é um desafio gerar e armazenar esse grande
volume de dados com as ferramentas tradicionais. Os desafios técnicos
também são levantados por Nielsen (2009), assim como os sociais, visto
que deve haver uma mudança para “um mundo em que grandes volumes
de conjuntos de dados são rotineiramente publicados”.
›› Variáveis envolvidas:
·· volume de informações;
·· acessibilidade de informações;
·· mudança do comportamento em função do volume.
40
CIÊNCIA DE DADOS E BIG DATA │ UNIDADE II
»» Variedade
›› Variáveis envolvidas:
»» Velocidade
41
UNIDADE II │ CIÊNCIA DE DADOS E BIG DATA
›› Variáveis envolvidas:
»» Valor
42
CIÊNCIA DE DADOS E BIG DATA │ UNIDADE II
›› Variáveis:
·· qualidade da informação;
»» Veracidade
›› Variáveis envolvidas:
·· qualidade da informação.
Apesar de não haver consenso sobre a definição de big data, o lugar comum
converge para os 3Vs propostos por Laney (2001): volume, velocidade
e variedade. Dadas as definições, grandes mudanças decorreram do
novo poder analítico e foram abordadas e aprofundadas por Mayer-
Schonberger e Cukier em 2013.
1 https://www.priberam.pt/dlpo/
43
UNIDADE II │ CIÊNCIA DE DADOS E BIG DATA
Atributos Definição
Volume Magnitude relacionada à quantidade de dados a serem processados.
Variedade Estrutura heterogênea encontrada em bases de dados.
Velocidade Taxa na qual são gerados os dados, assim como a rapidez com que necessitam ser processados e analisados.
Veracidade Nível de confiança que pode ser atribuído aos dados recebidos diretamente da fonte.
Valor Potencial financeiro que a organização pode conseguir por meio do uso de técnicas de big data.
Para a primeira grande mudança, o argumento permeia a definição de big data como
grande em termos relativos, e não absolutos. Os autores remontam a inviabilidade
e altos preços de se estudar um universo em sua integralidade e reforçam o fato de
que, atualmente, alguns segmentos coletam o máximo de dados possível (MAYER-
SCHONBERGER; CUKIER, 2013).
A segunda grande mudança refere-se à obsessão por dados corretos, que complementam
a primeira mudança: a disponibilidade de dados. Antes, tínhamos dados limitados, então
era muito importante assegurar a qualidade integral desses dados, além da própria
limitação tornar possíveis tantos tratamentos. Nas palavras dos autores, “o aumento da
quantidade de dados abre portas para a inexatidão”. Para eles, “big data transforma os
números em algo mais ‘probabilístico’ que exato” (MAYER-SCHONBERGER; CUKIER,
2013, p. 62). Para corroborar essa ideia, Helland (2011) afirma que, “quando se ganha
escala, perde-se precisão”.
Por fim, a terceira e grande mudança na era do big data é que as previsões com base
em correlações estão na sua essência. Isso quer dizer que big data lança análises não
causais, de forma a transformar o modo pelo qual entendemos o mundo. Para os
autores, a mentalidade mudou o modo como os dados poderiam ser utilizados (MAYER-
SCHONBERGER; CUKIER, 2013).
44
CIÊNCIA DE DADOS E BIG DATA │ UNIDADE II
45
CAPÍTULO 3
Tratamento dos dados
Fayyad et al. (1996) dividem o processo KDD em fases e de uma forma interativa com a
maioria das decisões tomadas pelos membros KDD, como mostrado na figura 11.
Etapas do KDD
Para Fayyad, Piatesky-Shapiro e Smyth (1996), mineração de dados é a etapa do
processo KDD de aplicação prática dos algoritmos. Esses algoritmos de descoberta de
conhecimento produzem padrões de conhecimento ou modelos a partir de um conjunto.
Algo que é importante frisar é a não existência de um consenso quanto às definições dos
termos KDD e data mining: para alguns autores, são considerados sinônimos, como
visto em Rezende (2005); para outros, tendo exemplo como Fayyad (1996), o KDD
46
CIÊNCIA DE DADOS E BIG DATA │ UNIDADE II
Seleção
A seleção tem o objetivo de selecionar um conjunto de dados e, por vezes, pode parecer
uma etapa simples, porém é uma fase crítica, pois muitas vezes os dados não estão
no formato desejado, ou acontece uma incompatibilidade entre bancos de dados
(ALMEIDA; DUMONTIER, 1996). A Incompatibilidade pode se dar por meio de fontes
diferentes (data warehouses, planilhas, sistemas legados) e podem possuir diversos
formatos. Após analisar essas situações, o analista de banco de dados deve levar em
consideração esses problemas de incompatibilidade para serem tratados na próxima
etapa, de pré-processamento.
Pré-processamento
Nessa fase, também são utilizados métodos de redução e limpeza dos dados, de modo
a diminuir o tamanho da base de dados, ou seja, reduzir a quantidade de variáveis e
evitar redundâncias.
Transformação
47
UNIDADE II │ CIÊNCIA DE DADOS E BIG DATA
x − xmin
xnorm =
xmax − xmin
x −µ
xnorm =
δ
Mineração de dados
Mineração de dados para, Possa et al. (1998), é um conjunto de técnicas que envolvem
métodos matemáticos, algoritmos e heurísticas para descobrir padrões e regularidades
em grandes conjuntos de dados. O cérebro humano, comprovadamente, consegue fazer
até 8 (oito) comparações ao mesmo tempo. A função da mineração de dados é justamente
ampliar essa comparação para “infinito” e tornar isso visível ao olho humano.
Interpretação
É dessa fase que o analista de dados participa; ele tem o papel de verificar os resultados
obtidos e o grau de satisfação e consistência dos resultados, com base no tempo de
processamento e na taxa de erro ou acerto. É aconselhável mais de um especialista no
domínio e todos os profissionais envolvidos no processo. Também é nessa etapa que
os resultados podem alimentar novamente o processo, gerando novas entradas para as
etapas anteriores, a fim de buscar um refinamento dos resultados.
48
TÉCNICAS E
FERRAMENTAS DE UNIDADE III
MANIPULAÇÃO DE
DADOS
CAPÍTULO 1
Técnicas de IA
Esses métodos costumam usar alguma medida de semelhança entre os atributos. O que
diferencia os métodos de aprendizado supervisionados e não supervisionados é o fato
de que os métodos não supervisionados não necessitam da pré-categorização para os
registros, ou seja, não é necessário um atributo principal. As tarefas de agrupamento
e associação são consideradas como não supervisionadas. Já no aprendizado
supervisionado, os processos são fornecidos com um conjunto de dados que têm
uma variável principal predefinida, e os registros são categorizados em relação a essa
variável. As tarefas que têm mais destaques e que são consideradas mais comuns de
aprendizado supervisionado são as técnicas de classificação (que também podem ser
não supervisionadas) e a técnica de regressão.
No processo de mineração, mais de uma técnica deve ser validada e combinada com o
propósito de que comparações possam ser realizadas e de que, então, a melhor técnica
(ou combinação de técnicas) seja utilizada.
49
UNIDADE III │ TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS
Regra 1: SE idade = jovem AND estudante = não ENTÃO compra computadores = não.
Regra 2: SE idade = jovem AND estudante = sim ENTÃO compra computadores = sim.
Para uma regra ser avaliada como forte, ela precisa atender a um determinado grau
mínimo de suporte e confiança. Um dos mais conhecidos códigos e algoritmos de
mineração utilizando a estratégia de itens frequentes é o A priori.
50
TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS │ UNIDADE III
fuzzy ou lógica nebulosa para criar regras mais precisas. Outros algoritmos também
são encontrados: FP-growth e ECLAT (classe de equivalência e transformação).
Borgelt (2005) mostra uma implementação do FP-growth e faz a comparação dele com
outros três algoritmos, dentre eles o Apriori e o ECLAT. Palancar, em 2008, propôs
o método CBMine (compressed binary mine) que, segundo os testes, apresentou
melhores resultados que os algoritmos tradicionais. Muyeba et al. (2008) propõem
dois frameworks usando lógica nebulosa para a mineração de regras de associação
com pesos Muyeba (2008) e para a mineração de itens compostos, chamado CFARM
(Composite Fuzzy ARM).
Possas et al. (2000) sugerem uma variação do código/algoritmo Apriori a fim de que
um número menor de regras seja gerado. O produto desse desenvolvimento apresentou
até 15% de redução. Vasconcelos (2004) mostra o uso do Apriori para mineração de
dados da web. A abordagem para a mineração de bases em que são geradas muitas
regras (colossais), chamada Pattern-Fusion, é apresentada por Zhu et al. (2007).
Diante de uma técnica extremamente simples, é por isso que as árvores de decisão fazem
um grande sucesso, pois não necessita de parâmetros de configuração e geralmente têm
um bom grau de assertividade. Mesmo essa sendo uma técnica extremamente poderosa,
51
UNIDADE III │ TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS
é preciso que seja feita uma análise detalhada dos dados que serão usados para garantir
bons resultados.
Quinlan (1986) apresenta diversas técnicas para reduzir a complexidade das árvores de
decisão geradas. Em um artigo recente, Yang et al. (2007) apresentam um algoritmo
para extrair regras acionáveis, ou seja, regras que são realmente úteis para a tomada de
decisões. Um exemplo de árvore de decisão pode ser visto na figura 12 a seguir.
Idade?
Adolescente
Jovem
Adulto
Garantia? Classe C
Alta Baixa
Classe A Classe B
No final de 1970 e no início de 1980, J. Ross Quinlan criou o ID3 (interative dichotomiser),
um algoritmo para geração de árvores de decisão. Anos após, Quinlan criou o C4.5 (uma
versão otimizada do ID3), e que até hoje serve como benchmark para novos métodos
supervisionados. Foi na mesma época que um grupo de estatísticos (L. Breiman, J.
Friedman, R. Olshen e C. Stone), sem conhecer o trabalho de Quinlan, desenvolveram
um algoritmo e publicaram um livro chamado Classification and Regression Trees
(CART).
Esses algoritmos são considerados precursores e várias mutações ou variações. Eles usam
a estratégia de “dividir e conquistar” recursiva aplicada de cima para baixo (top-down).
Com o argumento de que os algoritmos tradicionais de árvore de decisão necessitam
carregar todo o conjunto de dados na memória, os algoritmos novos são capazes de
acessar repositórios persistentes foram desenvolvidos: SLIQ e SPRINT. Milagres (2004)
mostra uma ferramenta que implementa esses dois algoritmos. Gehrke apresenta um
framework para auxiliar na execução de algoritmos de classificação e separá-los de
questões relativas a escalabilidade. O BOAT (Bootstrapped Optimistic Algorithm for
Tree Construction) utiliza-se de uma estratégia chamada de bootstrapping. Chandra
52
TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS │ UNIDADE III
apresenta uma otimização do BOAT e uma variação usando lógica nebulosa para o
SLIQ.
53
UNIDADE III │ TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS
54
TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS │ UNIDADE III
de métodos, que somente realiza esse aprendizado quando solicitada para a classificação
de um novo registro. Neste caso, o aprendizado é considerado tardio. Apesar de
necessitar de um tempo menor de treinamento, esses métodos são muito custosos
computacionalmente, pois necessitam de técnicas para armazenar e recuperar os dados
de treinamento. Por outro lado, esses métodos permitem um aprendizado incremental.
O algoritmo conhecido como kNN (k - Nearest Neighbor), descrito na década de 1950,
só se tornou popular na década de 1960, com o aumento da capacidade computacional.
Basicamente, esse algoritmo armazena os dados de treinamento e, quando um novo
objeto é submetido para classificação, o algoritmo procura os k registros mais próximos
(medida de distância) desse novo registro. O novo registro é classificado na classe
mais comum entre todos os k registros mais próximos. No algoritmo chamado de
case-based reasoning (CBR), ao invés de armazenar os dados de treinamento, ele grava
os casos para a solução dos problemas. Para a classificação de um novo objeto, a base
de treinamento é analisada em busca de uma solução. Caso não encontre, o algoritmo
sugere a solução mais próxima. Esse algoritmo tem sido bastante utilizado na área de
suporte aos usuários, médica, de Engenharia e de Direito.
É uma técnica que consegue realizar a classificação mesmo com dados imprecisos
ou errados e é utilizada para valores discretos. Nesses algoritmos, atua a classe de
equivalência: eles ponderam que os elementos de uma classe são indiscerníveis e
cogitam a ideia de aproximação para a criação das categorias. Por exemplo, uma
estrutura (chamada rought set) é criada para uma classe C. Essa estrutura é cercada
por dois outros conjuntos de aproximação (chamados de baixo e alto). O conjunto
de baixa aproximação de C contém os registros que certamente são dessa classe. O
conjunto de alta aproximação contém os registros que não podem ser definidos como
não pertencentes à classe C. Um novo registro é classificado mediante a aproximação
com um desses conjuntos. Busse faz uma comparação do algoritmo MLEM2 (Modified
Learning from Examples Module, version 2) com duas variações.
55
UNIDADE III │ TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS
Regressão não linear nos modelos de regressão não linear: a relação entre as
variáveis preditoras e a resposta não segue um comportamento linear. Por exemplo,
a relação entre as variáveis pode ser modelada como uma função polinomial. Ainda
para esses casos (regressão polinomial), é possível realizar uma conversão para uma
regressão linear. Outros modelos também são encontrados na literatura: logistic
regression, poisson regression e log-linear models.
57
UNIDADE III │ TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS
58
TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS │ UNIDADE III
59
CAPÍTULO 2
Ferramentas de manipulação de dados
WEKA
Lançamento: 1993.
Sistema operacional: multiplataforma.
Idioma: Java.
Características
60
TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS │ UNIDADE III
Vantagens
Desvantagens
61
UNIDADE III │ TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS
Características
Vantagens
»» Gerenciamento de dados: consiste de um conjunto de ferramentas que
podem ser usadas para construir os novos dados, exportação e importação
de dados para outros formatos para formatos de quilha.
»» Edição e visualização de dados, processamento de aplicações e
particionamento de dados etc.
»» Experiências de projeção: construção desejada de experiências em grupos
selecionados de dados (várias suposições: tipo de validação, o tipo de
aprendizagem etc.).
»» Projeção experiência desequilibrada: experiência de construção
necessária aos dados selecionados definidos como desequilibrados ou
não balanceados. Essas experiências são criadas para dados “5cfo” set
(cinco vezes validação cruzada); isso inclui os algoritmos específicos para
algoritmos de classificação desequilibrada em geral.
»» Estudos com mais atributos de algoritmos de aprendizagem.
»» Teste estatístico: o analista fornece um conjunto finalizado de pares
estatísticos ou pares diversos dos procedimentos de comparação.
»» Experiências em educação: diante do modelo desenvolvido, é possível
permitir a projeção de um estudo que pode ser analisado (debug) passo a
passo, a fim de ser usado como um guia para compreender a plataforma
certa para modelar o processo de aprendizagem.
Desvantagens
»» Código limitado.
62
TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS │ UNIDADE III
Características
É uma plataforma líder para análise de dados que ajuda as organizações a ficarem à
frente da mudança. Com um moderno KNIME, é possível permitir o desenvolvimento
de operações e estatísticas sofisticadas de mineração de dados, a fim de fazer a análise
de padrões, tendências, descobertas e prever resultados potenciais nos dados.
Vantagens
De acordo com Gomes (2014, p. 41), a KNIME foi projetada e concebida como um
software proprietário que foi desenvolvido para a indústria farmacêutica, mas estaria
disponível mais tarde em formato de código aberto.
63
UNIDADE III │ TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS
Desvantagens
Orange
Lançamento: 2009.
Licença: GNU GPL.
Plataforma: multiplataforma.
Linguagem C ++ e Python.
64
TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS │ UNIDADE III
Características
A ferramenta Orange (ou laranja) é um software de código aberto para análise de dados
voltado para o mais recente na área e até mesmo para profissionais especialistas. É
um conjunto compreensível de componentes baseados em software para aprendizado
de máquina e mineração de dados, desenvolvido no laboratório de bioinformática
na Faculdade de Ciências e Tecnologia da Universidade de Ljubljana, na Eslovênia,
juntamente com um apoio da comunidade de código livre.
Vantagens
65
UNIDADE III │ TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS
por meio das guias de scripts – assim você fornece uma documentação
completa.
Desvantagens
RapidMiner
Lançamento: 2001.
Licença: AGPL 3.0.
Plataforma: multiplataforma.
66
TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS │ UNIDADE III
Características
Vantagens
Desvantagens
67
UNIDADE III │ TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS
TANAGRA
Lançamento: 2003.
Licença: GNU GPL.
Plataforma: Windows.
Características
68
TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS │ UNIDADE III
Vantagens
Desvantagens
O TANAGRA não inclui contexto técnico (código), o que torna as ferramentas comerciais
mais fortes neste domínio: um conjunto de fontes de dados, acesso direto a data
warehouses e bases de dados, limpeza de dados, utilização de forma fácil e interativa.
69
CAPÍTULO 3
AI e big data
Big data e Inteligência Artificial (AI) são dois dos mais falados conceitos no segmento
de negócios. E não admira, uma vez que eles são promissores (e gratificantes),
revolucionando o mundo dos negócios com seus números, dados e algoritmos, o que
faz qualquer menção deles cheia de expectativas. E qual é a relação entre Inteligência
Artificial e Big Data?
O big data reúne a vasta quantidade de dados digitais disponíveis na rede que, uma vez
exposta, permite a criação de modelos que analisem e antecipem o comportamento e
a dinâmica de sistemas complexos e interações. Esses dados são provenientes não só
da navegação de rotina dos indivíduos, mas também do traço digital que as pessoas
deixam, muitas vezes sem perceber, na internet.
Olhando para o mundo on-line, cada pessoa possui bilhões de características diferentes.
O desafio é descobrir quais dessas são relevantes na hora de se analisar e determinar
o comportamento de cada um. Logo, é preciso possuir ferramentas que permitam a
manipulação e o estudo desses bilhões de dados. Entender mais sobre esses elementos,
suas origens e tentar prever suas condições futuras permite planejar melhores tomadas
de decisões.
70
TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS │ UNIDADE III
Essa condição pode parecer básica, mas não é. Aprender é uma capacidade
inerentemente humana, que faz com que, a cada tentativa sem sucesso de atingir
um objetivo, a pessoa empreenda raciocínio lógico e criatividade para criar novas
alternativas para atingir o mesmo fim. O machine learning segue o mesmo princípio,
o que faz com que os resultados se tornem cada vez mais assertivos e específicos.
Para chegar perto das variações e da quantidade de dados que a mente humana é capaz
de processar de forma intuitiva, uma máquina precisa ter acesso a grandes quantidades
de informações, normalmente não estruturadas e contínuas: o big data.
Em 1308, o poeta e teólogo catalão Ramon Llull publica “Ars Generalis Ultima” (The
Ultimate General Art), aperfeiçoando ainda mais seu método de usar meios mecânicos
em papel para gerar novas informações a partir da combinação de dados.
Em 1726, Jonathan Swift publica “As Viagens de Gulliver”, que inclui uma descrição
de “O Motor”, uma máquina na Ilha de Laputa (e uma paródia de Ars Magna): “um
projeto para melhorar o conhecimento especulativo por meio de operações práticas
e mecânicas”. Usando essa “força”, a pessoa mais ignorante a uma carga razoável, e
com um pouco de trabalho corporal, pode escrever livros em Filosofia, Poesia, Política,
Direito, Matemática e Teologia, com a menor assistência dos estudos.
71
UNIDADE III │ TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS
No ano de 1763, Thomas Bayes desenvolve uma estrutura para o raciocínio sobre a
probabilidade de eventos. A inferência bayesiana se tornaria a principal abordagem
técnica na aprendizagem mecânica.
Em 1854, George Boole argumenta que o raciocínio lógico poderia ser realizado
sistematicamente da mesma maneira que se resolvia um sistema de equações.
Desde então vieram muitas e muitas inovações! E uma que eu admiro é aquela que,
em 1950, Claude Shannon publicou sobre o desenvolvimento de um programa de
computador capaz de jogar xadrez. Além disso, Alan Turing publica “Computing
Machinery and Intelligence”, no qual ele propõe “o jogo de imitação”, que mais tarde se
tornará conhecido como o teste de Turing.
E chegamos à era das redes em destaque! Em 2011, uma rede neural convolucional
ganha a competição alemã de reconhecimento de trânsito com 99,46% de precisão
(contra um valor de 99,22% em humanos).
72
CICLO DE VIDA
DO PROJETO UNIDADE IV
DE CIÊNCIA DE
DADOS
CAPÍTULO 1
Gestão de Dados
Os dados da pesquisa têm uma vida além do projeto que eles criam. Os pesquisadores
devem continuar a trabalhar em cima dos dados após o fechamento do financiamento
e seguindo projetos para que os dados ainda sejam analisados, citados, atualizados ou
passem por qualquer forma de reutilização por outros pesquisadores. Assim, os dados
seguem essa reutilização para criar novos combustíveis de um outro ciclo de pesquisa.
Criação de dados
»» Concepção da pesquisa.
73
UNIDADE IV │ CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS
»» Produção de resultados.
»» Migração dos dados para o formato mais adequado (em geral um formato
open source ou não proprietário).
»» Controle de acesso.
»» Acompanhamento.
74
CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS │ UNIDADE IV
»» Nova pesquisa.
»» Ensinamento e aprendizagem.
Outros esquemas são mostrados na figura 20, apresentando um outro ciclo, incluindo
a preparação, a análise e o armazenamento de dados.
75
UNIDADE IV │ CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS
A figura 21, do diagrama JISC, indica que o movimento de dados envolve várias
atividades para as profissões em questão: os primeiros são pesquisadores,
posteriormente é natural que eles vão recorrer ao apoio e a serviços a partir de outros.
A figura 22, que representa o curation lifecycle model, mostra o papel de diferentes
profissões, por exemplo de arquivistas ou curadores, nas diferentes partes do ciclo. O
modelo permite curadores para identificar fraquezas nas políticas potenciais, lacunas no
processo de arquivo ou preocupações que poderiam ser incluídas nas práticas além dos
limites dos processos de gestão de dados quando a responsabilidade da instituição termina.
76
CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS │ UNIDADE IV
77
CAPÍTULO 2
Ciclo de vida dos dados
A ciência da informação pode e deve contribuir para que esse cenário de acesso e uso
intensivo de dados se desenvolva da melhor maneira possível, a fim de identificar e
estudar os fatores e as características que facilitam a expansão do equilíbrio entre os
atores envolvidos no processo, além de propiciar máxima otimização dados intensivos
de dados.
Nessa tarefa, é necessário estruturar essa análise e, portanto, propor o uso de uma
delimitação de fase (momentos em que diferentes necessidades e habilidades são
necessárias) envolvida no acesso e na utilização de dados, mantendo os mesmos dados
de pontos centrais. E assim será o uso de ciclo de vida de dados (CVD), como forma de
destacar os diferentes momentos e fatores envolvidos nesse processo.
Em primeiro lugar, você precisa identificar e obter os dados que podem ser usados para
atender a uma necessidade específica ou uma pergunta à espera de informações em um
contexto particular. Em vista disso, os esforços de tempo, a fim de estabelecer um plano
de ação, são necessários na análise de viabilidade e na implementação de coleta de dados.
Outros temas-chave dessa fase podem ser apontadas: qual é o escopo das informações
de que necessita? Que tipo de resultados você espera? Quais são as características?
Qual é a informação necessária? Onde estão as fontes dessas informações? Como os
dados podem ser recolhidos? Eles são formados? Quais são os tratamentos necessários
para torná-los adequados para o que você precisa? A recolha desses dados não fornece
risco à privacidade de indivíduos ou entidades a que se referem? Elementos que, em
alguns casos, poderiam ser considerados comos secundários para permitir a integração
de vários dados coletados são obtidos? Como avaliar a sua integridade física e lógica e
outros elementos para garantir a sua qualidade? Como identificar a sua origem? Eles
têm direito ou permissão para coletar esses dados? Dados podem ser identificáveis
e recuperáveis em um momento posterior são coletados? E outros elementos para
garantir a sua qualidade? Foram coletados os dados que fornecem manutenção e acesso
a eles no futuro? Eles devem ser mantidos?
Assim, podemos ver um estágio em que são necessárias habilidades especiais, embora
não totalmente dependentes de uma compreensão profunda das tecnologias digitais,
mas muito perto de precisar de informações que motivem a coleta. Portanto, nessa
fase, tanto o usuário como aqueles que detêm o conhecimento derivado da ciência da
78
CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS │ UNIDADE IV
informação, tais como TI, são pessoas importantes que, trabalhando juntas, podem
tornar o processo mais eficiente.
Uma vez que os dados são obtidos, podem ser utilizados para o fim imediato e eliminados,
o que, como veremos, pode ser considerado como uma outra fase. No entanto, pode
ser necessário e útil manter essa informação disponível de alguma forma para acesso
futuro.
Outros temas-chave dessa fase podem ser destacadas: Que dados estão disponíveis?
Quais desses dados serão armazenados? Essa estrutura (física e lógica) será usada
para armazenamento? Como garantir a permanência da coleção de dados adicionais
para o ambiente garantido para alcançar? Esses dados podem representar um risco à
privacidade dos indivíduos ou instituições de sua referência de alguma forma? Como as
partes de sua estrutura lógica serão interligadas e como serão mantidas as interligações
com outros conjuntos de dados? Como garantir que os elementos que sustentam a
sua qualidade sejam mantidos? Tem-se o direito de armazenar esses dados? Todos os
aspectos que podem contribuir para sua encontrabilidade estão sendo armazenados?
Todos os fatores para sua utilização ao longo do tempo estão sendo mantidos?
Assim, nessa fase, percebemos uma série de projetos e ações que exigem um
conhecimento mais profundo da ciência da computação, mas que ainda têm um
forte potencial para a participação na área. O usuário já é um pouco mais distante,
participando mais ativamente somente da validação de modelos estruturais definidos
para os dados.
Após essa etapa, pode chegar um momento em que é decidido que os dados não são
mais necessários ou não devem ser mantidos, o que leva à sua disposição, sempre
com referência à outra fase da discussão. No entanto, o mais comum será buscar
alternativas para o acesso e o uso desses dados. Em seguida, começa uma nova fase
em que preocupações e esforços estão focados nesses dados podem ser encontrados,
acessados e interpretados. Essa é uma fase cujo objetivo torna-se, então, a viabilidade
da recuperação de dados.
79
UNIDADE IV │ CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS
Entre outras questões fundamentais dessa fase, podem-se destacar: quais dos dados
guardados serão disponibilizados? Há um alvo específico, um público-alvo? É uma
necessidade que você quer conhecer, ou pelo menos uma área de que se destina a
fornecer? O acesso será feito diretamente para a base sobre a qual ele está armazenado
ou será necessário trazer a fase de armazenamento de definição de novas instalações
de armazenamento específicos para a recuperação? Quantas vezes os dados serão
atualizados gratuitamente? Quem tem acesso a esses dados? Durante o processo
de recuperação, quais são os riscos para a privacidade das pessoas ou entidades
referenciadas no conteúdo recuperado? Como explicita a integração entre diferentes
estruturas de dados e aqueles com outros conjuntos de dados? Como garante os
elementos que suportam a qualidade dos dados que se tornaram disponíveis? Eles
têm o direito de fornecer essa informação? Como é possível que esses dados sejam
encontrados, cedidos e abertos para interpretação? Os procedimentos e os processos de
recuperação são suficientemente estáveis para permanecer polimorficamente utilizáveis
ao longo do tempo?
Em alguns lugares, essa fase também tem a capacidade de identificar os dados que não
são mais necessários ou que devem ser excluídos da base, o que leva a uma outra fase,
que é responsável pela limpeza ou simplesmente por desativar os dados. Essa fase é
identificada como fase de descarte; em seguida, há a disposição do bloco de dados, que
pode ocorrer horizontalmente ou verticalmente. Bloco seria a exclusão de subconjuntos
completos de dados identificados como entidades (SANTOS; SANT’ANA, 2013).
80
CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS │ UNIDADE IV
Entre outras questões fundamentais dessa fase, podem-se destacar: Quais dados já não
são mais necessários? Os dados a serem descartados persistiram? Em quais suportes?
Esses dados estão replicados em outras bases? Como garantir e explicitar que esses dados
foram realmente excluídos e não simplesmente ocultos? A eliminação desses dados não
prejudicará a integridade ou interligação de outros dados? O descarte desses dados não
prejudicará a qualidade do conjunto de dados como um todo? Tem-se o direito de excluir
esse dado? Ao eliminar esses dados, qual o impacto em sua encontrabilidade e acesso?
Para o descarte, foi considerada a necessidade de preservação em seus diversos aspectos?
Aponta-se, assim, para a existência de quatro fases e de fatores que permeiam (ou seja,
que estão presentes) todas elas, que são: privacidade, integração, qualidade, direitos
autorais, disseminação e preservação, conforme descrito na figura 23.
81
UNIDADE IV │ CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS
Coleta
Em um primeiro momento, estamos enfrentando a etapa de obtenção de dados, que
pode ser identificada como aquela em que ocorrem: a definição de necessidades de
informação que irá conduzir as escolhas e as definições sobre o que é exigido dos
dados; as estratégias são estabelecidas sobre como identificar e avaliar esses dados;
mecanismos são escolhidos para ser utilizados para a sua produção; as metodologias e
as ferramentas necessárias para atingir esses dados são preparadas.
Nos casos em que a coleção se dá no tempo correto, cada processo de coleta pode
ter suas próprias configurações, e a criação de metadados deve levar em conta as
características de cada coleção, principalmente a partir do tempo de registro em que
isso ocorreu, alterando as características de um projeto com início e fim claramente
definidos. Situações desse tipo podem também indicar a necessidade de análise da nova
coleção de coleta, em uma atualização cíclica do movimento dos dados coletados, que
se aproxima da coleta contínua, mas com características próprias, blocos definidos e
subconjuntos de dados, que se inserem no âmbito dos dados coletados.
Nesse contexto, podem-se analisar os fatores envolvidos nessa fase, começando com a
privacidade que essa área ganha contornos de destaque. Faz-se necessário identificar
as fontes utilizadas, aspectos que poderiam constituir uma violação da privacidade
dos indivíduos ou instituições em relação aos dados a serem coletados, o que poderia
82
CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS │ UNIDADE IV
Na coleta também é importante ter pronta a definição dos requisitos, com base em
dados que você deseja alcançar como um todo, e as relações necessárias para essa base
podem ser conectadas a outras bases de dados, proporcionando um resultado que
remete à questão do valor do todo, que tende a ser maior que a soma das partes quando
estas estão devidamente integradas. Assim, a integração deve se preocupar com a etapa
de coleta por meio da identificação e da validação dos atributos que serão responsáveis
pela identificação única de cada registro (chave candidata ou chave primária) e os seus
correspondentes nas outras entidades (chaves estrangeiras) para que a integração
possa ser garantida.
Devem-se consultar sempre as informações sobre direito de acesso aos dados desejados
e suas nuances, como a questão de resultados derivados ou de vinculação financeira de
uso futuro de resultados produzidos a partir deles e, ainda, a autorização de alteração
e de obrigatoriedade de citação de fonte. O maior volume possível dessas informações
deve ser corretamente registrado no mesmo repositório, expandindo a sua segurança
jurídica até mesmo para seus responsáveis.
83
UNIDADE IV │ CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS
obtidos e a entrada de informação na própria recolha como parte das estruturas a serem
preenchidas com os dados recolhidos.
Armazenamento
Uma vez que os dados são coletados, o potencial uso futuro dos mesmos é uma realidade,
ou seja, a possibilidade de que esses dados sejam usados em novos processos de análise
direta ou por meio da interação com outras bases de dados, o que leva à necessidade
de metodologias e ações estruturantes. Em informática, essa fase é definida como a
persistência de dados (RUMBAUGH et al., 1994, p. 429) – e a doença cardiovascular,
por exemplo, é definida como a fase de armazenamento.
Essa fase tem uma abordagem mais tecnológica e define aspectos garantindo a
reutilização de tais dados, por meio de especificações físicas e lógicas de como os
dados são gravados em um suporte. Algumas das configurações necessárias nessa fase
encontram-se listadas a seguir.
84
CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS │ UNIDADE IV
85
UNIDADE IV │ CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS
f. Em que eles são armazenados é outra definição que está ganhando cada
vez mais importância. Como em um movimento cíclico, vê um retorno
ao modelo de armazenamento utilizado nos primeiros dias de cálculo
digital, pois a dificuldade de armazenamento levou a uma centralização
de armazenamento em grandes dispositivos. Com a disseminação
de dispositivos de baixo custo e aumentando a capacidade de
armazenamento, o conteúdo começou a fragmentar em cada um dos seus
equipamentos necessários, trazendo grandes vantagens de desempenho,
mas acrescentando problemas de interoperabilidade. Hoje, com o advento
da interconectividade em massa, há uma tendência crescente para usar
dispositivos de acesso cada vez mais orientados para a tarefa interface e
abdicar da responsabilidade para a conservação.
Com base nos objetivos e nas definições descritas, passam-se a analisar os fatores
envolvidos nessa fase, e a privacidade está fortemente ligada à entrada “c”, como nessa
definição será identificado quem pode ter acesso a esses dados, não só para consulta,
mas também para incluir, editar e até mesmo apagar a informação.
Em relação ao “d”, uma das grandes vantagens da adoção do SGBD é a sua capacidade
para definir quem pode acessar os dados, e isso pode ser feito por meio das funções
de usuário em configurações que definem não só a identificação de usuários, mas
86
CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS │ UNIDADE IV
esses grupos de usuários eles poderiam ser as atividades que esse grupo desenvolve.
Isso permite que a atribuição de acesso seja definida para um papel particular, e, em
seguida, cada utilizador pode ser identificado por uma ou mais funções que definem o
seu âmbito de acesso ao conteúdo de um banco de dados.
Em “f”, que define “onde”, os dados também são armazenados, sendo capazes de
gerar uma série de questões de privacidade, e uma base armazenada localmente e
desconectada da rede pode ser muito mais segura em relação ao acesso ou ao uso não
autorizado de um banco de dados que é armazenado em um servidor de dados conectado
à internet, muitas vezes sob a responsabilidade de terceiros. Onde esse problema tem
muitos dados confidenciais é fundamental, o que geralmente leva a uma fragmentação
de retenção de dados.
Uma preocupação que vem desses fatores é o caminho para garantir a confidencialidade
no acesso aos dados armazenados em dispositivos intramuros de uma empresa.
87
UNIDADE IV │ CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS
Ao armazenar dados, a preocupação deve ser com respeito aos direitos de autor ligados
à fonte de onde foram obtidos os dados, tentando registrar essa informação, a fim de
manter a resposta de segurança institucional a partir de dispositivos de armazenamento.
Áreas com forte presença do Estado na sua gestão podem apresentar melhorias no acesso
e no futuro armazenamento de dados, mas eles devem ser considerados a presença
maciça de organizações que procedam a investimentos em pesquisa e desenvolvimento
e, portanto, os resultados financeiros esperados dos seus investimentos e, em seguida,
tentar proteger seus ativos de informação.
Note-se, além disso, que, mesmo quando se fala em tratamento de outro armazenamento
de banco de dados, deve-se levar em conta o problema do trabalho derivado que, embora
não seja uma cópia dos dados originais, o conteúdo armazenado pode ser derivado do
acesso a certas bases e seria possível somente por meio desse acesso, que deve conter
informações sobre os dados que lhes deu origem.
Quando se trata de preservar os dados no contexto de big data, você deve levar em conta
não apenas os aspectos comuns do processo de preservação, mas também fatores como
a ampla gama de tamanhos e variedade de fontes de dados, bem como a diversidade
de dispositivos. Também existe uma constante evolução no agravo do problema de
armazenar informações sobre como obtê-lo.
88
CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS │ UNIDADE IV
Recuperação
Uma vez que os dados foram coletados, são armazenados em uma posição para fornecer
uma nova fase, que seria aquela que, tomando o comissionamento de dados em foco,
serve para tornar esses dados disponíveis para acesso e uso.
Esses pontos preocupam-se com meios que aumentam os níveis de utilização de tais
dados, seja aumentando as possibilidades de acesso por cópia ou obtendo ambos os
conjuntos de análise por meio da disponibilização desses recursos de visualização de
dados. Esse é um assunto vasto e foge do escopo deste livro, mas somos capazes de abrir
algumas reflexões sobre os fatores envolvidos nessa fase.
A fim de obter um bom nível de uso, a partir dos dados armazenados, eles devem ter um
grau de integração que fornece uma análise de entidades distintas, mas integrada, para
compor um todo, que poderia ser um valor de uso superior para a soma dos valores de
utilização de sujeitos individuais.
89
UNIDADE IV │ CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS
Quando se trata de dados sensíveis, os usuários tendem a ter umas fortes permissões
de identificação e acesso, mas, mesmo assim, esses usuários precisam receber as
informações de que esses dados estão disponíveis. Devem estar disponíveis, também,
todas as informações sobre como usá-los, os aspectos semânticos envolvidos e também
o acesso e as limitações, para que tudo isso ainda pode ser identificado no momento da
localização, para facilitar a decisão sobre seu uso.
Essa não é uma tarefa fácil, especialmente considerando a pressão constante por
atualização e a modificação que esses recursos sofrem durante a sua existência. Quando
se trata de dados sensíveis, essa questão torna-se bastante preocupante, uma vez que
uma pesquisa realizada em momentos diferentes pode levar a resultados diferentes
90
CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS │ UNIDADE IV
Descartar
Depois de concluir as reflexões sobre as fases de coleta, armazenamento e recuperação,
pode-se supor que o ciclo de vida dos dados esteja completo, especialmente quando
o limite para a quantidade de dados parece forte, mas não é o que acontece. A
experiência foi um momento em que as configurações, tais como grandes volumes de
dados, identificam um cenário em que a quantidade de dados que a disposição está
a aumentar, excedendo a capacidade de interpretação e mesmo de armazenamento
eficiente. Essa fase é a eliminação de dados que não são mais necessárias ou que estão
além da capacidade de serem de forma eficiente pelo sistema como um todo.
Quando se trata de questões relacionadas com a fase de eliminação, não é trivial conectar
isso com a questão da privacidade, mas é bastante urgente nessa fase e merece atenção.
Um indivíduo deve ter o direito ou pode precisar ter os dados retirados de uma certa
base e garantir que nós nos identifiquemos com o conceito do direito ao esquecimento.
Mas essa não é uma tarefa fácil, porque o acesso aos dados será sempre mediado de
alguma forma pelos titulares de acesso direto, e limitações podem apresentar cenários
em que dados incompletos são retidos. Pode-se gerar, ainda, a percepção de que um
determinado dado foi eliminado quando foi identificado apenas como acessível para
visualização, permanecendo assim registrado para intramural e fora do alcance prático
da análise de casos de monitoramento e controle.
Outro problema com o direito a ser esquecido em um banco de dados pode estar
relacionado com a presença de cópias de dados que podem ser armazenados em lugares
diferentes, longe da possibilidade de controle ou monitoramento por aqueles que aqui
têm seus dados registrados.
Vale ressaltar que os dados descartados podem já ter sido utilizados por terceiros ou
por derivados e que o seu conteúdo excluiria todos os afetados.
Quanto à questão da qualidade – que, nessa fase, está ligada muito diretamente ao
fator de integração –, também no momento do descarte, agrava o conceito geral de
91
UNIDADE IV │ CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS
A conservação tem uma relação direta com o estágio de eliminação relativa para incluir
outros fatores. O armazenamento deve ser procurado, mesmo quando os dados não
parecem ser mais úteis, pois ele pode sempre subir a novas necessidades imprevistas
que podem exigir os dados apagados.
92
CAPÍTULO 3
Onde encontrar dados
Se você disser que os dados poderiam ser, em breve, uma das principais matérias-primas
de transformação social, você é capaz de imaginar o que vai acontecer? Na verdade,
essa é uma mudança que já está acontecendo em algumas ocasiões. Tudo graças ao que
chamamos open data, ou dados abertos.
Big data e open data são questões que se cruzam, embora tenham definições muito
diferentes. Vamos entender a relação entre os dois assuntos e compreender melhor
o mundo dos dados abertos, um dos principais insumos para uma nova cultura
tecnológica.
Além de compreender o que é, de fato, big data, é também importante compreender que
todos esses dados são apenas de valor importante depois de serem analisados. Portanto,
usa-se, para tais situações, o termo big data analytics. Na prática, big data analytics
é um trabalho analítico de grandes volume de dados (sendo estes estruturados ou não),
com o objetivo de encontrar insights que ajudem as organizações a tomar decisões
de negócios inteligentes, ou para responder a quaisquer outras perguntas sobre um
mercado específico.
Por meio de um software de alto desempenho, tais dados podem ser coletados,
armazenados e interpretados de forma rápida e completa. Em suma, é possível cruzar
uma infinidade de dados do ambiente externo e interno, para garantir que todo histórico
use essa análise como uma verdadeira bússola gerencial. Agora que sabemos o que é big
data e big data analytics, trataremos de entender o que é open data.
93
UNIDADE IV │ CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS
Tal como definido pela Open Knowledge Foundation, uma instituição que tem como
objetivo fortalecer a empresa por meio do conhecimento livre, em suma, os dados podem
ser considerados abertos quando qualquer um pode usá-los livremente, reutilizá-los
e redistribuí-los, sendo sujeito à obrigação de, no máximo, creditar a sua origem e
compartilhar da mesma forma.
Toda a questão dos dados abertos normalmente é diretamente relacionada com questões
de governança, já que, atualmente, a maior parte dos órgãos públicos trabalha para
fornecer informações públicas (tais como orçamento e gastos públicos) transparentes
para a sociedade.
As três leis
a. Se os dados não podem ser encontrados e indexados na web, não existem.
É importante ressaltar que essas leis foram propostas, em primeiro lugar, para os dados
governamentais abertos. No entanto, hoje podemos dizer que se aplicam a abrir os
dados em geral.
Os 8 princípios
Tentando decifrar e explicar o que são, de fato, dados abertos, um grupo de ativistas e
interessados no tema se reuniu na Califórnia (EUA), em 2007. Chegaram a um consenso
94
CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS │ UNIDADE IV
que define os princípios de dados abertos por meio de 8 tipos de necessidades, descritas
a seguir.
Completos
Primário
Os dados são publicados como eles foram coletados na fonte, com a granularidade mais
fina possível, e não agregados ou transformados em formulário.
Atual
Os dados estão disponíveis tão rapidamente quanto é necessário para preservar o seu
valor.
Acessível
Os dados estão disponíveis para o maior público possível e para diferentes fins.
Máquina processável
Os dados estão disponíveis em um formato sobre o qual nenhum indivíduo tem controle
exclusivo.
95
UNIDADE IV │ CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS
Sem licença
Os dados não estão sujeitos a regras de direitos autorais, marcas, patentes ou segredos
comerciais. Restrições razoáveis sobre privacidade, segurança e controle de acesso
podem ser permitidas na forma regulada por estatutos.
Isso também significa que os cidadãos podem desfrutar de seu direito de controle
social, por terem um acesso mais adequado às demonstrações financeiras, às despesas
mensais do prefeito da sua cidade e aos investimentos feitos com fundos públicos de
seu estado, entre outras situações.
96
CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS │ UNIDADE IV
Evidência desse progresso aqui citado foi a criação da Lei de Acesso à Informação
(LAI), que entrou em vigor no Brasil em 2012. Mais adiante, entenderemos mais sobre
a relação entre dados abertos e a LAI.
Por exemplo: hoje, você pode procurar a ajuda da Câmara Municipal ou de qualquer
outro órgão público, e solicitar acesso aos dados que são públicos e não atingem a
privacidade de ninguém. Outro exemplo: você pode acessar os dados sobre o valor do
salário que recebe qualquer funcionário público, ou mesmo ver uma despesa de um
órgão real sobre os gastos domésticos. Não há limite para a informação a ser obtida.
É importante também fazer algumas ressalvas. A lei não garante explicitamente que
o órgão envie para os cidadãos os dados públicos em formato aberto; para isso, em
alguns casos, você pode receber um arquivo em PDF ou uma imagem no formato JPG
que exibe as informações solicitadas.
Além disso, nem sempre os órgãos têm disponíveis os dados estruturados e organizados;
todavia, ao solicitar o acesso à informação, é possível fazer o pedido para que ela seja
compartilhada em formato aberto (CSV ou RAW, por exemplo).
Transparência ativa
Uma consequência positiva da Lei de Acesso à Informação é o surgimento de inúmeros
portais de transparência.
97
UNIDADE IV │ CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS
A lei solicita aos órgãos, ainda, que os dados sejam publicados, inclusive, em formatos
abertos e não proprietários. Essencialmente, demanda a publicação de dados abertos,
embora não utilize esse termo diretamente.
›› http://dados.gov.br/
›› http://www.transparencia.sp.gov.br/
›› http://portalpbh.pbh.gov.br/pbh/ecp/comunidade.do?app=aces
soinformacao
›› http://transparencia.gov.br/
98
CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS │ UNIDADE IV
A ferramenta “Para onde foi meu dinheiro?”, do projeto Gastos Abertos, idealizado pela
Open Knowledge Brasil, está sendo desenvolvida para oferecer uma visualização dos
gastos públicos do Governo Federal e de São Paulo.
Ela expõe e torna acessíveis para toda a população o destino de mais de R$1,5 trilhão que
compõe o orçamento anual autorizado pela União e a execução local dos R$50 bilhões
do orçamento da cidade de São Paulo, beneficiando diretamente toda a população
brasileira.
Governos horizontais
O projeto brasileiro “Vote na Web” faz uso dos dados abertos pelo Senado, pela
Assembleia e demais órgãos. Ele apresenta os projetos de lei que estão para entrar em
votação pelos parlamentares e permite que nós mesmos discutamos os textos.
Jornalismo
Games
99
UNIDADE IV │ CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS
qual deputado está ou não indo trabalhar todos os dias, qual parlamentar está propondo
projetos de lei (e quantos por mês), entre outras questões.
»» Lima I/O
»» Data Viva
Outros exemplos
»» Husetsweb
100
CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS │ UNIDADE IV
101
APLICAÇÕES EM UNIDADE V
BIG DATA
CAPÍTULO 1
Netflix
Texto extraído e interpretado do Portal Gestão da Inovação Simplez:
O uso de inteligência do negócio é um dos principais caminhos para alcançar sucesso nas
estratégias empresariais. E não duvide: o principal insumo para análises que fornecem
informações poderosas para a tomada de decisão assertiva é conhecer o cliente.
Uma empresa que já entendeu a força desse tipo de conhecimento é a Netflix, e hoje ela
“nada de braçada” graças à capacidade de oferecer soluções na medida das expectativas
dos seus clientes. Tem coisa melhor, em uma relação de consumo, do que sermos
surpreendidos por uma empresa que se esforça para se antecipar e nos oferecer algo
que casa exatamente com a nossa necessidade?
102
APLICAÇÕES EM BIG DATA │ UNIDADE V
A cada escolha, o site “aprende” um pouco mais sobre o perfil do usuário e vai
enriquecendo sua base de dados para que uma inteligência de análise de informações
apresente cada vez mais opções acertadas.
Chegar a esse ponto não é fácil, mas, com técnicas e ferramentas de inteligência
competitiva, é possível combinar informações relevantes sobre a experiência do cliente
e transformá-las em motores de transformação das estratégias do negócio. Isso tudo
que estamos falando é a inteligência do negócio!
Saber se alimentar de dados do cliente para direcionar seu foco de atuação é uma
estratégia que precisa, necessariamente, contar com o apoio de tecnologias. Hoje, o que
não falta são opções de ferramentas capazes de coletar, triturar e combinar dados que
geram análises confiáveis de determinado contexto.
Estamos falando das soluções de Business Intelligence (BI), big data, fast data, data
fusion, inteligência artificial e computação cognitiva. Com características e aplicações
específicas, em comum elas têm o fato de terem como insumo dados extraídos de
interações de usuários em diversos ambientes virtuais.
Nenhum clique escapa aos “olhos” da plataforma porque é ele que retroalimenta a
estratégia de oferta assertiva de conteúdo conforme o perfil do cliente. A nova série da
Netflix, Stranger Things, propõe referências a extraterrestres e clássicos que sempre
conquistaram o público. E aí fica uma questão: de onde saem as ideias para produzir
algo tão oneroso e saber que esse tipo de produto irá agradar ao público?
Organizações inovadoras como a Netflix “não dão ponto sem nó” e, com toda a certeza,
utilizam das tecnologias citadas para estruturar temas e roteiros com tendência de
viralizar e se tornar conhecidos e até ovacionados no mundo inteiro.
103
UNIDADE V │ APLICAÇÕES EM BIG DATA
O ato de curtir e seguir perfis, de escolher quais perfis deseja ver primeiro, de determinar
que tipo de postagens mais replica e de elencar palavras-chave que definem seu estilo
de publicação fornece informações preciosas. Tudo (tudo mesmo!) faz parte da rica
combinação de dados sobre o cliente.
Tudo isso que está sendo falado nada mais é do que o rastro digital que todos deixamos
em nossas interações em ambientes virtuais. Essas pegadas são o mapa do tesouro para
as organizações que pretendem ser competitivas e se tornar a primeira na lembrança do
cliente quando perguntado sobre determinado nicho de atuação.
A tão aclamada inteligência de mercado é uma ferramenta muito eficiente para capturar
tendências de consumo a partir de pistas deixadas pelo cliente em suas trajetórias.
Além disso, ela também combina a visão da concorrência e de outras forças externas ao
negócio. Com ela é possível antecipar movimentos e se preparar para enfrentar ameaças
e desafios que estão por vir.
104
APLICAÇÕES EM BIG DATA │ UNIDADE V
Com todos esses adventos, surge um novo CRM (Customer Relationship Menagement,
ou gestão do relacionamento com o cliente), muito mais ágil, certeiro, adaptável e com
potencial de ofertar ao cliente o que ele deseja, no momento e nos canais certos. Com
esse novo modelo de gestão da carteira de clientes, a árdua tarefa de acertar o alvo
passa a ter muito mais condições de obter sucesso.
A lição que fica é que inovar, como fazem Netflix e Facebook, é extrair das tecnologias
todos os benefícios possíveis para otimizar as estratégias de negócio. A partir daí,
conseguir oferecer ao cliente experiências memoráveis, que o encantam e o fidelizam,
será bem mais simples. Depois é só colher os frutos dessa “grande sacada”!
105
CAPÍTULO 2
AirBnB
O Airbnb existe desde 2008 e vem ajudando muitos viajantes a economizar, por se tratar
de uma opção, no geral, mais barata que os hotéis, apesar de existirem acomodações e
experiências exclusivas, como por exemplo casas-barco, chalés de montanha, casas de
árvore ou até mesmo carruagens ciganas.
Porém, para conseguir essa evolução que se tem diariamente, é necessário ter feedback
de como o negócio é desenvolvimento; esse feedback se dá por meio dos comentários,
que são extremamente importantes!
106
APLICAÇÕES EM BIG DATA │ UNIDADE V
podemos esquecer: esses anúncios são escritos por pessoas que estão interessadas em
ter você como hóspede, e em alguns casos, alguns “detalhes” importantes podem não
receber o merecido destaque. Como exemplo dessa situação, posso citar que muitos
prédios em Paris não possuem elevador e muitos apartamentos para locação no site
ficam no 5o ou 6o andar (as vezes até mais alto) e subir escadas estreitas com malas
pesadas pode ser uma péssima ideia.
A preparação para uma viagem exige planejamento. Saber do clima, arrumar as malas
com roupas adequadas, roteiro do que visitar, quantos dias pretende ficar… Barcelona
ou Aracaju? Berlim ou Nova Iorque?
E é claro que nós não somos os únicos que fazemos isso. A análise inteligente de dados
é o segredo de uma das organizações mais inovadoras quando o assunto é viajar: o
Airbnb!
A plataforma, que recebeu seu nome a partir da expressão em inglês “Air Bed and
Breakfast”, faz o intermédio entre hóspedes e anfitriões do mundo todo utilizando big
data para transformar a estada do viajante numa experiência prazerosa e confiável.
Afinal, escolher qual a melhor localização e acomodação no seu passeio talvez seja um
dos principais motivos de sucesso da sua experiência em outra cidade.
Com esse tipo de análise, o site transforma dados em respostas para perguntas como:
Qual a melhor data para viajar? Quando poderei pagar mais barato pela hospedagem?
Onde ficar? Quando é mais vantajoso para um anfitrião oferecer o seu imóvel para
aluguel?
107
UNIDADE V │ APLICAÇÕES EM BIG DATA
Com todos esses dados obtidos, processados e analisados com ferramentas de big data
analytics, o Airbnb consegue, por exemplo, analisar o histórico do hóspede, seus tipos
de imóveis e bairros preferidos, e confrontá-lo com diversos perfis de locatários até
encontrar a combinação mais fácil e eficiente possível.
Mas os especialistas do Airbnb também deixam claro que, por trás de cada viagem, há
um tipo de pessoa diferente, que viaja com uma motivação específica e, do outro lado,
encontra outro indivíduo, que cede a sua casa como hospedagem também por motivos
únicos. Para eles, é preciso levar em consideração a interação humana. Ela é a cereja
do bolo.
Levando em consideração que duas viagens nunca são idênticas, o Airbnb ainda utiliza
a análise de dados para entender todas as possíveis variáveis do processo, como um
mesmo anfitrião ou viajante que dá votos diferentes para períodos semelhantes ou com
os mesmos números de hóspedes.
Para tentar minimizar esse ruído de comunicação entre quem procura o serviço e
quem hospeda, a empresa utiliza uma filtragem colaborativa, multiplicando as diversas
respostas para um mesmo tipo de viagem e filtrando os padrões.
Dá mais trabalho, mas garante que o que os problemas que não podem ser 100%
previstos – por conta da interação humana e humores diversos dos viajantes – podem,
pelo menos, ser reduzidos.
“Avaliamos a experiência de olhar para várias métricas (…) tivemos uma elevação
de 3,75% em nossa conversão de reserva e um aumento significativo no número de
partidas bem-sucedidas entre hóspedes e anfitriões”, diz Bar Ifrach, cientista de dados
do Airbnb em São Francisco (BigData Business, 2018).
108
CAPÍTULO 3
BI e Educação
Na área de educação, Zorrilla et al. (2005) apontam que essas técnicas podem ser
aplicadas para diferentes atores, que são os professores, os estudantes e os gestores,
cada um tendo suas características e pontos de vista próprios.
Na educação, cada ator possui uma função específica dentro do contexto em que está
inserido; isso não se difere na EAD, pois são responsáveis por projetar, planejar,
criar e manter o sistema educacional como um todo, a fim de que o resultado final
seja que o estudante possa interagir com o sistema. E, baseadas nessas interações dos
estudantes, são aplicadas as técnicas de mineração de dados, que têm o objetivo de
descobrir informações úteis para os gestores e professores, e também para os próprios
estudantes. Para entender as funções dos atores, veja a figura 26 a seguir.
Dados de uso e
interação,
informações dos
Gestores, professores e cursos, dados Estudante
educadores acadêmicos
109
UNIDADE V │ APLICAÇÕES EM BIG DATA
Romero e Ventura (2007) destacam que muitas técnicas foram abordadas como solução
para este cenário educacional. Mas, entre as técnicas mais usadas, são destacadas as que
têm a finalidade de classificação. Assim, na próxima seção, serão abordadas algumas
técnicas que fazem parte desse conjunto de solução.
Para Baker (2011), em grande parte, as técnicas utilizadas na área são as mesmas de
mineração de dados, porém, na maioria das vezes, é necessário adaptá-las, devido às
particularidades dos projetos e dos dados.
Aplicações de MDE
Romero e Ventura (2007) afirmam que, em geral, as aplicações de MDE procuram
abordar diversas questões na área da Educação, a fim de descobrir novos conhecimentos
que permitam a melhor compreensão entre as experiências dos alunos e do processo
ensino-aprendizagem.
110
APLICAÇÕES EM BIG DATA │ UNIDADE V
Técnicas de mineração
Diversas abordagem e algoritmos podem ser explorados para serem utilizados como
técnica de mineração de dados. Podem-se utilizar algoritmos como: regressão linear,
redes neurais, máquinas de vetores de suporte e árvores de decisão. Romero et al.
(2008b) salientam que, entre os diversos métodos de classificação, destacam-se as
árvores de decisão e as redes neurais, sendo que as árvores de decisão abordam um
conjunto de dados e uma classificação seguindo um caminho que satisfaça as condições,
que se inicia pela raiz e vai até a folha da árvore. Já redes neurais trata-se de um
paradigma computacional que se baseia em um funcionamento de estruturas corticais
do cérebro humano. Essa técnica contém conexões de elementos chamados de nós, ou
neurônios, que trabalham em conjunto para produzir uma função de saída (WITTEN
et al., 2011).
Árvore de decisão
Árvore de decisão é uma técnica de aprendizado de máquina que aborda uma estrutura
de árvore para avaliar os atributos. A árvore possui vários nós, sendo que cada nó
corresponde a um teste realizado por uma dada entrada. A ligação entre um nó e outro
é chamada de ramo, e o último nó, que não tem mais ligação, é chamado de folha, que
é o retorno da árvore (QUINLAN, 1993).
Para ilustrar uma árvore de decisão, a figura 27 mostra a estrutura de uma árvore.
Em cada nó existe um teste e, ao chegar até a folha, é retornada uma resposta para a
classificação. No caso proposto deste trabalho, as respostas da árvore são as opções da
classe de entrada no classificador.
111
UNIDADE V │ APLICAÇÕES EM BIG DATA
Serão abordados dois modelos de árvore de decisão, o J48 e o random forest, que serve
de parâmetro para decidir qual método tem as melhores taxas de acerto.
Árvore de decisão tem sido largamente utilizada nos trabalhos de mineração de dados
educacionais (WANG, 2009). Por esse motivo valorizamos o detalhamento dos dois
principais algoritmos que envolvem os estudos com árvore de decisão, são eles o J48 e
o random forest.
112
APLICAÇÕES EM BIG DATA │ UNIDADE V
Algoritmo C4.5
- repetir várias vezes (aproximadamente 10)
CONSTRUIR
Escolher conjunto de trabalho do conjunto de treinamento
REPETIR
formar árvore para conjunto de trabalho
SE critério de parada satisfeito
escolher melhor classe
SENÃO
escolher melhor teste de atributo
dividir conjunto de treinamento em concordância formar árvore nos subconjuntos
testar no resto do conjunto de treinamento adicionar itens mal classificados ao conjunto de treinamento ATÉ não haver melhorias
PODAR
ENQUANTO a árvore de decisão contiver sub-árvores complexas e com pouco benefício Substituir sub-árvores por folhas
- selecionar a árvore podada mais promissoras
Os caminhos seguidos para criação da árvore foram com base na entropia e no ganho,
os quais definem a escolha do melhor atributo. A entropia de um nó de uma árvore é
dada pela equação a seguir.
m
EntropiaEsperada = ∑ pi log 2 ( pi )
i =1
Pode-se também medir a entropia real de uma determinada variável A. Para esse
cálculo, usa-se a equação a seguir.
v s y +…+ smj
EntropiaReal ( A ) = ∑ EntropiaEsperada
j =1 s
113
UNIDADE V │ APLICAÇÕES EM BIG DATA
As RFs são obtidas por meio de bootstrapping aggregating (ou simplesmente bagging),
um método utilizado para gerar múltiplas versões de um preditor (BREIMAN, 1996).
Tais versões são construídas a partir de reamostras do conjunto original, obtidas via
sorteio simples com reposição.
As árvores são expandidas ao máximo, sem poda. Para a divisão de cada nó, um
subconjunto de tamanho fixo dos atributos de entrada é selecionado aleatoriamente,
escolhendo-se a divisão ótima dentro desse subconjunto.
114
CARREIRAS EM
CIÊNCIA DE UNIDADE VI
DADOS
CAPÍTULO 1
Profissional de Ciência de Dados
Com base no material que temos visto até agora, você viu a escala de atividades que um
cientista de dados pode exercer, mas eles vêm com conceitos de fixação.
Os cientistas de dados têm uma nova geração de especialistas analíticos que têm as
habilidades técnicas para resolver problemas complexos e a curiosidade para explorar
os problemas que precisa resolver.
Eles também são um sinal dos tempos modernos. Cientistas de dados não estavam no
radar na década passada, mas sua popularidade repentina reflete como as organizações
hoje pensam big data. Essa massa incrível de informação não estruturada já não pode
ser mais ignorada e esquecida. É uma mina de ouro virtual que ajuda a aumentar a
receita – desde que haja alguém que cava informações de negócios empresariais que
ninguém tinha pensado em olhar. Aí vem o cientista de dados e faz.
Os dados utilizados por um cientista de dados podem ser tanto estruturados (banco de
dados transacional ou sistemas de ERP ou CRM, por exemplo) quanto não estruturados
(dados de e-mail, imagens, vídeo ou redes sociais). O cientista de dados cria algoritmos
115
UNIDADE VI │ CARREIRAS EM CIÊNCIA DE DADOS
para extrair esses insights de dados. Então cabe a ele apresentar essa informação para
que os tomadores de decisão possam usar os resultados da análise para definir as
estratégias de negócios ou mesmo para criar novos produtos ou serviços com base nos
dados.
Com tanta informação sobre a profissão de cientista de dados, uma onda crescente
vem ganhando destaque de forma exponencial nos últimos anos, e é fácil se perder
na frente de tantos artigos e materiais com fórmulas mágicas sobre qual caminho a
percorrer. Vou fazer uma advertência: não há nenhuma maneira fácil de se tornar um
cientista de dados! Temos de estudar, aprender técnicas diferentes e ter conhecimento
interdisciplinar. Por essa razão, os cientistas de dados são muito bem pagos e difíceis
de encontrar no mercado.
A Data Science Academy anunciou oito etapas interessantes a serem considerada para
a preparação de um cientista de dados (E-SETORIAL, 2018). Essas oito etapas estão
descritas a seguir.
116
CARREIRAS EM CIÊNCIA DE DADOS │ UNIDADE VI
Pensamento lógico – cientistas de dados usam o raciocínio lógico para fazer análise.
Programação requer lógica. Se você já tem essa capacidade, isso irá acelerar o seu
aprendizado em dados científicos.
117
UNIDADE VI │ CARREIRAS EM CIÊNCIA DE DADOS
Neste ponto, você já pode perguntar: “Como é que você quer que eu aprenda tudo
isso?”. Aí vem um dos conceitos mal compreendidos dos dados do cientista profissão:
acredita-se que esse profissional tem de saber todos os instrumentos. Isso não é
verdade e nem mesmo necessário. Escolha as suas ferramentas e especialize-se neles.
Por exemplo, o conhecimento da linguagem R e Hadoop permitirá fazer análises de
grandes volumes de dados (big data). Você não precisa saber qualquer linguagem de
programação e não tem de conhecer todos os bancos de dados. O mais importante é o
pensamento lógico; esse, sim, é essencial (e essa habilidade você já tem). A tecnologia
oferece ferramentas, e nenhuma delas resolve sozinha 100% dos problemas, porque,
como todo mundo, elas têm as suas limitações.
A partir dessa autoavaliação, você pode entender o seu atual nível de conhecimento e
começar a pensar sobre o plano de ação!
Sistema Operacional (SO) – a decisão por qual sistema operacional usar é muito
pessoal, vai muito de acordo com sua experiência de SO. No entanto, uma coisa é certa:
um dos três principais sistemas operacionais (Windows, Mac OS ou Linux) irá atender
118
CARREIRAS EM CIÊNCIA DE DADOS │ UNIDADE VI
às suas necessidades. Em qualquer caso, você pode instalar máquinas virtuais com
outros sistemas operacionais.
Grande parte do framework de Ciência de Dados e big data foi construído sobre a
plataforma Unix. Para um servidor Hadoop ou Spark, um servidor Linux é a melhor
recomendação, devido à compatibilidade e à validação. Quanto à parte da apresentação
de dados (mostrar os resultados), Microsoft Office e outras ferramentas de visualização
dependem do sistema Windows. Não existe uma regra, mas, para usuários mais
avançados, recomendamos um sistema Unix. Para aqueles que se sentem mais
confortáveis com o Windows, não há nenhum problema. Caso escolha usar o Windows
como sistema operacional, pode ser possível criar uma máquina virtual com o Linux, se
você quiser processar arquivos com Hadoop e/ou Spark ou realizar outros testes.
119
UNIDADE VI │ CARREIRAS EM CIÊNCIA DE DADOS
O cientista de dados vai consumir big data, ou seja, vai utilizar o big data como
matéria-prima, aplicar diversas técnicas e colher insights. Mas a responsabilidade pela
coleta e pelo armazenamento de dados é geralmente do engenheiro de dados. A criação
de cluster Hadoop, streaming de dados com Spark, integração entre diferentes fontes
de dados são todas as novas e, normalmente, atribuições exercidas pelos engenheiros de
dados. É importante que o cientista de dados saiba bem como funciona a infraestrutura
120
CARREIRAS EM CIÊNCIA DE DADOS │ UNIDADE VI
que armazena dados analisados, pois isso pode fazer a diferença quando se analisam 1
trilhão de registros, por exemplo.
Bancos de dados relacionais não são capazes de gerenciar dados não estruturados e
semiestruturados. Bancos de dados relacionais simplesmente não têm os recursos
necessários para atender a requisitos de big data, pois esses dados são gerados em
grandes quantidades e em alta velocidade. Essa é a diferença para os bancos de dados
NoSQL, tal como MongoDB. Bancos de dados NoSQL são bancos de dados e não
relacionais, que são projetados para atender às necessidades deste mundo novo em que
vivemos.
Parte do trabalho do cientista de dados será coletar dados do HDFS (hadoop file
system), criar RDD’s no Spark, aplicar algoritmos de aprendizado de machine learning
em streaming de dados, cruzar dados não estruturados coletados de redes sociais com
bancos de dados de CRM etc. Então, o cientista de dados precisa estar confortável com
121
UNIDADE VI │ CARREIRAS EM CIÊNCIA DE DADOS
a forma como os dados são armazenados e com a tecnologia de extração, com o melhor
que eles podem oferecer.
Python – é uma linguagem de propósito geral que tem recebido, nos últimos anos,
mais e mais módulos e pacotes para Ciência de Dados, tais como: Pandas, Matplotlib,
scikit-learn e Stats models. Python é mais fácil de aprender do que outras linguagens,
tem uma comunidade ativa, uma grande quantidade de documentação disponível
(incluindo em português) e pode ser usado para outras atividades além da Ciência de
Dados.
As pessoas não sabem por onde começar ou como proceder e qual caminho percorrer.
Há uma sobrecarga de bons recursos gratuitos disponíveis na internet, tornando o
processo de aprendizagem muito mais tortuoso.
Outras linguagens, como Julia, Scala e Java, também são amplamente utilizadas em
dados científicos, mas, se você está começando, opte pelas linguagens R ou Python.
Essas linguagens irão fornecer uma base sólida para profissionais da área utilizarem
122
CARREIRAS EM CIÊNCIA DE DADOS │ UNIDADE VI
Se você já tem conhecimento em Matlab, Octave, Stata ou Minitab, saiba que o seu
conhecimento pode ser usado agora mesmo em Ciência de Dados. Selecione 2 ou 3
instrumentos e dedique-se à sua aprendizagem em detalhes, pois isso é extremamente
importante.
Cada algoritmo é bom para um determinado tipo de dados e de acordo com a análise
pretendida. Não há necessidade de aprender todos os algoritmos, mas é importante
entender os conceitos e os métodos de implementação. Daí a importância da Matemática
e da Estatística.
123
UNIDADE VI │ CARREIRAS EM CIÊNCIA DE DADOS
Uma das tarefas mais importantes do cientista de dados do trabalho é ser capaz de
transmitir tudo o que os dados querem informar. E, por vezes, os dados significam coisas
diferentes, para diferentes públicos. Pode parecer fácil no início. Hoje temos à nossa
disposição uma ampla gama de recursos para a apresentação e é exatamente aí que está
o desafio. Nunca foi tão fácil criar tabelas e gráficos, com diferentes estruturas, formas,
tamanhos, cores e fontes. Os gráficos estão deixando de ser gráficos e tornando-se
infográficos. Com um volume crescente de dados à nossa disposição, não torna mais
fácil a apresentação das informações geradas. Pelo contrário, torna-se tarefa mais
complicada. Quase uma arte.
Uma das tarefas do cientista de dados é apresentar as suas conclusões. Ninguém melhor
do que o profissional que faz a análise, desde a coleta, a limpeza e o armazenamento
de dados até a aplicação de modelos estatísticos para explicar seus resultados. Uma
demonstração eficaz dos dados pode ser a diferença entre sucesso e fracasso nas
decisões de negócios.
124
CARREIRAS EM CIÊNCIA DE DADOS │ UNIDADE VI
O cientista de dados deve ser um contador de histórias e ser capaz de contar a mesma
história de diferentes maneiras. O profissional que é capaz de combinar as habilidades
técnicas necessárias para analisar os dados à de contar histórias será um profissional
único. Esse é o verdadeiro conceito do unicórnio, atribuído a cientistas de dados.
É importante estar familiarizado não só com uma ou mais ferramentas para visualização
de dados, mas também com os princípios básicos da codificação visual dos dados e dos
relatórios.
Passo 8: prática
Não há outra maneira de aprender qualquer que seja o assunto. É preciso prática, teste,
experiência, cometer erros, aprender com eles, tentar novamente, e sempre interagir
com a comunidade.
125
Referências
BIG DATA BUSINESS. Portal Big Data Business Hekima. Disponível em: < http://
www.bigdatabusiness.com.br/dados-abertos/ >. Acesso em: 10 maio 2018.
126
REFERÊNCIAS
GANDOMI, A. et al. Beyond the hype: big data concepts, methods, and analytics, 2015.
International Journal of Information Management, Waltham, v. 35, n. 2,
pp.137-144.
KEEL. Website Keel. Disponível em: <http://www.keel.es/>. Acesso em: 3 abr. 2018.
MANYIKA, J. et al. Big data. New York: McKinsey Global Institute, 2011.
127
REFERÊNCIAS
TAURION, C. Big data. Rio de Janeiro: Brasport, 2013. Disponível em: <https://goo.
gl/MVNFQ3>. Acesso em: 3 nov. 2016.
TELXPERTS. Big Data Archive. TelXperts, London, 2016. Disponível em: <https://
goo.gl/PsEjZw>. Acesso em: 3 abr. 2018.
128