01 - Ciência de Dados
01 - Ciência de Dados
01 - Ciência de Dados
DADOS
Ciência de Dados
Livro Eletrônico
Fluência em Dados
Ciência de Dados
Patrícia Quintão
Sumário
Apresentação......................................................................................................................................................................3
Ciência de Dados...............................................................................................................................................................4
Conceitos Relacionados à Análise de Dados....................................................................................................4
Análise de Dados (ou Data Analytics). .................................................................................................................4
Análise de Dados no Setor Público........................................................................................................................4
Aplicações do Big Data e da Análise de Dados...............................................................................................5
Tipos de Análise de Dados..........................................................................................................................................6
As Variáveis na Análise Exploratória de Dados.............................................................................................8
A Análise de Dados no Contexto da Arquitetura de BI (Business Intelligence ou
Inteligência de Negócios)..........................................................................................................................................12
A Ciência de Dados (Data Science).......................................................................................................................16
O Que é Ciência de Dados (ou Data Science). ..................................................................................................16
Ciclo de Vida do Processo de Ciência de Dados............................................................................................17
Big Data x Ciência de Dados....................................................................................................................................23
Data Analytics x Big Data x Ciência de Dados..............................................................................................23
Desafios Enfrentados pelos Cientistas de Dados......................................................................................23
Quais são as Diferentes Tecnologias de Ciência de Dados?. ................................................................ 24
Papeis dos Envolvidos em Projetos de Ciência de Dados e Big Data.............................................. 24
Experiência do Consumidor Orientada por Dados......................................................................................25
Resumo................................................................................................................................................................................26
Questões Comentadas em Aula.. ...........................................................................................................................29
Exercícios.............................................................................................................................................................................31
Gabarito...............................................................................................................................................................................34
Gabarito Comentado....................................................................................................................................................35
Referências.........................................................................................................................................................................41
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 2 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
Apresentação
Olá, querido(a) amigo(a)!
Seja você quem for, seja qual for a posição social que você tenha na vida, a mais alta ou a mais
baixa, tenha sempre como meta muita força, muita determinação e sempre faça tudo com muito
amor e com muita fé em Deus, que um dia você chega lá. De alguma maneira você chega lá.
Ayrton Senna
O momento perfeito não “surge”. Ele é construído. Construa o seu. Você tem suas próprias
dificuldades, problemas, vitórias e soluções. Continue firme e, em breve, estará colhendo os
frutos da vitória.
Rumo então à aula sobre os conceitos relacionados à Análise de Dados e à Ciência de Dados!
FORÇA e muita DETERMINAÇÃO nos estudos!
Em caso de dúvidas, acesse o fórum do curso ou entre em contato.
Um forte abraço,
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 3 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
CIÊNCIA DE DADOS
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 4 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 5 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
(1) http://g1.globo.com/jornal-da-globo/noticia/2013/12/massa-de-informacoes-digitais-
-pode-ser-usada-em-beneficio-da-populacao.html
(2) https://www.youtube.com/watch?v=gny_BR6ID6A
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 6 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
001. (CESPE/TCE-RJ/2021) Com relação a noções de mineração de dados e Big Data, julgue
o item que se segue. Na mineração de dados preditiva, ocorre a geração de um conhecimento
obtido de experiências anteriores para ser aplicado em situações futuras.
A mineração de dados preditiva busca prever comportamentos futuros e tendências com base
nos dados conhecidos (ENAP, 2020).
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 7 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
Certo.
A análise prescritiva visa prever os efeitos futuros dos eventos. Busca, portanto, os efeitos dos
eventos futuros.
Letra c.
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 8 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
Variável Quantitativa
Dividimos esse tipo de variável em duas espécies: as variáveis quantitativas discretas,
e as quantitativas contínuas.
Discretas: expressas em números contáveis. O número de valores possíveis é finito
Pode ser expressa ou “enumerável”.
em termos Exemplos: número de passageiros por viagem, número de crianças por sala de aula,
numéricos (altura, número de computadores por casa, número de revistas vendidas, quantidade de
peso, número de consultas médicas, quantidade de habitantes das cidades brasileiras etc.
ocorrências, dias, Contínuas: são mensuráveis em um intervalo, ou seja, podem assumir qualquer
tempo etc.). número (inteiro ou não) dentro de um intervalo de valores.
Exemplos: tempo para chegar ao trabalho, distância percorrida, tempo para executar
uma tarefa, altura dos alunos de uma escola.
Variável Qualitativa
Dividimos esse tipo em duas espécies, que são: variáveis qualitativas nominais e
É expressa não por ordinais.
valores, mas por um As variáveis qualitativas nominais são aquelas em que não se pode estabelecer
atributo. uma ordem para elas: intenção de voto, cor dos olhos, time de futebol, marcas de
Por exemplo: carros, nome de bebidas, sexo - masculino ou feminino etc.
nacionalidade, As variáveis qualitativas ordinais são aquelas em que é possível estabelecer uma
religião, cor dos olhos, ordem: marco temporal (século XIX, XX, XI), grau de escolaridade (1º, 2º, 3º grau),
sexo, preferência escala de frequência (pouco, médio, muito), nível de escolaridade – (analfabeto /
musical etc.
fundamental / médio / superior) etc.
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 9 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
003. (CESPE/SERPRO/ANALISTA/2010)
A variável denominada “Quantidade de Acessos” é uma variável quantitativa, pois pode ser
expressa em termos numéricos.
A partir do indicado no gráfico, podemos afirmar, ainda, que é uma variável quantitativa discreta,
pois a quantidade de acessos é um número “contável”.
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 10 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
Conforme vimos nesta aula, as variáveis ordinais são relacionadas com as variáveis qualitativas.
Errado.
Conforme vimos nesta aula, a variável qualitativa é aquela expressa não por valores, mas por
um atributo. Por exemplo: nacionalidade, religião, profissão, sexo, cor dos olhos etc.
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 11 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
Pode-se observar que a variável “classificação” registra os atributos dos dados, então, trata-se
de uma variável qualitativa.
Certo.
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 12 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 13 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
As ferramentas de software ETL têm como função a extração de dados de diversos sis-
temas, a transformação desses dados de acordo com as regras de negócio e a carga dos
dados em um Data Mart ou um DW.
Existem diversas ferramentas que podem ser utilizadas para implementar isso, como:
Pentaho Data Integration, Power Center, Talend, SSIS (SQL Server Integration Services) e ODI
(Oracle Data Integrator).
• Data Storage (Armazenamento de Dados)
O Data Warehouse (Armazém de Dados) é o repositório de dados centrais, em que fica a
informação. Para a criação do Data Warehouse, podemos usar bancos de dados relacionais,
como PostgreSQL, Oracle Database, SQL Server e Teradata.
• Data Analysis (Análise de Dados)
Aqui temos os cubos OLAP (Online Analytical Processing), Data Mining etc.
É nessa etapa, por exemplo, que começamos a cruzar as informações disponibilizadas,
bem como podem ser feitas análises iniciais e a identificação de padrões passados, proble-
mas futuros etc.
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 14 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
Exemplos de ferramentas que se pode utilizar para criar os cubos: Qlikview, Microsoft BI,
Microstrategy, OBIEE, Pentaho Mondrian etc.
• Data Visualization (Visualização de Dados)
Os usuários podem percorrer as diferentes dimensões e seus cruzamentos, visualizando
os valores resultantes das medidas em cada caso.
Veja a seguir alguns tipos de ferramentas que podem ser utilizadas para navegar pelo cubo:
• planilhas de cálculo: podem ser conectadas com a estrutura dimensional e alimentar
uma tabela dinâmica com a informação retirada dos cubos;
• painéis de controle (Dashboards): conectam-se com a estrutura dimensional e geram
indicadores que permitem uma rápida visão do status atual das variáveis básicas e sua
relação com os objetivos da empresa e/ou negócio. Apresenta visualmente as informa-
ções mais importantes e necessárias para tomada de decisão. Assim, em uma única tela,
por exemplo, é possível organizar análises, gráficos, KPI (Key Performance Indicator - é
uma métrica associada a um processo) e reports de toda a empresa ou de um ponto de
vista do negócio ou departamento.
Importante: Dashboard bom não é o que tem gráficos bonitos, é o que entrega as infor-
mações necessárias para a tomada de decisão.
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 15 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
Obs.: Ciência de Dados é a exploração e análise de todos os dados disponíveis, com o obje-
tivo de desenvolver compreensão, extrair conhecimento e formular ações que gerem
resultados (DATA SCIENCE ACADEMY, 2022)
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 16 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 17 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
1. Definição do Problema
Nesta etapa busca-se entender o problema e as questões de negócio que devem ser res-
pondidas. Alguns questionamentos:
• O que se quer resolver com a análise?
• Que tipo de análise será feita? Descritiva, diagnóstica, preditiva?
• Quais dados são necessários?
2. Preparação dos Dados
Está relacionada com a obtenção, limpeza, normalização e transformação dos dados.
3. Análise Exploratória dos Dados
Busca-se obter um panorama de como os dados estão organizados. A apresentação
dos dados é fundamental, pois o objetivo é entender as características e os relacionamentos
deles. Algumas questões:
• Quais são os tipos das variáveis (atributos)?
• Como estão as distribuições dos dados?
• Existem valores missing (NA/Null)?
• Existem variáveis redundantes?
• Existem outliers (registros que apresentam grande discrepância em relação à maioria
dos registros). A figura seguinte identifica visualmente a presença de outliers, em que os
pontos externos aos polígonos são valores fora dos padrões da população observada.
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 18 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
Obs.: Para cada etapa do processo de Data Science, existem diversas ferramentas que
podem ser utilizadas, dentre elas a linguagem R.
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 19 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
7. Implantar e monitorar.
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 20 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 21 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
Figura - Fases do CRISP-DM Process Model (Baseado em [The CRISP-DM Consortium, 2000])
Destacamos na tabela seguinte uma visão geral das fases do CRISP-DM, para melhor
fixação desse assunto! Vamos lá!
Foco no entendimento do negócio que visa obter
(1) Entendimento do Negócio
conhecimento sobre os objetivos do negócio e seus
(Business Understanding)
requisitos.
Consiste no entendimento dos dados, que visa à familiarização com
(2) Seleção dos Dados
o banco de dados pelo grupo de projeto, utilizando-se de conjuntos
(Data Understanding)
de dados “modelo”.
(3) Limpeza dos Dados ou Preparação dos Fase de preparação de dados, buscando a limpeza, a transformação,
Dados (Data Preparation) a integração e a formatação dos dados da etapa anterior.
Fase que consiste na modelagem dos dados, a qual visa à aplicação
de técnicas de modelagem sobre o conjunto de dados preparado
(4) Modelagem dos Dados
na etapa anterior.
(Modeling)
Técnicas são baseadas em conceitos de: aprendizagem de máquina;
reconhecimento de padrões; estatística; clusterização etc.
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 22 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
Figura – Visão Geral das Fases do CRISP-DM Process Model (Elaboração Própria)
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 23 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 24 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
b. Analistas de negócio, “que, conhecendo bem o negócio em que atuam, consigam formu-
lar as perguntas corretas, analisar as respostas e tomar decisões estratégicas e táticas que
alavanquem novos negócios ou aumentem a lucratividade da empresa. Esta função tende a
ser acoplada às funções do cientista de dados” (MACHADO, 2018, p.218).
c. Profissionais de tecnologia e infraestrutura, “que cuidarão da infraestrutura de servi-
dores para processamento e clusters de armazenamento, e seu consequente suporte técnico
com objetivo de suportar Big Data.” (MACHADO, 2018, p.218)
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 25 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
RESUMO
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 26 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
Análise de Dados
Processo de inspecionar/coletar, limpar, transformar e modelar dados, para que eles
possam fornecer informações úteis para a tomada de decisão.
Visualização de Dados
A tabela a seguir resume a relação entre BI tradicional e ciência de dados (ENAP, 2020).
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 27 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
DAMA (2017) cita as etapas seguintes para o ciclo de vida de Data Science:
1. Definir a estratégia de Big Data e as necessidades de negócios;
2. Escolher as fontes de dados;
3. Adquirir e ingerir fontes de dados (obter conjuntos de dados e integrá‑los);
4. Desenvolver hipóteses e métodos de ciência de dados;
5. Integrar e alinhar dados para análise;
6. Explorar dados usando modelos;
7. Implantar e monitorar.
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 28 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 29 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 30 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
EXERCÍCIOS
006. (CESPE/CEBRASPE/MINISTÉRIO DA ECONOMIA/TECNOLOGIA DA INFORMAÇÃO-
-CIÊNCIA DE DADOS/2020) Acerca de conceitos, premissas e aplicações de big data, julgue
o item subsequente.
Um atributo é denominado ordinal quando as variáveis podem ser colocadas em ordem, mas
não é possível quantificar a diferença entre os resultados.
007. (INÉDITA/2023) O ciclo de vida de um projeto de mineração de dados, segundo a abor-
dagem CRISP-DM, consiste de 5 (cinco) fases. A sequência dessas fases NÃO é obrigatória.
008. (FGV/SEFAZ-AM/2022) Leia o fragmento a seguir. “CRISP-DM é um modelo de referência
não proprietário, neutro, documentado e disponível na Internet, sendo amplamente utilizado
para descrever o ciclo de vida de projetos de Ciência de Dados. O modelo é composto por
seis fases:
1. entendimento do negócio;
2. _____;
3. _____;
4. Modelagem;
5. _____; e
6. implantação”.
Assinale a opção cujos itens completam corretamente as lacunas do fragmento acima, na
ordem apresentada.
a) modelagem do negócio – limpeza de dados – testagem.
b) modelagem de requisitos – raspagem de dados – execução.
c) modelagem do negócio – mineração de dados – reexecução.
d) compreensão dos dados – preparação dos dados – avaliação.
e) mapeamento de metadados – mineração de dados – testagem.
009. (CESPE/INPI/ANALISTA DE PLANEJAMENTO/ESTATÍSTICA/ 2013) Um indicador
de desempenho X permite avaliar a qualidade dos processos de governança de instituições
públicas. A figura mostra, esquematicamente, a sua distribuição, obtida mediante estudo
amostral feito por determinada agência de pesquisa. A tabela apresenta estatísticas descri-
tivas referentes a essa distribuição.
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 31 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 32 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
d) Um arquivo csv (comma separated values), no qual as colunas de um conjunto de dados são
separadas por vírgula, pode ser aberto em qualquer editor de texto ou planilha eletrônica.
e) A eliminação completa (casewise deletion) consiste em eliminar os arquivos que apresentem
mais de um dado perdido.
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 33 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
GABARITO
1. C
2. c
3. E
4. C
5. c
6. C
7. E
8. d
9. E
10. E
11. d
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 34 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
GABARITO COMENTADO
006. (CESPE/CEBRASPE/MINISTÉRIO DA ECONOMIA/TECNOLOGIA DA INFORMAÇÃO-
-CIÊNCIA DE DADOS/2020) Acerca de conceitos, premissas e aplicações de big data, julgue
o item subsequente.
Um atributo é denominado ordinal quando as variáveis podem ser colocadas em ordem, mas
não é possível quantificar a diferença entre os resultados.
A variável qualitativa é aquela expressa não por valores, mas por um atributo. Elas também
podem ser divididas da seguinte maneira:
• As variáveis qualitativas nominais são aquelas em que não se pode estabelecer uma
ordem para elas: intenção de voto, cor dos olhos, time de futebol, marcas de carros, nome
de bebidas, sexo - masculino ou feminino etc.
• As variáveis qualitativas ordinais são aquelas em que é possível estabelecer uma or-
dem: marco temporal (século XIX, XX, XI), grau de escolaridade (1º, 2º, 3º grau), escala
de frequência (pouco, médio, muito), nível de escolaridade – (analfabeto / fundamental
/ médio / superior) etc.
Certo.
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 35 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
Destacamos na tabela seguinte uma visão geral das fases do CRISP-DM, para melhor fixação
desse assunto! Vamos lá!
Figura – Visão Geral das Fases do CRISP-DM Process Model (Elaboração Própria)
Na figura seguinte é mostrado o ciclo de vida de um projeto de mineração de dados, que con-
siste de 6 (seis) fases.
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 36 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
Figura - Fases do CRISP-DM Process Model (Baseado em [The CRISP-DM Consortium, 2000])
A sequência dessas fases NÃO é obrigatória, ocorrendo a transição para diferentes fases, depen-
dendo do resultado de cada fase, e que etapa particular de cada fase precisa ser executada em
seguida. As setas indicam as mais importantes e mais frequentes dependências entre as fases.
O ciclo externo na figura simboliza o ciclo natural da mineração de dados. Um processo de
mineração de dados continua após a solução ter sido desenvolvida. Processos subsequentes
se beneficiarão das experiências de processos anteriores.
Errado.
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 37 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
Os nomes variam um pouco, mas temos que: (2) Entendimento/Compreensão de Dados; (3)
Preparação dos Dados; (5) Teste e Avaliação.
Letra d.
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 38 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
Errado.
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 39 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 40 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
REFERÊNCIAS
17 CASOS de uso de machine learning. Data Science Academy, [s. l.], 8 ago. 2018. Dispo-
nível em: http://datascienceacademy.com.br/blog/17-casos-de-uso-de-machine-learning/.
Acesso em: 28 junho 2020.
ALECRIM, E. O que é big data? 2013. Disponível em: <http://www.infowester.com/big-data.
php>. Acesso em: 05 jul. 2020.
ALTERYX. Data Analytics. 2022. Disponível em: <https://www.alteryx.com/pt-br/glossary/
data-analytics>. Acesso em: 04 set. 2022.
AWS. O que é ciência de dados? Guia de ciência de dados para iniciantes. 2022. Disponível
em: <O que é ciência de dados? – Guia de ciência de dados para iniciantes – AWS (amazon.
com)>. Acesso em: 30 jan. 2023.
BIG DATA BUSINESS. Big Data Analytics: você sabe o que é? Disponível em: <http://www.
bigdatabusiness.com.br/voce-sabe-o-que-e-big-data-analytics/> Acesso em: 10 mar. 2019.
___________. Tipos de análise de Big Data: você conhece todos os 4? Disponível em: <http://
www.bigdatabusiness.com.br/conheca-os-4-tipos-de-analises-de-big-data-analytics/>. Acesso
em: 10 mar. 2019.
BRASIL. Controladoria-Geral da União. Portal da Transparência. Brasília: CGU, c2020. Dis-
ponível em: http://portaltransparencia.gov.br/. Acesso em: 17 ago. 2020.
BRASIL. Ministério do Planejamento, Desenvolvimento e Gestão. Painéis. Brasília: MPDG,
2020. Disponível em: http://www2.planejamento.gov.br/planejamento/paineis. Acesso em:
17 ago. 2020.
BRASIL. Ministério do Planejamento, Desenvolvimento e Gestão. Secretaria de Tecnologia
da Informação. O que são dados abertos? Brasília: MPDG, 2020. Disponível em: http://dados.
gov.br/pagina/dados-abertos. Acesso em: 17 ago. 2020.
BRASIL. Ministério do Planejamento, Desenvolvimento e Gestão. Secretaria de Tecnologia
da Informação. Portal Brasileiro de Dados Abertos. Brasília: MPDG, 2020. Disponível em: http://
dados.gov.br/. Acesso em: 17 ago. 2022.
BRITO, S. H. B. Afinal, O Que é Big Data? 2013. Disponível em: <http://labcisco.blogspot.
com.br/2013/08/afinal-o-que-e-big-data.html>.
CÁNEPA, G. What You Need to Know about Machine Learning. Birmingham: Packt Pu-
blishing, 2016.
CETAX. HADOOP: O que é, conceito e definição. Cetax, [s. l.]. Disponível em: https://www.
cetax.com.br/blog/apache-hadoop/. Acesso em: 25 maio 2020.
CUESTA, H.; KUMAR, S. Practical Data Analysis. 2. ed. Birmingham: Packt Publishing, 2016.
DAMA. Guide to the Data Management Body of Knowledge (DAMA-DMBOK2). Copyright
DAMA International - Second Edition, First Printing 2017.
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 41 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
Data Science Academy. 12 Tendências em Análise de Dados, Data Science e IA Para 2023.
2023. Disponível em: < https://blog.dsacademy.com.br/12-tendencias-em-analise-de-dados-
-data-science-e-ia-para_2023/>. Acesso em: 30 jan. de 2023.
Drew Conway Data Consulting. The Data Science Venn Diagram, 2010. Disponível em: <http://
drewconway.com/zia/2013/3/26/the-data-science-venn-diagram>. Acesso em: 31 jan. 2023.
ENAP. Análise de Dados em Linguagem R. Fundação Escola Nacional de Administração
Pública. Brasília, DF. 2020.
FELDMAN, S. A Minute on the Internet in 2019. Statista, New York, 29 mar. 2019. Disponível
em: https://www.statista.com/chart/17518/internet-use-one-minute/. Acesso em: 7 ago. 2020.
FIA. Ciência de dados: o que é, principais conceitos e como atuar? 2022. Disponível em:
<https://fia.com.br/blog/ciencia-de-dados-data-science/>. Acesso em: 31 jan. 2023.
FIVEACTS. Data Analytics: entenda o que é e como utilizá-lo nas organizações. Disponível
em: <https://www.fiveacts.com.br/data-analytics/>.
FREITAS JUNIOR, J. C. S.; MAÇADA, A. C. G.; OLIVEIRA, M.; BRINKHUES, R. A. Big Data
e Gestão do Conhecimento: Definições e Direcionamentos de Pesquisa. Revista Alcance,
v. 23, n. 4, p. 529-546, out./dez. 2016. Disponível em: https://www.redalyc.org/jatsRe-
po/4777/477749961006/477749961006.pdf. Acesso em 22 maio 2020.
FUENTES, A. Hands-On Predictive Analytics with Python. Birmingham: Packt Publishing, 2018.
GOLLAPUDI, S. Practical Machine Learning. Birmingham: Packt Publishing, 2016.
GOMES, G. L. Análise de dados na prática com R Studio. DevMedia, Brasília, 2018. Disponível
em:https://www.devmedia.com.br/analise-de-dados-na-pratica-com-r-studio/39279. Acesso
em: 17 ago. 2020.
JOSEPH, R. Big Data Analytics in Government: How the Public Sector Leverages Data In-
sights. Intellectyx, Denver, 26 jun. 2019. Disponível em: https://www.intellectyx.com/blog/
big-dataanalytics-in-government-how-the-public-sector-leverages-data-insights/. Acesso em:
7 ago. 2020.
LANTZ, B. Machine Learning with R. 2. ed. Birmingham: Packt Publishing, 2015.
LIU, Y. H. Python Machine Learning By Example. Birmingham: Packt Publishing, 2017.
MONTEIRO, L. P. Dados Estruturados e Não Estruturados. Blog Tecnologia da Informação.
São Paulo: Universidade da Tecnologia, 2019. Disponível em: https://universidadedatecnologia.
com.br/dados-estruturados-e-nao-estruturados/. Acesso em: 25 jun. 2020.
OZDEMIR, S. Principles of Data Science. Birmingham: Packt Publishing, 2016.
PENG, R. D. R Programming for Data Science. Victoria, BC: Leanpub, 2015.
PERRICOS, C.; KAPUR, V. Anticipatory government: Preempting problems through predictive
analytics. Deloitte Insights, New York, 24 jun. 2019. Disponível em: https://www2.deloitte.com/
us/en/insights/industry/public-sector/government-trends/2020/predictive-analytics-ingover-
nment.html. Acesso em: 7 ago. 2020.
QUINTÃO, P. L. Tecnologia da Informação para Concursos, 2023.
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 42 de 44
Fluência em Dados
Ciência de Dados
Patrícia Quintão
REZA, M. Machine Learning. Pittsburg, PA: CMUCC, c1995. Disponível em: http://www.
contrib.andrew.cmu.edu/~mndarwis/ML.html. Acesso em: 7 ago. 2020.
SAGAH. Introdução à ciência de dados. Centro Universitário das Faculdades Metropolita-
nas Unidas.
SANT’ANA, R. C. G. Ciclo de vida dos dados: uma perspectiva a partir da ciência da infor-
mação. Informação & Informação, v. 21, n. 2, p. 116-142, 2016.
SAS. MACHINE Learning: o que é e qual sua importância?, São Paulo, 2019. Disponível
em: <https://www.sas.com/pt_br/insights/analytics/machine-learning.html>. Acesso em: 10
ago. 2020.
Seminário Internacional sobre Análise de Dados na Administração Pública, 5., 2019, Bra-
sília. Programa [...]. Brasília: TCU: Enap, 2019. Disponível em: http://www.brasildigital.gov.br/
brasil-digital/programa/. Acesso em: 17 ago. 2020.
SILVA, M. N. P. da S. Variáveis na Estatística. Disponível em: <https://mundoeducacao.uol.
com.br/matematica/variaveis-na-estatistica.htm>. Acesso em: 7 abr.2021.
SIX Big Data Use Cases for the Public Sector. Ingram Micro, Irvine, 25 jan. 2017. Disponível
em: https://imaginenext.ingrammicro.com/data-center/six-big-data-use-cases-for-the-public-
-sector. Acesso em: 17 ago. 2020.
VORHIES, W. Prescriptive versus predictive analytics - a distinction without a difference?
2014. Disponível em: <https://www.datasciencecentral.com/profiles/blogs/prescriptive-ver-
sus-predictive-analytics-a-distinction-without-a>. Acesso em: 20 ago. 2020.
WALKOWIAK, S. Big Data Analytics with R. Birmingham: Packt Publishing, 2016.
WIKERSON, L. De que maneira o Big Data melhora nossa vida diária? 2015. Disponível em:
<http://www.tecmundo.com.br/tecnologia-da-informacao/80027-maneira-big-data-melhora-
-nossa-vida-diaria-infografico.htm>. Acesso em: 04 jul. 2020.
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 43 de 44
Patrícia Quintão
Mestre em Engenharia de Sistemas e computação pela COPPE/UFRJ, Especialista em Gerência de
Informática e Bacharel em Informática pela UFV. Atualmente é professora no Gran Cursos Online;
Analista Legislativo (Área de Governança de TI), na Assembleia Legislativa de MG; Escritora e Personal &
Professional Coach.
Atua como professora de Cursinhos e Faculdades, na área de Tecnologia da Informação, desde 2008. É
membro: da Sociedade Brasileira de Coaching, do PMI, da ISACA, da Comissão de Estudo de Técnicas de
Segurança (CE-21:027.00) da ABNT, responsável pela elaboração das normas brasileiras sobre gestão da
Segurança da Informação.
Autora dos livros: Informática FCC - Questões comentadas e organizadas por assunto, 3ª. edição e 1001
questões comentadas de informática (Cespe/UnB), 2ª. edição, pela Editora Gen/Método.
Foi aprovada nos seguintes concursos: Analista Legislativo, na especialidade de Administração de Rede, na
Assembleia Legislativa do Estado de MG; Professora titular do Departamento de Ciência da Computação
do Instituto Federal de Educação, Ciência e Tecnologia; Professora substituta do DCC da UFJF; Analista de
TI/Suporte, PRODABEL; Analista do Ministério Público MG; Analista de Sistemas, DATAPREV, Segurança da
Informação; Analista de Sistemas, INFRAERO; Analista - TIC, PRODEMGE; Analista de Sistemas, Prefeitura
de Juiz de Fora; Analista de Sistemas, SERPRO; Analista Judiciário (Informática), TRF 2ª Região RJ/ES, etc.
Redes Sociais: @coachpatriciaquintao (Instagram) /profapatriciaquintao (YouTube) / @plquintao (Twitter) /
t.me/coachpatriciaquintao (Telegram)
O conteúdo deste livro eletrônico é licenciado para GUTEMBERG DE OLIVEIRA QUEROZ - 06381121416, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.