Análise de Dados
Análise de Dados
Análise de Dados
CONCEITOS E FUNDAMENTOS
DADOS
Registro de alguma entidade. Medidas objetivas e quantitativas de atributos de pessoas, lugares,
coisas e eventos (conjunto de fatos).
Qualquer coisa registrada com o propósito de posterior análise.
Representados por símbolos ou sinais. Ex: sons, imagens, textos, números e estrutura.
Não há semântica. Por si só não fazem sentido. Brutos. Desvinculados da realidade.
Não foram processados, correlacionados, integrados, avaliados ou interpretados.
Possuem significado implícito.
Facilmente estruturado e transferível.
Tipo de variável - quantitativa/numérica contínua - 1.3, 1.5x10^2 - peso, tempo, pressão.
- quantitativa/numérica discreta - 1, 2, 3 - número de filhos, litros de água.
- quantitativa/categóricas nominais - cachorro - factors - sexo, cor dos olhos, são.
- quantitativa/categóricas ordinais - janeiro, 1º - ordered factor - escolaridade.
- data ou tempo - 5/2/24, 8:30 - dia ou hora específicos ou genéricos.
- texto - qualquer frase.
INFORMAÇÃO
Processamento = contextualização e significado.
Dado depois de processados ou contextualização de um dado.
Conjunto de dados significativos e úteis, organizados e ordenados de forma coerente e
significativa para fins de compreensão e análise.
Exige consenso em relação ao significado.
Exige mediação humana.
CONHECIMENTO
Análise = informações úteis a um propósito (entendimento).
Capital intelectual. Habilidade de transformar informação em ações reais.
Mistura de elementos estruturados de forma intuitiva, abstração interior, pessoal.
Implica familiaridade, consciência e compreensão das informações aplicadas a um ambiente.
Conjunto de crenças verdadeiras e justificadas do que é verdade para um indivíduo.
Informações que foram analisadas e avaliadas sobre confiabilidade, relevância e importância.
Inclui reflexão, síntese e contexto.
Frequentemente tácito (não explícito). Sua transparência é complexa.
INTELIGÊNCIA/SABEDORIA
Síntese = experiência, melhoria de desempenho.
Tomada de decisão. Natureza qualitativa. Capacidade de aumentar a eficácia.
Conhecimento sintetizado e aplicado a determinada situação, pela capacidade de julgamento.
Habilidade puramente humana, baseada na experiência, ética e intuição.
Os valores éticos e estéticos que isso implica são inerentes ao ator e são únicos e pessoais.
Faculdade humana de conhecer, compreender, raciocinar, pensar e interpretar.
TIPOS DE ANÁLISE
Descritiva - manipula informações brutas do passado. Não demonstra causas. Ex: relatórios
financeiros, KPIs (indicadores chave de desempenho), relatórios de contagem de funcionários.
De diagnóstico - comparação de diversos períodos para identificar causas. Envolve análise de
padrões e tendências. Permite correção. Ex: análise de volume e preço para entender como o
preço afeta as vendas.
Preditiva - cria possíveis cenários, identifica tendências e prevê resultados. Baseada em dados
históricos e modelos estatísticos. Ex: previsão de demanda com base em histórico de vendas.
Prescritiva - sugere ações a serem tomadas para aproveitar oportunidades ou evitar riscos. Ex:
identificação dos canais de marketing mais eficazes e recomendação de investimento neles.
NÃO ESTRUTURADOS
Em seu estado original (bruto), da forma como foram coletados.
Não seguem nenhum tipo de modelo ou organização predefinida. Flexíveis, dinâmicos.
Abundantes na internet e nas organizações, sendo a maior parte no ambiente corporativo.
Não possibilitam o processamento que produz informações.
Não possuem uma estrutura definida e ela não é descrita implicitamente.
Armazenados nos Data Lakes e em bancos de dados NoSQL.
Ex: documentos texto, imagens, vídeos.
ESTRUTURADOS
Obtenção e formatação de dados não estruturados.
Facilmente buscáveis e acessíveis. Fácil análise.
A estrutura é aplicada com base no tipo de processamento que se deseja executar.
Estruturas rígidas, antes da presença dos dados, o ambiente já foi pensado para eles.
Mesma estrutura de representação (rígida/tipado), previamente projetada (esquema).
Armazenados em Data Warehouses, sistemas de gerenciamento de banco de dados relacional.
Ex: relações/tabelas em banco de dados, planilhas, CSV, XML, JSON.
Metadados = dados estruturados que descrevem e permitem encontrar, gerenciar, compreender e
preservar documentos arquivísticos ao longo do tempo.
SEMI ESTRUTURADOS
Já foram parcialmente processados e contém uma parte rígida e uma não rígida (representação
estrutural heterogênea).
O esquema de representação está presente (implícito ou explícito).
Alta heterogeneidade, que dificulta as consultas.
Não são estritamente tipados nem completamente não estruturados.
Ex: JSON, XML, RDF, OWL.
Dados abertos
https://repositorio.enap.gov.br/bitstream/1/3152/1/M%c3%b3dulo%201%20-%20Conceitos%20de
%20Dados%20Abertos.pdf
https://www.gov.br/governodigital/pt-br/dados-abertos
https://ceweb.br/guias/dados-abertos/capitulo-2/
https://ceweb.br/guias/dados-abertos/capitulo-3/
https://ceweb.br/guias/dados-abertos/capitulo-4/
https://ceweb.br/guias/dados-abertos/capitulo-12/
https://ceweb.br/guias/dados-abertos/capitulo-15/
https://ceweb.br/guias/dados-abertos/capitulo-16/
Noções de processos de ETL
Ferramentas de ETL - OBM InfoSphere, Informática Power Center, Business Objects Data
Integrator, Data Transformation Services, Pentaho Data Integration, Oracle Data Integrator.
Staging Area ou Dynamic Data Storeg (DDS) - armazenamento intermediário que facilita a
integração dos dados do ambiente operacional antes de sua atualização no DW. Nele, se pode
inserir dados oriundos da extração e realizar as transformações necessárias, antes de fazer a
carga. É útil para não sobrecarregar o ambiente de produção (sistema operacional) e nem o
próprio DW com as operações de transformação.
https://www.fiveacts.com.br/etl
https://kondado.com.br/blog/blog/2022/07/26/o-que-e-etl-conheca-as-etapas-do-processo-de-
integracao-de-dados/
https://www.astera.com/pt/type/blog/etl/
https://aws.amazon.com/pt/what-is/etl/
https://blog.brq.com/etl-o-que-e/
INTEGRAÇÃO
Combinação de dados de diversas fontes em uma base de dados unificada.
Inicia na coleta, com o planejamento das diferentes fontes.
RECUPERAÇÃO
Tornar os dados acessíveis para serem úteis à tomada de decisão.
Acesso aos dados, por meio da consulta e visualização, para subsidiar o processo de decisão.
Data recovery - uso de um conjunto de técnicas e procedimentos para extração de informações
em dispositivos de armazenamento digital (HD, storeages), que não podem ser acessados de
modo convencional pelo usuário ou pelo sistema.
DESCARTE
Dados que não são mais necessários ou que estejam acima da capacidade de tratá-los com
eficiência.
https://blog.xpeducacao.com.br/tipos-de-banco-de-dados/
https://dhg1h5j42swfq.cloudfront.net/2019/10/19230035/Revis%C3%A3o-TCE-RO.pdf
Teoria e implementação
https://www.astera.com/pt/type/blog/data-exploration/
https://help.salesforce.com/s/articleView?id=sf.bi_explorer_exploration_concepts.htm&type=5
https://icd-ufmg.github.io/03-viz/
NOÇÕES DE LINGUAGEM R
https://dataat.github.io/introducao-analise-de-dados/introdu%C3%A7%C3%A3o-ao-r.html
https://www.remessaonline.com.br/blog/linguagem-r-entenda-como-funciona-e-principais-
aplicacoes/#:~:text=A%20linguagem%20R%20pode%20ser,de%20programa%C3%A7%C3%A3o
%20estat%C3%ADstica%20e%20gr%C3%A1fica.
https://ibpad.com.br/sobre/o-que-e-linguagem-r/
https://pedropark99.github.io/Introducao_R/no%C3%A7%C3%B5es-b%C3%A1sicas-do-r.html
https://didatica.tech/a-linguagem-r/
https://www.estrategiaconcursos.com.br/blog/ciencia-dados-linguagem-r-esquematizada/
https://vanderleidebastiani.github.io/tutoriais/Introducao_ao_R.html
LGPD - disposições gerais, tratamento de dados pessoais, direitos do titular, tratamento de dados
pessoais pelo poder público, segurança e boas práticas
https://www.planalto.gov.br/ccivil_03/_ato2015-2018/2018/lei/L13709compilado.htm
https://www.gov.br/dnit/pt-br/acesso-a-informacao/protecao-de-dados-pessoais-lgpd/
cartilha_lgpd_2021.pdf
QUESTÕES
https://drm-ava-gonline.infra.grancursosonline.com.br/gco/pdf/exemplo-aula-pdf/2022-10-17-10-18-
35-66252060-gestao-da-informacao-etl-e1666012715.pdf?response-content-
disposition=attachment%3Bfilename%3D2022-10-17-10-18-35-66252060-gestao-da-informacao-
etl-e1666012715.pdf&Expires=1706787851&Signature=B-
hkQO69eOOSN40FmcUNwzo1FEaOskRXIWNn4I~-JM8BQVRB1jPttaSPWciA6AJncIBXTiSMVq-
XMaV9abAu7tpsN0JLqazQAJ9JwKw3t~lI1Wh9sH~D2niZv9d7FF-
EpFLZVjEOoT16g4irZ071i59mbQw7o~DpHqzF0dEDZhKjwMCI2bvKPApPBRmfvJwItgheKEGJ-
erFDt8ldG4OuKHxWsD~05cIcKp5Nr0Uo4932IxcocmPTwZKEAxp6OmgSO4tzrkcYJlehvKCnUkEq
q4BczAutzwpEZbqv27fZsLM4HHdQ9woRDq8hLYLP-Eha1QgEZ0jKicu6ZdQjI8mPQ__&Key-Pair-
Id=APKAJWDRH5QWMLF2KNSA