Funções de Normalização de Dados 2
Funções de Normalização de Dados 2
Funções de Normalização de Dados 2
1
SUMÁRIO
1
3.9 Quinta forma normal (5FN) .....................................................................................................38
3.9.1 Finalização ........................................................................................................................38
Referências Bibliográficas ..................................................................................... 41
2
NOSSA HISTÓRIA
3
1. Análise de dados
Os pilares do Big Data estão nos Vs, mas toda inteligência está na análise dos
dados. Sem uma análise correta e criteriosa, é impossível gerar insights e direcionar
o caminho mais acertado. Por isso ela é uma das etapas mais importantes do
processo em que o Big Data está inserido. O processo da análise passa por
inspecionar os dados e criar hipóteses para realizar testes com o objetivo de melhorar
ou entender um determinado cenário e seus padrões.
4
um profissional com habilidades para realizar o tratamento dos dados, antes de a
análise ser efetivamente realizada.
5
bruta, que não passaram por um processo de refinamento. O problema é que, sem
um processo de inspeção, pode ocorrer que dados incorretos não sejam descartados
ou corrigidos.
6
Por esse motivo, é extremamente necessária a validação das respostas
obtidas, principalmente quando utilizamos bancos de dados de grande volume, em
que as incoerências podem não ser claramente perceptíveis.
Embora essa técnica tenha sido adotada com maior ênfase somente nos
últimos anos pelas organizações, já temos exemplos inspiradores resultantes dessa
adoção, tais como:
7
Segmentação de clientes;
Descoberta de genes.
Embora seja similar a uma relação, para se obter sucesso na análise de dados,
é preciso estabelecer e seguir um processo sistemático. Existem diversas definições
de processos de análise de dados na literatura, tais como o SEMMA (Sample, Explore,
Modify, Model, and Assess) e CRISP-DM (Cross Industry Standard Process for Data
Mining).
8
4. Modelagem dos dados: envolve as tarefas de seleção dos dados,
definição e construção do modelo;
5. Validação do modelo: os resultados gerados pelo modelo são
avaliados, para verificar se a precisão obtida está satisfatória e coesa;
6. Utilização do modelo: após serem validados, os resultados dos
modelos são utilizados e monitorados.
Mas por que será que preparar os dados é algo tão demorado? Confira a
seguir algumas das atividades realizadas nessa fase e a resposta para essa pergunta.
9
A limpeza é feita por meio de um processo de inspeção dos dados coletados.
Para isso, é possível aplicar alguns métodos estatísticos que avaliam desvios e, com
base em alguns critérios, definem a sua relevância para a análise a ser feita.
Embora em alguns casos seja possível realizar uma inspeção manual desses
dados, isso pode ser muito custoso, principalmente no contexto de Big Data.
Linguagens como R e Python podem ajudar nessas operações, dado que elas
possuem pacotes com funções específicas para tratamento de dados, facilitando
consideravelmente esse processo.
10
1.5 Manipulação de dados ausentes
Registros podem estar com campos vazios, nulos, terem dados de tipos
diferentes e informações incompletas que só atrapalham em uma. Em um sistema de
vendas online, se um registro não possuir informação sobre o campo frete, e um
registro não possui informação sobre o campo data de vencimento e pagamento. O
que fazemos com esses registros em nossa análise?
Embora seja comum descartar registros com dados ausentes, a adoção dessa
prática oferece riscos de gerar estimativas viesadas e inconsistentes, uma vez que os
registros descartados podem conter padrões significativos para a análise. Para não
descartar os registros com dados ausentes em nossa análise, vamos adotar algumas
medidas e técnicas para obtermos o melhor resultado possível neste contexto,
lembrando que vamos utilizar algumas abordagens dentre outras existentes:
11
Embora essas abordagens sejam indicadas, é preciso muito cuidado para
selecionar qual a mais apropriada, evitando que a substituição gere informações
inapropriadas ao conjunto de dados e, consequentemente, à análise.
Leitura complementar
http://www.leg.ufpr.br/lib/exe/fetch.php/pessoais:marilia:workshop_e
studos_longitudinais:sessao3.pdf
12
vendidos e menos vendidos teríamos dados incoerentes, um ticket médio de venda
do produto acabaria sendo mascarado por este valor encontrado a mais.
13
Os diagramas de dispersão ou gráficos de dispersão são representações de
dados de duas ou mais variáveis que são organizadas em um gráfico. O gráfico de
dispersão utiliza coordenadas cartesianas para exibir valores de um conjunto de
dados.
Digamos que o campo preço apresenta valores bem distintos, utilizando como
unidade de medida a moeda Real. Para evitar que essa diferença influencie de forma
tendenciosa a construção do modelo, uma transformação muito adotada é a
normalização dos dados. O processo de normalização de variáveis numéricas é
aplicado para ajustar a escala dos valores das variáveis. Uma das formas de
normalização é a transformação linear, também conhecida como normalização min-
max, dado que o cálculo é feito com base nos valores mínimo e máximo de cada
14
atributo no ajuste da escala. Aplicando essa normalização, os registros teriam os
seguintes valores:
Mas ora, se preciso reduzir a base de dados, não basta apenas selecionar uma
parte do conjunto de dados? Não é bem assim. Caso façamos a redução dessa forma,
não temos garantia de que registros significativos não foram descartados do modelo.
15
detectado uma forte correlação entre elas, cria-se um conjunto menor de combinações
lineares dessas variáveis, reduzindo assim a dimensionalidade dos dados.
Conseguiu perceber quantas etapas são necessárias, você até pode conseguir
seguir adiante, porém, as possibilidades de encontrar problemas na execução do
algoritmo ou nos resultados obtidos são muito grandes. Ou seja, preparar os dados
para a análise é um "mal necessário".
16
1. Construção do modelo e mineração dos dados
17
2.1 Classificação
18
Figura 2.1 – Exemplo de aprendizado supervisionado
Leitura complementar
https://medium.com/machine-learning-beyond-deep-
learning/%C3%A1rvores-de-decis%C3%A3o-3f52f6420b69
2.2 Regressão
19
Por exemplo, imagine que, em vez de prever a adesão a uma oferta de cartão,
a equipe de análise de dados estivesse interessada em prever o total de vendas nos
próximos meses. Perceba que aqui a resposta desejada é um valor contínuo, e não
um rótulo do tipo "sim/não". Esse valor será obtido com base na análise de valores
passados de um conjunto de dados.
Por exemplo, no caso de vendas online, esse banco poderia ser o histórico de
vendas de uma categoria de produtos ao longo do tempo. A partir da análise de série
temporal, torna-se possível observar o comportamento desses dados em relação ao
tempo, podendo assim fazer estimativas como a previsão de vendas, controle de
estoque, lucro mensal, entre outras.
20
utilizam o transporte aéreo geralmente é maior em períodos de férias escolares do
que nos demais meses do ano.
2.4 Sumarização
21
2.5 Padrão de agrupamento
Por exemplo, imagine que a equipe da sua empresa tivesse como objetivo
realizar campanhas de marketing e precisasse segmentar seus clientes com base em
comportamentos ou características similares. O problema é que a equipe não sabe
como "rotular" esses clientes, pois ela não conhece os padrões existentes nos dados
para fazer essa inferência. Para situações como essa, em que o objetivo é que um
algoritmo seja capaz de detectar padrões ocultos nos dados, utiliza-se a tarefa de
agrupamento.
22
Figura 2.5 – Exemplo de fluxo de aprendizado não supervisionado
2.6 Associações
23
2.7 Descoberta de sequências
Podendo ser utilizado como uma extensão das tarefas de regras de associação,
o objetivo das tarefas de descoberta de sequências é também identificar itens
frequentes, porém considerando um determinado período de tempo. Ou seja, de
acordo com a maneira com que os dados estão alinhados, com essa tarefa pode-se
descobrir uma sequência cronológica em que aconteceram os eventos.
Essas são apenas algumas das possibilidades para se obter valor a partir da
análise de dados. Empresas brasileiras de diversos setores já estão adotando essas
técnicas para obter vantagem competitiva no mercado.
Já ouviu falar que uma informação errada é pior que nenhuma informação?
Essa frase também se aplica à análise de dados.
Imagine o caos que pode ser gerado em uma empresa da área médica que
utiliza resultados de um modelo que faz diagnósticos errados sobre seus pacientes.
24
Ou então, uma empresa que utiliza um modelo preditivo que reconhece grande parte
das transações idôneas como sendo fraudulentas? Ou até mesmo o contrário, que
considera muitas transações fraudulentas como sendo idôneas.
Essa fase tem como objetivo avaliar o desempenho do modelo por meio de
dados reais, ou seja, dados que não foram utilizados na fase de treinamento. Existem
diversas formas para medir a qualidade de um modelo, dependendo da tarefa e do
algoritmo adotado. Entre as possibilidades, as mais comuns são:
Para se ter uma medida mais precisa da qualidade do modelo, é muito comum
que mais de uma alternativa seja utilizada. Durante esse processo, diversos aspectos
sobre os resultados obtidos são validados, sendo mais comuns as verificações da
acurácia, confiabilidade e utilidade do modelo.
25
Uma técnica existente para validar a acurácia do modelo é a validação cruzada
(cross validation), muito utilizada em algoritmos de classificação. Nessa técnica,
omite-se uma observação da base de dados durante as iterações, e a função de
classificação é realizada com os dados restantes.
26
3 Normalização em banco de dados estruturado
Para se ter um bom conhecimento de banco de dados, não basta apenas saber
como criar um banco de dados e saber utilizar comandos SQL, é necessário entender
que armazenar dados de uma aplicação requer muito mais que isso. Um banco de
dados bem modelado e normalizado, é uma das partes muito importantes na
construção de um novo sistema, desde a parte de conceitos e como fazer uma
modelagem de dados utilizando Diagrama Entidade x Relacionamento (DER) até os
métodos mais avançados.
3.1 Vantagens
27
3.2 Definição e características
28
Como muitas regras e especificações formais, cenários reais nem sempre
permitem conformidade perfeita. Em geral, a normalização requer tabelas adicionais
e alguns clientes acham isso complicado. Se você decidir violar uma das três primeiras
regras de normalização, certifique-se de que o aplicativo prevê qualquer problema que
possa ocorrer, como dados redundantes e dependências inconsistentes.
Para nosso estudo será utilizado modelo de catálogo de CD abaixo, para assim
podermos tratar os dados e avançar nas formas normais:
29
Figura 3.4 – Catálogo de CD
30
Figura 3.5 – Entidade CD
31
que não é chave se realmente depende da chave. Isso faz com que os dados sejam
agrupados em grupos semelhantes (entidades).
Vamos então criar uma entidade para autor, gravadora e música, e alterar as
entidades CD e ITEM_CD para vincular com as chaves das novas entidades:
Veja que ao criar uma nova entidade Autor, é muito mais fácil de adicionar
outros autores.
32
Na entidade Gravadora, também fica mais fácil de adicionar novas informações
que estão relacionadas somente a gravadora, como neste caso, foi adicionado os
atributos endereço e o site. Agora que criamos uma nova entidade para a gravadora,
na entidade CD substituímos o nome da gravadora apenas pela sua chave:
33
Figura 3.6.3 – Entidade Música
Por fim, nossa entidade ITEM_CD ficou apenas com as chaves contendo o
código do CD, o número da Faixa e o código da música:
34
Figura 3.6.4 – Entidade ITEM_CD
Na segunda forma normal vimos, vimos que uma entidade possui todos os
atributos não chave dependendo exclusivamente da chave.
Na terceira forma normal, uma entidade possui todos os seus atributos não
chave não dependendo de nenhum outro atributo não chave, ou seja, um atributo não
pode depender de outro.
35
É comum que um atributo dependa de outro em cálculos matemáticos ou
atributos perdidos na entidade errada. Podemos citar uma nota fiscal com um valor
total, o valor total depende de cada produto contido na nota fiscal, logo o valor total
seria resultado de uma operação matemática (multiplicar o valor de cada item por sua
quantidade e somar o total de todos os itens). Ao armazenar esses valores, segundo
Oliveira (2002), estamos dando oportunidade para ocupar mais espaço no banco de
dados e permitir a possibilidade de inconsistência de informações, ou seja, do total da
nota ser um valor e o resultado da operação matemática ser outro. Em qual valor
realmente podemos confiar?
Pode ocorrer de após a 3FN ainda existir algum tipo de redundância, isso irá
acontecer quando um atributo não chave conter diversos valores para uma mesma
36
chave, isso é chamado de dependência multivalorada, logo a 4FN é a ausência de
dependências multivaloradas.
Veja que não é possível criar uma chave com música pois música se repete,
não é possível também criar uma chave com música + intérprete pois também se
repete, e caso seja colocado os três atributos como chave, até é uma solução, no
entanto, redundante, pois haveria repetição de música e intérprete ou música e
gravadora.
A solução para este caso é dividir a entidade em duas novas entidades, uma
ficaria com a música e o intérprete, e a segunda com a música e a gravadora:
37
Após isso, os nomes seriam substituídos pelas respectivas chaves.
Chegar nessa etapa é raro, a 5FN é utilizada após a 4FN quando divide-se uma
entidade em duas ou mais entidades e o resultado ainda apresenta dependência
multivalorada. Para solucionar as redundâncias que sobraram deve-se dividir
novamente em novas entidades.
3.9.1 Finalização
38
Figura 3.9.1 – Entidade Música
39
Neste ponto chegamos ao final da modelagem dos dados por meio do processo
de normalização de dados.
CONTEÚDO COMPLEMENTAR
https://www.youtube.com/watch?v=eRaAMNjCFYw
https://www.youtube.com/watch?v=NpG1Xt8LB_c
40
Referências Bibliográficas
OLIVEIRA, Celso Henrique Poderoso de. SQL Curso Prático. São Paulo: Novatec
Editora Ltda, 2002. 271 p.
BARLOW, Mike. Learning to Love Data Science. O'Reilly Media, Inc., 2015.
41