Qualidade de Dados Dentro Do Contexto de Big Data
Qualidade de Dados Dentro Do Contexto de Big Data
Qualidade de Dados Dentro Do Contexto de Big Data
revisão global
Magnon P. R. Souza1 , Cleber Zanchettin1 , Divanilson R. S. Campelo1
1
Centro de Informática – Universidade Federal de Pernambuco (UFPE)
Recife – PE – Brazil
{mprs,cz,dcampelo}@cin.ufpe.br
Abstract. The rapid expansion of Big Data has elevated the importance of data
quality, posing unique challenges and opportunities. This work aims to un-
dertake a review of data quality within the context of Big Data. It covers Big
Data characteristics, its lifecycle and the intricacies of data quality. A lite-
rature review serves as methodology, offering an up-to-date structured review
of the state-of-the-art in data quality for Big Data applications. The findings
from this research aim to assist in the understanding of what is in the core of
data quality for these systems, for better value extraction and therefore better
decision-making processes.
1. Introdução
Em um mundo constantemente bombardeado por novos dados, uma nova commodi-
tie surge trazendo um impacto tão alto que chega a ser visto como mais valioso que
petróleo [The Economist 2017]. Isso se mostra tanto uma realidade que 79% das em-
presas acreditam que vão falir se não utilizarem Big Data em seu modelo de negócios
[Kothapalli 2023]. O contexto de Big Data, com sua vastidão em volume, velocidade e
variedade, ressalta ainda mais a necessidade de garantir não apenas a quantidade, mas
principalmente a qualidade desses dados.
Geralmente, os dados não estão prontos para serem processados assim que são
coletados [Taleb et al. 2021]. Eles preciso passar por etapas de limpeza de dados (por
exemplo, redução de dimensionalidade, tratamentos para dados ausentes, conversão de
tipo de dado) e adequação ao contexto de negócio. Essa cadeia de processos é feita de
forma que o valor agregado nessa imensidão de informação possa ser melhor aproveitado,
mitigando o efeito ”garbage in, garbage out”.
Ainda que este tópico seja de extrema relevância e venha sendo discutido há mui-
tos anos dentro do escopo de bases de dados tradicionais, sua discussão no âmbito do
Big Data ainda é precária. Isso acontece pois, os processos para esta realidade são mais
complexos de implementar, visto que eles demandam mais tempo, poder computacio-
nal e, consequentemente, despesa. Entretanto, faz-se fundamental que esse debate seja
expandido em todas esferas que tenham dados como uma fundação primária no âmbito
operacional, tático e de tomada de decisão. Isso permitirá não apenas uma melhoria na
entrega de valor, como também uma otimização na cadeia de processamento (melhoria de
métricas de um modelo de deep learning, por exemplo).
Este trabalho visa fazer uma jornada analı́tica de revisão sobre a literatura de qua-
lidade de dados dentro do âmbito de Big Data e trazer uma visão sobre o estado da arte e
realçar os direcionamentos de pesquisa que tem se destacado nos últimos anos. O trabalho
visa responder a perguntas como:
1. Quais principais caracterı́sticas dos sistemas de Big Data hoje em dia?
2. Que dimensões de qualidade de dados tem sido mais mencionadas atualmente?
3. Que tópicos tem ascendido na discussão sobre qualidade de dados em Big Data
nos últimos anos?
O resto desse trabalho é organizado da seguinte forma. A seção 2 trata sobre Big
Data de forma geral. Em seguida, o tema qualidade de dados é discutido na seção 3.
Seguido pela metodologia, na seção 4, e a discussão sobre os resultados da revisão na
seção 5. Por fim, a seção 6 conclui o trabalho.
2. Big Data
Muito mais que uma buzzword das últimas décadas, Big Data é um fenômeno universal.
Seja na esfera acadêmica ou nas mais diversas indústrias, o grande volume de dados
gerado diariamente tem desempenhado um papel fundamental nos processos de análise e
tomada de decisão. Com a dominação dos smartphones e das redes sociais, a ascensão
do IoT e o uso disseminado de sensores nos mais diferentes dispositivos, fazem com que
seja produzida uma quantidade extraordinária de dados em um curto intervalo de tempo.
Foi estimado por [DOMO 2022] que a quantidade de dados produzida em 2022 foi de 97
zettabytes e projeta-se que esse número cresça para 181 zettabytes em 2025.
Dito isto, é uma falsa interpretação pensar que Big Data se resume apenas a um
grande volume de dados. Na verdade, o significado subjacente ao termo ”Big Data”vai
muito além da magnitude do volume de dados, ele tem evoluı́do de maneira notável ao
longo dos anos. Ao explorar suas múltiplas facetas, nota-se não apenas uma dimensão
quantitativa, mas também elementos qualitativos que moldam sua natureza. Adentrando
esse cenário, surge a necessidade de explorar em detalhes essas caracterı́sticas peculia-
res da definição do que é Big Data, bem como entender como a qualidade dos dados
desempenha um papel crucial nesse contexto.
1. Geração de dados: Nessa etapa é preciso definir como e quais dados serão gera-
dos. Neste momento, existe um processo de decisão sobre a estrutura dos dados
que mais adiante serão coletados.
2. Coleta de dados: Esta etapa diz respeito a como, quando e como os dados serão
coletados e tratados. Nesta etapa, faz-se necessário construir uma definição desses
elementos bem como condições de verificação dos dados.
3. Transmissão de dados: A distribuição de dados nessa fase está atrelada a infraes-
trutura. Aqui a qualidade está condicionada às limitações do hardware estabele-
cido pelos desenvolvedores e da rede disponı́vel e é expressa em termos de perda
de dados e erros de transmissão.
4. Pré-processamento de dados: Aqui a tratativa é diretamente sobre os dados.
Eles passam por processos de limpeza. São exemplos de técnicas utilizadas:
padronização, cálculo de agregação, adequação de tipo de dado, tratamento de
valores ausentes e normalização. Essas modificações são feitas afim de permitir
que os dados possam entregar mais valor por meio de uma melhora dos resulta-
dos do processamento. Um exemplo disso pode ser descrito com uma melhora
de resultados de um classificador e com esses resultados, possibilitar melhores
resultados nos negócios.
5. Armazenamento de dados: Esta fase está relacionada, novamente, à infraestru-
tura do sistema. As questões de qualidade atreladas a esta etapa são de caráter de
saúde do hardware de armazenamento escolhido pelos desenvolvedores. Soluções
como replicação, redundância e backup de dados em múltiplas máquinas se fazem
presentes nesse momento.
6. Processamento de dados: Neste momento, a qualidade é afetada tanto pelos
processos aplicados como também pela qualidade dos próprios dados. Entre a
aplicação de heurı́sticas e algoritmos de aprendizado de máquina, o estado que os
dados são recebidos nesta etapa e o fluxo pelo qual eles passarão na presente etapa
são determinantes da qualidade dos dados, impactando não apenas o resultado,
como também o consumo de recursos do processamento.
7. Análise e visualização de dados: Nestas etapas finais, entra o trabalho do ana-
lista de dados de forma mais proeminente. Aqui ocorre a manipulação dos dados
finais, resultantes de toda cadeia, e aplicação de ferramentas de visualização,
como dashboards por exemplo, para a transformação dos dados em conhecimento
e enfim a extração de valor.
Pode-se perceber que, tratar qualidade de dados no ciclo de vida de Big Data
não é um trabalho pontual. Os problemas atrelados a questões de qualidade podem se
manifestar em cada fase da cadeia. Eles vão surgir quando os requisitos de qualidade não
forem atingidos pelos dados reais. Esses problemas ocorrem devido a diversos fatores a
depender do nı́vel que ocorrerem:
• Fonte de dados: incerteza, inconsistência, diferenças entre múltiplas fontes e
particularidades do domı́nio.
• Geração de dados: input humano, leitura de sensores, redes sociais, dados não
estruturados e dados faltantes.
• Processos: coleta e transmissão.
Dentro desse cenário, as estratégias de intervenção para abordar os problemas de
qualidade podem ser categorizadas em duas estratégias de acordo com [Sidi et al. 2012]:
• Relacionados ao processo: O trabalho visa atacar o processo pelo qual o dado
é gerado, de forma que o aumento da qualidade de dados seja promovido pela
melhora na cadeia de produção do dado.
• Relacionados ao dado: Trata-se da modificação direta dos dados. Nessa es-
tratégia, existe a aplicação de técnicas sobre os atributos ou sobre os dados pro-
priamente.
A figura 3 ilustra onde as questões qualidade de dados pode ser aplicadas em cada
etapa do ciclo de vida de Big Data. Nela percebe-se que a estratégia de tratamento de
problemas de qualidade de dados relacionados a dados são aplicados essencialmente na
fase de pré-processamento. São técnicas comuns dessa estratégia: normalização, data
cleasing e filtragem de dados. Já a estratégia relacionada ao processo, pode ser aplicada
em toda cadeia do ciclo de vida de Big Data.
4. Metodologia
Neste estudo, foi conduzida uma metodologia de revisão sistemática de literatura focada
na análise e construção de frameworks de qualidade de dados voltados para sistemas
de Big Data. A diretriz seguida foi inspirada nas orientações traçadas pelos estudos de
Creswell & Creswell (2017) e por Kitchenham (2004). O fluxo da revisão está ilustrado
na figura 4.
Para a pesquisa inicial, foi feita uma busca por termos mais genéricos, como ”Data
quality”e ”Big Data”em fontes não necessariamente acadêmicas, como blogs técnicos por
exemplo. Depois de uma primeira familiarização com o tema, foi feita uma nova busca,
porém em fontes acadêmicas, onde pudesse encontrar resultados de artigos cientı́ficos e
papers, a fim de um aprofundamento maior na teoria e definições formais. Para essa nova
busca foram usados termos como ”data quality Big Data”, ”Big Data quality” e ”data
quality framework for Big Data systems”. Com os resultados dessa nova busca, foi feita
uma seleção inicial a partir da leitura dos tı́tulos, seguida de uma filtragem a partir da
leitura dos resumos (abstracts) e por fim, a remoção de possı́veis resultados duplicados,
visto que um mesmo trabalho pode ser obtido de fontes distintas (por exemplo, Research
Gate e IEEE).
Os resultados dessa seleção distribuı́dos por fonte estão resumidos na tabela 2. Fo-
ram inicialmente analisados 850 trabalhos como resultados da busca. Desses analisados,
foi feita a leitura dos tı́tulos e então 83 trabalhos foram selecionados. Por fim, foi feita
uma filtragem, consistindo na leitura dos resumos (abstracts) e remoção de resultados
duplicados, concluindo com 34 trabalhos filtrados.
Figura 4. Fluxo do processo da revisão
Referência Contribuições
[Abdallah 2019] - Divide dimensões de qualidade de dados em
quatro perspectivas: perspectiva dos dados,
da gestão, do processamento e serviços e do
usuário.
[Taleb et al. 2019] - Considera 9 V’s como caracterı́sticas do Big
Data.
Continuação na próxima página
Tabela 3 – (Continuação)
Referência Contribuições
- Data profiling: processo de definição de um
perfil pros dados nas diferentes etapas do pipe-
line.
- Propõe uso de amostragem.
- Ataca majoritariamente dados estruturados.
- Trabalhos futuros: atacar regras de data profi-
ling para dados não-estruturados (que represen-
tam cerca de 80% dos dados em Big Data).
[Taleb et al. 2018b] - Considera 10 V’s como caracterı́sticas do Big
Data.
- Propõe avaliação de qualidade para dados não-
estruturados.
- Descreve tipos de dados não-estruturados,
bem como estratégias usadas para tratamento de
cada tipo.
- A qualidade dos dados não-estruturados está
atrelada à estrutura que os dados serão postos
pós-processamento: Quanto mais estruturável,
maior a qualidade e mais fácil a metrificação.
- Levanta 5 etapas para extração de valor em da-
dos não-estruturados, dentre elas, amostragem
de dados.
[Fadlallah et al. 2023a] - Define problemas de qualidade de dados em
três categorias: a nı́vel de gestão, a nı́vel
de processamento e a nı́vel de abstração e
padronização.
- Escassez de soluções para Big Data,
aplicações geralmente só comentam sobre lim-
peza de dados.
- Propõe uso de data profiling.
- Segue padrão da ISO/IEC 25012.
- Sugere criação de repositórios de domı́nio de
conhecimento.
[Fadlallah et al. 2023b] - Propõe uma metodologia que considera con-
texto.
- Faz levantamento de soluções apontando pon-
tos positivos e negativos, bem como o tipo de
dados apropriados pra cada uma.
- Sugere criação de repositórios de domı́nio de
conhecimento.
[Wahyudi et al. 2018c] - Considera 11 V’s como caracterı́sticas do Big
Data.
- Sugere que pesquisas devem focar mais na in-
terpretabilidade dos dados.
Continuação na próxima página
Tabela 3 – (Continuação)
Referência Contribuições
- Estudos de casos com empresa de
telecomunicação e de manufatura.
[Taleb et al. 2018a] - Considera 10 V’s como caracterı́sticas do Big
Data.
- Define 4 categorias de dimensões de qualidade
de dados: intrı́nseca, contextual, representacio-
nal, acessibilidade.
- Propõe um framekwork, em que cada etapa
gera um relatório capaz de propor melhoras
para diferentes etapas do ciclo de vida.
[Salih et al. 2019] - Considera 5 V’s como caracterı́sticas do Big
Data.
- Propõe uso de amostragem de dados e data
profiling.
[Onyeabor and Ta’a 2019] - Divide dimensões de qualidade de dados em
duas: intrı́nseca e contextual.
- Dimensões relacionadas a processo: latência,
tempo de resposta, throughput, capacidade e es-
calabilidade.
[Arolfo and Vaisman 2018] - Considera 4 V’s como caracterı́sticas do Big
Data.
- Aponta que modelos de gestão de dados de-
vem levar em consideração tempo, espaço, con-
texto histórico, contexto e perfil de usuário.
- Dimensões de qualidade de dados apontadas:
acurácia, completude, consistência, temporali-
dade, confiança, redundância, utilidade, acessi-
bilidade...
- Classifica Big Data de acordo com a fonte dos
dados: humano, mediado por processos, gerada
a partir máquinas.
- Estabelece métricas para quantificação das di-
mensões de qualidade de dados.
- Traz uma implementação utilizando Apache
Kafka e Apache Zookeeper.
- Dados utilizados da API do Twitter.
[Elouataoui et al. 2022b] - Considera 7 V’s como caracterı́sticas do Big
Data.
- Define 4 novas métricas de qualidade de da-
dos: integridade, acessibilidade, facilidade de
manipulação e segurança.
- Define dimensões em 5 categorias diferen-
tes: confiabilidade, disponibilidade, usabili-
dade, validade e pertinência.
Continuação na próxima página
Tabela 3 – (Continuação)
Referência Contribuições
- Define fórmulas para as métricas das di-
mensões.
- Traz uma implementação utilizando Apache
Spark e Great Expectations.
- Propõe um modelo com pesos em métricas
com base no modelo de negócio.
[Desai 2018] - Faz levantamento de ferramentas para traba-
lhar com Big Data.
- Propõe definição algébrica e matricial para
cálculo de métricas de qualidade.
[Elouataoui et al. 2022a] - Considera 14 V’s como caracterı́sticas do Big
Data.
- Agrupa dimensões em 4 categorias: confiabili-
dade, disponibilidade, usabilidade e relevância.
- Pré-processamento e processamento são as
etapas que mais receberam destaque na litera-
tura.
- A maioria das pesquisas foca em dimensões
em comum com dados tradicionais, como
acurácia, completude e consistência.
- Frameworks atuais utilizam amostragem de
dados, data profiling e inteligência artificial,
mas apenas para definir as regras de qualidade.
- Sugere que as técnicas acima poderiam ser
aplicadas para identificar também potenciais
anomalias nos dados.
- Contexto é extremamente relevante na
definição do framework e deveria ser conside-
rado nas pesquisas.
[Wahyudi et al. 2018a] - Considera 11 V’s como caracterı́sticas do Big
Data.
- Aplicação dentro de um contexto especı́fico:
bancário e financeiro.
- 4 categorias de dimensões de qualidade de da-
dos: intrı́nseca, representacional, acessibilidade
e contextual.
- Constrói um mapeamento entre dimensões de
qualidade e caracterı́sticas de Big Data aplica-
das ao contexto em estudo.
[Ehrlinger and Wöß 2022] - Apresenta fórmulas matemáticas para cálculo
de métricas de dimensões de qualidade de da-
dos.
Continuação na próxima página
Tabela 3 – (Continuação)
Referência Contribuições
- Cataloga ferramentas de gestão e avaliação
de qualidade de dados não associadas a um
domı́nio especı́fico.
[Ridzuan et al. 2022] - Considera 5 V’s como caracterı́sticas do Big
Data.
- Constrói um levantamento dos desafios de Big
Data associados a cada caracterı́stica.
[Ghasemaghaei and Calic 2019] - Segmentação de dimensões de qualidade de
dados em: intrı́nseca, contextual, representaci-
onal e acessibilidade.
- Levantamento de testes estatı́sticos para ava-
liar o impacto de qualidade de Big Data na to-
mada de decisão.
[Han and Jochum 2020] - Uso de aprendizado de máquina para controle
de qualidade de dados.
- Aplicação dentro de contexto especı́fico: da-
dos geográficos.
[Hongxun et al. 2018] - Aplicação dentro de contexto especı́fico: sis-
tema elétrico.
- Uso de 6 dimensões de qualidade de dados: re-
dundância, integridade, acurácia, consistência,
temporalidade e inteligência.
[Hossen et al. 2020] - Apontamento da importância de qualidade de
dados na esfera do e-commerce.
- Levantamento de ferramentas para
manutenção de qualidade de dados.
[Juneja and Das 2019] - Aplicação dentro de contexto especı́fico: mo-
nitoramento de tempo e clima.
- Considera 5 V’s como caracterı́sticas do Big
Data.
- Classificação de dimensões de qualidade de
dados em: completude, temporalidade, confor-
midade, unicidade, integridade, consistência,
acurácia.
[Loetpipatwanich and Vichitthamaros 2020] - Ferramenta: Pacote Python para qualidade de
dados.
- Uso de três dimensões de qualidade de dados:
completude, integridade e consistência.
[Molinari and Nollo 2020] - Considera 5 V’s como caracterı́sticas do Big
Data.
- Aplicação dentro de contexto especı́fico: me-
dicina e plano de saúde.
- Veracidade é o mais crucial.
Continuação na próxima página
Tabela 3 – (Continuação)
Referência Contribuições
- Ressalta a importância de um identificador
único para os registros.
[Merino et al. 2020] - Propõe 4 métodos de avaliação de qualidade
em Big Data: embedded, parallel, in-line e in-
dependent.
- A escolha do método será dada de acordo com
a natureza da aplicação.
- Caso de estudo: smart cities.
- Exemplo de aplicação: predição de passagei-
ros pegando ônibus.
[Kumar et al. 2019] - Aplicação dentro de contexto especı́fico: da-
dos atmosféricos e climáticos.
[Shanmugam et al. 2023] - Apresenta dimensões de qualidade de da-
dos em 5 categorias: disponibilidade, usabili-
dade, confiabilidade, relevância e qualidade de
apresentação.
[Taleb et al. 2021] - Divide dimensões de qualidade de dados em 4
categorias: intrı́nseco, contextual, representaci-
onal e acessibilidade.
- Aponta problemas de qualidade de dados a
nı́vel de dados e a nı́vel de processos dentro do
ciclo de vida de Big Data.
- Apresenta fórmulas matemáticas para calcular
métricas.
- Propões o uso de data profiling e amostragem
de dados.
[Kothapalli 2023] - Levantamento de ferramentas para gestão de
pipeline de qualidade de Big Data: Apache
NiFi, Apache Hadoop, Apache Storm, Talend,
Trifacta, DataRobot e Apache Zeppelin.
- Comenta sobre uso de aprendizado de
máquina na detecção de outliers, reconheci-
mento de padrões e predição.
- Comenta desafios para diferentes indústrias
como: saúde, finanças, vendas, manufaturação,
governo.
- Aponta algoritmos e técnicas usadas no tra-
balho de qualidade de dados como: análise es-
tatı́stica, inteligência artificial, data profiling,
data cleaning, data matching, enriquecimento
de dados, padronização de dados, integração de
dados, histórico de dados e governança de da-
dos.
Continuação na próxima página
Tabela 3 – (Continuação)
Referência Contribuições
- Levantamento de técnicas para manutenção de
qualidade de dados em Big Data: automatizado,
crowdsourcing, tecnologias semânticas (ontolo-
gias e linked data), blockchain e governança de
dados.
[Wahyudi et al. 2018b] - Divide dimensões de qualidade de dados em 4
categorias: intrı́nseco, contextual, representaci-
onal e acessibilidade.
- Estudo de caso com empresa de
telecomunicação.
- Definição do pipeline de Big Data como: des-
coberta, acesso, exploração, análise e, por fim
gestão, que faz parte de todo ciclo.
- Propõe um modelo de reconhecimento de
padrão de processos para identificar falhas em
qualidade de dados.
[Wong and Wong 2020] - Aplicação dentro de contexto especı́fico: sis-
tema bancário.
- Uso de redes neurais profundas para calcular
peso de data noise.
[Wook et al. 2021] - Considera 17 V’s como caracterı́sticas do Big
Data.
- Divisão de dimensões de qualidade em 4 cate-
gorias: intrı́nseca, contextual, representacional
e acessibilidade.
- Acessibilidade (facilidade de manipulação)
pode influenciar fortemente na aplicação final.
- Usa métricas estatı́sticas para avaliar suas
hipóteses de impacto de dimensões de quali-
dade sobre caracterı́sticas de Big Data.
- Aponta segurança e privacidade como cami-
nhos futuros relevantes de pesquisa.
[Zhang 2020] - Propõe um modelo definido matematicamente
para governança de dados baseado em rastrea-
mento de dados num loop fechado de validação,
rastreio e revisão.
- Modelo se baseia em três entidades principais:
data owner, data provider e data user.
[Gyulgyulyan et al. 2019] - Considera 7 V’s como caracterı́sticas do Big
Data.
- Propõe um modelo não para corrigir proble-
mas de qualidade em Big Data, mas para alertar
sobre esses problemas.
Continuação na próxima página
Tabela 3 – (Continuação)
Referência Contribuições
- Comenta dimensões de qualidade de da-
dos tradicionais como: consistência, unicidade,
acurácia, completude e temporalidade.
- Traz também outras dimensões especı́ficas do
contexto de Big Data: sincronização, interpre-
tabilidade e confiabilidade.
[Montero et al. 2021] - Revisa literatura dos modelos de qualidade em
Big Data propostos entre 2010 e 2020.
- Houve um aumento considerável de trabalhos
no tópico a partir de 2014, sendo 67% dos traba-
lhos selecionados publicados entre 2018 e 2020.
- Quase 75% foi construı́da independente de
contexto, ou seja, pode ser aplicado para qual-
quer base.
- As dimensões de qualidade de dados mais
comuns foram: completude, acurácia, con-
sistência e temporalidade.
6. Conclusão
Big Data atraiu a atenção dos pesquisadores e da indústria devido a todo seu potencial,
hoje amplamente explorado. Mas esse potencial não chega a ter um bom aproveitamento
se os dados forem de baixa qualidade. Este trabalho revisou os fundamentos básicos do
que é Big Data, bem como do que se entende por qualidade de dados, construindo uma
representação de um pipeline (ou ciclo de vida) para Big Data e seus problemas. Foi feita
uma revisão de 34 trabalhos extraı́dos de 4 fontes distintas. Em trabalhos futuros, baseado
nos resultados da revisão, sugere-se algumas vias de pesquisa:
1. Estudo sobre qualidade de dados para Big Data dentro de contextos especı́ficos,
bem como sua implementação.
2. Impacto da segurança e privacidade, em particular pós legislações como LGPD e
GDPR, por exemplo, na qualidade dos sistemas de Big Data
3. Uso de técnicas de machine learning não apenas para etapas de processamento,
mas também para a detecção de outliers e seu impacto na qualidade de dados.
Referências
Abdallah, M. (2019). Big data quality challenges. In 2019 International Conference on
Big Data and Computational Intelligence (ICBDCI), pages 1–3. IEEE.
Arockia Panimalar.S, Varnekha Shree.S, V. K. (2017). The 17 v’s of big data. In Interna-
tional Research Journal of Engineering and Technology (IRJET).
Arolfo, F. and Vaisman, A. (2018). Data quality in a big data context. In European Con-
ference on Advances in Databases and Information Systems, pages 159–172. Springer.
Desai, K. Y. (2018). Big data quality modeling and validation.
DOMO (2022). Data never sleeps 10.0. https://www.domo.com/
data-never-sleeps/. Acesso em 2023-08-13.
Ehrlinger, L. and Wöß, W. (2022). A survey of data quality measurement and monitoring
tools. Frontiers in big data, 5:850611.
Elouataoui, W., Alaoui, I. E., and Gahi, Y. (2022a). Data quality in the era of big data: a
global review. Big Data Intelligence for Smart Applications, pages 1–25.
Elouataoui, W., El Alaoui, I., El Mendili, S., and Gahi, Y. (2022b). An advanced big data
quality framework based on weighted metrics. Big Data and Cognitive Computing,
6(4):153.
Fadlallah, H., Kilany, R., Dhayne, H., El Haddad, R., Haque, R., Taher, Y., and Jaber, A.
(2023a). Bigqa: Declarative big data quality assessment. ACM Journal of Data and
Information Quality, 15(3):1–30.
Fadlallah, H., Kilany, R., Dhayne, H., El Haddad, R., Haque, R., Taher, Y., and Jaber, A.
(2023b). Context-aware big data quality assessment: a scoping review. ACM Journal
of Data and Information Quality, 15(3):1–33.
Ghasemaghaei, M. and Calic, G. (2019). Can big data improve firm decision quality? the
role of data quality and data diagnosticity. Decision Support Systems, 120:38–49.
Gyulgyulyan, E., Aligon, J., Ravat, F., and Astsatryan, H. (2019). Data quality alerting
model for big data analytics. In New Trends in Databases and Information Systems:
ADBIS 2019 Short Papers, Workshops BBIGAP, QAUCA, SemBDM, SIMPDA, M2P,
MADEISD, and Doctoral Consortium, Bled, Slovenia, September 8–11, 2019, Procee-
dings 23, pages 489–500. Springer.
Han, W. and Jochum, M. (2020). A machine learning approach for data quality control of
earth observation data management system. In IGARSS 2020-2020 IEEE International
Geoscience and Remote Sensing Symposium, pages 3101–3103. IEEE.
Hongxun, T., Honggang, W., Kun, Z., Mingtai, S., Haosong, L., Zhongping, X., Taifeng,
K., Jin, L., and Yaqi, C. (2018). Data quality assessment for on-line monitoring and
measuring system of power quality based on big data and data provenance theory. In
2018 IEEE 3rd International Conference on Cloud Computing and Big Data Analysis
(ICCCBDA), pages 248–252. IEEE.
Hossen, M. I., Goh, M., Hossen, A., and Rahman, M. A. (2020). A study on the aspects
of quality of big data on online business and recent tools and trends towards cleaning
dirty data. In 2020 11th IEEE Control and System Graduate Research Colloquium
(ICSGRC), pages 209–213. IEEE.
Hu, H., Wen, Y., Chua, T.-S., and Li, X. (2014). Toward scalable systems for big data
analytics: A technology tutorial. IEEE access, 2:652–687.
Juneja, A. and Das, N. N. (2019). Big data quality framework: Pre-processing data in we-
ather monitoring application. In 2019 International Conference on Machine Learning,
Big Data, Cloud and Parallel Computing (COMITCon), pages 559–563. IEEE.
Kothapalli, M. (2023). The challenges of data quality and data quality assessment in the
big data.
Kumar, J., Crow, M. C., Devarakonda, R., Giansiracusa, M., Guntupally, K., Olatt, J. V.,
Price, Z., Shanafield, H. A., and Singh, A. (2019). Provenance–aware workflow for
data quality management and improvement for large continuous scientific data streams.
In 2019 IEEE International Conference on Big Data (Big Data), pages 3260–3266.
IEEE.
Laney, D. (2001). 3d data management: Controlling data volume, velocity and variety.
META Group Research Note, 6.
Loetpipatwanich, S. and Vichitthamaros, P. (2020). Sakdas: a python package for data
profiling and data quality auditing. In 2020 1st International Conference on Big Data
Analytics and Practices (IBDAP), pages 1–4. IEEE.
Merino, J., Xie, X., Parlikad, A. K., Lewis, I., and McFarlane, D. (2020). Impact of data
quality in real-time big data systems.
Molinari, A. and Nollo, G. (2020). The quality concerns in health care big data. In 2020
IEEE 20th Mediterranean Electrotechnical Conference (MELECON), pages 302–305.
IEEE.
Montero, O., Crespo, Y., and Piatini, M. (2021). Big data quality models: a systematic
mapping study. In Quality of Information and Communications Technology: 14th
International Conference, QUATIC 2021, Algarve, Portugal, September 8–11, 2021,
Proceedings 14, pages 416–430. Springer.
Oliveira, P., Rodrigues, F., and Henriques, P. R. (2005). A formal definition of data quality
problems. In ICIQ.
Onyeabor, G. A. and Ta’a, A. (2019). A model for addressing quality issues in big data.
In Recent Trends in Data Science and Soft Computing: Proceedings of the 3rd Inter-
national Conference of Reliable Information and Communication Technology (IRICT
2018), pages 65–73. Springer.
Ridzuan, F., Wan Zainon, W. M. N., and Zairul, M. (2022). A thematic review on data
quality challenges and dimension in the era of big data. In Proceedings of the 12th
National Technical Seminar on Unmanned System Technology 2020: NUSYS’20, pages
725–737. Springer.
Salih, F. I., Ismail, S. A., Hamed, M. M., Mohd Yusop, O., Azmi, A., and Mohd Azmi,
N. F. (2019). Data quality issues in big data: a review. In Recent Trends in Data Sci-
ence and Soft Computing: Proceedings of the 3rd International Conference of Reliable
Information and Communication Technology (IRICT 2018), pages 105–116. Springer.
Shanmugam, D., Dhilipan, J., Prabhu, T., Sivasankari, A., and Vignesh, A. (2023). The
management of data quality assessment in big data presents a complex challenge, ac-
companied by various issues related to data quality. Research Highlights in Mathema-
tics and Computer Science Vol. 8, pages 78–91.
Sidi, F., Panahy, P. H. S., Affendey, L. S., Jabar, M. A., Ibrahim, H., and Mustapha, A.
(2012). Data quality: A survey of data quality dimensions. In 2012 International Con-
ference on Information Retrieval & Knowledge Management, pages 300–304. IEEE.
Taleb, I., Serhani, M. A., Bouhaddioui, C., and Dssouli, R. (2021). Big data quality
framework: a holistic approach to continuous quality management. Journal of Big
Data, 8(1):1–41.
Taleb, I., Serhani, M. A., and Dssouli, R. (2018a). Big data quality: A survey. In 2018
IEEE International Congress on Big Data (BigData Congress), pages 166–173. IEEE.
Taleb, I., Serhani, M. A., and Dssouli, R. (2018b). Big data quality assessment model
for unstructured data. In 2018 International Conference on Innovations in Information
Technology (IIT), pages 69–74. IEEE.
Taleb, I., Serhani, M. A., and Dssouli, R. (2019). Big data quality: a data quality profiling
model. In World Congress on Services, pages 61–77. Springer.
The Economist (2017). The world’s most valuable resource is no longer oil, but data.
Uddin, M. F., Gupta, N., et al. (2014). Seven v’s of big data understanding big data to
extract value. In Proceedings of the 2014 zone 1 conference of the American Society
for Engineering Education, pages 1–5. IEEE.
Wahyudi, A., Farhani, A., and Janssen, M. (2018a). Relating big data and data quality in
financial service organizations. In Challenges and Opportunities in the Digital Era:
17th IFIP WG 6.11 Conference on e-Business, e-Services, and e-Society, I3E 2018,
Kuwait City, Kuwait, October 30–November 1, 2018, Proceedings 17, pages 504–519.
Springer.
Wahyudi, A., Kuk, G., and Janssen, M. (2018b). A process pattern model for tackling and
improving big data quality. Information Systems Frontiers, 20:457–469.
Wahyudi, A., Pekkola, S., and Janssen, M. (2018c). Representational quality challenges
of big data: Insights from comparative case studies. In Challenges and Opportunities
in the Digital Era: 17th IFIP WG 6.11 Conference on e-Business, e-Services, and e-
Society, I3E 2018, Kuwait City, Kuwait, October 30–November 1, 2018, Proceedings
17, pages 520–538. Springer.
Wand, Y. and Wang, R. Y. (1996). Anchoring data quality dimensions in ontological
foundations. Communications of the ACM, 39(11):86–95.
Wang, R. Y. and Strong, D. M. (1996). Beyond accuracy: What data quality means to
data consumers. Journal of management information systems, 12(4):5–33.
Wong, K. Y. and Wong, R. K. (2020). Big data quality prediction on banking applications.
In 2020 IEEE 7th International Conference on Data Science and Advanced Analytics
(DSAA), pages 791–792. IEEE.
Wook, M., Hasbullah, N. A., Zainudin, N. M., Jabar, Z. Z. A., Ramli, S., Razali, N. A. M.,
and Yusop, N. M. M. (2021). Exploring big data traits and data quality dimensions for
big data analytics application using partial least squares structural equation modelling.
Journal of Big Data, 8:1–15.
Zhang, G. (2020). A data traceability method to improve data quality in a big data envi-
ronment. In 2020 IEEE Fifth International Conference on Data Science in Cyberspace
(DSC), pages 290–294. IEEE.