大数据的一个重要方面 数据可用性
大数据的一个重要方面 数据可用性
大数据的一个重要方面 数据可用性
!!竺!呈!!!!竺竺竺旦!!!!墨!!!!!!!!里璺里!二!!竺旦竺!兰! !!!!!!!!!!二!!!!:!竺!!
大数据的一个重要方面:数据可用性
李建中 刘显敏
(哈尔滨工业大学计算机科学与技术学院 哈尔滨 150001)
(1ijzh@hit.edu.cn)
Abstract With the rapid development of information technology,especially the great progresses of
becomes ubiquitous.Big data brings not only great benefits but also crucial challenges.Improving the
data usability is one of the most significant challenges.Dirty data accompanies the tremendous
increase of data volume,degrades the data quality and data usability,and brings serious harm to the
information societies.Fortunately,there has been widespread concern about the data usability in both
industrial and academic communities,and the recent research efforts on data usability have yielded
some impressive results.However,there are only few works focusing on the usability of big data.In
this paper,the concepts of big data usability are introduced first,and then the challenges and research
problems of the big data usability are discussed.Finally,the works related to the data usability are
surveyed.
currency;entity identity
摘要随着信息技术的发展,特别是物理信息系统、互联网、云计算和社交网络等技术的突飞猛进,大
数据普遍存在,正在成为信息社会的重要财富,同时也带来了巨大的挑战.数据可用性问题就是大数据
的重要挑战之一.随着数据的爆炸性增长,劣质数据也随之而来,数据可用性受到严重影响,对信息社会
形成严重威胁,引起了学术界和工业界的共同关注.近年来,学术界和工业界开始研究数据可用性问题,
取得了一些的研究成果,但是针对大数据可用性问题的研究工作还很少.介绍了大数据可用性的基本概
念,讨论大数据可用性的挑战,探讨大数据可用性方面的研究问题,并综述数据可用性方面的研究成果.
关键词大数据;数据可用性;数据一致性;数据完整性;数据精确性;数据时效性;实体同一性
中图法分类号TP311.13
近年来,信息技术的快速发展,特别是信息获取 业、科教文化、医疗卫生等领域都积累了TB级、PB
技术、物理信息系统、互联网、物联网、社交网络等技 级乃至EB级的大数据,这些数据已经开始造福于
术的突飞猛进,引发了数据规模的爆炸式增长,大数 人类,成为信息社会的重要财富.例如,著名的全球
据已经普遍存在,能源、制造业、交通运输业、服务 连锁超市沃尔玛每小时需要处理100余万条的用户
收稿日期:2013 05—06
基金项目:国家“九七三”重点基础研究发展计划基金项目(2012cB316200);国家自然科学基金重点项目(61033015)
万方数据
计算机研究与发展2013,50(6)
随着大数据的爆炸性增长,劣质数据也随之而
来,导致数据质量低劣,极大地降低了数据的可用 1 大数据可用性的概念、挑战和研究问题
性.事实表明,大数据在可用性方面存在严重问题
(以下简称数据可用性问题).国外权威机构的统计 1.1大数据可用性的基本概念
表明,美国企业信息系统中1%~30%的数据存在 我们认为,一个正确的大数据集合至少应满足
各种错误和误差[1],美国医疗信息系统中13.6%~ 以下5个性质.
81%的关键数据不完整或陈旧[2].国际著名科技咨 1)一致性:数据集合中每个信息都不包含语
询机构Gartner的调查显示,全球财富1 000强企业 义错误或相互矛盾的数据.例如,数据(公司一“先
中超过25%的企业信息系统中的数据不正确或不 导”,国码一“86”,区号一“10”,城市=“上海”)含有
准确[3].随着大数据的不断增长,数据可用性问题将 一致性错误,因为10是北京区号而非上海区号.又
日趋严重,也必将导致源于数据的知识和决策的严 如,若银行信用卡数据库显示某持卡人在北京和新
重错误. 疆两地同时使用同一信用卡消费,则出现数据不一
数据可用性问题及其所导致的知识和决策错误 致,预示发生信用卡欺诈的可能.
已经在全球范围内造成了恶劣后果,严重困扰着信 2)精确性:数据集合中每个数据都能准确表述
万方数据
李建中等:大数据的一个重要方面:数据可用性
万方数据
计算机研究与发展2013,50(6)
的知识演变机理. 利用隐马尔可夫模型来判定数据源的复制关系,并
综上所述,大数据可用性在基础理论、算法和工 利用贝叶斯模型改善数据获取的过程,提高了结果
程技术各层面都提出了严峻的挑战性研究问题.目 数据的可用性.
前大数据可用性研究工作还刚刚开始,仅触及少数 文献[12]进一步考虑更复杂的数据复制关系,
几个侧面,大量科学技术问题有待解决,向我们提出 包括部分数据复制、多个数据源同步复制、多数据源
了新的挑战,也为我们提供了新的机遇. 传递复制,给出了判定复制关系、提高集成数据可用
性的算法.
2数据可用性的研究进展 文献[13]给出了一个判定数据复制关系的原型
演示系统.
国内外已经开展了一些数据可用性的研究工
文献F14]对上述工作进行了系统性综述.
作,但是大数据可用性研究还刚刚起步。下面,我们 2.1.2传感网数据的高质量获取与整合方法
分别从高质量大数据获取与整合、大数据可用性理
文献[15—161针对无线传感网能量受限的特点,
论体系、数据错误自动检测与修复、弱可用数据的近
探索了在保障数据精确性的前提下以最小能量开销
似计算、弱可用数据的知识挖掘等方面,介绍国内外
获取感知数据的问题,提出了从无线传感网获取数
研究进展情况和发展趋势.
据的(e,艿)一近似随机算法,确保获取数据的精度大
2.1 高质量大数据获取与整合
于e的概率小于艿.
大数据主要有3个来源:1)分布在Web上的丰
文献[17]研究了如何从传感网获取数据,使得
富数据库资源;2)物理信息系统,如智能电网、智慧
物理世界能够被准确近似,从而获取高精度数据,提
城市等;3)科学实验与观测数据(简称科学数据),如
高数据的可用性.该文献使用Hermit插值及三次
高能物理实验数据、生物数据、空间观测数据等.通
样条插值技术,提出了两个面向物理过程的高精度
常,物理信息系统数据和科学数据一般都通过由传
变频数据采集算法,算法能够在保证数据可用性的
感器或观测设备构成的传感网来获取.大数据获取
前提下最小化传输到网络中的数据量,实现对物理
和整合是指从Web数据源或传感网获取数据并将
世界的e-近似逼近,使得获取的数据所描述的物理
其加工整合为存储在计算系统中的数据集合.高质
世界与真实物理世界的误差小于£,其中e可以是任
量大数据获取与整合是指最大化数据可用性的大数
意小的正数.
据获取与整合过程.下面我们从Web数据的获取与
文献[18]针对地理位置相近传感器节点的数据
整合、传感网数据的获取与整合两个方面,介绍高质
量数据获取与整合的研究进展. 中存在冗余的问题,提出了位置信息敏感的数据获
Web上存在丰富的数据源.人们经常需要从多 数据,提高获取的数据在事件监测应用中的可用性,
个Web数据源获取数据,并将其整合为自己需要的 减低了误判的概率,并给出了能源有效的网内数据
数据集合,这个过程通常被称为Web数据集成.在 获取算法.
Web数据集成中,数据源的质量会极大地影响集成 2.1.3小结
数据的可用性.如何判定和选择高质量数据源,使其 高质量大数据获取与整合研究工作刚刚起步,
成为数据获取的源泉,是获得高质量集成数据的关 研究结果还不多见,缺乏全面系统的研究,很多问题
键问题. 还没有解决,大量的新问题有待发现,这方面的研究
文献[10J发现数据源之间的数据复制关系能够 任重道远.
帮助系统更好地选取高质量的数据源、改善集成数 2.2大数据可用性理论体系
据的可用性.针对静态数据,文献[10]提出了基于贝 本节从一致性、完整性、精确性、时效性、实体同
叶斯分析的方法,判定数据源之间的复制关系,并基 一性以及这5个可用性维度交互作用等6个方面综
于复制关系提出了高质量数据获取与整合的方法, 述大数据可用性理论体系的研究进展.
提高了获取与整合后的数据的可用性。 2.2.1数据一致性的理论体系
文献[11]针对动态数据,提出利用数据源中数 有关数据一致性理论体系的研究结果可以分为
据更新历史来判定数据源之间的复制关系的方法, 两类:基于语义规则的数据一致性理论体系、基于统
万方数据
李建中等:大数据的一个重要方面:数据可用性
计学的数据一致性描述方法. table)的不完整数据表述系统[3卜”].条件表是传统
1)基于语义规则的数据一致性理论体系 关系表的扩展,允许属性值中出现变量和逻辑表达
在经典的关系数据系统中,函数依赖和包含依 式.变量表示缺失值.逻辑表达式表示缺失值之间的
赖可以用来描述数据的一致性,给出了一种数据一 逻辑关系.条件表既可以表示不完整数据,也支持不
致性的理论体系.但是,这种理论体系的能力极其受 完整数据上的查询处理.
限,很多数据一致性约束无法表达,很多数据一致性 为表述缺失信息,文献[33]提出了另一种关系
错误不能被发现.针对函数依赖和包含依赖的局限 数据库的扩展模型,给出了封闭世界假设和开放世
性,文献[19—20]对其进行了扩展,提出条件函数依 界假设的概念,并在这两种假设下研究了如下判定
赖和条件包含依赖的语义规则,用来描述复杂数据 问题的计算复杂性:一个不完整数据库能否转换为
一致性约束,发现和修复复杂的数据一致性错误.文 满足一致性约束的完整数据库.
献[20—22]进一步研究了条件函数依赖的推理问题、 文献[34]提出了“open null”的概念,提出了在
可满足问题、覆盖问题、检测问题、传递问题的计算 封闭式假设下数据库中缺失属性值的表示方法.
复杂度及其求解算法.文献[20]研究了条件包含依 传统的数据完整性研究工作一般都建立在封闭
赖的推理问题和可满足问题的计算复杂度及其求解 世界假设开放世界假设的基础上.封闭世界假设表
算法.文献[23]给出了条件函数依赖和条件包含依 示数据库包含了所有表述现实世界实体的元组,这
赖的详细综述. 些元组的某些属性值可能遗缺.开放世界假设表示
文献[21]针对条件函数依赖无法描述“并”语义 数据库中不仅属性值可能遗失,表示现实世界实体
的问题,提出了扩展的条件函数依赖,并证明了扩展 的元组也可能完全遗缺.然而,表示现实世界的数据
的条件函数依赖的推理和可满足等问题与条件函数 库经常既不是完全封闭的,也不是完全开放的.基于
依赖的对应问题具有相同的计算复杂度. 这个考虑,文献[35]针对元组遗失问题,提出了相对
文献E24]在有时间戳的数据上提出了序列依赖 完整性理论来表述数据库相对于给定的主数据和查
语义规则,用来描述随时间变化数据的一致性约束, 询的完整性,研究了如下问题的计算复杂性:1)给
试图解决随时间变化数据的一致性错误的发现和修 定主数据和查询,判定一个数据库是否是完全的;
复问题. 2)给定主数据和查询,判定是否存在一个数据库相
文献[25]针对异构数据源中由数据格式不一致 对给定的主数据和查询是完整的.文献[36]扩展了
引发的一致性错误,利用描述属性值相似性测度扩 文献[35]的研究结果,使之也适用于元组的属性遗
充了函数依赖,用来描述异构数据的一致性约束,发 失问题.
现和修复异构数据的一致性错误. 文献[37—38]将传统的完整性理论扩展到XML
文献[26]研究了如何从数据中有效地发现条件 数据上,研究了如何表示不完整XML数据的问题.
函数依赖规则的问题,提出了一种具有剪枝能力搜 2.2。3数据精确性的理论体系
索算法,有效地发现条件函数依赖.针对同样的问 数据精确性方面的研究工作目前还非常少见,
题,文献[27]提出了另外4种算法,更有效地解决了 只有文献[39]把不确定性视为精确度低的现象,提
条件函数依赖发现问题. 出了一种基于可能世界语义的数据精确性描述方
2)基于统计学的数据一致性描述方法 法,并给出了对应的精确性评估算法.
文献[28]利用统计模型来描述数据的一致性, 2.2.4数据时效性的理论体系
并通过求解和比较模型参数的方法来发现和修复数 数据时效性和时态数据库的研究是不同的.时
据不一致性错误. 态数据库主要研究如何查询带有时间戳的信息和如
文献[29]提出了基于统计知识的数据不一致性 何描述时间约束[4”41I.在实际应用领域,时间戳信息
描述方法,并给出了基于超团的数据一致性提升算法. 经常未知或不完全[4 2’4“.于是,数据时效性研究的目
2.2.2数据完整性的理论体系 的是在时间戳信息不存在或不完全的条件下,建立
传统的完整性研究可以追溯到20世纪80年代 数据时效的理论体系,解决数据时效性的判定问题、
开始的对数据库中“null”语义的扩展讨论.早期研 数据时效性错误的自动发现和修复问题.
究大多关注于如何在数据库中表述缺失数据[3…. 文献[44]提出了一个数据时效性模型,用基于
最经典的工作当属基于条件表(conditional 规则的方法描述同一实体对应的不同元组的属性值
万方数据
计算机研究与发展2013,50(6)
的时序关系,提出基于实体的最新值的查询语义,并 学习方法来研究获取实体同一性描述规则的方法.
给出了应用时序关系和拷贝关系推导实体最新信息 文献[623介绍了一个基于规则的系统,解决了
的推理机制.基于这个模型和时效性查询语义,文献 半结构化数据上的实体同一性的判定问题.
[443给出了回答用户查询的计算复杂性,并研究了 文献E63]定义了图数据的实体同一性问题,并
在实体最新值缺失的情况下如何扩展拷贝关系以找 基于合并节点、增删边、标记节点等操作,提出了描
到实体的最新值. 述实体同一性的方法.
2.2.5数据实体同一性的理论体系 文献[64—673在数据上提出了一系列新的图模
实体同一性是数据可用性方面研究最多的一个 式的定义、标准和匹配算法,新的图模式描述方法可
维度.最早的工作来自于文献[453.文献[463从统计 以用来描述图结构数据上的实体同一性.
学角度,形式化地定义了实体同一性错误检测的问 2)基于相似性测度的实体同一性描述方法
题.文献[47—483在数据库领域较早地提出了识别实 设E是实体集合,E中两个实体的相似性测度
体同一性错误的问题.文献[49—51]等给出了实体同 是一个函数S:E×E一[o,1].对于V z,Y∈E,
一性研究的综述.以下,我们依据描述实体同一性的
5(z,y)越大,z和Y就越可能是相同实体.一般来
不同方法来介绍实体同一性的研究进展. 说,相似性函数的输出值高于某个阈值时,则判定两
1)基于语义规则的实体同一性描述方法
个实体相同.
这类方法的大致思想是利用经验知识来给出解
文献[68—693是较早地提出利用字符串属性值
决实体同一性问题的准则.
上定义的距离测度来描述实体同一性的工作.
文献[523提出了一个简单的方法,即通过比较
文献[70l利用信息检索领域中的tf.idf相似性
表示实体的不同关系元组的主键来确定这些元组是
度量方法扩展了基于字符串的相似性测度,提出了
否指代同一实体.当元组主键缺失时,利用函数依赖
描述实体同一性的另一种方法.
补齐元组中缺失的主键值.
为了更有效地计算实体间的相似性,文献E71]
文献[47—483提出了基于等值理论的规则来推
研究了实体间相似性判定的问题,基于如下思想:如
导元组中属性值之间的等价关系,用一组关系属性
果A和B都经常与其他同一组元素一起出现,则A
来描述实体同一性,通过比较多个关系元组中某些
与B的相似性较高,提出一种新的描述实体同一性
属性的值是否同时等价来判定这些元组是否指代同
的相似性测度的定义.
一实体.
文献[723利用聚簇的思想,提出了一种新的描
文献[53—54]给出了一个基于字符串转换规则
述实体同一性的方法.
的框架,利用字符串之间的转换关系描述属性值之
文献[73]基于合并“ranked list”方法,提出了
间的等价关系,进而描述实体同一性.文献[55]研究
一种综合考虑多个属性的相似性测度的实体同一性
了如何从例子中学习字符串转换规则,从而得到描
度量方法.
述实体同一性的规则.文献[563在此框架下,进一步
考虑元组之间的关系,提出了一个基于逻辑编程的 文献E743基于机器学习方法,提出了结合多个
方法来描述实体同一性. 属性相似性测度描述实体同一性的方法.
文献[573提出用否定规则描述实体同一性,并 文献[753利用基于马尔科夫链的方法,提出描
针对否定规则对实体同一性的影响进行了研究. 述实体同一性的相似性测度.
文献[583提出了用聚集约束来描述实体同一性 文献[76—773基于滑动窗口和“gram”概念,描述
的方法. XML节点之间的相似性.我们可以用这样的相似性
文献[59]首次形式化地提出了实体同一性描述 测度来描述XML数据上的实体同一性.
规则,系统地研究了给出的规则的推理问题,使得用 文献[783研究了从文本数据中抽取实体的问
来描述实体同一性的规则不再是松散的集合,而是 题,利用编辑距离来描述实体同一性.
可以相互配合相互推理,提高了此类方法描述实体 文献E79]考虑RFID数据中的实体同一性问题,
同一性的能力.文献[60]进一步在动态语义下研究 提出了描述RFID数据实体同一性的RPCV方法.
实体同一性规则的相互作用及推理问题. 2.2.6不同可用性维度的相互作用
文献E61]结合期望最大化(EM)算法和无监督 目前的研究把数据的一致性、精确性、完整性、
万方数据
李建中等:大数据的一个重要方面:数据可用性
时效性、实体同一性分离,把每个特性视为一个独立 2.3.1一致性错误的自动检测
领域,进行孤立的研究.然而,这些特性交互影响,任 基于函数依赖和条件函数依赖,文献E82~83]针
何可用性管理系统必须具有同时确保数据一致性、 对集中存储的关系数据库,使用SQL语言设计了自
精确性、完整性、时效性、实体同一性的能力.我们需 动检测算法,用于查找违反条件函数约束和条件包
要提出一个统一的逻辑框架来解决这个问题.但目 含约束的元组.文献E84]研究了在分布式环境下检
前还未有深入的研究结果,文献Eso]从管理学角度 测数据一致性错误的问题,目标是最小化数据通信
对各个特性出现的实例作了基本的介绍,但没有开 量.文献E85]给出了一种增量式的分布式数据库中
展深入的研究,文献[81]探讨了数据修复和元组匹 数据一致性错误的检测方法.
配的交互影响,基于条件函数约束和匹配约束,提出 2.3.2实体同一性错误的自动检测
了一个同时支持数据修复和实体识别的信息清洗框 实体同一性错误是指在数据库中存在描述同一
架.在这方面有很多重要的研究问题还未被考虑,有 个现实世界实体的行个(以>1)数据元组.于是,实体
大量的挑战性问题有待解决. 同一性错误检测的关键是识别数据库中相似实体,
2.2.7小结 简称实体识别.实体识别方面的研究工作很多,趋
数据一致性方面的研究工作主要关注集中方式 于成熟.以下,我们分4个方面介绍实体识别的研究
存储的关系数据,分布式存储的关系数据和非关系 进展.
数据的一致性理论工作还很少,适用于大数据的数 1)以最大化识别精度为目标的实体识别方法
据一致性相关技术还需要进一步探索. 最大化实体识别精度是实体识别研究的主要目
数据完整性方面的研究工作很少.针对传统的 标之一,围绕这个目标人们开展了大量研究。
完整性假设有了一些模型和相关问题的理论结果, 文献E86]利用字符串等价关系词典的精确信
但是这些结果对于很多实际应用无意义.为此,人们 息,计算实体之间的相似性,提高了实体识别的精
开始研究具有普遍实际应用价值的完整性理论和方 度.
法,但是目前只有相对完整性方面的初步结果.我们 文献[873提出了描述实体之间关系的统计模
还需要建立更一般形式的完整性理论,开展更深入 型,提高了实体识别的精度,并给出了高精度的实体
的研究. 识别算法.
数据精确性方面的研究工作基本上是空白,亟 在基于统计学的实体识别方法中,参数设置错
需深人研究. 误和训练数据缺失会导致检测结果的不准确.针对
数据时效性方面的研究工作非常少,只有针对 这类问题,文献E88]提出了一种两阶段的统计学方
特殊应用的少量研究结果,亟需深入系统地研究. 法,完成实体识别,提高了实体识别的精度.
实体同一性方面的研究工作主要针对关系数 文献[89—90]提出了利用机器学习方法提高实
据.关系数据上实体同一性研究已基本趋向成熟,但 体同一性检测精度的方法.
是复杂结构数据、半结构化数据、非结构化数据等非 文献E91]提出了Collective Entity Matching的
关系数据上的实体同一性方面的研究还很少见,尚 模型.该模型不仅利用元组之间的相似信息和元组
需深人研究. 同现的频度信息,还充分考虑了元组检测结果之间
总之,目前大数据的可用性方面的研究工作尚 的影响,利用检测的中间结果进行综合推理,提高了
处于起步阶段.目前的工作主要针对一致性和实体 实体识别的精度.
同一性开展了较为深入的研究,各个特性之间彼此 2)以最大化识别效率为目标的实体识别方法
的关系还没有较为深入地探讨.非关系数据以及分 降低实体识别算法的时间复杂性是实体识别研
布式存储数据的可用性研究工作还很少. 究的另一个主要目标.虽然人们在这方面作出了巨
2.3数据错误自动检测与修复 大努力,但是现有的实体识别算法的最坏情况的时
数据错误的自动检测研究主要集中在一致性错 间复杂度皆为n(押2).
误和实体同一性错误两个方面.数据错误自动修复 为了改进实体识别的效率,文献E48]较早地提
研究则主要集中在一致性错误、完整性错误和实体 出了数据分块处理的思想.在文献[48]的方法中,首
同一性错误3个方面.下面,我们分5个方面来综述 先,元组被按照不同的属性值单独排序,然后,利用固
数据错误自动检测与修复的研究进展. 定长度的窗口顺序扫描每一个元组序列,并在窗口
万方数据
计算机研究与发展2013,50(6)
内部对实体进行匹配操作,最后将多个属性上的匹 的实体识别效率.
配结果合并得到最后的实体识别结果.假设窗13大 文献E99]针对实际应用中用户所需数据仅占全
小为L,元组数目为以,该方法能够将实体识别的代 部数据很小比例的情况,解决了在返回查询结果的
价从0(咒2)降至O(L×以),在实际应用中会大大提 同时给出实体识别结果的问题.该方法利用“边查询
高实体识别的效率.然而,在保证实体识别精度的情 边识别实体”的思想,仅在与查询结果涉及的实体相
况下,L的最坏情况是咒,因此算法的最坏时间代价 关的元组上运行识别算法,在较小地降低查询执行
仍然是0(行2). 效率的前提下提高了实体识别方法的效率.
聚簇是实体识别的常用方法,然而聚簇算法的 文献[100]针对实体识别结果相互影响的问题,
代价通常都比较高,并且随输入大小的增加,聚簇算 基于实体识别规则的动态语义,考虑识别规则之间
法的代价增长非常快.文献[92]利用数据分块处理 的关系,提出了一种增量式的实体识别方法,提高了
的思想,将元组分块按照某些属性值的不同分为独 识别效率.
立的块,然后在每个块内单独运行聚簇算法,最后把 大多数应用都假设属性值是字符串,因此,提高
块上的聚簇结果合并得到实体识别的结果.文献 基于字符串的相似性匹配的效率是提高实体识别效
[92]中的方法降低了每次调用的聚簇算法的时间代 率的重要方法.文献[101]较早地提出了基于字符串
价,整体上提高了基于聚簇方法的实体识别算法的 相似性的实体识别中的优化问题,并给出了初步的
效率. 优化算法.文献[10Z]对关系数据上基于字符串相似
文献[93]针对数据规模比较大的情况,提出了 性匹配的实体识别问题作进一步的抽象,提出了“相
基于Hash函数将数据分块的方法,并给出了对应 似连接”和“相似查询”操作,并将其作为数据库的一
的实体识别算法,改进了实体识别过程的效率. 个基本操作来研究.文献[103]提出了利用倒排索引
文献[94]对两种实际中经常用到的数据分块方 加速相似查询的方法,并且针对索引占用空间大的问
法进行了形式化地描述并进行了分析对比.其中,一 题,给出了缩减索引空间代价的方法,提高了实体识
种是利用简单的策略(例如随即选取的Hash函数) 别的效率.文献[104]针对相似连接问题,将字符串
将数据划分,另一种是利用某些语义信息(例如基于 的相似性计算转化为集合的相似连接问题,并提出
属性值的描述性规则)将数据划分块.在对比中,从 了集合的相似连接操作的算法,给出了基于字符串前
实体识别的时间效率角度来看,第2种方法具有明 缀、后缀的过滤方法,提高了基于相似连接的实体识
显的优势.然而,实际应用中要找到具有适合语义信 别方法的效率.文献[105]针对变长字符串,提出了
息的规则是非常困难的,有时甚至是不存在的. 基于变长字符串搜索的方法解决长字符的相似查询
文献[95]提出了一种基于机器学习的数据分块 问题,提高了属性值为长字符串情况下的实体识别问
策略来改进实体识别的效率. 题.文献[106—108]研究了基于n—gram的近似字符
通常,实际中采用的数据分块方法并不能保证 串匹配问题,其基本思想是在字符串上建立咒一gram
块间数据的独立性.在这种情况下,分块方法在提高 索引,将字符串之间的距离转化为对应咒一gram交集
实体识别效率的同时,也降低了实体识别的精度.为 的数量,然后基于行一gram的集合语义给出高效的相
了解决这个问题,文献[96]基于增量计算的思想,提 似连接算法,从而改进了实体识别的效率.
出了迭代地实体识别方法.在每次迭代中,首先把上 文献[109]研究了高维数据上实体识别问题,利
一次迭代计算得到的每个分块的实体识别结果传输 用近似地计算高维数据相似性的思想,提出了LSS
到其他块内,然后每个分块根据收到的更新结果增 算法,并利用GPU的特性给出了对应的高效实现
量式地计算各自块内的实体识别结果,这样的迭代 方法.
计算一直进行直到结果不在改变或迭代次数达到给 文献[110一111]针对半结构化数据的实体识别
定阈值.该方法在保证实体识别效率的前提下改进 问题,基于同时匹配属性值和结构信息的思想,提出
了实体识别的结果精度. 了一个基于树结构匹配的高效的实体识别算法.
文献[97]比较全面地综述了实体识别方法中的 3)实体识别系统的实现方法
各种数据分块策略. 现有的研究工作已经提出了很多实体识别方
文献[98]针对大数据的情况,基于数据分块计 法,差别很大,要想在一个系统里同时运用这些方法
算的思想,利用云计算的环境来加速大规模数据上 很难.文献[112]针对这个问题,提出了一个解决实
万方数据
李建中等:大数据的一个重要方面:数据可用性
体识别问题的通用系统框架,支持插入不同的构建 性值来修复数据不一致错误的方法.该文给出了修
来定制实体识别方法,可以灵活地实现多个实体识 复操作的代价模型,并给出了在这个模型下代价优
别方法的整合. 化的数据一致性错误修复算法.
大多数已有的实体识别研究都是针对实体识别 文献[124]针对由条件函数依赖所发现的数据
操作内部来进行优化,文献E1133对实体识别问题进 一致性错误,证明了数据一致性错误的修复问题以
行了形式化的描述,把“比较”和“合并”等操作抽象 及数据一致性错误增量式修复问题都是NP完全问
出来作为黑盒处理,给出了优化方法提高整个实体 题,并设计了启发式近似算法自动修复数据的不一
识别过程的效率. 致错误.
文献[1143把实体识别涉及的操作看作黑盒,把 在某些情况下,用户能够给出一些修复后数据
实体识别过程抽象为代数操作序列,解决了在操作 的正确性描述(基于用户定义的强制性约束).如果
执行顺序上的优化问题.该工作提出了一种基于用 一个可能修复不满足这个描述,它就是不合理的.文
户示例驱动的方法,根据用户输入的实体识别过程 献[125]针对这个问题,定义了一个由所有合理修复
示例,自动地生成与用户示例语义一致的最优实体 构成的空间,并且给出了修复算法.
识别操作序列,提高了整个实体识别系统的效率. 文献1-1263针对两个元组的修复不独立的情况,
不同的实体识别方法是往往针对不同的应用, 给出了修复数据不一致错误的算法.
文献[115]提出通过集成多个实体识别方法来提高 2)基于统计学的方法
实体识别精度的思想,提出了基于语义信息的多实 文献E127]提出了一种基于概率的数据一致性
体识别方法集成的机制,提高了整个实体识别方法 错误修复方法.该方法首先假定存在一个满足一致
的精度. 性约束的合理修复的空间,然后依据合理修复的概
4)实体识别方法的测评 率分布进行抽样,最后使用抽取出来的合理修复完
虽然实体识别的方法有很多,但很难对其进行 成数据的修复.
综合、公平的比较.原因是没有公认的评测集,没有 文献Ea2s一130]分别以RFID和传感器网络为
公认的比较测度.这方面仅有一些初步的工作. 背景,针对利用统计学定义的数据一致性错误,提出
文献E116]对比了各种基于字符串匹配的实体 了修复数据一致性错误的方法.
识别的相似性度量. 2.3.4实体同一性错误的自动修复
文献[117—118]提出了建立实体识别评测集的 修复数据的实体同一性错误就是要把描述同一
问题,并给出了实现评测集的指导思想,但并没有给 个现实世界实体的多个元组合并为一个单独的元
出具体的实现. 组,从而为用户提供实体同一的信息.
文献[119—120J在真实数据上对比了各种实体 文献1-131]利用数据融合技术,解决了实体同一
识别方法的效率.文献[121]较少了比较11种不同 性错误的修复问题.
实体识别方法的逻辑框架. 数据的一次性修复会引起不可逆转的错误(即
文献E1223在实体识别结果和正确结果都给定 失去的数据无法恢复).文献E1323针对这个问题,提
的情况下,针对评价实体识别结果优劣的问题,提出 出利用一系列修复取代一次性修复的思想,给出了
了一个基于“合并”和“分裂”操作的实体识别结果评 利用参数控制的实体同一性错误修复方法,通过一
价测度,并给出了理论性分析. 系列不同参数的修复,获得不同修复结果,最后把这
2.3.3一致性错误的自动修复 些结果综合为最终的修复结果,避免了修复引起的
下面我们从两个方面综述目前已经提出的数据 错误.
一致性错误自动修复的方法. 文献[133-]提出了基于概率方法对查询结果中
1)基于语义规则的方法 的实体同一性错误进行修复的方法,该方法通过改
文献1-40J针对传统的函数依赖所发现的数据不 写查询,将概率信息的计算加入到查询执行中,使得
一致错误,给出了基于删除元组的修复数据不一致 查询结果中的实体一致性错误得到修复.
错误的方法. 文献[-134-1介绍了一个实体同一性错误修复系统.
文献E1233针对传统的函数依赖和包含依赖规 文献1-135—136]提出了一种基于传统的聚簇方
所发现的数据不一致错误,提出了通过修改元组属 法的实体同一性错误修复方法,并给出了基于统计
万方数据
计算机研究与发展2013,50(6)
信息的算法优劣衡量标准.在基于聚簇方法修复实 处于萌芽阶段,仅针对一些特定的问题提出了相应
体同一性错误的过程中,簇之间的阈值设置是一个 的技术,针对大数据及更多可用性问题的深入研究
关键问题,文献E721考虑到不同元组应设置不同阈 还有待开展.
值,提出了一种基于变化阈值的聚簇方法来提高实 2.5弱可用数据上的的知识挖掘
体同一性错误修复的精度. 在弱可用数据上的知识挖掘方面的工作还很少
大多数实体同一性错误修复的研究工作都假设 见.但是近年来出现了针对不确定性数据的知识挖
实体的每个属性只有一个值.文献[137]研究了作这 掘研究.
个假设不成立时的实体同一性错误修复问题,把实 针对聚类问题,文献E1451提出了把不确定数据
体同一性错误的修复问题抽象成一个K部图上的 的K—means和K—median计算转换为确定数据的加
聚簇问题,并提出了基于爬山和贪心的两种启发式 权计算的方法.文献E146]贝0提出了不确定数据上的
实体同一性错误修复方法。 聚类算法FDBSCAN.
2.3.5实体完整性错误的自动修复 针对频繁项集挖掘问题,文献[147—148]提出了
数据完整性的修复工作比较少,只有文献[1381 不确定数据频繁模式挖掘方法.
针对两种特殊类型的应用(年龄推断和感知数据的 针对图数据的不精确或者不完整,文献[1491给
补齐),提出了一种基于概率模型解决缺失数据值估 出了一个“劣质”图数据的模型,定义了基于期望的
计方法. 图挖掘问题,证明了该问题是NP难的,并且给出了
2.3.6小结 有效的近似算法求解该问题.文献[150—1511考虑了
在数据错误的自动检测方面,现有的工作主要 基于概率的不确定图语义,重新定义了频繁子图挖
针对一致性和实体同一性展开研究,其他可用性维 掘问题,并证明了这个问题的#P一完全性,提出了求
度上的错误自动检测方法有待研究,缺乏针对各个 解该问题的随机算法.文献[1523提出劣质图数据
可用性维度的适应于大数据的实用技术,缺乏对数 上的top—k最大团挖掘算法.文献[153]研究了劣质
据库整体可用性评估度量的理论及方法;在数据错 图数据上考虑可靠的聚簇问题.文献E154]研究了劣
误自动修复方面,已有的工作主要是针对一致性和 质图数据上带约束条件的可达性查询问题.
实体同一性错误的修复,其他维度上面的修复技术 在知识演化问题上,文献[1553提出一种在数据
基本没有,并且缺乏适用于大数据的自动修复技术, 社区中建立知识演化系统的方法.文献E156]提出了
缺乏对修复后数据的可用性的判别理论及方法. 基于社区用户协同的知识演化方法.文献E1573提出
2.4弱可用数据的近似计算 了基于遗传算法的弱可用数据上的知识演化方法.
弱可用数据是指包含错误的数据.弱可用数据 文献[1581提出了从弱可用数据中挖掘规则的方法.
近似计算方面的研究工作在多个数据可用性维度上 文献[159]针对不确定的类别数据,提出了直接在弱
都有初步的探讨,但缺乏深入系统的研究.下面,我 可用数据上挖掘频繁模式的算法。
们根据可用性维度分类探讨这些工作. 小结:大数据上的知识发现和知识演化的研究
在数据不一致的情况下,文献[139—1401提出了 主要关心数据的不确定问题,很少关心可用性问题,
简单不一致数据上的查询处理方法,即利用约束条 尤其缺乏弱可用数据上的知识发现和知识演化的研
件形成的子查询,改写原始查询,使改写后的查询能 究.在以可用性为基础的知识发现和知识演化研究
够适应数据的不一致性错误,在不一致的数据上求 方面,几乎所有问题都尚待解决.
解查询结果.
在数据不完整的情况下,文献D41—142]研究了 3 结 论
如何从不完整的数据库中找到“完整”的用户查询结
果的问题.文献[143]提出了在不完整数据上进行 大数据可用性的研究工作刚刚启动,处于起步
Skyline查询的算法. 阶段.现有的研究工作主要局限在集中式存储的关系
在数据的实体同一性错误存在的情况下,文献 数据的一致性和实体同一性这两个方面,少数工作
[144]针对联机分析处理操作,提出了直接在劣质数 涉及到关系数据的时效性和完整性,数据的精确性
据上执行联机分析处理的方法. 还无人问津,弱可用数据上的近似计算和知识挖掘
小结:弱可用数据上的近似计算理论及技术还 还很少见,现有的数据错误检测与修复算法不适于
万方数据
李建中等:大数据的一个重要方面:数据可用性 1157
可用性研究,提出大数据可用性的完整理论体系、高 2009,2(2):1654—1655
计算理论和算法以及弱可用大数据的知识挖掘理论 280
to
physical world by sensor networks[c]//Proc of IEEE
Information Management Journal,2007,41(3):6 with conditions[c]/Proc of the 33rd Int Conf on Very
E43 Kohn L T,Corrigan J M,Donaldson M S.To Err is Large Databases.San Francisco,CA:Morgan Kaufmann,
National Academies Press,2000 [21] Bravo L,Fan Wenfei,Geerts F,et a1.Increasing the
E53 Eckerson W.Data Warehousing Special Report:Data quality expressivity of conditional functional dependencies without
2002 NJ:IEEE,2008:516-525
[i1] Dung X L,Berti—Equille L,Srivastava D.Truth discovery [27] Fan Wenfei,Geerts F,Li Jianzhong,et a1.Discovering
[12] Dong X L,Berti—Equille L,Hu Yifan,et a1.Global detection [28] Korn F,Muthukrishnan S,Zhu Y.Checks and balances:
of complex copying relationships between sources EJ]. Monitoring data quality problems in network traffic databases
Proceedings of the VLDB Endowment,2010,3(112):1358一 [c]/Proc of the 29th Int Conf on Very Large Databases.
万方数据
1158 计算机研究与发展2013,50(6)
[293 Xiong Hui,Pandey G,Steinbach M,el a1.Enhancing data [46]Fellegi I P,Sunter A B. A theory for record linkage[J].
analysis with noise removal[J].IEEE Trans on Knowledge Journal of the American Statistical Association,1969。64
[303 van der Meyden R.Logical Approaches to Incomplete [47]Herndndez M A,Stolfo S J.The merge]purge problem for
356 24(2):127—138
[363 Fan Wenfei.Geerts F.Capturing missing tuples and missing [53] Arasu A,Chaudhuri S,Kaushik R.Transformation-based
values[c]//Proc of the 29th ACM sIGMODsIGAcT— framework for record matching[c]//Proc of IEEE ICDE’08.
[37] Abiteboul S,Segoufin L,Vianu V.Representing and representation framework for data cleaning[C]/]Proc of the
querying XML with incomplete information口].AcM Trans 2009 ACM SIGMOD Int Conf on Management of Data.New
[38] Barcel6 P,Libkin L,Poggi A,et a1.XML with incomplete [55]Arasu A,Chaudhuri S,Kaushik R.Learning string
Endowment,2009,2(1):407—418
(TODS),1997,22(2):171-214
2012,37(4):1—46 2011,20(4):495-520
[453 Newcombe H B,Kennedy J M,Axford S J,et a1.Automatic [613 Shen W,Li Xin,Doan A.Constraint—based entity matching
万方数据
李建中等:大数据的一个重要方面:数据可用性 1159
[62] Weis M,Naumann F.DogmatiX tracks down duplicates in [78]Wang Wei,Xiao Chuan,Lin Xuemin,et a1.Efficient
Management of Data.New York:ACM,2005:431—442 [c]f/Proc of the 35th SIGMOD Int Conf on Management of
homomorphism revisited for graph matching[J].Proceedings misplaced items in retail by clustering RFID data[c]//Proc
of the vLDB Endowment,2010,3(1/2):1161一1172 of the 13th Int Conf on
Extending Database Technology.
[65] Fan Wenfei,Li Jianzhong,Ma Shuai,et a1.Graph pattern
New York:ACM,2010:501-512
matching: from intractable to
polynomial time[J].
[80]Batini C,Scannapieca M.Data Quality[M].Berlin:
Proceedings of the VLDB Endowment,2010,3(1/2):264—
Springer,2006
275
[81]Fan Wenfei,Li Jianzhong,Ma Shuai,et a1.Interaction
[66] Fan Wenfei,Li Jianzhong,Luo Jizhou,et a1.Incremental
between record matching and data repairing[C]//Proc of the
graph pattern matching[C]/Proc of ACM SIGMOD.New
201 1 Int Conf on Management of Data.New York:ACM,
York:ACM。2011:925—936
2011:469—480
[67] Fan Wenfei,Li Jianzhong,Wang Xin。et a1.Query
[823 Chen W,Fan W,Ma S.Analyses and validation of
preserving graph compression[c]/Proc of the 2012 Int Conf
conditional dependencies with built—in predicates[c]//Proc
on Management of Data.New York:ACM,2012:157—168
of DEXA’09.Berlin:Springer,2009:576—591
[68] Monge A E,Elkan C.The field matching problem:
algorithm for detecting approximately duplicate database [84]Fan Wenfei,Geerts F,Ma Shuai,et a1.Detecting
records[c]/Proc of Research Issues on Data Mining and inconsistencies in distributed data[C]/[Proc of IEEE
[71] Ananthakrishna R,Chaudhuri S,Ganti V.Eliminating fuzzy to facilitate accurate approximate entity matching[J].
duplicates in data warehouses[c]/Proc of the 28th Int Conf
Proceedings of the VLDB Endowment,2009,2(1):395—406
on Very Large Databases.San Francisco,CA:Morgan [87]Shu Liangcai,Long 130,Meng Weiyi.A latent topic model
Kaufmann,2002:586—597 for complete entity resolution[c]/Proc of IEEE ICDE’09.
NJ:IEEE,2005:865-876
neighbor and support vector machine classification[c]/Proc
[73] Guha S,Koudas N,Marathe A,at a1.Merging the results of
of the 14th ACM SIGKDD Int Conf on Knowledge Discovery
approximate match operations[c]//Proc of the 30th Int Conf
and Data Mining.New York:ACM,2008:151—159
on Very Large Databases.San Francisco,CA:Morgan
[89]Dong X,Halevy A,Madhavan J.Reference reconciliation in
Kaufmann,2004:636-647
complex information spaces Ec]/Proc of the 2005 ACM
[74] Chen Z,Kalashnikov D V,Mehrotra S.Adaptive graphical
SIGMOD Int Conf on Management of Data.New York:
approach to entity resolution[c]/Proc of the 7th ACM/
ACM,2005:85—96
IEEE-CS Joint Conf on Digital Libraries.New York:ACM。
[90]Singla P,Domingos P.Collective object identification[c]//
2007:204—213
Proc of the 19th Int Joint Conf on Artificial Intelligence.San
[75] Singla P,Domingos P.Entity resolution with markov logic
Francisco,CA:Morgan Kaufmann,2005:1636—1637
[c]//Proc of IEEE ICDM’06.Piscataway,NJ:IEEE,2006:
572—582
[91]Rastogi V,Dalvi N,Garofalakis M.Large-scale collective
[77] Augsten N,B6hlen M,Gamper J.Approximate matching of high—dimensional data sets with application to reference
hierarchical data using Pq—grams[c]/Proc of the 31st Int matching[c]/Proc of the 6th ACM SIGKDD Int Conf on
Conf on Very Large Databases.San Francisco,CA:Morgan Knowledge Discovery and Data Mining.New York:ACM,
万方数据
1160 计算机研究与发展2013,50(6)
[93]Kim H,Lee D.HARRA:Fast iterative hashed record [107] Li Chen,Wang Bin,Yang Xiaochun.VGRAM:Improving
linkage for large-scale data collections[c]//Proc of the 13th performance of approximate queries on string collections
Int Conf on Extending Database Technology.New York: using variable-length grams[C]//Proc of the 33rd Int Conf
parallel entity matching[J].Proceedings of the VLDB [108] Li Chen.Lu Jiaheng,Lu Yiming.Efficient merging and
of IEEE 266
Learning to scale up record linkage[c]//Proc
[109] Lieberman M D,Sankaranarayanan J,Samet H. A fast
ICDM’06.Piscataway,NJ:IEEE,2006:87—96
llll一1120
SIGMOD Int Conf on Management of Data.New York:
[110] Flesca S,Manco G,Masciari E,et a1.Fast detection of
ACM,2009:219—232
XML structural similarity口].IEEE Trans on Knowledge
[97]Baxter R,Christen P,Churches T.A comparison of fast
CA:Morgan Kaufmann,2004:1078—1086
analysis for combining multiple entity resolution systems
of IEEE ICDE’09.Piscataway,NJ:IEEE,2009:604-615
the Web.2003:73-78
[1043 Xiao Chuan,Wang Wei。Lin Xuemin,et a1.Efficient M,Jurk S,Lenz H J,et a1.Object identification
[117] Neiling
based alignment in large sequence databases[J]. [118] Weis M,Naumann F,Brosy F.A duplicate detection
216 Information
Workshop on Quality for Information Systems
approximate queries efficiently[C]/Proc of the 2008 ACM resolution approaches on real—world match problems[J].
SIGMOD Int Conf on Management of Data.New York: Proceedings of the VLDB Endowment,2010,3(1/2):484-
ACM,2008:353-364 493
万方数据
李建中等:大数据的一个重要方面:数据可用性 1161
[1203 K0pcke H,Thor A,Rahm E.Comparative evaluation of [134]Thor A,Rahm E. MOMA—fl mapping-based object
entity resolution approaches with FEVER EJ].Proceedings matching system[C]//Proc of the 3rd Biennial Conf on
(2):197—210
evaluating clustering algorithms in duplicate detection[J].
[1223 Menestrina D,Whang S E,Garcia—Molina H.Evaluating
Proceedings of the VLDB Endowment,2009,2(1):1 282-
207
Database Theory.Berlin:Springer,2005:337-351
[126]Lian Xiang,Chen Lei,Song Shaoxu.Consistent query
[140]Fuxman A,Fuxman D,Miller R J.ConQuer:A system for
answers in inconsistent probabilistic databases[c]//Proc of
efficient querying over inconsistent databases[c]//Proc of
the 2010 Int Conf on Management of Data.New York:
the 31st Int Conf on Very Large Databases.San Francisco,
ACM,2010:303-314
CA:Morgan Kaufmann,2005:1354—1357
[127]Xie Junyi,Yang Jun,Chen Yuguo,et a1.A sampling-based
[141]Morro A.Integrity=validity+completeness[J].ACM
approach to information recovery[c]/Proc of IEEE
Trans on Database Systems(TODS),1989,14(4):480-
ICDE’08.Piscataway,NJ:IEEE,2008:476—485
502
[128]Jeffcry S R,Garofalakis M,Franklin M J.Adaptive
[142]Levy A.Obtaining complete answers from incomplete
cleaning for RFID data streams[c]/Proc of the 32nd Int
Conf
databases[c]//Proc of the 22nd Int Conf on Very Large
on Very Large Databases.San Francisco,CA:
Databases.San Francisco,CA:Morgan Kaufmann,1996:
Morgan Kaufmann,2006:163—174
402-4i2
[129]Chen Haiquan,Ku W S,Wang Haixun,et a1.Leveraging
[1 30]Zhuang Yongzhen,Chen Lei.In—network outlier cleaning [144]Sismanis Y,Wang L,Fuxman A,et a1.Resolution—aware
for data collection in sensor networks Ec]|/Proc of VLDB query answering for business intelligence[c]//Proc of
IEEE ICDE’09.Piscataway,NJ:IEEE,2009:976—987
Workshop on CleanDB.New York:VLDB Endowment,
[132]Beskales G,Soliman M A,Ilyas I F,et a1.Modeling and uncertain data[C]//Proc of the l l th ACM SIGKDD Int
querying possible repairs in duplicate detection[J]. Conf on Knowledge Discovery in Data Mining.New York:
dirty databases:A probabilistie approach[c]//Proe of ACM SIGKDD Int Conf on Knowledge Discovery and Data
万方数据
1162 计算机研究与发展2013,50(6)
E1483 Bernecker T,Kriegel H P,Renz M,et a1.Probabilistic [156] Gendarmi D, Abbattista F, Lanubile F. Fostering
frequent itemset mining in uncertain databases[c]//Proe of knowledge evolution through community—based participation
frequent subgraph patterns from uncertain graph data[J]. [157] Kuo C S,Hong T P,Chen C I..A knowledge—evolution
IEEE Trans on Knowledge and Data Engineering,2010,22 strategy based on genetic programming[c]/Proc of the
frequent subgraphs over uncertain graph databases under [1583 Qin Biao,Xia Yuni,Prabhakar S.Rule induction for
probabilistic semantics[c]/Proc of the 16th ACM uncertain data[J].Knowledge and Information Systems,
[1 5 1]Li J ianzhong,Zou Zhaonian,Gao Hong.Mining frequent discriminative patterns for classifying uncertain data[c]//
subgraphs over uncertain graph databases under Proc of the 16th ACM SIGKDD Int Conf on Knowledge
(6):753-777 870
万方数据