大数据的一个重要方面 数据可用性

Download as pdf or txt
Download as pdf or txt
You are on page 1of 16

计算机研究与发展 ISSN 1000—12391CN 11—17771TP

!!竺!呈!!!!竺竺竺旦!!!!墨!!!!!!!!里璺里!二!!竺旦竺!兰! !!!!!!!!!!二!!!!:!竺!!

大数据的一个重要方面:数据可用性

李建中 刘显敏
(哈尔滨工业大学计算机科学与技术学院 哈尔滨 150001)

(1ijzh@hit.edu.cn)

An Important Aspect of Big Data:Data Usability

Li Jianzhong and Liu Xianmin

(School of Computer Science and Technology,Harbin Institute of Technology,Harbin 1 5000 1)

Abstract With the rapid development of information technology,especially the great progresses of

Internet,cyber physical system,Internet of things,cloud computing and social network,big data

becomes ubiquitous.Big data brings not only great benefits but also crucial challenges.Improving the

data usability is one of the most significant challenges.Dirty data accompanies the tremendous

increase of data volume,degrades the data quality and data usability,and brings serious harm to the

information societies.Fortunately,there has been widespread concern about the data usability in both

industrial and academic communities,and the recent research efforts on data usability have yielded

some impressive results.However,there are only few works focusing on the usability of big data.In

this paper,the concepts of big data usability are introduced first,and then the challenges and research

problems of the big data usability are discussed.Finally,the works related to the data usability are

surveyed.

Kev words big data;data usability;data consistency;data completeness;data accuracy;data

currency;entity identity

摘要随着信息技术的发展,特别是物理信息系统、互联网、云计算和社交网络等技术的突飞猛进,大
数据普遍存在,正在成为信息社会的重要财富,同时也带来了巨大的挑战.数据可用性问题就是大数据
的重要挑战之一.随着数据的爆炸性增长,劣质数据也随之而来,数据可用性受到严重影响,对信息社会
形成严重威胁,引起了学术界和工业界的共同关注.近年来,学术界和工业界开始研究数据可用性问题,
取得了一些的研究成果,但是针对大数据可用性问题的研究工作还很少.介绍了大数据可用性的基本概
念,讨论大数据可用性的挑战,探讨大数据可用性方面的研究问题,并综述数据可用性方面的研究成果.

关键词大数据;数据可用性;数据一致性;数据完整性;数据精确性;数据时效性;实体同一性

中图法分类号TP311.13

近年来,信息技术的快速发展,特别是信息获取 业、科教文化、医疗卫生等领域都积累了TB级、PB
技术、物理信息系统、互联网、物联网、社交网络等技 级乃至EB级的大数据,这些数据已经开始造福于
术的突飞猛进,引发了数据规模的爆炸式增长,大数 人类,成为信息社会的重要财富.例如,著名的全球
据已经普遍存在,能源、制造业、交通运输业、服务 连锁超市沃尔玛每小时需要处理100余万条的用户

收稿日期:2013 05—06

基金项目:国家“九七三”重点基础研究发展计划基金项目(2012cB316200);国家自然科学基金重点项目(61033015)

万方数据
计算机研究与发展2013,50(6)

请求,维护着一个超过2.5 PB的数据库;在高能物 息社会.在美国,由于数据错误而引发的医疗事故,


理实验中,2008年开始投入使用的大型强子对撞机 每年导致约98000名患者死亡,约占全部医疗事故
每年产生超过25 PB的数据;社交网络Facebook现 致死人数的50%[41;由于数据错误和陈旧而引起的
已存储超过500亿张照片. 生产事故和决策失误,每年给美国工业企业造成约
大数据蕴含着巨大的价值,对社会、经济、科学 6 110亿美元的损失,约占美国GDP的6%[51;美国
研究等各个方面都具有重要的战略意义,为人们更 零售业每年因标价数据错误而导致25亿美元的损
深入地感知、认识和控制物理世界提供了前所未有 失¨1;在美国银行业,由于数据不一致问题而失察的
的丰富信息.例如,著名国际咨询机构Gartner在 信用卡欺诈在2006年就造成48亿美元的损失[7].
2012年预测全球大数据相关产业的规模将达到 据有关专家推算,在数据仓库项目的开发过程中,清
2 320亿美元;2010年时代杂志刊载的医学界年度 理不洁数据通常需要花费30%~80%的开发时间
十大突破中,医疗科技公司CardioDX通过对1亿 和开发预算[83;数据可用性问题平均给每个企业增
个基因样本的分析,最终识别出能够预测冠心病的 加的成本是该企业产值的10%~20%[9].此外,由
23个主要基因;2009年Google的研究人员通过对 于网络的普及,很多应用可以从不同的数据源抽取
每日超过30亿次搜索请求和网页数据的挖掘分析, 和集成信息,致使劣质信息产生和传播的风险达到
在H1N1流感爆发几周就预测出流感传播;通过对 了空前的水平.
微博等网络大数据的挖掘分析能够发现社会动态, 事实上,数据可用性问题是信息化社会中固有
预警重大和突发性事件. 的问题.它们不仅在西方发达国家存在,而是在任何
由于大数据的迅速涌现及其巨大价值,大数据 一个信息化社会都普遍存在.尽管我国尚未公布相
已经引起国内外学术界、工业界和政府部门的广泛 关统计信息,我们没有理由相信我国不存在类似的
关注.美国等世界发达国家都制定和启动了大数据 问题.例如,我们通过对某国有大型企业信息中心的
研究计划,投入大量资金支持大数据研究.我国对建 TB级数据的抽样检验,发现10%的信息存在各种
设大数据管理基础设施的需求已经提出了指导性的 类型的错误.
方针.《国家中长期科技发展规划纲要(2006— 综上所述,确保数据可用性是关系到大数据时
2020)》指出:“信息领域要重点研究开发……海量存 代的国计民生、社会和谐等方面的一项重大战略任
储和安全存储等关键技术99.《国民经济和社会发展 务,是圆满完成大数据管理基础设施建设、有效发挥
第十二个五年规划纲要》提出:“重点研究……海量 大数据作用的重要前提.因此,深入开展数据可用性
信息处理及知识挖掘的理论与方法……”. 基础理论和关键技术的研究具有重要战略意义.本
虽然目前大数据研究已经蓬勃兴起,但是工作 文介绍大数据可用性的基本概念,讨论大数据可用
主要集中在大数据的存储、管理、挖掘分析等方面, 性的挑战和研究问题,并综述数据可用性方面的研
数据可用性问题没有得到足够重视. 究成果.

随着大数据的爆炸性增长,劣质数据也随之而
来,导致数据质量低劣,极大地降低了数据的可用 1 大数据可用性的概念、挑战和研究问题
性.事实表明,大数据在可用性方面存在严重问题
(以下简称数据可用性问题).国外权威机构的统计 1.1大数据可用性的基本概念
表明,美国企业信息系统中1%~30%的数据存在 我们认为,一个正确的大数据集合至少应满足
各种错误和误差[1],美国医疗信息系统中13.6%~ 以下5个性质.
81%的关键数据不完整或陈旧[2].国际著名科技咨 1)一致性:数据集合中每个信息都不包含语
询机构Gartner的调查显示,全球财富1 000强企业 义错误或相互矛盾的数据.例如,数据(公司一“先
中超过25%的企业信息系统中的数据不正确或不 导”,国码一“86”,区号一“10”,城市=“上海”)含有
准确[3].随着大数据的不断增长,数据可用性问题将 一致性错误,因为10是北京区号而非上海区号.又
日趋严重,也必将导致源于数据的知识和决策的严 如,若银行信用卡数据库显示某持卡人在北京和新
重错误. 疆两地同时使用同一信用卡消费,则出现数据不一
数据可用性问题及其所导致的知识和决策错误 致,预示发生信用卡欺诈的可能.
已经在全球范围内造成了恶劣后果,严重困扰着信 2)精确性:数据集合中每个数据都能准确表述

万方数据
李建中等:大数据的一个重要方面:数据可用性

现实世界中的实体.例如。某城市人口数量为4 130465, 2)完整的大数据可用性理论体系


数据库中记载为400万,宏观来看该信息是合理的, 在数据可用性研究中,我们必须回答如下问题:
但不精确.一致的信息也可能含有误差,未必精确. 如何形式化地表示数据可用性?如何从理论上判定
在许多应用领域,信息精确性至关重要。 数据可用性?如何定量地评估数据可用性?数据错
3)完整性:数据集合中包含足够的数据来回答 误自动发现和修复的理论依据是什么?数据和数据
各种查询和支持各种计算.例如,某医疗数据库中的 质量融合管理(简称量质融合管理)的理论基础是什
数据一致且精确,但遗失某些患者的既往病史,从而 么?数据如何演化?没有一个完整的数据可用性理
存在不完整性,可能导致不正确的诊断甚至严重医 论体系,这些问题是无法回答的.因此,我们需要建
疗事故. 立统一的框架,提出完整的数据可用性理论体系,解
4)时效性:信息集合中每个信息都与时俱进, 决如下挑战性问题:建立大数据可用性的理论模型、
不陈旧过时.例如,某数据库中的用户地址在2010 大数据可用性的形式化系统和推理机制、大数据可
年是正确的,但在2011年未必正确,即数据过时.据 用性评估理论和算法、大数据量质融合管理的理论
统计,商业和医疗信息库中平均50%的用户信息在 和算法、大数据演化机理、大数据可用性所涉及的计
2年内可能过时,而过时信息将会导致严重后果. 算问题的复杂性理论和算法设计与分析的新方法.
5)实体同一性:同一实体在各种数据源中的描 3)数据错误自动检测与修复的理论和技术
述统一.例如,为防止信用卡欺诈,银行需监测信用 现有的数据可用性的方法和系统缺乏坚实的理
卡的使用者和持有者是否为同一人.又如,企业的市 论基础,不能实现自动的错误检测和修复.为了实现
场、销售和服务部门可能维护各自的数据库,如果这 数据错误的自动检测和修复,我们需要在数据可用
些数据库之间没有共享统一的客户标识,企业的兼 性理论体系基础上解决如下挑战性问题:提出大数
并和重组会使兼并后的公司的客户数据库中存在大 据错误自动检测和修复问题的可计算性理论、大数
量具有差异的重复客户信息,导致实体表达混乱. 据错误自动检测和修复问题的计算复杂性理论、大
根据以上5个性质,我们可以如下定义数据可 数据错误自动检测和修复方法的可信性理论、高效
用性:一个数据集合满足上述5个性质的程度是该 实用的大数据错误自动检测与修复算法.
数据集合的可用性. 4)弱可用数据上近似计算的理论和技术
1.2大数据可用性的挑战和研究问题 当数据中的错误不能彻底修复时,这些数据称
确保数据可用性是一项十分困难的任务.考虑 为弱可用数据.直接在弱可用数据上进行满足给定
到大数据的数据量大、数据产生速度快、数据类型复 精度需求的近似计算,不失为一个有意义的选择.遗
杂、价值大密度低等4个特点,确保大数据可用性将 憾的是现有的理论与算法无法支持弱可用数据上的
变得难上加难.我们需要针对大数据的4个特点,解 近似计算.因此,我们需要解决如下挑战性问题:提
决如下大数据可用性的5个挑战性研究问题. 出弱可用大数据近似计算的可行性理论、弱可用大
1)高质量大数据获取与整合的理论和技术 数据近似计算问题的计算复杂性理论、弱可用大数
高质量数据的获取是确保信息可用性的重要前 据上近似计算结果的质量评估理论、弱可用大数据
提.海量数据的来源多种多样(如复杂物理信息系 上的近似计算方法.
统、物联网、Internet上的数据资源),数据模态千差 5)弱可用数据上的知识发掘与演化的机理
万别(如关系数据、XML数据、图数据、流数据、标量 大数据的可用性问题必然导致源于数据的知识
数据、矢量数据),质量参差不齐,加工整合困难.这 的可用性问题.当数据完全可用时,从正确的大数据
些问题在当今突飞猛进的传感网、信息物理融合系 中发掘知识以及从数据演化探索知识演化机理的研
统和物联网及其产生的大数据背景下尤其严重.因 究已经很困难.当数据弱可用时,弱可用大数据上的
此,我们需要解决如下挑战性问题:在数据获取阶段 知识发掘与演化机理的研究将更加困难.我们需要
把住质量关,探索从物理信息系统等多数据源有效 解决如下挑战性问题:提出源于弱可用数据的知识可
地获取高质量大数据的理论和方法,研究高效数据 用性评估理论与方法、数据可用性与知识可用性的
过滤方法,建立多模态大数据融合计算的理论和算 相关性理论、弱可用大数据上知识发现的计算复杂
法,实现高质量数据获取和精准整合,继而发现数据 性理论和算法设计与分析新方法、源于弱可用数据
演变规律. 的知识校验与纠偏的理论和方法、源于弱可用数据

万方数据
计算机研究与发展2013,50(6)

的知识演变机理. 利用隐马尔可夫模型来判定数据源的复制关系,并
综上所述,大数据可用性在基础理论、算法和工 利用贝叶斯模型改善数据获取的过程,提高了结果
程技术各层面都提出了严峻的挑战性研究问题.目 数据的可用性.
前大数据可用性研究工作还刚刚开始,仅触及少数 文献[12]进一步考虑更复杂的数据复制关系,
几个侧面,大量科学技术问题有待解决,向我们提出 包括部分数据复制、多个数据源同步复制、多数据源
了新的挑战,也为我们提供了新的机遇. 传递复制,给出了判定复制关系、提高集成数据可用
性的算法.
2数据可用性的研究进展 文献[13]给出了一个判定数据复制关系的原型
演示系统.
国内外已经开展了一些数据可用性的研究工
文献F14]对上述工作进行了系统性综述.
作,但是大数据可用性研究还刚刚起步。下面,我们 2.1.2传感网数据的高质量获取与整合方法
分别从高质量大数据获取与整合、大数据可用性理
文献[15—161针对无线传感网能量受限的特点,
论体系、数据错误自动检测与修复、弱可用数据的近
探索了在保障数据精确性的前提下以最小能量开销
似计算、弱可用数据的知识挖掘等方面,介绍国内外
获取感知数据的问题,提出了从无线传感网获取数
研究进展情况和发展趋势.
据的(e,艿)一近似随机算法,确保获取数据的精度大
2.1 高质量大数据获取与整合
于e的概率小于艿.
大数据主要有3个来源:1)分布在Web上的丰
文献[17]研究了如何从传感网获取数据,使得
富数据库资源;2)物理信息系统,如智能电网、智慧
物理世界能够被准确近似,从而获取高精度数据,提
城市等;3)科学实验与观测数据(简称科学数据),如
高数据的可用性.该文献使用Hermit插值及三次
高能物理实验数据、生物数据、空间观测数据等.通
样条插值技术,提出了两个面向物理过程的高精度
常,物理信息系统数据和科学数据一般都通过由传
变频数据采集算法,算法能够在保证数据可用性的
感器或观测设备构成的传感网来获取.大数据获取
前提下最小化传输到网络中的数据量,实现对物理
和整合是指从Web数据源或传感网获取数据并将
世界的e-近似逼近,使得获取的数据所描述的物理
其加工整合为存储在计算系统中的数据集合.高质
世界与真实物理世界的误差小于£,其中e可以是任
量大数据获取与整合是指最大化数据可用性的大数
意小的正数.
据获取与整合过程.下面我们从Web数据的获取与
文献[18]针对地理位置相近传感器节点的数据
整合、传感网数据的获取与整合两个方面,介绍高质
量数据获取与整合的研究进展. 中存在冗余的问题,提出了位置信息敏感的数据获

2.1.1 Web数据的高质量获取与整合方法 取方法,利用数据源之间的地理关联特征,过滤冗余

Web上存在丰富的数据源.人们经常需要从多 数据,提高获取的数据在事件监测应用中的可用性,

个Web数据源获取数据,并将其整合为自己需要的 减低了误判的概率,并给出了能源有效的网内数据

数据集合,这个过程通常被称为Web数据集成.在 获取算法.

Web数据集成中,数据源的质量会极大地影响集成 2.1.3小结

数据的可用性.如何判定和选择高质量数据源,使其 高质量大数据获取与整合研究工作刚刚起步,

成为数据获取的源泉,是获得高质量集成数据的关 研究结果还不多见,缺乏全面系统的研究,很多问题
键问题. 还没有解决,大量的新问题有待发现,这方面的研究
文献[10J发现数据源之间的数据复制关系能够 任重道远.
帮助系统更好地选取高质量的数据源、改善集成数 2.2大数据可用性理论体系
据的可用性.针对静态数据,文献[10]提出了基于贝 本节从一致性、完整性、精确性、时效性、实体同
叶斯分析的方法,判定数据源之间的复制关系,并基 一性以及这5个可用性维度交互作用等6个方面综
于复制关系提出了高质量数据获取与整合的方法, 述大数据可用性理论体系的研究进展.
提高了获取与整合后的数据的可用性。 2.2.1数据一致性的理论体系
文献[11]针对动态数据,提出利用数据源中数 有关数据一致性理论体系的研究结果可以分为
据更新历史来判定数据源之间的复制关系的方法, 两类:基于语义规则的数据一致性理论体系、基于统

万方数据
李建中等:大数据的一个重要方面:数据可用性

计学的数据一致性描述方法. table)的不完整数据表述系统[3卜”].条件表是传统
1)基于语义规则的数据一致性理论体系 关系表的扩展,允许属性值中出现变量和逻辑表达
在经典的关系数据系统中,函数依赖和包含依 式.变量表示缺失值.逻辑表达式表示缺失值之间的
赖可以用来描述数据的一致性,给出了一种数据一 逻辑关系.条件表既可以表示不完整数据,也支持不
致性的理论体系.但是,这种理论体系的能力极其受 完整数据上的查询处理.
限,很多数据一致性约束无法表达,很多数据一致性 为表述缺失信息,文献[33]提出了另一种关系
错误不能被发现.针对函数依赖和包含依赖的局限 数据库的扩展模型,给出了封闭世界假设和开放世
性,文献[19—20]对其进行了扩展,提出条件函数依 界假设的概念,并在这两种假设下研究了如下判定
赖和条件包含依赖的语义规则,用来描述复杂数据 问题的计算复杂性:一个不完整数据库能否转换为
一致性约束,发现和修复复杂的数据一致性错误.文 满足一致性约束的完整数据库.
献[20—22]进一步研究了条件函数依赖的推理问题、 文献[34]提出了“open null”的概念,提出了在
可满足问题、覆盖问题、检测问题、传递问题的计算 封闭式假设下数据库中缺失属性值的表示方法.
复杂度及其求解算法.文献[20]研究了条件包含依 传统的数据完整性研究工作一般都建立在封闭
赖的推理问题和可满足问题的计算复杂度及其求解 世界假设开放世界假设的基础上.封闭世界假设表
算法.文献[23]给出了条件函数依赖和条件包含依 示数据库包含了所有表述现实世界实体的元组,这
赖的详细综述. 些元组的某些属性值可能遗缺.开放世界假设表示
文献[21]针对条件函数依赖无法描述“并”语义 数据库中不仅属性值可能遗失,表示现实世界实体
的问题,提出了扩展的条件函数依赖,并证明了扩展 的元组也可能完全遗缺.然而,表示现实世界的数据
的条件函数依赖的推理和可满足等问题与条件函数 库经常既不是完全封闭的,也不是完全开放的.基于
依赖的对应问题具有相同的计算复杂度. 这个考虑,文献[35]针对元组遗失问题,提出了相对
文献E24]在有时间戳的数据上提出了序列依赖 完整性理论来表述数据库相对于给定的主数据和查
语义规则,用来描述随时间变化数据的一致性约束, 询的完整性,研究了如下问题的计算复杂性:1)给
试图解决随时间变化数据的一致性错误的发现和修 定主数据和查询,判定一个数据库是否是完全的;
复问题. 2)给定主数据和查询,判定是否存在一个数据库相
文献[25]针对异构数据源中由数据格式不一致 对给定的主数据和查询是完整的.文献[36]扩展了
引发的一致性错误,利用描述属性值相似性测度扩 文献[35]的研究结果,使之也适用于元组的属性遗
充了函数依赖,用来描述异构数据的一致性约束,发 失问题.
现和修复异构数据的一致性错误. 文献[37—38]将传统的完整性理论扩展到XML
文献[26]研究了如何从数据中有效地发现条件 数据上,研究了如何表示不完整XML数据的问题.
函数依赖规则的问题,提出了一种具有剪枝能力搜 2.2。3数据精确性的理论体系
索算法,有效地发现条件函数依赖.针对同样的问 数据精确性方面的研究工作目前还非常少见,
题,文献[27]提出了另外4种算法,更有效地解决了 只有文献[39]把不确定性视为精确度低的现象,提
条件函数依赖发现问题. 出了一种基于可能世界语义的数据精确性描述方
2)基于统计学的数据一致性描述方法 法,并给出了对应的精确性评估算法.
文献[28]利用统计模型来描述数据的一致性, 2.2.4数据时效性的理论体系
并通过求解和比较模型参数的方法来发现和修复数 数据时效性和时态数据库的研究是不同的.时
据不一致性错误. 态数据库主要研究如何查询带有时间戳的信息和如
文献[29]提出了基于统计知识的数据不一致性 何描述时间约束[4”41I.在实际应用领域,时间戳信息
描述方法,并给出了基于超团的数据一致性提升算法. 经常未知或不完全[4 2’4“.于是,数据时效性研究的目
2.2.2数据完整性的理论体系 的是在时间戳信息不存在或不完全的条件下,建立
传统的完整性研究可以追溯到20世纪80年代 数据时效的理论体系,解决数据时效性的判定问题、
开始的对数据库中“null”语义的扩展讨论.早期研 数据时效性错误的自动发现和修复问题.
究大多关注于如何在数据库中表述缺失数据[3…. 文献[44]提出了一个数据时效性模型,用基于
最经典的工作当属基于条件表(conditional 规则的方法描述同一实体对应的不同元组的属性值

万方数据
计算机研究与发展2013,50(6)

的时序关系,提出基于实体的最新值的查询语义,并 学习方法来研究获取实体同一性描述规则的方法.
给出了应用时序关系和拷贝关系推导实体最新信息 文献[623介绍了一个基于规则的系统,解决了
的推理机制.基于这个模型和时效性查询语义,文献 半结构化数据上的实体同一性的判定问题.
[443给出了回答用户查询的计算复杂性,并研究了 文献E63]定义了图数据的实体同一性问题,并
在实体最新值缺失的情况下如何扩展拷贝关系以找 基于合并节点、增删边、标记节点等操作,提出了描
到实体的最新值. 述实体同一性的方法.
2.2.5数据实体同一性的理论体系 文献[64—673在数据上提出了一系列新的图模
实体同一性是数据可用性方面研究最多的一个 式的定义、标准和匹配算法,新的图模式描述方法可
维度.最早的工作来自于文献[453.文献[463从统计 以用来描述图结构数据上的实体同一性.
学角度,形式化地定义了实体同一性错误检测的问 2)基于相似性测度的实体同一性描述方法
题.文献[47—483在数据库领域较早地提出了识别实 设E是实体集合,E中两个实体的相似性测度
体同一性错误的问题.文献[49—51]等给出了实体同 是一个函数S:E×E一[o,1].对于V z,Y∈E,
一性研究的综述.以下,我们依据描述实体同一性的
5(z,y)越大,z和Y就越可能是相同实体.一般来
不同方法来介绍实体同一性的研究进展. 说,相似性函数的输出值高于某个阈值时,则判定两
1)基于语义规则的实体同一性描述方法
个实体相同.
这类方法的大致思想是利用经验知识来给出解
文献[68—693是较早地提出利用字符串属性值
决实体同一性问题的准则.
上定义的距离测度来描述实体同一性的工作.
文献[523提出了一个简单的方法,即通过比较
文献[70l利用信息检索领域中的tf.idf相似性
表示实体的不同关系元组的主键来确定这些元组是
度量方法扩展了基于字符串的相似性测度,提出了
否指代同一实体.当元组主键缺失时,利用函数依赖
描述实体同一性的另一种方法.
补齐元组中缺失的主键值.
为了更有效地计算实体间的相似性,文献E71]
文献[47—483提出了基于等值理论的规则来推
研究了实体间相似性判定的问题,基于如下思想:如
导元组中属性值之间的等价关系,用一组关系属性
果A和B都经常与其他同一组元素一起出现,则A
来描述实体同一性,通过比较多个关系元组中某些
与B的相似性较高,提出一种新的描述实体同一性
属性的值是否同时等价来判定这些元组是否指代同
的相似性测度的定义.
一实体.
文献[723利用聚簇的思想,提出了一种新的描
文献[53—54]给出了一个基于字符串转换规则
述实体同一性的方法.
的框架,利用字符串之间的转换关系描述属性值之
文献[73]基于合并“ranked list”方法,提出了
间的等价关系,进而描述实体同一性.文献[55]研究
一种综合考虑多个属性的相似性测度的实体同一性
了如何从例子中学习字符串转换规则,从而得到描
度量方法.
述实体同一性的规则.文献[563在此框架下,进一步
考虑元组之间的关系,提出了一个基于逻辑编程的 文献E743基于机器学习方法,提出了结合多个

方法来描述实体同一性. 属性相似性测度描述实体同一性的方法.

文献[573提出用否定规则描述实体同一性,并 文献[753利用基于马尔科夫链的方法,提出描

针对否定规则对实体同一性的影响进行了研究. 述实体同一性的相似性测度.

文献[583提出了用聚集约束来描述实体同一性 文献[76—773基于滑动窗口和“gram”概念,描述

的方法. XML节点之间的相似性.我们可以用这样的相似性

文献[59]首次形式化地提出了实体同一性描述 测度来描述XML数据上的实体同一性.
规则,系统地研究了给出的规则的推理问题,使得用 文献[783研究了从文本数据中抽取实体的问
来描述实体同一性的规则不再是松散的集合,而是 题,利用编辑距离来描述实体同一性.
可以相互配合相互推理,提高了此类方法描述实体 文献E79]考虑RFID数据中的实体同一性问题,
同一性的能力.文献[60]进一步在动态语义下研究 提出了描述RFID数据实体同一性的RPCV方法.
实体同一性规则的相互作用及推理问题. 2.2.6不同可用性维度的相互作用
文献E61]结合期望最大化(EM)算法和无监督 目前的研究把数据的一致性、精确性、完整性、

万方数据
李建中等:大数据的一个重要方面:数据可用性

时效性、实体同一性分离,把每个特性视为一个独立 2.3.1一致性错误的自动检测
领域,进行孤立的研究.然而,这些特性交互影响,任 基于函数依赖和条件函数依赖,文献E82~83]针
何可用性管理系统必须具有同时确保数据一致性、 对集中存储的关系数据库,使用SQL语言设计了自
精确性、完整性、时效性、实体同一性的能力.我们需 动检测算法,用于查找违反条件函数约束和条件包
要提出一个统一的逻辑框架来解决这个问题.但目 含约束的元组.文献E84]研究了在分布式环境下检
前还未有深入的研究结果,文献Eso]从管理学角度 测数据一致性错误的问题,目标是最小化数据通信
对各个特性出现的实例作了基本的介绍,但没有开 量.文献E85]给出了一种增量式的分布式数据库中
展深入的研究,文献[81]探讨了数据修复和元组匹 数据一致性错误的检测方法.
配的交互影响,基于条件函数约束和匹配约束,提出 2.3.2实体同一性错误的自动检测
了一个同时支持数据修复和实体识别的信息清洗框 实体同一性错误是指在数据库中存在描述同一
架.在这方面有很多重要的研究问题还未被考虑,有 个现实世界实体的行个(以>1)数据元组.于是,实体
大量的挑战性问题有待解决. 同一性错误检测的关键是识别数据库中相似实体,
2.2.7小结 简称实体识别.实体识别方面的研究工作很多,趋
数据一致性方面的研究工作主要关注集中方式 于成熟.以下,我们分4个方面介绍实体识别的研究
存储的关系数据,分布式存储的关系数据和非关系 进展.
数据的一致性理论工作还很少,适用于大数据的数 1)以最大化识别精度为目标的实体识别方法
据一致性相关技术还需要进一步探索. 最大化实体识别精度是实体识别研究的主要目
数据完整性方面的研究工作很少.针对传统的 标之一,围绕这个目标人们开展了大量研究。
完整性假设有了一些模型和相关问题的理论结果, 文献E86]利用字符串等价关系词典的精确信
但是这些结果对于很多实际应用无意义.为此,人们 息,计算实体之间的相似性,提高了实体识别的精
开始研究具有普遍实际应用价值的完整性理论和方 度.

法,但是目前只有相对完整性方面的初步结果.我们 文献[873提出了描述实体之间关系的统计模
还需要建立更一般形式的完整性理论,开展更深入 型,提高了实体识别的精度,并给出了高精度的实体
的研究. 识别算法.
数据精确性方面的研究工作基本上是空白,亟 在基于统计学的实体识别方法中,参数设置错
需深人研究. 误和训练数据缺失会导致检测结果的不准确.针对
数据时效性方面的研究工作非常少,只有针对 这类问题,文献E88]提出了一种两阶段的统计学方
特殊应用的少量研究结果,亟需深入系统地研究. 法,完成实体识别,提高了实体识别的精度.
实体同一性方面的研究工作主要针对关系数 文献[89—90]提出了利用机器学习方法提高实
据.关系数据上实体同一性研究已基本趋向成熟,但 体同一性检测精度的方法.
是复杂结构数据、半结构化数据、非结构化数据等非 文献E91]提出了Collective Entity Matching的

关系数据上的实体同一性方面的研究还很少见,尚 模型.该模型不仅利用元组之间的相似信息和元组
需深人研究. 同现的频度信息,还充分考虑了元组检测结果之间
总之,目前大数据的可用性方面的研究工作尚 的影响,利用检测的中间结果进行综合推理,提高了
处于起步阶段.目前的工作主要针对一致性和实体 实体识别的精度.
同一性开展了较为深入的研究,各个特性之间彼此 2)以最大化识别效率为目标的实体识别方法
的关系还没有较为深入地探讨.非关系数据以及分 降低实体识别算法的时间复杂性是实体识别研
布式存储数据的可用性研究工作还很少. 究的另一个主要目标.虽然人们在这方面作出了巨
2.3数据错误自动检测与修复 大努力,但是现有的实体识别算法的最坏情况的时
数据错误的自动检测研究主要集中在一致性错 间复杂度皆为n(押2).
误和实体同一性错误两个方面.数据错误自动修复 为了改进实体识别的效率,文献E48]较早地提
研究则主要集中在一致性错误、完整性错误和实体 出了数据分块处理的思想.在文献[48]的方法中,首
同一性错误3个方面.下面,我们分5个方面来综述 先,元组被按照不同的属性值单独排序,然后,利用固
数据错误自动检测与修复的研究进展. 定长度的窗口顺序扫描每一个元组序列,并在窗口

万方数据
计算机研究与发展2013,50(6)

内部对实体进行匹配操作,最后将多个属性上的匹 的实体识别效率.
配结果合并得到最后的实体识别结果.假设窗13大 文献E99]针对实际应用中用户所需数据仅占全
小为L,元组数目为以,该方法能够将实体识别的代 部数据很小比例的情况,解决了在返回查询结果的
价从0(咒2)降至O(L×以),在实际应用中会大大提 同时给出实体识别结果的问题.该方法利用“边查询
高实体识别的效率.然而,在保证实体识别精度的情 边识别实体”的思想,仅在与查询结果涉及的实体相
况下,L的最坏情况是咒,因此算法的最坏时间代价 关的元组上运行识别算法,在较小地降低查询执行
仍然是0(行2). 效率的前提下提高了实体识别方法的效率.
聚簇是实体识别的常用方法,然而聚簇算法的 文献[100]针对实体识别结果相互影响的问题,
代价通常都比较高,并且随输入大小的增加,聚簇算 基于实体识别规则的动态语义,考虑识别规则之间
法的代价增长非常快.文献[92]利用数据分块处理 的关系,提出了一种增量式的实体识别方法,提高了
的思想,将元组分块按照某些属性值的不同分为独 识别效率.
立的块,然后在每个块内单独运行聚簇算法,最后把 大多数应用都假设属性值是字符串,因此,提高
块上的聚簇结果合并得到实体识别的结果.文献 基于字符串的相似性匹配的效率是提高实体识别效
[92]中的方法降低了每次调用的聚簇算法的时间代 率的重要方法.文献[101]较早地提出了基于字符串
价,整体上提高了基于聚簇方法的实体识别算法的 相似性的实体识别中的优化问题,并给出了初步的
效率. 优化算法.文献[10Z]对关系数据上基于字符串相似
文献[93]针对数据规模比较大的情况,提出了 性匹配的实体识别问题作进一步的抽象,提出了“相
基于Hash函数将数据分块的方法,并给出了对应 似连接”和“相似查询”操作,并将其作为数据库的一
的实体识别算法,改进了实体识别过程的效率. 个基本操作来研究.文献[103]提出了利用倒排索引
文献[94]对两种实际中经常用到的数据分块方 加速相似查询的方法,并且针对索引占用空间大的问
法进行了形式化地描述并进行了分析对比.其中,一 题,给出了缩减索引空间代价的方法,提高了实体识
种是利用简单的策略(例如随即选取的Hash函数) 别的效率.文献[104]针对相似连接问题,将字符串
将数据划分,另一种是利用某些语义信息(例如基于 的相似性计算转化为集合的相似连接问题,并提出
属性值的描述性规则)将数据划分块.在对比中,从 了集合的相似连接操作的算法,给出了基于字符串前
实体识别的时间效率角度来看,第2种方法具有明 缀、后缀的过滤方法,提高了基于相似连接的实体识
显的优势.然而,实际应用中要找到具有适合语义信 别方法的效率.文献[105]针对变长字符串,提出了
息的规则是非常困难的,有时甚至是不存在的. 基于变长字符串搜索的方法解决长字符的相似查询
文献[95]提出了一种基于机器学习的数据分块 问题,提高了属性值为长字符串情况下的实体识别问
策略来改进实体识别的效率. 题.文献[106—108]研究了基于n—gram的近似字符
通常,实际中采用的数据分块方法并不能保证 串匹配问题,其基本思想是在字符串上建立咒一gram
块间数据的独立性.在这种情况下,分块方法在提高 索引,将字符串之间的距离转化为对应咒一gram交集
实体识别效率的同时,也降低了实体识别的精度.为 的数量,然后基于行一gram的集合语义给出高效的相
了解决这个问题,文献[96]基于增量计算的思想,提 似连接算法,从而改进了实体识别的效率.
出了迭代地实体识别方法.在每次迭代中,首先把上 文献[109]研究了高维数据上实体识别问题,利
一次迭代计算得到的每个分块的实体识别结果传输 用近似地计算高维数据相似性的思想,提出了LSS
到其他块内,然后每个分块根据收到的更新结果增 算法,并利用GPU的特性给出了对应的高效实现
量式地计算各自块内的实体识别结果,这样的迭代 方法.
计算一直进行直到结果不在改变或迭代次数达到给 文献[110一111]针对半结构化数据的实体识别
定阈值.该方法在保证实体识别效率的前提下改进 问题,基于同时匹配属性值和结构信息的思想,提出
了实体识别的结果精度. 了一个基于树结构匹配的高效的实体识别算法.
文献[97]比较全面地综述了实体识别方法中的 3)实体识别系统的实现方法
各种数据分块策略. 现有的研究工作已经提出了很多实体识别方
文献[98]针对大数据的情况,基于数据分块计 法,差别很大,要想在一个系统里同时运用这些方法
算的思想,利用云计算的环境来加速大规模数据上 很难.文献[112]针对这个问题,提出了一个解决实

万方数据
李建中等:大数据的一个重要方面:数据可用性

体识别问题的通用系统框架,支持插入不同的构建 性值来修复数据不一致错误的方法.该文给出了修
来定制实体识别方法,可以灵活地实现多个实体识 复操作的代价模型,并给出了在这个模型下代价优
别方法的整合. 化的数据一致性错误修复算法.
大多数已有的实体识别研究都是针对实体识别 文献[124]针对由条件函数依赖所发现的数据
操作内部来进行优化,文献E1133对实体识别问题进 一致性错误,证明了数据一致性错误的修复问题以
行了形式化的描述,把“比较”和“合并”等操作抽象 及数据一致性错误增量式修复问题都是NP完全问
出来作为黑盒处理,给出了优化方法提高整个实体 题,并设计了启发式近似算法自动修复数据的不一
识别过程的效率. 致错误.
文献[1143把实体识别涉及的操作看作黑盒,把 在某些情况下,用户能够给出一些修复后数据
实体识别过程抽象为代数操作序列,解决了在操作 的正确性描述(基于用户定义的强制性约束).如果
执行顺序上的优化问题.该工作提出了一种基于用 一个可能修复不满足这个描述,它就是不合理的.文
户示例驱动的方法,根据用户输入的实体识别过程 献[125]针对这个问题,定义了一个由所有合理修复
示例,自动地生成与用户示例语义一致的最优实体 构成的空间,并且给出了修复算法.
识别操作序列,提高了整个实体识别系统的效率. 文献1-1263针对两个元组的修复不独立的情况,
不同的实体识别方法是往往针对不同的应用, 给出了修复数据不一致错误的算法.
文献[115]提出通过集成多个实体识别方法来提高 2)基于统计学的方法
实体识别精度的思想,提出了基于语义信息的多实 文献E127]提出了一种基于概率的数据一致性
体识别方法集成的机制,提高了整个实体识别方法 错误修复方法.该方法首先假定存在一个满足一致
的精度. 性约束的合理修复的空间,然后依据合理修复的概
4)实体识别方法的测评 率分布进行抽样,最后使用抽取出来的合理修复完
虽然实体识别的方法有很多,但很难对其进行 成数据的修复.
综合、公平的比较.原因是没有公认的评测集,没有 文献Ea2s一130]分别以RFID和传感器网络为
公认的比较测度.这方面仅有一些初步的工作. 背景,针对利用统计学定义的数据一致性错误,提出
文献E116]对比了各种基于字符串匹配的实体 了修复数据一致性错误的方法.
识别的相似性度量. 2.3.4实体同一性错误的自动修复
文献[117—118]提出了建立实体识别评测集的 修复数据的实体同一性错误就是要把描述同一
问题,并给出了实现评测集的指导思想,但并没有给 个现实世界实体的多个元组合并为一个单独的元
出具体的实现. 组,从而为用户提供实体同一的信息.
文献[119—120J在真实数据上对比了各种实体 文献1-131]利用数据融合技术,解决了实体同一
识别方法的效率.文献[121]较少了比较11种不同 性错误的修复问题.
实体识别方法的逻辑框架. 数据的一次性修复会引起不可逆转的错误(即
文献E1223在实体识别结果和正确结果都给定 失去的数据无法恢复).文献E1323针对这个问题,提
的情况下,针对评价实体识别结果优劣的问题,提出 出利用一系列修复取代一次性修复的思想,给出了
了一个基于“合并”和“分裂”操作的实体识别结果评 利用参数控制的实体同一性错误修复方法,通过一
价测度,并给出了理论性分析. 系列不同参数的修复,获得不同修复结果,最后把这
2.3.3一致性错误的自动修复 些结果综合为最终的修复结果,避免了修复引起的
下面我们从两个方面综述目前已经提出的数据 错误.
一致性错误自动修复的方法. 文献[133-]提出了基于概率方法对查询结果中
1)基于语义规则的方法 的实体同一性错误进行修复的方法,该方法通过改
文献1-40J针对传统的函数依赖所发现的数据不 写查询,将概率信息的计算加入到查询执行中,使得
一致错误,给出了基于删除元组的修复数据不一致 查询结果中的实体一致性错误得到修复.
错误的方法. 文献[-134-1介绍了一个实体同一性错误修复系统.
文献E1233针对传统的函数依赖和包含依赖规 文献1-135—136]提出了一种基于传统的聚簇方
所发现的数据不一致错误,提出了通过修改元组属 法的实体同一性错误修复方法,并给出了基于统计

万方数据
计算机研究与发展2013,50(6)

信息的算法优劣衡量标准.在基于聚簇方法修复实 处于萌芽阶段,仅针对一些特定的问题提出了相应
体同一性错误的过程中,簇之间的阈值设置是一个 的技术,针对大数据及更多可用性问题的深入研究
关键问题,文献E721考虑到不同元组应设置不同阈 还有待开展.
值,提出了一种基于变化阈值的聚簇方法来提高实 2.5弱可用数据上的的知识挖掘
体同一性错误修复的精度. 在弱可用数据上的知识挖掘方面的工作还很少
大多数实体同一性错误修复的研究工作都假设 见.但是近年来出现了针对不确定性数据的知识挖
实体的每个属性只有一个值.文献[137]研究了作这 掘研究.
个假设不成立时的实体同一性错误修复问题,把实 针对聚类问题,文献E1451提出了把不确定数据
体同一性错误的修复问题抽象成一个K部图上的 的K—means和K—median计算转换为确定数据的加
聚簇问题,并提出了基于爬山和贪心的两种启发式 权计算的方法.文献E146]贝0提出了不确定数据上的
实体同一性错误修复方法。 聚类算法FDBSCAN.
2.3.5实体完整性错误的自动修复 针对频繁项集挖掘问题,文献[147—148]提出了
数据完整性的修复工作比较少,只有文献[1381 不确定数据频繁模式挖掘方法.
针对两种特殊类型的应用(年龄推断和感知数据的 针对图数据的不精确或者不完整,文献[1491给
补齐),提出了一种基于概率模型解决缺失数据值估 出了一个“劣质”图数据的模型,定义了基于期望的
计方法. 图挖掘问题,证明了该问题是NP难的,并且给出了
2.3.6小结 有效的近似算法求解该问题.文献[150—1511考虑了
在数据错误的自动检测方面,现有的工作主要 基于概率的不确定图语义,重新定义了频繁子图挖
针对一致性和实体同一性展开研究,其他可用性维 掘问题,并证明了这个问题的#P一完全性,提出了求
度上的错误自动检测方法有待研究,缺乏针对各个 解该问题的随机算法.文献[1523提出劣质图数据
可用性维度的适应于大数据的实用技术,缺乏对数 上的top—k最大团挖掘算法.文献[153]研究了劣质
据库整体可用性评估度量的理论及方法;在数据错 图数据上考虑可靠的聚簇问题.文献E154]研究了劣
误自动修复方面,已有的工作主要是针对一致性和 质图数据上带约束条件的可达性查询问题.
实体同一性错误的修复,其他维度上面的修复技术 在知识演化问题上,文献[1553提出一种在数据
基本没有,并且缺乏适用于大数据的自动修复技术, 社区中建立知识演化系统的方法.文献E156]提出了
缺乏对修复后数据的可用性的判别理论及方法. 基于社区用户协同的知识演化方法.文献E1573提出
2.4弱可用数据的近似计算 了基于遗传算法的弱可用数据上的知识演化方法.
弱可用数据是指包含错误的数据.弱可用数据 文献[1581提出了从弱可用数据中挖掘规则的方法.
近似计算方面的研究工作在多个数据可用性维度上 文献[159]针对不确定的类别数据,提出了直接在弱
都有初步的探讨,但缺乏深入系统的研究.下面,我 可用数据上挖掘频繁模式的算法。
们根据可用性维度分类探讨这些工作. 小结:大数据上的知识发现和知识演化的研究
在数据不一致的情况下,文献[139—1401提出了 主要关心数据的不确定问题,很少关心可用性问题,
简单不一致数据上的查询处理方法,即利用约束条 尤其缺乏弱可用数据上的知识发现和知识演化的研
件形成的子查询,改写原始查询,使改写后的查询能 究.在以可用性为基础的知识发现和知识演化研究
够适应数据的不一致性错误,在不一致的数据上求 方面,几乎所有问题都尚待解决.
解查询结果.
在数据不完整的情况下,文献D41—142]研究了 3 结 论
如何从不完整的数据库中找到“完整”的用户查询结
果的问题.文献[143]提出了在不完整数据上进行 大数据可用性的研究工作刚刚启动,处于起步
Skyline查询的算法. 阶段.现有的研究工作主要局限在集中式存储的关系
在数据的实体同一性错误存在的情况下,文献 数据的一致性和实体同一性这两个方面,少数工作
[144]针对联机分析处理操作,提出了直接在劣质数 涉及到关系数据的时效性和完整性,数据的精确性
据上执行联机分析处理的方法. 还无人问津,弱可用数据上的近似计算和知识挖掘
小结:弱可用数据上的近似计算理论及技术还 还很少见,现有的数据错误检测与修复算法不适于

万方数据
李建中等:大数据的一个重要方面:数据可用性 1157

大数据.特别值得注意的是,针对复杂类型、半结构 [13] Dong X L,Berti—Equille L,Hu Yifan,et a1.Solomon:

Seeking the truth via copying detection[J].Proceedings of


化、非结构化等非关系数据的可用性研究基本为零.
the VLDB Endowment,2010,3(112):1617—1620
总之,我们需要针对集中式和分布式存储的关
[14] Dong X L,Naumann F.Data fusion:resolving data conflicts

系大数据和非关系大数据,系统深入地开展大数据 for integration[j].Proceedings of the VLDB Endowment,

可用性研究,提出大数据可用性的完整理论体系、高 2009,2(2):1654—1655

[153 Cheng Siyao,Li Jianzhong.Sampling based(e,8)一


质量大数据获取的理论和方法、有效的大数据错误
approximate aggregation algorithm in sensor networks[c]//
自动发现和自动修复的算法、弱可用大数据的近似
Proe of IEEE ICDCSl09.Piscataway,NJ:IEEE,2009:273—

计算理论和算法以及弱可用大数据的知识挖掘理论 280

和算法. [16] Li Jianzhong,Cheng Siyao.(£,8)一approximate aggregation

algorithms in dynamic sensor networks[J].IEEE Trans on

Parallel and Distributed Systems。2012,23(3):385—396


参 考 文 献
[17] Cheng Siyao,Li Jianzhong,Cai Zhipeng.o(£)一approximation

to
physical world by sensor networks[c]//Proc of IEEE

[1] Redman T.The impact of poor data quality on the typical


INFOCOM’13.Piscataway,NJ:IEEE,2013:3184-3192
enterprise[J].Communications of the ACM,1998,41(2):
[18] Cheng Siyao,Li Jianzhong,Liu Yu.Location aware peak
79-82
value queries in sensor networks[c]//Proc of IEEE

[23 Miller D W,Yeast J D,Evans R L.Missing prenatal records


INFOCOM’12.Piscataway,NJ:IEEE,2012:486-494
at a birth center:A communication problem quantified[c]// [19] Bohannon P,Fan Wenfei,Geerts F,et a1.Conditional
Proc of AMIA Annual Symp Proceedings. Maryland: functional dependencies for data cleaning Ec]/Proc of IEEE

American MedicalInformatics Association,2005:535—539


ICDE’07.Piscataway,NJ:IEEE,2007:746-755
I-3] Swartz N.Gartner warns firms of‘dirty data’[J]. [20] Bravo L,Fan Wenfei,Ma Shuai.Extending dependencies

Information Management Journal,2007,41(3):6 with conditions[c]/Proc of the 33rd Int Conf on Very

E43 Kohn L T,Corrigan J M,Donaldson M S.To Err is Large Databases.San Francisco,CA:Morgan Kaufmann,

Human:Building a Safer Health System[M].Washington: 2007:243—254

National Academies Press,2000 [21] Bravo L,Fan Wenfei,Geerts F,et a1.Increasing the

E53 Eckerson W.Data Warehousing Special Report:Data quality expressivity of conditional functional dependencies without

and the bottom line JR].Applications Development Trends,


extra complexity Ec]/Proc of IEEE ICDE’08.Piscataway,

2002 NJ:IEEE,2008:516-525

[22] Fan Wenfei,Ma Shuai,Hu Yanli,et a1.Propagating


E63 English L P.Improving Data Warehouse and Business

Information Quality:Methods for Costs and


functional dependencies with conditions[J].Proceedings of
Reducing
the VLDB Endowment,2008,1(1):391—407
Increasing Profits[M].New York:Wiley,1999
[233 Fan Wenfei.Dependencies revisited for improving data
E7] Woolsey B,Schulz M.Credit card statistics,industry facts,
quality[c]//Proc of the 27th ACM SIGMOD SIGACT—
debt statistics [OL]. [2013一04—20].http:/www.
SIGART Symp on
Principles of Database Systems.New
creditcards. com/credit—card—news/credit—card—industry—facts
York:ACM,2008:159-170
personal—debt—statistics一1276.php
[24] Golab L,Karloff H,Korn F,et a1.Sequential dependencies
E8] Shilakes C,Tylman J.Enterprise information portals JR].
EJ].Proceedings of the VLDB Endowment,2009,2(1):
New York:Merrill Lynch,1 998
574-585
[9] Rahm E,Do H H.Data cleaning:Problems and current

[25] Koudas N,Saha A,Srivastava D,et a1.Metrie functional


approaches口].IEEE Data Engineering Bulletin,2000,23
dependencies[c]I/Proc of IEEE ICDE’09,Piseataway,NJ:
(4):3-13
IEEE,2009:1275一1278

[10] Dong X L,Berti—Equille I。,Srivastava D, Integrating


[26] Chiang F,Miller R J.Discovering data quality rules[J].
conflicting data:The role of source dependence[J]. Proceedings of the VLDB Endowment,2008,1(1):1166一

Proceedings of the VLDB Endowment,2009,2(1):550—561 1177

[i1] Dung X L,Berti—Equille L,Srivastava D.Truth discovery [27] Fan Wenfei,Geerts F,Li Jianzhong,et a1.Discovering

and copying detection in a dynamic world[J].Proceedings of conditional functional dependencies[J].IEEE Trans on

the VLDB Endowment,2009,2(1):562—573


Knowledge and Data Engineering,201I,23(5):683—698

[12] Dong X L,Berti—Equille L,Hu Yifan,et a1.Global detection [28] Korn F,Muthukrishnan S,Zhu Y.Checks and balances:

of complex copying relationships between sources EJ]. Monitoring data quality problems in network traffic databases

Proceedings of the VLDB Endowment,2010,3(112):1358一 [c]/Proc of the 29th Int Conf on Very Large Databases.

】369 San Francisco,CA:Morgan Kaufmann,2003:536—547

万方数据
1158 计算机研究与发展2013,50(6)

[293 Xiong Hui,Pandey G,Steinbach M,el a1.Enhancing data [46]Fellegi I P,Sunter A B. A theory for record linkage[J].

analysis with noise removal[J].IEEE Trans on Knowledge Journal of the American Statistical Association,1969。64

and Data Engineering,2006,18(3):304—319 (328):1183-1210

[303 van der Meyden R.Logical Approaches to Incomplete [47]Herndndez M A,Stolfo S J.The merge]purge problem for

Information:A Survey[M].Berlin:Springer,1998:307— large databases[J].Proc of ACM SIGMOD Record,1995,

356 24(2):127—138

[31] Grahne G.The Problem of Incomplete Information in


[48]Herndndez M A,Stolfo S J.Real—world data is dirty:Data
Relational Databases[M].Berlin:Springer,1991 cleansing and the merge/purge problem[J].Data Mining and

[32] Imieliflski T,Lipski Jr W.Incomplete information in


Knowledge Discovery,1998,2(1):9-37
relational databases[J].Journal of the ACM(JACM),
[49]Elmagarmid A K,Ipeirotis P G,Verykios V S.Duplicate
1984,31(4):761-791
record detection:A survey[J].IEEE Trans on Knowledge
[33] Vardi M.On the integrity of databases with incomplete
and Data Engineering,2007,19(1):卜16
information[C]/Proc of the 5th ACM sIGAcT—SIGMOD
[50]Brizan D G,Tansel A U.A survey of entity resolution and
Symp on Principles of Database Systems.New York:ACM,
record linkage methodologies[J].Communications of the
1985:252-266
IIMA,2006,6(3):41-50
[34] Gottlob G,Zicari R.Closed world databases opened through
[51]Koudas N,Sarawagi S,Srivastava D.Record linkage:
null values[C]/Proc of the 14th Int Conf on Very Large
Similarity measures and algorithms[c]//Proc of the 2006
Databases.San Francisco,CA:Morgan Kaufmann,1 988:
ACM SIGMOD Int Conf on
Management of Data.New
50-61
York:ACM,2006:802-803
[35] Fan Wenfei,Gems F.Relative information completeness

ACM SIGMOnsIGAcT—SIGART [52]Lim E P,Srivastava J,Prabhakar S,et a1.Entity


[C]//Proc of the 28th

identification in database integration[J]. Information


Symp on Principles of Database Systems.New York:ACM,
Sciences,1996,89(1):1-38
2009:97-106

[363 Fan Wenfei.Geerts F.Capturing missing tuples and missing [53] Arasu A,Chaudhuri S,Kaushik R.Transformation-based

values[c]//Proc of the 29th ACM sIGMODsIGAcT— framework for record matching[c]//Proc of IEEE ICDE’08.

SIGART Symp on Principles of Database Systems.New Piscataway,NJ:IEEE,2008:40--49

York:ACM,2010:169—178 [54]Arasu A, Kaushik R. A grammar-based entity

[37] Abiteboul S,Segoufin L,Vianu V.Representing and representation framework for data cleaning[C]/]Proc of the

querying XML with incomplete information口].AcM Trans 2009 ACM SIGMOD Int Conf on Management of Data.New

on Database Systems(TODS),2006,31(1):208—254 York:ACM,2009:233—244

[38] Barcel6 P,Libkin L,Poggi A,et a1.XML with incomplete [55]Arasu A,Chaudhuri S,Kaushik R.Learning string

information口].Journal of the ACM(JACM),2010,58 transformations from of the


examples口].Proceedings
(1):1-62 VLDB Endowment,2009,2(1):514-525

[39] Cheng R,Chen J,Xie X.Cleaning uncertain data with


[563 Arasu A,R6 C,Suciu D.Large-scale deduplication with

quality guarantees[J].Proceedings of the VLDB


constraints using of IEEE ICDE’09.
dedupalog[c]/Proc
Endowment,2008,1(1):722-735
Piscataway,NJ:IEEE,2009:952-963
[40] Chomicki J,Marcinkowski J. Minimal—change integrity
[573 Whang S E,Benjelloun O,Garcia—Molina H.Generic entity
maintenance using tuple deletions[J].Information and
resolution with negative rules[J].The International Journal
Computation,2005,197(1):90—121
on Very Large Databases,2009,18(6):1261—1277
[41] Schwalb E,Vila L.Temporal constraints:A survey[J].
[58]Chaudhuri S,Das Sarma A,Ganti V,et a1.Leveraging
Constraints,1998,3(2/3):129-149
aggregate constraints for deduplication[C]]/Proc of the 2007
[42] Zhang Haopeng,Diao Yanlei,Immerman N.Recognizing
ACM SIGMOD Int Conf on Management of Data.New
patterns in streams with imprecise timestamps[J].
York:ACM,2007:437-448
Proceedings of the VLDB Endowment,2010,3(1):244-255
[59]Fan Wenfei,Jia Xibei,Li Jianzhong,et a1.Reasoning about
[433 Clifford J,Dyreson C,Isakowitz T,et a1.On the semantics
record matching rules[J].Proceedings of the VLDB
of“now”in databases[J].ACM Trans on Database Systems

Endowment,2009,2(1):407—418
(TODS),1997,22(2):171-214

Wenfei,Geerts F,Wijsen J.Determining the [60]Fan Wenfei,Gao Hong,Jia Xibei,et a1.Dynamic


[44] Fan currency

of data[J].ACM Trans on Database Systems(TODS),


constraints for record matching口].The VLDB Journal,

2012,37(4):1—46 2011,20(4):495-520

[453 Newcombe H B,Kennedy J M,Axford S J,et a1.Automatic [613 Shen W,Li Xin,Doan A.Constraint—based entity matching

linkage of vital records[J].Science,1959,130(3381):954— [c]//Proc of the National Conf on Artificial Intelligence.

959 Menlo Park,CA:AAAI Press,2005:862-867

万方数据
李建中等:大数据的一个重要方面:数据可用性 1159

[62] Weis M,Naumann F.DogmatiX tracks down duplicates in [78]Wang Wei,Xiao Chuan,Lin Xuemin,et a1.Efficient

XML[C]/Proc of the 2005 ACM SIGMOD Int Conf on


approximate entity extraction with edit distance constraints

Management of Data.New York:ACM,2005:431—442 [c]f/Proc of the 35th SIGMOD Int Conf on Management of

[63] Getoor L.Graph Identification[M].Berlin:Springer,2010 Data.New York:ACM,2009:759—770

[64] Fan Wenfei,Li Jianzhong,Ma Shuai。et a1.Graph


[79]Ferreira Chaves L W,Buchmann E,BOhm K.Finding

homomorphism revisited for graph matching[J].Proceedings misplaced items in retail by clustering RFID data[c]//Proc
of the vLDB Endowment,2010,3(1/2):1161一1172 of the 13th Int Conf on
Extending Database Technology.
[65] Fan Wenfei,Li Jianzhong,Ma Shuai,et a1.Graph pattern
New York:ACM,2010:501-512
matching: from intractable to
polynomial time[J].
[80]Batini C,Scannapieca M.Data Quality[M].Berlin:
Proceedings of the VLDB Endowment,2010,3(1/2):264—
Springer,2006
275
[81]Fan Wenfei,Li Jianzhong,Ma Shuai,et a1.Interaction
[66] Fan Wenfei,Li Jianzhong,Luo Jizhou,et a1.Incremental
between record matching and data repairing[C]//Proc of the
graph pattern matching[C]/Proc of ACM SIGMOD.New
201 1 Int Conf on Management of Data.New York:ACM,
York:ACM。2011:925—936
2011:469—480
[67] Fan Wenfei,Li Jianzhong,Wang Xin。et a1.Query
[823 Chen W,Fan W,Ma S.Analyses and validation of
preserving graph compression[c]/Proc of the 2012 Int Conf
conditional dependencies with built—in predicates[c]//Proc
on Management of Data.New York:ACM,2012:157—168
of DEXA’09.Berlin:Springer,2009:576—591
[68] Monge A E,Elkan C.The field matching problem:

Algorithms and applications[c]/Proc of the 2nd Int Conf on


[83]Fan Wenfei,Geerts F,Jia Xibei,et a1.Conditional

functional dependencies for capturing data inconsistencies


Knowledge Discovery and Data Mining.Menlo Park,CA:

AAAI Press,1996:267-270 [J].ACM Trans on Database Systems(TODS),2008,33

[69] A,Etkan C. An efficient (2):l一48


Monge domain—independent

algorithm for detecting approximately duplicate database [84]Fan Wenfei,Geerts F,Ma Shuai,et a1.Detecting

records[c]/Proc of Research Issues on Data Mining and inconsistencies in distributed data[C]/[Proc of IEEE

Knowledge Discovery.Berlin:Springer,1997:1—7 ICDE’10.Piscataway,NJ:IEEE,2010:64—75

[70] Cohen W W.Data integration using similarity joins and a


[85]Fan W,Li J,Tang N。et a1.Incremental detection of

word—based information representation language[J].ACM inconsistencies in distributed data[c]/[Proc of IEEE

Trans on Information Systems(TOIS),2000,18(3):288— ICDE’10.Piscataway,NJ:IEEE,2012:318—329

321 [86]Chaudhuri S,Ganti V,Xin D.Mining document collections

[71] Ananthakrishna R,Chaudhuri S,Ganti V.Eliminating fuzzy to facilitate accurate approximate entity matching[J].
duplicates in data warehouses[c]/Proc of the 28th Int Conf
Proceedings of the VLDB Endowment,2009,2(1):395—406

on Very Large Databases.San Francisco,CA:Morgan [87]Shu Liangcai,Long 130,Meng Weiyi.A latent topic model
Kaufmann,2002:586—597 for complete entity resolution[c]/Proc of IEEE ICDE’09.

[72] Chaudhuri S,Ganti V,Motwani R.Robust identification of


Piscataway,NJ:IEEE,2009:880—891
fuzzy duplicates[c]/Proc of 1EEE ICDE’05.Piscataway,
[88]Christen P.Automatic record linkage using seeded nearest

NJ:IEEE,2005:865-876
neighbor and support vector machine classification[c]/Proc
[73] Guha S,Koudas N,Marathe A,at a1.Merging the results of
of the 14th ACM SIGKDD Int Conf on Knowledge Discovery
approximate match operations[c]//Proc of the 30th Int Conf
and Data Mining.New York:ACM,2008:151—159
on Very Large Databases.San Francisco,CA:Morgan
[89]Dong X,Halevy A,Madhavan J.Reference reconciliation in
Kaufmann,2004:636-647
complex information spaces Ec]/Proc of the 2005 ACM
[74] Chen Z,Kalashnikov D V,Mehrotra S.Adaptive graphical
SIGMOD Int Conf on Management of Data.New York:
approach to entity resolution[c]/Proc of the 7th ACM/
ACM,2005:85—96
IEEE-CS Joint Conf on Digital Libraries.New York:ACM。
[90]Singla P,Domingos P.Collective object identification[c]//
2007:204—213
Proc of the 19th Int Joint Conf on Artificial Intelligence.San
[75] Singla P,Domingos P.Entity resolution with markov logic

Francisco,CA:Morgan Kaufmann,2005:1636—1637
[c]//Proc of IEEE ICDM’06.Piscataway,NJ:IEEE,2006:

572—582
[91]Rastogi V,Dalvi N,Garofalakis M.Large-scale collective

entity matching[J].Proceedings of the VLDB Endowment,


E76] Augsten N,Bohlen M,Dyreson C,et aI.Approximate joins

of IEEE ICDE’08. 2011,4(4):208—218


for data—centric XML[C]/[Proc
Piscataway,NJ:IEEE,2008:8t4—823 [92]McCallum A,Nigam K,Ungar L H.Efficient clustering of

[77] Augsten N,B6hlen M,Gamper J.Approximate matching of high—dimensional data sets with application to reference

hierarchical data using Pq—grams[c]/Proc of the 31st Int matching[c]/Proc of the 6th ACM SIGKDD Int Conf on

Conf on Very Large Databases.San Francisco,CA:Morgan Knowledge Discovery and Data Mining.New York:ACM,

Kaufmann。2005 1 301—312 2000:169-178

万方数据
1160 计算机研究与发展2013,50(6)

[93]Kim H,Lee D.HARRA:Fast iterative hashed record [107] Li Chen,Wang Bin,Yang Xiaochun.VGRAM:Improving

linkage for large-scale data collections[c]//Proc of the 13th performance of approximate queries on string collections

Int Conf on Extending Database Technology.New York: using variable-length grams[C]//Proc of the 33rd Int Conf

ACM,2010:525-536 on Very Large Databases.San Francisco,CA:Morgan

[94]Kirsten T,Kolb L,Hartung M,et a1.Data partitioning for Kaufmann,2007:303~314

parallel entity matching[J].Proceedings of the VLDB [108] Li Chen.Lu Jiaheng,Lu Yiming.Efficient merging and

Endowment,2010,3(2):1—8 filtering algorithms for approximate string searches EC]//

R Proc of IEEE ICDE’08.Piscataway,NJ:IEEE,2008:257—


[95]Bilenko M,Kamath B,Mooney J.Adaptive blocking:

of IEEE 266
Learning to scale up record linkage[c]//Proc
[109] Lieberman M D,Sankaranarayanan J,Samet H. A fast
ICDM’06.Piscataway,NJ:IEEE,2006:87—96

similarity join algorithm using graphics processing units[c]


[96]Whang S E,Menestrina D,Koutrika G,et a1.Entity

resolution with iterative blocking[c]//Proc of the 35th //Proc of IEEE ICDE’08.Piscataway。NJ:IEEE,2008:

llll一1120
SIGMOD Int Conf on Management of Data.New York:
[110] Flesca S,Manco G,Masciari E,et a1.Fast detection of
ACM,2009:219—232
XML structural similarity口].IEEE Trans on Knowledge
[97]Baxter R,Christen P,Churches T.A comparison of fast

and Data Engineering,2005,17(2):160—175


blocking methods for record linkage[c]/Proc of ACM
[11i] Tatikonda S,Parthasarathy S.Hashing tree-structured
SIGKDD Workshop.New York:ACM,2003:25-27
data:Methods and applications[c]/Proc of IEEE
[98]Vernica R,Carey M J,Li C.Efficient parallel set—similarity
ICDE’10.Piscataway,NJ:IEEE,2010:429—440
joins using MapReduce[c]/Proc of the 2010 Int Conf on

[112] Christen P.Development and user experiences of an


open
Management of Data.New York:ACM,2010:495—506
source data cleaning,deduplication and record linkage
[99]Sarawagi S,Deshpande V S,Kasliwal S.Efficient top—k
system[J]. ACM SIGKDD Explorations Newsletter,
count queries over imprecise duplicates[C]//Proc of the
2009,¨(1):39-48
12th Int Conf on
Extending Database Technology:
[113] Benjelloun 0,Garcia—Molina H,Menestrina D,et a1.
Advances in Database Technology.New York:ACM,
Swoosh:a generic approach to entity resolution[J].The
2009:450—461
International Journal on Very Large Databases,2009。18
[IOO]Whang S E,Garcia—Molina H.Entity resolution with
(1):255—276
evolving rules口].Proceedings of the VLDB Endowment,
[114] Chaudhuri S,Chen B C,Ganti V,et a1.Example—driven
2010,3(1/2):1326—1337
design of efficient record matching queries Ec]/Proc of the

[101]Koudas N,Marathe A,Srivastava D.Flexible string


33rd Int Conf on
Very Large Databases.San Francisco,
matching against large databases in practice[c]//Proc of
CA:Morgan Kaufmann,2007:327—338
the 30th Int Conf on Very Large Databases.San Francisco。
[115] Chen Z,Kalashnikov D V,Mehrotra S.Exploiting context

CA:Morgan Kaufmann,2004:1078—1086
analysis for combining multiple entity resolution systems

[102]Chaudhuri S,Ganti V,Kaushik R.A primitive operator for


SIGMOD Int Conf
Ec]//Proc of the 35th on Management of
similarity joins in data cleaning[c]//Proc of IEEE
Data.New York:ACM,2009:207-218
ICDE’06.Piscataway,NJ:IEEE,2006:5-5
[116] Cohen W W,Ravikumar P,Fienberg S E.A comparison of

[103]Behm A,Ji S,Li C,et a1.Space—constrained gram—based


string distance metrics for name—matching tasks[C]/Proc
indexing for efficient approximate string search[c]//Proc of the Information Integration
IJCAI一2003 Workshop on on

of IEEE ICDE’09.Piscataway,NJ:IEEE,2009:604-615
the Web.2003:73-78

[1043 Xiao Chuan,Wang Wei。Lin Xuemin,et a1.Efficient M,Jurk S,Lenz H J,et a1.Object identification
[117] Neiling

similarity joins for near-duplicate detection口].ACM Trans of the Int Data


quality[c]/Proc Workshop on
Quality in

on Database Systems(TODS),2011,36(3):15 Information Berlin:


Cooperative Systsems(DQCIS).

[105]Papapetrou P,Athitsos V,Kollios G,et a1.Reference— Springer,2003:1—10

based alignment in large sequence databases[J]. [118] Weis M,Naumann F,Brosy F.A duplicate detection

Proceedings of the VLDB Endowment,2009,2(i):205— benchmark for XML(and relational)data[C]//Proc of

216 Information
Workshop on Quality for Information Systems

[106]Yang Xiaochun,Wang Bin,Li Chen.Cost—based variable- (IQIS).New York:VLDB Endowment,2006:1-19

length—gram selection for string collections to


support [119] KOpeke H。Thor A,Rahm E. Evaluation of entity

approximate queries efficiently[C]/Proc of the 2008 ACM resolution approaches on real—world match problems[J].
SIGMOD Int Conf on Management of Data.New York: Proceedings of the VLDB Endowment,2010,3(1/2):484-

ACM,2008:353-364 493

万方数据
李建中等:大数据的一个重要方面:数据可用性 1161

[1203 K0pcke H,Thor A,Rahm E.Comparative evaluation of [134]Thor A,Rahm E. MOMA—fl mapping-based object

entity resolution approaches with FEVER EJ].Proceedings matching system[C]//Proc of the 3rd Biennial Conf on

of the VLDB Endowment,2009,2(2):1574—1577 Innovative Data Systems Research(CIDR).Asilomar,

[1 2 1]KOpcke H,Rahm E.Frameworks for entity matching:A USA:CIDRDB.ORG,2007:7-10

comparison EJ].Data&Knowledge Engineering,2010。69 [135]Hassanzadeh O,Chiang F,Lee H C。et a1.Framework for

(2):197—210
evaluating clustering algorithms in duplicate detection[J].
[1223 Menestrina D,Whang S E,Garcia—Molina H.Evaluating
Proceedings of the VLDB Endowment,2009,2(1):1 282-

entity resolution results[J3.Proceedings of the VLDB


1293

Endowment,2010,3(112):208—219 [136]Hassanzadeh O,Miller R J. Creating probabilistic


[123]Bohannon P,Fan Wenfei,Flaster M,et a1.A cost—based databases from duplicated data[J].The International
model and effective heuristic for repairing constraints by
Journal on
Very Large Databases,2009,18(5):1141-Ii66
value modification[c]//Proc of the 2005 ACM SIGMOD
[137]Guo Songtao,Dong X L,Srivastava D,et a1.Record
Int Conf on Management of Data.New York:ACM,2005:
linkage with uniqueness constraints and erroneous values
143-154
[J].Proceedings of the VLDB Endowment,2010,3(1/2):
[124]Cong Gao,Fan Wenfei,Geerts F。et a1.Improving data
417-428

quality:Consistency and accuracy[c]//Proc of the 33rd Int


[1 38] Mayfield C,Neville J,Prabhakar S.ERACER:a database
Conf on Very Large Databases. San Francisco,CA:
approach for statistical inference and data cleaning[c]//
Morgan Kaufmann,2007:315-326
Proc of the 2010 Int Conf on Management of Data.New
[125]Beskales G,llyas I F,Golab L.Sampling the repairs of
York:ACM,2010:75—86
functional dependency violations under hard constraints[J].
[1393 Fuxman A D,Miller R J.First-order query rewriting for
Proceedings of the VLDB Endowment,2010,3(112):197—
inconsistent databases[C]//Proc of the 10th Int Conf on

207
Database Theory.Berlin:Springer,2005:337-351
[126]Lian Xiang,Chen Lei,Song Shaoxu.Consistent query
[140]Fuxman A,Fuxman D,Miller R J.ConQuer:A system for
answers in inconsistent probabilistic databases[c]//Proc of
efficient querying over inconsistent databases[c]//Proc of
the 2010 Int Conf on Management of Data.New York:
the 31st Int Conf on Very Large Databases.San Francisco,
ACM,2010:303-314
CA:Morgan Kaufmann,2005:1354—1357
[127]Xie Junyi,Yang Jun,Chen Yuguo,et a1.A sampling-based
[141]Morro A.Integrity=validity+completeness[J].ACM
approach to information recovery[c]/Proc of IEEE
Trans on Database Systems(TODS),1989,14(4):480-
ICDE’08.Piscataway,NJ:IEEE,2008:476—485
502
[128]Jeffcry S R,Garofalakis M,Franklin M J.Adaptive
[142]Levy A.Obtaining complete answers from incomplete
cleaning for RFID data streams[c]/Proc of the 32nd Int

Conf
databases[c]//Proc of the 22nd Int Conf on Very Large
on Very Large Databases.San Francisco,CA:
Databases.San Francisco,CA:Morgan Kaufmann,1996:
Morgan Kaufmann,2006:163—174
402-4i2
[129]Chen Haiquan,Ku W S,Wang Haixun,et a1.Leveraging

spatio temporal redundancy for RFID data


[1 43]Khalefa M E,Mokbel M F,Levandoski J J.Skyline query
cleansing[c]//
Proc of the 2010 ACM SIGMOD Int Conf processing for incomplete data[c]/Proc of IEEE ICDE’08.
on
Management of

Data.New York:ACM,2010:5l一62 Piscataway,NJ:IEEE,2008:556—565

[1 30]Zhuang Yongzhen,Chen Lei.In—network outlier cleaning [144]Sismanis Y,Wang L,Fuxman A,et a1.Resolution—aware

for data collection in sensor networks Ec]|/Proc of VLDB query answering for business intelligence[c]//Proc of

IEEE ICDE’09.Piscataway,NJ:IEEE,2009:976—987
Workshop on CleanDB.New York:VLDB Endowment,

2006:41—48 [145]Cormode G,McGregor A.Approximation algorithms for

M。et a1.Subsumption and uncertain data[c]//Proc of the 27th ACM


[131]Bleiholder J,Szott S,Herschel clustering

data fusion SIGMOD-SIGACT—SIGART Symp Principles of


complementation as
operators[c]//Proc of the on

13th Int Conf Database Systems.New York:ACM,2008:191-200


on
Extending Database Technology.New

York:ACM,2010:513—524 [146]Kriegel H P,Pfeifle M.Density-based clustering of

[132]Beskales G,Soliman M A,Ilyas I F,et a1.Modeling and uncertain data[C]//Proc of the l l th ACM SIGKDD Int

querying possible repairs in duplicate detection[J]. Conf on Knowledge Discovery in Data Mining.New York:

Proceedings of the VLDB Endowment,2009,2(1):598— ACM,2005:672-677

609 [147]Aggarwal C C,Li Yan,Wang Jianyong,et a1.Frequent

[133]Andritsos P,Fuxman A。Miller R J.Clean answers over


pattern mining with uncertain data Ec]/Proe of the 15th

dirty databases:A probabilistie approach[c]//Proe of ACM SIGKDD Int Conf on Knowledge Discovery and Data

IEEE ICDE’06.Piscataway,NJ:IEEE,2006:30—30 Mining.New York:ACM,2009:29—38

万方数据
1162 计算机研究与发展2013,50(6)

E1483 Bernecker T,Kriegel H P,Renz M,et a1.Probabilistic [156] Gendarmi D, Abbattista F, Lanubile F. Fostering

frequent itemset mining in uncertain databases[c]//Proe of knowledge evolution through community—based participation

the 15th ACM SIGKDD Int Conf on


Knowledge Discovery It]/Proc of the 1 st Workshop on Social and Collaborative

and Data Mining.New York:ACM,2009:119-128 Construction of Structured Knowledge at WWW.Tiburg.

E149]Zou Zhaonian,Li Jianzhong,Gao Hong,et a1.Mining Netherlands:CEUR—WS.org,2007:1-7

frequent subgraph patterns from uncertain graph data[J]. [157] Kuo C S,Hong T P,Chen C I..A knowledge—evolution

IEEE Trans on Knowledge and Data Engineering,2010,22 strategy based on genetic programming[c]/Proc of the

(9):1203—1218 2008 Int Conf on


Convergence and Hybrid Information

E1503 Zou Zhaonian,Gao Hong,Li Jianzhong.Discovering Technology.Piscataway,NJ:IEEE,2008:43—48

frequent subgraphs over uncertain graph databases under [1583 Qin Biao,Xia Yuni,Prabhakar S.Rule induction for

probabilistic semantics[c]/Proc of the 16th ACM uncertain data[J].Knowledge and Information Systems,

SIGKDD Int Conf on


Knowledge Discovery and Data 2011,29(1):103—130

Mining.New York:ACM,2010:633—642 [159] Gao Chuancong, Wang Jianyong.Direct mining of

[1 5 1]Li J ianzhong,Zou Zhaonian,Gao Hong.Mining frequent discriminative patterns for classifying uncertain data[c]//
subgraphs over uncertain graph databases under Proc of the 16th ACM SIGKDD Int Conf on Knowledge

probabilistic semantics[J].The VLDB Journal,2012,21 Discovery and Data Mihing.New York:ACM,2010:861—

(6):753-777 870

[152]Zou Zhaonian,Li Jianzhong,Gao Hong,et a1.Finding top-

k maximal cliques in an uncertain graph[c]/Proe of IEEE Li Jianzhong,born in 1950.Professor,

ICDE’10.Piscataway,NJ:IEEE,2010:649—652 PhD research interests


supervisor.His
[153]Liu Lin,Jin Ruoming,Aggrawal C C,et a1.Reliable
include massive data computing and
clustering on uncertain graphs Ec]//Proc of IEEE
wireless sensor networks.
ICDM’12.Piscataway,NJ:IEEE,2012:459—468

[154]Jin Ruoming,Liu Lin,Ding Bolin,et a1.Distance—

constraint reachability computation in uncertain graphs[J].


Liu Xianmin, born in 1 984. PhD
Proceedings ofthe VLDB Endowment,2011,4(9):551—
candidate.His research interests include
562

massive data computing and data quality


[155]Bieber M,Engelbart D,Furuta R,et a1.Toward virtual

community knowledge evolution [J]. Journal of management(xianmliu@gmail.corn).

Management Information Systems,2002,18(4):11—35

万方数据

You might also like