大数据的一个重要方面数据可用性

计算机研究与发展ＩＳＳＮ１０００—１２３９１ＣＮ１１—１７７７１ＴＰ
！！竺！呈！！！！竺竺竺旦！！！！墨！！！！！！！！里璺里！二！！竺旦竺！兰！！！！！！！！！！！二！！！！：！竺！！
大数据的一个重要方面：数据可用性
李建中刘显敏
（哈尔滨工业大学计算机科学与技术学院哈尔滨１５０００１）
（１ｉｊｚｈ＠ｈｉｔ．ｅｄｕ．ｃｎ）
ＡｎＩｍｐｏｒｔａｎｔＡｓｐｅｃｔｏｆＢｉｇＤａｔａ：ＤａｔａＵｓａｂｉｌｉｔｙ
ＬｉＪｉａｎｚｈｏｎｇａｎｄＬｉｕＸｉａｎｍｉｎ
（ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＨａｒｂｉｎＩｎｓｔｉｔｕｔｅｏｆＴｅｃｈｎｏｌｏｇｙ，Ｈａｒｂｉｎ１５０００１）
ＡｂｓｔｒａｃｔＷｉｔｈｔｈｅｒａｐｉｄｄｅｖｅｌｏｐｍｅｎｔｏｆｉｎｆｏｒｍａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ，ｅｓｐｅｃｉａｌｌｙｔｈｅｇｒｅａｔｐｒｏｇｒｅｓｓｅｓｏｆ
Ｉｎｔｅｒｎｅｔ，ｃｙｂｅｒｐｈｙｓｉｃａｌｓｙｓｔｅｍ，Ｉｎｔｅｒｎｅｔｏｆｔｈｉｎｇｓ，ｃｌｏｕｄｃｏｍｐｕｔｉｎｇａｎｄｓｏｃｉａｌｎｅｔｗｏｒｋ，ｂｉｇｄａｔａ
ｂｅｃｏｍｅｓｕｂｉｑｕｉｔｏｕｓ．Ｂｉｇｄａｔａｂｒｉｎｇｓｎｏｔｏｎｌｙｇｒｅａｔｂｅｎｅｆｉｔｓｂｕｔａｌｓｏｃｒｕｃｉａｌｃｈａｌｌｅｎｇｅｓ．Ｉｍｐｒｏｖｉｎｇｔｈｅ
ｄａｔａｕｓａｂｉｌｉｔｙｉｓｏｎｅｏｆｔｈｅｍｏｓｔｓｉｇｎｉｆｉｃａｎｔｃｈａｌｌｅｎｇｅｓ．Ｄｉｒｔｙｄａｔａａｃｃｏｍｐａｎｉｅｓｔｈｅｔｒｅｍｅｎｄｏｕｓ
ｉｎｃｒｅａｓｅｏｆｄａｔａｖｏｌｕｍｅ，ｄｅｇｒａｄｅｓｔｈｅｄａｔａｑｕａｌｉｔｙａｎｄｄａｔａｕｓａｂｉｌｉｔｙ，ａｎｄｂｒｉｎｇｓｓｅｒｉｏｕｓｈａｒｍｔｏｔｈｅ
ｉｎｆｏｒｍａｔｉｏｎｓｏｃｉｅｔｉｅｓ．Ｆｏｒｔｕｎａｔｅｌｙ，ｔｈｅｒｅｈａｓｂｅｅｎｗｉｄｅｓｐｒｅａｄｃｏｎｃｅｒｎａｂｏｕｔｔｈｅｄａｔａｕｓａｂｉｌｉｔｙｉｎｂｏｔｈ
ｉｎｄｕｓｔｒｉａｌａｎｄａｃａｄｅｍｉｃｃｏｍｍｕｎｉｔｉｅｓ，ａｎｄｔｈｅｒｅｃｅｎｔｒｅｓｅａｒｃｈｅｆｆｏｒｔｓｏｎｄａｔａｕｓａｂｉｌｉｔｙｈａｖｅｙｉｅｌｄｅｄ
ｓｏｍｅｉｍｐｒｅｓｓｉｖｅｒｅｓｕｌｔｓ．Ｈｏｗｅｖｅｒ，ｔｈｅｒｅａｒｅｏｎｌｙｆｅｗｗｏｒｋｓｆｏｃｕｓｉｎｇｏｎｔｈｅｕｓａｂｉｌｉｔｙｏｆｂｉｇｄａｔａ．Ｉｎ
ｔｈｉｓｐａｐｅｒ，ｔｈｅｃｏｎｃｅｐｔｓｏｆｂｉｇｄａｔａｕｓａｂｉｌｉｔｙａｒｅｉｎｔｒｏｄｕｃｅｄｆｉｒｓｔ，ａｎｄｔｈｅｎｔｈｅｃｈａｌｌｅｎｇｅｓａｎｄｒｅｓｅａｒｃｈ
ｐｒｏｂｌｅｍｓｏｆｔｈｅｂｉｇｄａｔａｕｓａｂｉｌｉｔｙａｒｅｄｉｓｃｕｓｓｅｄ．Ｆｉｎａｌｌｙ，ｔｈｅｗｏｒｋｓｒｅｌａｔｅｄｔｏｔｈｅｄａｔａｕｓａｂｉｌｉｔｙａｒｅ
ｓｕｒｖｅｙｅｄ．
Ｋｅｖｗｏｒｄｓｂｉｇｄａｔａ；ｄａｔａｕｓａｂｉｌｉｔｙ；ｄａｔａｃｏｎｓｉｓｔｅｎｃｙ；ｄａｔａｃｏｍｐｌｅｔｅｎｅｓｓ；ｄａｔａａｃｃｕｒａｃｙ；ｄａｔａ
ｃｕｒｒｅｎｃｙ；ｅｎｔｉｔｙｉｄｅｎｔｉｔｙ
摘要随着信息技术的发展，特别是物理信息系统、互联网、云计算和社交网络等技术的突飞猛进，大
数据普遍存在，正在成为信息社会的重要财富，同时也带来了巨大的挑战．数据可用性问题就是大数据
的重要挑战之一．随着数据的爆炸性增长，劣质数据也随之而来，数据可用性受到严重影响，对信息社会
形成严重威胁，引起了学术界和工业界的共同关注．近年来，学术界和工业界开始研究数据可用性问题，
取得了一些的研究成果，但是针对大数据可用性问题的研究工作还很少．介绍了大数据可用性的基本概
念，讨论大数据可用性的挑战，探讨大数据可用性方面的研究问题，并综述数据可用性方面的研究成果．
关键词大数据；数据可用性；数据一致性；数据完整性；数据精确性；数据时效性；实体同一性
中图法分类号ＴＰ３１１．１３
近年来，信息技术的快速发展，特别是信息获取业、科教文化、医疗卫生等领域都积累了ＴＢ级、ＰＢ
技术、物理信息系统、互联网、物联网、社交网络等技级乃至ＥＢ级的大数据，这些数据已经开始造福于
术的突飞猛进，引发了数据规模的爆炸式增长，大数人类，成为信息社会的重要财富．例如，著名的全球
据已经普遍存在，能源、制造业、交通运输业、服务连锁超市沃尔玛每小时需要处理１００余万条的用户
收稿日期：２０１３０５—０６
基金项目：国家“九七三”重点基础研究发展计划基金项目（２０１２ｃＢ３１６２００）；国家自然科学基金重点项目（６１０３３０１５）
万方数据
计算机研究与发展２０１３，５０（６）
请求，维护着一个超过２．５ＰＢ的数据库；在高能物息社会．在美国，由于数据错误而引发的医疗事故，

理实验中，２００８年开始投入使用的大型强子对撞机每年导致约９８０００名患者死亡，约占全部医疗事故
每年产生超过２５ＰＢ的数据；社交网络Ｆａｃｅｂｏｏｋ现致死人数的５０％［４１；由于数据错误和陈旧而引起的
已存储超过５００亿张照片．生产事故和决策失误，每年给美国工业企业造成约
大数据蕴含着巨大的价值，对社会、经济、科学６１１０亿美元的损失，约占美国ＧＤＰ的６％［５１；美国
研究等各个方面都具有重要的战略意义，为人们更零售业每年因标价数据错误而导致２５亿美元的损
深入地感知、认识和控制物理世界提供了前所未有失¨１；在美国银行业，由于数据不一致问题而失察的
的丰富信息．例如，著名国际咨询机构Ｇａｒｔｎｅｒ在信用卡欺诈在２００６年就造成４８亿美元的损失［７］．
２０１２年预测全球大数据相关产业的规模将达到据有关专家推算，在数据仓库项目的开发过程中，清
２３２０亿美元；２０１０年时代杂志刊载的医学界年度理不洁数据通常需要花费３０％～８０％的开发时间
十大突破中，医疗科技公司ＣａｒｄｉｏＤＸ通过对１亿和开发预算［８３；数据可用性问题平均给每个企业增
个基因样本的分析，最终识别出能够预测冠心病的加的成本是该企业产值的１０％～２０％［９］．此外，由
２３个主要基因；２００９年Ｇｏｏｇｌｅ的研究人员通过对于网络的普及，很多应用可以从不同的数据源抽取
每日超过３０亿次搜索请求和网页数据的挖掘分析，和集成信息，致使劣质信息产生和传播的风险达到
在Ｈ１Ｎ１流感爆发几周就预测出流感传播；通过对了空前的水平．
微博等网络大数据的挖掘分析能够发现社会动态，事实上，数据可用性问题是信息化社会中固有
预警重大和突发性事件．的问题．它们不仅在西方发达国家存在，而是在任何
由于大数据的迅速涌现及其巨大价值，大数据一个信息化社会都普遍存在．尽管我国尚未公布相
已经引起国内外学术界、工业界和政府部门的广泛关统计信息，我们没有理由相信我国不存在类似的
关注．美国等世界发达国家都制定和启动了大数据问题．例如，我们通过对某国有大型企业信息中心的
研究计划，投入大量资金支持大数据研究．我国对建ＴＢ级数据的抽样检验，发现１０％的信息存在各种
设大数据管理基础设施的需求已经提出了指导性的类型的错误．
方针．《国家中长期科技发展规划纲要（２００６— 综上所述，确保数据可用性是关系到大数据时
２０２０）》指出：“信息领域要重点研究开发……海量存代的国计民生、社会和谐等方面的一项重大战略任
储和安全存储等关键技术９９．《国民经济和社会发展务，是圆满完成大数据管理基础设施建设、有效发挥
第十二个五年规划纲要》提出：“重点研究……海量大数据作用的重要前提．因此，深入开展数据可用性
信息处理及知识挖掘的理论与方法……”．基础理论和关键技术的研究具有重要战略意义．本
虽然目前大数据研究已经蓬勃兴起，但是工作文介绍大数据可用性的基本概念，讨论大数据可用
主要集中在大数据的存储、管理、挖掘分析等方面，性的挑战和研究问题，并综述数据可用性方面的研
数据可用性问题没有得到足够重视．究成果．
随着大数据的爆炸性增长，劣质数据也随之而
来，导致数据质量低劣，极大地降低了数据的可用１大数据可用性的概念、挑战和研究问题
性．事实表明，大数据在可用性方面存在严重问题
（以下简称数据可用性问题）．国外权威机构的统计１．１大数据可用性的基本概念
表明，美国企业信息系统中１％～３０％的数据存在我们认为，一个正确的大数据集合至少应满足
各种错误和误差［１］，美国医疗信息系统中１３．６％～以下５个性质．
８１％的关键数据不完整或陈旧［２］．国际著名科技咨１）一致性：数据集合中每个信息都不包含语
询机构Ｇａｒｔｎｅｒ的调查显示，全球财富１０００强企业义错误或相互矛盾的数据．例如，数据（公司一“先
中超过２５％的企业信息系统中的数据不正确或不导”，国码一“８６”，区号一“１０”，城市＝“上海”）含有
准确［３］．随着大数据的不断增长，数据可用性问题将一致性错误，因为１０是北京区号而非上海区号．又
日趋严重，也必将导致源于数据的知识和决策的严如，若银行信用卡数据库显示某持卡人在北京和新
重错误．疆两地同时使用同一信用卡消费，则出现数据不一
数据可用性问题及其所导致的知识和决策错误致，预示发生信用卡欺诈的可能．
已经在全球范围内造成了恶劣后果，严重困扰着信２）精确性：数据集合中每个数据都能准确表述
万方数据
李建中等：大数据的一个重要方面：数据可用性
现实世界中的实体．例如。某城市人口数量为４１３０４６５，２）完整的大数据可用性理论体系

数据库中记载为４００万，宏观来看该信息是合理的，在数据可用性研究中，我们必须回答如下问题：
但不精确．一致的信息也可能含有误差，未必精确．如何形式化地表示数据可用性？如何从理论上判定
在许多应用领域，信息精确性至关重要。数据可用性？如何定量地评估数据可用性？数据错
３）完整性：数据集合中包含足够的数据来回答误自动发现和修复的理论依据是什么？数据和数据
各种查询和支持各种计算．例如，某医疗数据库中的质量融合管理（简称量质融合管理）的理论基础是什
数据一致且精确，但遗失某些患者的既往病史，从而么？数据如何演化？没有一个完整的数据可用性理
存在不完整性，可能导致不正确的诊断甚至严重医论体系，这些问题是无法回答的．因此，我们需要建
疗事故．立统一的框架，提出完整的数据可用性理论体系，解
４）时效性：信息集合中每个信息都与时俱进，决如下挑战性问题：建立大数据可用性的理论模型、
不陈旧过时．例如，某数据库中的用户地址在２０１０大数据可用性的形式化系统和推理机制、大数据可
年是正确的，但在２０１１年未必正确，即数据过时．据用性评估理论和算法、大数据量质融合管理的理论
统计，商业和医疗信息库中平均５０％的用户信息在和算法、大数据演化机理、大数据可用性所涉及的计
２年内可能过时，而过时信息将会导致严重后果．算问题的复杂性理论和算法设计与分析的新方法．
５）实体同一性：同一实体在各种数据源中的描３）数据错误自动检测与修复的理论和技术
述统一．例如，为防止信用卡欺诈，银行需监测信用现有的数据可用性的方法和系统缺乏坚实的理
卡的使用者和持有者是否为同一人．又如，企业的市论基础，不能实现自动的错误检测和修复．为了实现
场、销售和服务部门可能维护各自的数据库，如果这数据错误的自动检测和修复，我们需要在数据可用
些数据库之间没有共享统一的客户标识，企业的兼性理论体系基础上解决如下挑战性问题：提出大数
并和重组会使兼并后的公司的客户数据库中存在大据错误自动检测和修复问题的可计算性理论、大数
量具有差异的重复客户信息，导致实体表达混乱．据错误自动检测和修复问题的计算复杂性理论、大
根据以上５个性质，我们可以如下定义数据可数据错误自动检测和修复方法的可信性理论、高效
用性：一个数据集合满足上述５个性质的程度是该实用的大数据错误自动检测与修复算法．
数据集合的可用性．４）弱可用数据上近似计算的理论和技术
１．２大数据可用性的挑战和研究问题当数据中的错误不能彻底修复时，这些数据称
确保数据可用性是一项十分困难的任务．考虑为弱可用数据．直接在弱可用数据上进行满足给定
到大数据的数据量大、数据产生速度快、数据类型复精度需求的近似计算，不失为一个有意义的选择．遗
杂、价值大密度低等４个特点，确保大数据可用性将憾的是现有的理论与算法无法支持弱可用数据上的
变得难上加难．我们需要针对大数据的４个特点，解近似计算．因此，我们需要解决如下挑战性问题：提
决如下大数据可用性的５个挑战性研究问题．出弱可用大数据近似计算的可行性理论、弱可用大
１）高质量大数据获取与整合的理论和技术数据近似计算问题的计算复杂性理论、弱可用大数
高质量数据的获取是确保信息可用性的重要前据上近似计算结果的质量评估理论、弱可用大数据
提．海量数据的来源多种多样（如复杂物理信息系上的近似计算方法．
统、物联网、Ｉｎｔｅｒｎｅｔ上的数据资源），数据模态千差５）弱可用数据上的知识发掘与演化的机理
万别（如关系数据、ＸＭＬ数据、图数据、流数据、标量大数据的可用性问题必然导致源于数据的知识
数据、矢量数据），质量参差不齐，加工整合困难．这的可用性问题．当数据完全可用时，从正确的大数据
些问题在当今突飞猛进的传感网、信息物理融合系中发掘知识以及从数据演化探索知识演化机理的研
统和物联网及其产生的大数据背景下尤其严重．因究已经很困难．当数据弱可用时，弱可用大数据上的
此，我们需要解决如下挑战性问题：在数据获取阶段知识发掘与演化机理的研究将更加困难．我们需要
把住质量关，探索从物理信息系统等多数据源有效解决如下挑战性问题：提出源于弱可用数据的知识可
地获取高质量大数据的理论和方法，研究高效数据用性评估理论与方法、数据可用性与知识可用性的
过滤方法，建立多模态大数据融合计算的理论和算相关性理论、弱可用大数据上知识发现的计算复杂
法，实现高质量数据获取和精准整合，继而发现数据性理论和算法设计与分析新方法、源于弱可用数据
演变规律．的知识校验与纠偏的理论和方法、源于弱可用数据
万方数据
的知识演变机理．利用隐马尔可夫模型来判定数据源的复制关系，并
综上所述，大数据可用性在基础理论、算法和工利用贝叶斯模型改善数据获取的过程，提高了结果
程技术各层面都提出了严峻的挑战性研究问题．目数据的可用性．
前大数据可用性研究工作还刚刚开始，仅触及少数文献［１２］进一步考虑更复杂的数据复制关系，
几个侧面，大量科学技术问题有待解决，向我们提出包括部分数据复制、多个数据源同步复制、多数据源
了新的挑战，也为我们提供了新的机遇．传递复制，给出了判定复制关系、提高集成数据可用
性的算法．
２数据可用性的研究进展文献［１３］给出了一个判定数据复制关系的原型
演示系统．
国内外已经开展了一些数据可用性的研究工
文献Ｆ１４］对上述工作进行了系统性综述．
作，但是大数据可用性研究还刚刚起步。下面，我们２．１．２传感网数据的高质量获取与整合方法
分别从高质量大数据获取与整合、大数据可用性理
文献［１５—１６１针对无线传感网能量受限的特点，
论体系、数据错误自动检测与修复、弱可用数据的近
探索了在保障数据精确性的前提下以最小能量开销
似计算、弱可用数据的知识挖掘等方面，介绍国内外
获取感知数据的问题，提出了从无线传感网获取数
研究进展情况和发展趋势．
据的（ｅ，艿）一近似随机算法，确保获取数据的精度大
２．１高质量大数据获取与整合
于ｅ的概率小于艿．
大数据主要有３个来源：１）分布在Ｗｅｂ上的丰
文献［１７］研究了如何从传感网获取数据，使得
富数据库资源；２）物理信息系统，如智能电网、智慧
物理世界能够被准确近似，从而获取高精度数据，提
城市等；３）科学实验与观测数据（简称科学数据），如
高数据的可用性．该文献使用Ｈｅｒｍｉｔ插值及三次
高能物理实验数据、生物数据、空间观测数据等．通
样条插值技术，提出了两个面向物理过程的高精度
常，物理信息系统数据和科学数据一般都通过由传
变频数据采集算法，算法能够在保证数据可用性的
感器或观测设备构成的传感网来获取．大数据获取
前提下最小化传输到网络中的数据量，实现对物理
和整合是指从Ｗｅｂ数据源或传感网获取数据并将
世界的ｅ－近似逼近，使得获取的数据所描述的物理
其加工整合为存储在计算系统中的数据集合．高质
世界与真实物理世界的误差小于￡，其中ｅ可以是任
量大数据获取与整合是指最大化数据可用性的大数
意小的正数．
据获取与整合过程．下面我们从Ｗｅｂ数据的获取与
文献［１８］针对地理位置相近传感器节点的数据
整合、传感网数据的获取与整合两个方面，介绍高质
量数据获取与整合的研究进展．中存在冗余的问题，提出了位置信息敏感的数据获
２．１．１Ｗｅｂ数据的高质量获取与整合方法取方法，利用数据源之间的地理关联特征，过滤冗余
Ｗｅｂ上存在丰富的数据源．人们经常需要从多数据，提高获取的数据在事件监测应用中的可用性，
个Ｗｅｂ数据源获取数据，并将其整合为自己需要的减低了误判的概率，并给出了能源有效的网内数据
数据集合，这个过程通常被称为Ｗｅｂ数据集成．在获取算法．
Ｗｅｂ数据集成中，数据源的质量会极大地影响集成２．１．３小结
数据的可用性．如何判定和选择高质量数据源，使其高质量大数据获取与整合研究工作刚刚起步，
成为数据获取的源泉，是获得高质量集成数据的关研究结果还不多见，缺乏全面系统的研究，很多问题
键问题．还没有解决，大量的新问题有待发现，这方面的研究
文献［１０Ｊ发现数据源之间的数据复制关系能够任重道远．
帮助系统更好地选取高质量的数据源、改善集成数２．２大数据可用性理论体系
据的可用性．针对静态数据，文献［１０］提出了基于贝本节从一致性、完整性、精确性、时效性、实体同
叶斯分析的方法，判定数据源之间的复制关系，并基一性以及这５个可用性维度交互作用等６个方面综
于复制关系提出了高质量数据获取与整合的方法，述大数据可用性理论体系的研究进展．
提高了获取与整合后的数据的可用性。２．２．１数据一致性的理论体系
文献［１１］针对动态数据，提出利用数据源中数有关数据一致性理论体系的研究结果可以分为
据更新历史来判定数据源之间的复制关系的方法，两类：基于语义规则的数据一致性理论体系、基于统
万方数据
计学的数据一致性描述方法．ｔａｂｌｅ）的不完整数据表述系统［３卜”］．条件表是传统
１）基于语义规则的数据一致性理论体系关系表的扩展，允许属性值中出现变量和逻辑表达
在经典的关系数据系统中，函数依赖和包含依式．变量表示缺失值．逻辑表达式表示缺失值之间的
赖可以用来描述数据的一致性，给出了一种数据一逻辑关系．条件表既可以表示不完整数据，也支持不
致性的理论体系．但是，这种理论体系的能力极其受完整数据上的查询处理．
限，很多数据一致性约束无法表达，很多数据一致性为表述缺失信息，文献［３３］提出了另一种关系
错误不能被发现．针对函数依赖和包含依赖的局限数据库的扩展模型，给出了封闭世界假设和开放世
性，文献［１９—２０］对其进行了扩展，提出条件函数依界假设的概念，并在这两种假设下研究了如下判定
赖和条件包含依赖的语义规则，用来描述复杂数据问题的计算复杂性：一个不完整数据库能否转换为
一致性约束，发现和修复复杂的数据一致性错误．文满足一致性约束的完整数据库．
献［２０—２２］进一步研究了条件函数依赖的推理问题、文献［３４］提出了“ｏｐｅｎｎｕｌｌ”的概念，提出了在
可满足问题、覆盖问题、检测问题、传递问题的计算封闭式假设下数据库中缺失属性值的表示方法．
复杂度及其求解算法．文献［２０］研究了条件包含依传统的数据完整性研究工作一般都建立在封闭
赖的推理问题和可满足问题的计算复杂度及其求解世界假设开放世界假设的基础上．封闭世界假设表
算法．文献［２３］给出了条件函数依赖和条件包含依示数据库包含了所有表述现实世界实体的元组，这
赖的详细综述．些元组的某些属性值可能遗缺．开放世界假设表示
文献［２１］针对条件函数依赖无法描述“并”语义数据库中不仅属性值可能遗失，表示现实世界实体
的问题，提出了扩展的条件函数依赖，并证明了扩展的元组也可能完全遗缺．然而，表示现实世界的数据
的条件函数依赖的推理和可满足等问题与条件函数库经常既不是完全封闭的，也不是完全开放的．基于
依赖的对应问题具有相同的计算复杂度．这个考虑，文献［３５］针对元组遗失问题，提出了相对
文献Ｅ２４］在有时间戳的数据上提出了序列依赖完整性理论来表述数据库相对于给定的主数据和查
语义规则，用来描述随时间变化数据的一致性约束，询的完整性，研究了如下问题的计算复杂性：１）给
试图解决随时间变化数据的一致性错误的发现和修定主数据和查询，判定一个数据库是否是完全的；
复问题．２）给定主数据和查询，判定是否存在一个数据库相
文献［２５］针对异构数据源中由数据格式不一致对给定的主数据和查询是完整的．文献［３６］扩展了
引发的一致性错误，利用描述属性值相似性测度扩文献［３５］的研究结果，使之也适用于元组的属性遗
充了函数依赖，用来描述异构数据的一致性约束，发失问题．
现和修复异构数据的一致性错误．文献［３７—３８］将传统的完整性理论扩展到ＸＭＬ
文献［２６］研究了如何从数据中有效地发现条件数据上，研究了如何表示不完整ＸＭＬ数据的问题．
函数依赖规则的问题，提出了一种具有剪枝能力搜２．２。３数据精确性的理论体系
索算法，有效地发现条件函数依赖．针对同样的问数据精确性方面的研究工作目前还非常少见，
题，文献［２７］提出了另外４种算法，更有效地解决了只有文献［３９］把不确定性视为精确度低的现象，提
条件函数依赖发现问题．出了一种基于可能世界语义的数据精确性描述方
２）基于统计学的数据一致性描述方法法，并给出了对应的精确性评估算法．
文献［２８］利用统计模型来描述数据的一致性，２．２．４数据时效性的理论体系
并通过求解和比较模型参数的方法来发现和修复数数据时效性和时态数据库的研究是不同的．时
据不一致性错误．态数据库主要研究如何查询带有时间戳的信息和如
文献［２９］提出了基于统计知识的数据不一致性何描述时间约束［４”４１Ｉ．在实际应用领域，时间戳信息
描述方法，并给出了基于超团的数据一致性提升算法．经常未知或不完全［４２’４“．于是，数据时效性研究的目
２．２．２数据完整性的理论体系的是在时间戳信息不存在或不完全的条件下，建立
传统的完整性研究可以追溯到２０世纪８０年代数据时效的理论体系，解决数据时效性的判定问题、
开始的对数据库中“ｎｕｌｌ”语义的扩展讨论．早期研数据时效性错误的自动发现和修复问题．
究大多关注于如何在数据库中表述缺失数据［３…．文献［４４］提出了一个数据时效性模型，用基于
最经典的工作当属基于条件表（ｃｏｎｄｉｔｉｏｎａｌ规则的方法描述同一实体对应的不同元组的属性值
万方数据
的时序关系，提出基于实体的最新值的查询语义，并学习方法来研究获取实体同一性描述规则的方法．
给出了应用时序关系和拷贝关系推导实体最新信息文献［６２３介绍了一个基于规则的系统，解决了
的推理机制．基于这个模型和时效性查询语义，文献半结构化数据上的实体同一性的判定问题．
［４４３给出了回答用户查询的计算复杂性，并研究了文献Ｅ６３］定义了图数据的实体同一性问题，并
在实体最新值缺失的情况下如何扩展拷贝关系以找基于合并节点、增删边、标记节点等操作，提出了描
到实体的最新值．述实体同一性的方法．
２．２．５数据实体同一性的理论体系文献［６４—６７３在数据上提出了一系列新的图模
实体同一性是数据可用性方面研究最多的一个式的定义、标准和匹配算法，新的图模式描述方法可
维度．最早的工作来自于文献［４５３．文献［４６３从统计以用来描述图结构数据上的实体同一性．
学角度，形式化地定义了实体同一性错误检测的问２）基于相似性测度的实体同一性描述方法
题．文献［４７—４８３在数据库领域较早地提出了识别实设Ｅ是实体集合，Ｅ中两个实体的相似性测度
体同一性错误的问题．文献［４９—５１］等给出了实体同是一个函数Ｓ：Ｅ×Ｅ一［ｏ，１］．对于Ｖｚ，Ｙ∈Ｅ，
一性研究的综述．以下，我们依据描述实体同一性的
５（ｚ，ｙ）越大，ｚ和Ｙ就越可能是相同实体．一般来
不同方法来介绍实体同一性的研究进展．说，相似性函数的输出值高于某个阈值时，则判定两
１）基于语义规则的实体同一性描述方法
个实体相同．
这类方法的大致思想是利用经验知识来给出解
文献［６８—６９３是较早地提出利用字符串属性值
决实体同一性问题的准则．
上定义的距离测度来描述实体同一性的工作．
文献［５２３提出了一个简单的方法，即通过比较
文献［７０ｌ利用信息检索领域中的ｔｆ．ｉｄｆ相似性
表示实体的不同关系元组的主键来确定这些元组是
度量方法扩展了基于字符串的相似性测度，提出了
否指代同一实体．当元组主键缺失时，利用函数依赖
描述实体同一性的另一种方法．
补齐元组中缺失的主键值．
为了更有效地计算实体间的相似性，文献Ｅ７１］
文献［４７—４８３提出了基于等值理论的规则来推
研究了实体间相似性判定的问题，基于如下思想：如
导元组中属性值之间的等价关系，用一组关系属性
果Ａ和Ｂ都经常与其他同一组元素一起出现，则Ａ
来描述实体同一性，通过比较多个关系元组中某些
与Ｂ的相似性较高，提出一种新的描述实体同一性
属性的值是否同时等价来判定这些元组是否指代同
的相似性测度的定义．
一实体．
文献［７２３利用聚簇的思想，提出了一种新的描
文献［５３—５４］给出了一个基于字符串转换规则
述实体同一性的方法．
的框架，利用字符串之间的转换关系描述属性值之
文献［７３］基于合并“ｒａｎｋｅｄｌｉｓｔ”方法，提出了
间的等价关系，进而描述实体同一性．文献［５５］研究
一种综合考虑多个属性的相似性测度的实体同一性
了如何从例子中学习字符串转换规则，从而得到描
度量方法．
述实体同一性的规则．文献［５６３在此框架下，进一步
考虑元组之间的关系，提出了一个基于逻辑编程的文献Ｅ７４３基于机器学习方法，提出了结合多个
方法来描述实体同一性．属性相似性测度描述实体同一性的方法．
文献［５７３提出用否定规则描述实体同一性，并文献［７５３利用基于马尔科夫链的方法，提出描
针对否定规则对实体同一性的影响进行了研究．述实体同一性的相似性测度．
文献［５８３提出了用聚集约束来描述实体同一性文献［７６—７７３基于滑动窗口和“ｇｒａｍ”概念，描述
的方法．ＸＭＬ节点之间的相似性．我们可以用这样的相似性
文献［５９］首次形式化地提出了实体同一性描述测度来描述ＸＭＬ数据上的实体同一性．
规则，系统地研究了给出的规则的推理问题，使得用文献［７８３研究了从文本数据中抽取实体的问
来描述实体同一性的规则不再是松散的集合，而是题，利用编辑距离来描述实体同一性．
可以相互配合相互推理，提高了此类方法描述实体文献Ｅ７９］考虑ＲＦＩＤ数据中的实体同一性问题，
同一性的能力．文献［６０］进一步在动态语义下研究提出了描述ＲＦＩＤ数据实体同一性的ＲＰＣＶ方法．
实体同一性规则的相互作用及推理问题．２．２．６不同可用性维度的相互作用
文献Ｅ６１］结合期望最大化（ＥＭ）算法和无监督目前的研究把数据的一致性、精确性、完整性、
万方数据
时效性、实体同一性分离，把每个特性视为一个独立２．３．１一致性错误的自动检测
领域，进行孤立的研究．然而，这些特性交互影响，任基于函数依赖和条件函数依赖，文献Ｅ８２～８３］针
何可用性管理系统必须具有同时确保数据一致性、对集中存储的关系数据库，使用ＳＱＬ语言设计了自
精确性、完整性、时效性、实体同一性的能力．我们需动检测算法，用于查找违反条件函数约束和条件包
要提出一个统一的逻辑框架来解决这个问题．但目含约束的元组．文献Ｅ８４］研究了在分布式环境下检
前还未有深入的研究结果，文献Ｅｓｏ］从管理学角度测数据一致性错误的问题，目标是最小化数据通信
对各个特性出现的实例作了基本的介绍，但没有开量．文献Ｅ８５］给出了一种增量式的分布式数据库中
展深入的研究，文献［８１］探讨了数据修复和元组匹数据一致性错误的检测方法．
配的交互影响，基于条件函数约束和匹配约束，提出２．３．２实体同一性错误的自动检测
了一个同时支持数据修复和实体识别的信息清洗框实体同一性错误是指在数据库中存在描述同一
架．在这方面有很多重要的研究问题还未被考虑，有个现实世界实体的行个（以＞１）数据元组．于是，实体
大量的挑战性问题有待解决．同一性错误检测的关键是识别数据库中相似实体，
２．２．７小结简称实体识别．实体识别方面的研究工作很多，趋
数据一致性方面的研究工作主要关注集中方式于成熟．以下，我们分４个方面介绍实体识别的研究
存储的关系数据，分布式存储的关系数据和非关系进展．
数据的一致性理论工作还很少，适用于大数据的数１）以最大化识别精度为目标的实体识别方法
据一致性相关技术还需要进一步探索．最大化实体识别精度是实体识别研究的主要目
数据完整性方面的研究工作很少．针对传统的标之一，围绕这个目标人们开展了大量研究。
完整性假设有了一些模型和相关问题的理论结果，文献Ｅ８６］利用字符串等价关系词典的精确信
但是这些结果对于很多实际应用无意义．为此，人们息，计算实体之间的相似性，提高了实体识别的精
开始研究具有普遍实际应用价值的完整性理论和方度．
法，但是目前只有相对完整性方面的初步结果．我们文献［８７３提出了描述实体之间关系的统计模
还需要建立更一般形式的完整性理论，开展更深入型，提高了实体识别的精度，并给出了高精度的实体
的研究．识别算法．
数据精确性方面的研究工作基本上是空白，亟在基于统计学的实体识别方法中，参数设置错
需深人研究．误和训练数据缺失会导致检测结果的不准确．针对
数据时效性方面的研究工作非常少，只有针对这类问题，文献Ｅ８８］提出了一种两阶段的统计学方
特殊应用的少量研究结果，亟需深入系统地研究．法，完成实体识别，提高了实体识别的精度．
实体同一性方面的研究工作主要针对关系数文献［８９—９０］提出了利用机器学习方法提高实
据．关系数据上实体同一性研究已基本趋向成熟，但体同一性检测精度的方法．
是复杂结构数据、半结构化数据、非结构化数据等非文献Ｅ９１］提出了ＣｏｌｌｅｃｔｉｖｅＥｎｔｉｔｙＭａｔｃｈｉｎｇ的
关系数据上的实体同一性方面的研究还很少见，尚模型．该模型不仅利用元组之间的相似信息和元组
需深人研究．同现的频度信息，还充分考虑了元组检测结果之间
总之，目前大数据的可用性方面的研究工作尚的影响，利用检测的中间结果进行综合推理，提高了
处于起步阶段．目前的工作主要针对一致性和实体实体识别的精度．
同一性开展了较为深入的研究，各个特性之间彼此２）以最大化识别效率为目标的实体识别方法
的关系还没有较为深入地探讨．非关系数据以及分降低实体识别算法的时间复杂性是实体识别研
布式存储数据的可用性研究工作还很少．究的另一个主要目标．虽然人们在这方面作出了巨
２．３数据错误自动检测与修复大努力，但是现有的实体识别算法的最坏情况的时
数据错误的自动检测研究主要集中在一致性错间复杂度皆为ｎ（押２）．
误和实体同一性错误两个方面．数据错误自动修复为了改进实体识别的效率，文献Ｅ４８］较早地提
研究则主要集中在一致性错误、完整性错误和实体出了数据分块处理的思想．在文献［４８］的方法中，首
同一性错误３个方面．下面，我们分５个方面来综述先，元组被按照不同的属性值单独排序，然后，利用固
数据错误自动检测与修复的研究进展．定长度的窗口顺序扫描每一个元组序列，并在窗口
万方数据
内部对实体进行匹配操作，最后将多个属性上的匹的实体识别效率．
配结果合并得到最后的实体识别结果．假设窗１３大文献Ｅ９９］针对实际应用中用户所需数据仅占全
小为Ｌ，元组数目为以，该方法能够将实体识别的代部数据很小比例的情况，解决了在返回查询结果的
价从０（咒２）降至Ｏ（Ｌ×以），在实际应用中会大大提同时给出实体识别结果的问题．该方法利用“边查询
高实体识别的效率．然而，在保证实体识别精度的情边识别实体”的思想，仅在与查询结果涉及的实体相
况下，Ｌ的最坏情况是咒，因此算法的最坏时间代价关的元组上运行识别算法，在较小地降低查询执行
仍然是０（行２）．效率的前提下提高了实体识别方法的效率．
聚簇是实体识别的常用方法，然而聚簇算法的文献［１００］针对实体识别结果相互影响的问题，
代价通常都比较高，并且随输入大小的增加，聚簇算基于实体识别规则的动态语义，考虑识别规则之间
法的代价增长非常快．文献［９２］利用数据分块处理的关系，提出了一种增量式的实体识别方法，提高了
的思想，将元组分块按照某些属性值的不同分为独识别效率．
立的块，然后在每个块内单独运行聚簇算法，最后把大多数应用都假设属性值是字符串，因此，提高
块上的聚簇结果合并得到实体识别的结果．文献基于字符串的相似性匹配的效率是提高实体识别效
［９２］中的方法降低了每次调用的聚簇算法的时间代率的重要方法．文献［１０１］较早地提出了基于字符串
价，整体上提高了基于聚簇方法的实体识别算法的相似性的实体识别中的优化问题，并给出了初步的
效率．优化算法．文献［１０Ｚ］对关系数据上基于字符串相似
文献［９３］针对数据规模比较大的情况，提出了性匹配的实体识别问题作进一步的抽象，提出了“相
基于Ｈａｓｈ函数将数据分块的方法，并给出了对应似连接”和“相似查询”操作，并将其作为数据库的一
的实体识别算法，改进了实体识别过程的效率．个基本操作来研究．文献［１０３］提出了利用倒排索引
文献［９４］对两种实际中经常用到的数据分块方加速相似查询的方法，并且针对索引占用空间大的问
法进行了形式化地描述并进行了分析对比．其中，一题，给出了缩减索引空间代价的方法，提高了实体识
种是利用简单的策略（例如随即选取的Ｈａｓｈ函数）别的效率．文献［１０４］针对相似连接问题，将字符串
将数据划分，另一种是利用某些语义信息（例如基于的相似性计算转化为集合的相似连接问题，并提出
属性值的描述性规则）将数据划分块．在对比中，从了集合的相似连接操作的算法，给出了基于字符串前
实体识别的时间效率角度来看，第２种方法具有明缀、后缀的过滤方法，提高了基于相似连接的实体识
显的优势．然而，实际应用中要找到具有适合语义信别方法的效率．文献［１０５］针对变长字符串，提出了
息的规则是非常困难的，有时甚至是不存在的．基于变长字符串搜索的方法解决长字符的相似查询
文献［９５］提出了一种基于机器学习的数据分块问题，提高了属性值为长字符串情况下的实体识别问
策略来改进实体识别的效率．题．文献［１０６—１０８］研究了基于ｎ—ｇｒａｍ的近似字符
通常，实际中采用的数据分块方法并不能保证串匹配问题，其基本思想是在字符串上建立咒一ｇｒａｍ
块间数据的独立性．在这种情况下，分块方法在提高索引，将字符串之间的距离转化为对应咒一ｇｒａｍ交集
实体识别效率的同时，也降低了实体识别的精度．为的数量，然后基于行一ｇｒａｍ的集合语义给出高效的相
了解决这个问题，文献［９６］基于增量计算的思想，提似连接算法，从而改进了实体识别的效率．
出了迭代地实体识别方法．在每次迭代中，首先把上文献［１０９］研究了高维数据上实体识别问题，利
一次迭代计算得到的每个分块的实体识别结果传输用近似地计算高维数据相似性的思想，提出了ＬＳＳ
到其他块内，然后每个分块根据收到的更新结果增算法，并利用ＧＰＵ的特性给出了对应的高效实现
量式地计算各自块内的实体识别结果，这样的迭代方法．
计算一直进行直到结果不在改变或迭代次数达到给文献［１１０一１１１］针对半结构化数据的实体识别
定阈值．该方法在保证实体识别效率的前提下改进问题，基于同时匹配属性值和结构信息的思想，提出
了实体识别的结果精度．了一个基于树结构匹配的高效的实体识别算法．
文献［９７］比较全面地综述了实体识别方法中的３）实体识别系统的实现方法
各种数据分块策略．现有的研究工作已经提出了很多实体识别方
文献［９８］针对大数据的情况，基于数据分块计法，差别很大，要想在一个系统里同时运用这些方法
算的思想，利用云计算的环境来加速大规模数据上很难．文献［１１２］针对这个问题，提出了一个解决实
万方数据
体识别问题的通用系统框架，支持插入不同的构建性值来修复数据不一致错误的方法．该文给出了修
来定制实体识别方法，可以灵活地实现多个实体识复操作的代价模型，并给出了在这个模型下代价优
别方法的整合．化的数据一致性错误修复算法．
大多数已有的实体识别研究都是针对实体识别文献［１２４］针对由条件函数依赖所发现的数据
操作内部来进行优化，文献Ｅ１１３３对实体识别问题进一致性错误，证明了数据一致性错误的修复问题以
行了形式化的描述，把“比较”和“合并”等操作抽象及数据一致性错误增量式修复问题都是ＮＰ完全问
出来作为黑盒处理，给出了优化方法提高整个实体题，并设计了启发式近似算法自动修复数据的不一
识别过程的效率．致错误．
文献［１１４３把实体识别涉及的操作看作黑盒，把在某些情况下，用户能够给出一些修复后数据
实体识别过程抽象为代数操作序列，解决了在操作的正确性描述（基于用户定义的强制性约束）．如果
执行顺序上的优化问题．该工作提出了一种基于用一个可能修复不满足这个描述，它就是不合理的．文
户示例驱动的方法，根据用户输入的实体识别过程献［１２５］针对这个问题，定义了一个由所有合理修复
示例，自动地生成与用户示例语义一致的最优实体构成的空间，并且给出了修复算法．
识别操作序列，提高了整个实体识别系统的效率．文献１－１２６３针对两个元组的修复不独立的情况，
不同的实体识别方法是往往针对不同的应用，给出了修复数据不一致错误的算法．
文献［１１５］提出通过集成多个实体识别方法来提高２）基于统计学的方法
实体识别精度的思想，提出了基于语义信息的多实文献Ｅ１２７］提出了一种基于概率的数据一致性
体识别方法集成的机制，提高了整个实体识别方法错误修复方法．该方法首先假定存在一个满足一致
的精度．性约束的合理修复的空间，然后依据合理修复的概
４）实体识别方法的测评率分布进行抽样，最后使用抽取出来的合理修复完
虽然实体识别的方法有很多，但很难对其进行成数据的修复．
综合、公平的比较．原因是没有公认的评测集，没有文献Ｅａ２ｓ一１３０］分别以ＲＦＩＤ和传感器网络为
公认的比较测度．这方面仅有一些初步的工作．背景，针对利用统计学定义的数据一致性错误，提出
文献Ｅ１１６］对比了各种基于字符串匹配的实体了修复数据一致性错误的方法．
识别的相似性度量．２．３．４实体同一性错误的自动修复
文献［１１７—１１８］提出了建立实体识别评测集的修复数据的实体同一性错误就是要把描述同一
问题，并给出了实现评测集的指导思想，但并没有给个现实世界实体的多个元组合并为一个单独的元
出具体的实现．组，从而为用户提供实体同一的信息．
文献［１１９—１２０Ｊ在真实数据上对比了各种实体文献１－１３１］利用数据融合技术，解决了实体同一
识别方法的效率．文献［１２１］较少了比较１１种不同性错误的修复问题．
实体识别方法的逻辑框架．数据的一次性修复会引起不可逆转的错误（即
文献Ｅ１２２３在实体识别结果和正确结果都给定失去的数据无法恢复）．文献Ｅ１３２３针对这个问题，提
的情况下，针对评价实体识别结果优劣的问题，提出出利用一系列修复取代一次性修复的思想，给出了
了一个基于“合并”和“分裂”操作的实体识别结果评利用参数控制的实体同一性错误修复方法，通过一
价测度，并给出了理论性分析．系列不同参数的修复，获得不同修复结果，最后把这
２．３．３一致性错误的自动修复些结果综合为最终的修复结果，避免了修复引起的
下面我们从两个方面综述目前已经提出的数据错误．
一致性错误自动修复的方法．文献［１３３－］提出了基于概率方法对查询结果中
１）基于语义规则的方法的实体同一性错误进行修复的方法，该方法通过改
文献１－４０Ｊ针对传统的函数依赖所发现的数据不写查询，将概率信息的计算加入到查询执行中，使得
一致错误，给出了基于删除元组的修复数据不一致查询结果中的实体一致性错误得到修复．
错误的方法．文献［－１３４－１介绍了一个实体同一性错误修复系统．
文献Ｅ１２３３针对传统的函数依赖和包含依赖规文献１－１３５—１３６］提出了一种基于传统的聚簇方
所发现的数据不一致错误，提出了通过修改元组属法的实体同一性错误修复方法，并给出了基于统计
万方数据
信息的算法优劣衡量标准．在基于聚簇方法修复实处于萌芽阶段，仅针对一些特定的问题提出了相应
体同一性错误的过程中，簇之间的阈值设置是一个的技术，针对大数据及更多可用性问题的深入研究
关键问题，文献Ｅ７２１考虑到不同元组应设置不同阈还有待开展．
值，提出了一种基于变化阈值的聚簇方法来提高实２．５弱可用数据上的的知识挖掘
体同一性错误修复的精度．在弱可用数据上的知识挖掘方面的工作还很少
大多数实体同一性错误修复的研究工作都假设见．但是近年来出现了针对不确定性数据的知识挖
实体的每个属性只有一个值．文献［１３７］研究了作这掘研究．
个假设不成立时的实体同一性错误修复问题，把实针对聚类问题，文献Ｅ１４５１提出了把不确定数据
体同一性错误的修复问题抽象成一个Ｋ部图上的的Ｋ—ｍｅａｎｓ和Ｋ—ｍｅｄｉａｎ计算转换为确定数据的加
聚簇问题，并提出了基于爬山和贪心的两种启发式权计算的方法．文献Ｅ１４６］贝０提出了不确定数据上的
实体同一性错误修复方法。聚类算法ＦＤＢＳＣＡＮ．
２．３．５实体完整性错误的自动修复针对频繁项集挖掘问题，文献［１４７—１４８］提出了
数据完整性的修复工作比较少，只有文献［１３８１不确定数据频繁模式挖掘方法．
针对两种特殊类型的应用（年龄推断和感知数据的针对图数据的不精确或者不完整，文献［１４９１给
补齐），提出了一种基于概率模型解决缺失数据值估出了一个“劣质”图数据的模型，定义了基于期望的
计方法．图挖掘问题，证明了该问题是ＮＰ难的，并且给出了
２．３．６小结有效的近似算法求解该问题．文献［１５０—１５１１考虑了
在数据错误的自动检测方面，现有的工作主要基于概率的不确定图语义，重新定义了频繁子图挖
针对一致性和实体同一性展开研究，其他可用性维掘问题，并证明了这个问题的＃Ｐ一完全性，提出了求
度上的错误自动检测方法有待研究，缺乏针对各个解该问题的随机算法．文献［１５２３提出劣质图数据
可用性维度的适应于大数据的实用技术，缺乏对数上的ｔｏｐ—ｋ最大团挖掘算法．文献［１５３］研究了劣质
据库整体可用性评估度量的理论及方法；在数据错图数据上考虑可靠的聚簇问题．文献Ｅ１５４］研究了劣
误自动修复方面，已有的工作主要是针对一致性和质图数据上带约束条件的可达性查询问题．
实体同一性错误的修复，其他维度上面的修复技术在知识演化问题上，文献［１５５３提出一种在数据
基本没有，并且缺乏适用于大数据的自动修复技术，社区中建立知识演化系统的方法．文献Ｅ１５６］提出了
缺乏对修复后数据的可用性的判别理论及方法．基于社区用户协同的知识演化方法．文献Ｅ１５７３提出
２．４弱可用数据的近似计算了基于遗传算法的弱可用数据上的知识演化方法．
弱可用数据是指包含错误的数据．弱可用数据文献［１５８１提出了从弱可用数据中挖掘规则的方法．
近似计算方面的研究工作在多个数据可用性维度上文献［１５９］针对不确定的类别数据，提出了直接在弱
都有初步的探讨，但缺乏深入系统的研究．下面，我可用数据上挖掘频繁模式的算法。
们根据可用性维度分类探讨这些工作．小结：大数据上的知识发现和知识演化的研究
在数据不一致的情况下，文献［１３９—１４０１提出了主要关心数据的不确定问题，很少关心可用性问题，
简单不一致数据上的查询处理方法，即利用约束条尤其缺乏弱可用数据上的知识发现和知识演化的研
件形成的子查询，改写原始查询，使改写后的查询能究．在以可用性为基础的知识发现和知识演化研究
够适应数据的不一致性错误，在不一致的数据上求方面，几乎所有问题都尚待解决．
解查询结果．
在数据不完整的情况下，文献Ｄ４１—１４２］研究了３结论
如何从不完整的数据库中找到“完整”的用户查询结
果的问题．文献［１４３］提出了在不完整数据上进行大数据可用性的研究工作刚刚启动，处于起步
Ｓｋｙｌｉｎｅ查询的算法．阶段．现有的研究工作主要局限在集中式存储的关系
在数据的实体同一性错误存在的情况下，文献数据的一致性和实体同一性这两个方面，少数工作
［１４４］针对联机分析处理操作，提出了直接在劣质数涉及到关系数据的时效性和完整性，数据的精确性
据上执行联机分析处理的方法．还无人问津，弱可用数据上的近似计算和知识挖掘
小结：弱可用数据上的近似计算理论及技术还还很少见，现有的数据错误检测与修复算法不适于
万方数据
李建中等：大数据的一个重要方面：数据可用性１１５７
大数据．特别值得注意的是，针对复杂类型、半结构［１３］ＤｏｎｇＸＬ，Ｂｅｒｔｉ—ＥｑｕｉｌｌｅＬ，ＨｕＹｉｆａｎ，ｅｔａ１．Ｓｏｌｏｍｏｎ：
Ｓｅｅｋｉｎｇｔｈｅｔｒｕｔｈｖｉａｃｏｐｙｉｎｇｄｅｔｅｃｔｉｏｎ［Ｊ］．Ｐｒｏｃｅｅｄｉｎｇｓｏｆ

化、非结构化等非关系数据的可用性研究基本为零．
ｔｈｅＶＬＤＢＥｎｄｏｗｍｅｎｔ，２０１０，３（１１２）：１６１７—１６２０
总之，我们需要针对集中式和分布式存储的关
［１４］ＤｏｎｇＸＬ，ＮａｕｍａｎｎＦ．Ｄａｔａｆｕｓｉｏｎ：ｒｅｓｏｌｖｉｎｇｄａｔａｃｏｎｆｌｉｃｔｓ
系大数据和非关系大数据，系统深入地开展大数据ｆｏｒｉｎｔｅｇｒａｔｉｏｎ［ｊ］．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＶＬＤＢＥｎｄｏｗｍｅｎｔ，
可用性研究，提出大数据可用性的完整理论体系、高２００９，２（２）：１６５４—１６５５
［１５３ＣｈｅｎｇＳｉｙａｏ，ＬｉＪｉａｎｚｈｏｎｇ．Ｓａｍｐｌｉｎｇｂａｓｅｄ（ｅ，８）一

质量大数据获取的理论和方法、有效的大数据错误
ａｐｐｒｏｘｉｍａｔｅａｇｇｒｅｇａｔｉｏｎａｌｇｏｒｉｔｈｍｉｎｓｅｎｓｏｒｎｅｔｗｏｒｋｓ［ｃ］／／
自动发现和自动修复的算法、弱可用大数据的近似
ＰｒｏｅｏｆＩＥＥＥＩＣＤＣＳｌ０９．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２００９：２７３—
计算理论和算法以及弱可用大数据的知识挖掘理论２８０
和算法．［１６］ＬｉＪｉａｎｚｈｏｎｇ，ＣｈｅｎｇＳｉｙａｏ．（￡，８）一ａｐｐｒｏｘｉｍａｔｅａｇｇｒｅｇａｔｉｏｎ
ａｌｇｏｒｉｔｈｍｓｉｎｄｙｎａｍｉｃｓｅｎｓｏｒｎｅｔｗｏｒｋｓ［Ｊ］．ＩＥＥＥＴｒａｎｓｏｎ
ＰａｒａｌｌｅｌａｎｄＤｉｓｔｒｉｂｕｔｅｄＳｙｓｔｅｍｓ。２０１２，２３（３）：３８５—３９６

参考文献
［１７］ＣｈｅｎｇＳｉｙａｏ，ＬｉＪｉａｎｚｈｏｎｇ，ＣａｉＺｈｉｐｅｎｇ．ｏ（￡）一ａｐｐｒｏｘｉｍａｔｉｏｎ
ｔｏ
ｐｈｙｓｉｃａｌｗｏｒｌｄｂｙｓｅｎｓｏｒｎｅｔｗｏｒｋｓ［ｃ］／／ＰｒｏｃｏｆＩＥＥＥ
［１］ＲｅｄｍａｎＴ．Ｔｈｅｉｍｐａｃｔｏｆｐｏｏｒｄａｔａｑｕａｌｉｔｙｏｎｔｈｅｔｙｐｉｃａｌ

ＩＮＦＯＣＯＭ’１３．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２０１３：３１８４－３１９２
ｅｎｔｅｒｐｒｉｓｅ［Ｊ］．ＣｏｍｍｕｎｉｃａｔｉｏｎｓｏｆｔｈｅＡＣＭ，１９９８，４１（２）：
［１８］ＣｈｅｎｇＳｉｙａｏ，ＬｉＪｉａｎｚｈｏｎｇ，ＬｉｕＹｕ．Ｌｏｃａｔｉｏｎａｗａｒｅｐｅａｋ
７９－８２
ｖａｌｕｅｑｕｅｒｉｅｓｉｎｓｅｎｓｏｒｎｅｔｗｏｒｋｓ［ｃ］／／ＰｒｏｃｏｆＩＥＥＥ
［２３ＭｉｌｌｅｒＤＷ，ＹｅａｓｔＪＤ，ＥｖａｎｓＲＬ．Ｍｉｓｓｉｎｇｐｒｅｎａｔａｌｒｅｃｏｒｄｓ

ＩＮＦＯＣＯＭ’１２．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２０１２：４８６－４９４
ａｔａｂｉｒｔｈｃｅｎｔｅｒ：Ａｃｏｍｍｕｎｉｃａｔｉｏｎｐｒｏｂｌｅｍｑｕａｎｔｉｆｉｅｄ［ｃ］／／［１９］ＢｏｈａｎｎｏｎＰ，ＦａｎＷｅｎｆｅｉ，ＧｅｅｒｔｓＦ，ｅｔａ１．Ｃｏｎｄｉｔｉｏｎａｌ
ＰｒｏｃｏｆＡＭＩＡＡｎｎｕａｌＳｙｍｐＰｒｏｃｅｅｄｉｎｇｓ．Ｍａｒｙｌａｎｄ：ｆｕｎｃｔｉｏｎａｌｄｅｐｅｎｄｅｎｃｉｅｓｆｏｒｄａｔａｃｌｅａｎｉｎｇＥｃ］／ＰｒｏｃｏｆＩＥＥＥ
ＡｍｅｒｉｃａｎＭｅｄｉｃａｌＩｎｆｏｒｍａｔｉｃｓＡｓｓｏｃｉａｔｉｏｎ，２００５：５３５—５３９

ＩＣＤＥ’０７．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２００７：７４６－７５５
Ｉ－３］ＳｗａｒｔｚＮ．Ｇａｒｔｎｅｒｗａｒｎｓｆｉｒｍｓｏｆ‘ｄｉｒｔｙｄａｔａ’［Ｊ］．［２０］ＢｒａｖｏＬ，ＦａｎＷｅｎｆｅｉ，ＭａＳｈｕａｉ．Ｅｘｔｅｎｄｉｎｇｄｅｐｅｎｄｅｎｃｉｅｓ
ＩｎｆｏｒｍａｔｉｏｎＭａｎａｇｅｍｅｎｔＪｏｕｒｎａｌ，２００７，４１（３）：６ｗｉｔｈｃｏｎｄｉｔｉｏｎｓ［ｃ］／Ｐｒｏｃｏｆｔｈｅ３３ｒｄＩｎｔＣｏｎｆｏｎＶｅｒｙ
Ｅ４３ＫｏｈｎＬＴ，ＣｏｒｒｉｇａｎＪＭ，ＤｏｎａｌｄｓｏｎＭＳ．ＴｏＥｒｒｉｓＬａｒｇｅＤａｔａｂａｓｅｓ．ＳａｎＦｒａｎｃｉｓｃｏ，ＣＡ：ＭｏｒｇａｎＫａｕｆｍａｎｎ，
Ｈｕｍａｎ：ＢｕｉｌｄｉｎｇａＳａｆｅｒＨｅａｌｔｈＳｙｓｔｅｍ［Ｍ］．Ｗａｓｈｉｎｇｔｏｎ：２００７：２４３—２５４
ＮａｔｉｏｎａｌＡｃａｄｅｍｉｅｓＰｒｅｓｓ，２０００［２１］ＢｒａｖｏＬ，ＦａｎＷｅｎｆｅｉ，ＧｅｅｒｔｓＦ，ｅｔａ１．Ｉｎｃｒｅａｓｉｎｇｔｈｅ
Ｅ５３ＥｃｋｅｒｓｏｎＷ．ＤａｔａＷａｒｅｈｏｕｓｉｎｇＳｐｅｃｉａｌＲｅｐｏｒｔ：Ｄａｔａｑｕａｌｉｔｙｅｘｐｒｅｓｓｉｖｉｔｙｏｆｃｏｎｄｉｔｉｏｎａｌｆｕｎｃｔｉｏｎａｌｄｅｐｅｎｄｅｎｃｉｅｓｗｉｔｈｏｕｔ
ａｎｄｔｈｅｂｏｔｔｏｍｌｉｎｅＪＲ］．ＡｐｐｌｉｃａｔｉｏｎｓＤｅｖｅｌｏｐｍｅｎｔＴｒｅｎｄｓ，

ｅｘｔｒａｃｏｍｐｌｅｘｉｔｙＥｃ］／ＰｒｏｃｏｆＩＥＥＥＩＣＤＥ’０８．Ｐｉｓｃａｔａｗａｙ，
２００２ＮＪ：ＩＥＥＥ，２００８：５１６－５２５
［２２］ＦａｎＷｅｎｆｅｉ，ＭａＳｈｕａｉ，ＨｕＹａｎｌｉ，ｅｔａ１．Ｐｒｏｐａｇａｔｉｎｇ

Ｅ６３ＥｎｇｌｉｓｈＬＰ．ＩｍｐｒｏｖｉｎｇＤａｔａＷａｒｅｈｏｕｓｅａｎｄＢｕｓｉｎｅｓｓ
ＩｎｆｏｒｍａｔｉｏｎＱｕａｌｉｔｙ：ＭｅｔｈｏｄｓｆｏｒＣｏｓｔｓａｎｄ

ｆｕｎｃｔｉｏｎａｌｄｅｐｅｎｄｅｎｃｉｅｓｗｉｔｈｃｏｎｄｉｔｉｏｎｓ［Ｊ］．Ｐｒｏｃｅｅｄｉｎｇｓｏｆ
Ｒｅｄｕｃｉｎｇ
ｔｈｅＶＬＤＢＥｎｄｏｗｍｅｎｔ，２００８，１（１）：３９１—４０７
ＩｎｃｒｅａｓｉｎｇＰｒｏｆｉｔｓ［Ｍ］．ＮｅｗＹｏｒｋ：Ｗｉｌｅｙ，１９９９
［２３３ＦａｎＷｅｎｆｅｉ．Ｄｅｐｅｎｄｅｎｃｉｅｓｒｅｖｉｓｉｔｅｄｆｏｒｉｍｐｒｏｖｉｎｇｄａｔａ
Ｅ７］ＷｏｏｌｓｅｙＢ，ＳｃｈｕｌｚＭ．Ｃｒｅｄｉｔｃａｒｄｓｔａｔｉｓｔｉｃｓ，ｉｎｄｕｓｔｒｙｆａｃｔｓ，
ｑｕａｌｉｔｙ［ｃ］／／Ｐｒｏｃｏｆｔｈｅ２７ｔｈＡＣＭＳＩＧＭＯＤＳＩＧＡＣＴ—
ｄｅｂｔｓｔａｔｉｓｔｉｃｓ［ＯＬ］．［２０１３一０４—２０］．ｈｔｔｐ：／ｗｗｗ．
ＳＩＧＡＲＴＳｙｍｐｏｎ
ＰｒｉｎｃｉｐｌｅｓｏｆＤａｔａｂａｓｅＳｙｓｔｅｍｓ．Ｎｅｗ
ｃｒｅｄｉｔｃａｒｄｓ．ｃｏｍ／ｃｒｅｄｉｔ—ｃａｒｄ—ｎｅｗｓ／ｃｒｅｄｉｔ—ｃａｒｄ—ｉｎｄｕｓｔｒｙ—ｆａｃｔｓ
Ｙｏｒｋ：ＡＣＭ，２００８：１５９－１７０
ｐｅｒｓｏｎａｌ—ｄｅｂｔ—ｓｔａｔｉｓｔｉｃｓ一１２７６．ｐｈｐ
［２４］ＧｏｌａｂＬ，ＫａｒｌｏｆｆＨ，ＫｏｒｎＦ，ｅｔａ１．Ｓｅｑｕｅｎｔｉａｌｄｅｐｅｎｄｅｎｃｉｅｓ
Ｅ８］ＳｈｉｌａｋｅｓＣ，ＴｙｌｍａｎＪ．ＥｎｔｅｒｐｒｉｓｅｉｎｆｏｒｍａｔｉｏｎｐｏｒｔａｌｓＪＲ］．
ＥＪ］．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＶＬＤＢＥｎｄｏｗｍｅｎｔ，２００９，２（１）：
ＮｅｗＹｏｒｋ：ＭｅｒｒｉｌｌＬｙｎｃｈ，１９９８
５７４－５８５
［９］ＲａｈｍＥ，ＤｏＨＨ．Ｄａｔａｃｌｅａｎｉｎｇ：Ｐｒｏｂｌｅｍｓａｎｄｃｕｒｒｅｎｔ
［２５］ＫｏｕｄａｓＮ，ＳａｈａＡ，ＳｒｉｖａｓｔａｖａＤ，ｅｔａ１．Ｍｅｔｒｉｅｆｕｎｃｔｉｏｎａｌ

ａｐｐｒｏａｃｈｅｓ口］．ＩＥＥＥＤａｔａＥｎｇｉｎｅｅｒｉｎｇＢｕｌｌｅｔｉｎ，２０００，２３
ｄｅｐｅｎｄｅｎｃｉｅｓ［ｃ］Ｉ／ＰｒｏｃｏｆＩＥＥＥＩＣＤＥ’０９，Ｐｉｓｅａｔａｗａｙ，ＮＪ：
（４）：３－１３
ＩＥＥＥ，２００９：１２７５一１２７８
［１０］ＤｏｎｇＸＬ，Ｂｅｒｔｉ—ＥｑｕｉｌｌｅＩ。，ＳｒｉｖａｓｔａｖａＤ，Ｉｎｔｅｇｒａｔｉｎｇ

［２６］ＣｈｉａｎｇＦ，ＭｉｌｌｅｒＲＪ．Ｄｉｓｃｏｖｅｒｉｎｇｄａｔａｑｕａｌｉｔｙｒｕｌｅｓ［Ｊ］．
ｃｏｎｆｌｉｃｔｉｎｇｄａｔａ：Ｔｈｅｒｏｌｅｏｆｓｏｕｒｃｅｄｅｐｅｎｄｅｎｃｅ［Ｊ］．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＶＬＤＢＥｎｄｏｗｍｅｎｔ，２００８，１（１）：１１６６一
ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＶＬＤＢＥｎｄｏｗｍｅｎｔ，２００９，２（１）：５５０—５６１１１７７
［ｉ１］ＤｕｎｇＸＬ，Ｂｅｒｔｉ—ＥｑｕｉｌｌｅＬ，ＳｒｉｖａｓｔａｖａＤ．Ｔｒｕｔｈｄｉｓｃｏｖｅｒｙ［２７］ＦａｎＷｅｎｆｅｉ，ＧｅｅｒｔｓＦ，ＬｉＪｉａｎｚｈｏｎｇ，ｅｔａ１．Ｄｉｓｃｏｖｅｒｉｎｇ
ａｎｄｃｏｐｙｉｎｇｄｅｔｅｃｔｉｏｎｉｎａｄｙｎａｍｉｃｗｏｒｌｄ［Ｊ］．Ｐｒｏｃｅｅｄｉｎｇｓｏｆｃｏｎｄｉｔｉｏｎａｌｆｕｎｃｔｉｏｎａｌｄｅｐｅｎｄｅｎｃｉｅｓ［Ｊ］．ＩＥＥＥＴｒａｎｓｏｎ
ｔｈｅＶＬＤＢＥｎｄｏｗｍｅｎｔ，２００９，２（１）：５６２—５７３

ＫｎｏｗｌｅｄｇｅａｎｄＤａｔａＥｎｇｉｎｅｅｒｉｎｇ，２０１Ｉ，２３（５）：６８３—６９８
［１２］ＤｏｎｇＸＬ，Ｂｅｒｔｉ—ＥｑｕｉｌｌｅＬ，ＨｕＹｉｆａｎ，ｅｔａ１．Ｇｌｏｂａｌｄｅｔｅｃｔｉｏｎ［２８］ＫｏｒｎＦ，ＭｕｔｈｕｋｒｉｓｈｎａｎＳ，ＺｈｕＹ．Ｃｈｅｃｋｓａｎｄｂａｌａｎｃｅｓ：
ｏｆｃｏｍｐｌｅｘｃｏｐｙｉｎｇｒｅｌａｔｉｏｎｓｈｉｐｓｂｅｔｗｅｅｎｓｏｕｒｃｅｓＥＪ］．Ｍｏｎｉｔｏｒｉｎｇｄａｔａｑｕａｌｉｔｙｐｒｏｂｌｅｍｓｉｎｎｅｔｗｏｒｋｔｒａｆｆｉｃｄａｔａｂａｓｅｓ
ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＶＬＤＢＥｎｄｏｗｍｅｎｔ，２０１０，３（１１２）：１３５８一［ｃ］／Ｐｒｏｃｏｆｔｈｅ２９ｔｈＩｎｔＣｏｎｆｏｎＶｅｒｙＬａｒｇｅＤａｔａｂａｓｅｓ．
】３６９ＳａｎＦｒａｎｃｉｓｃｏ，ＣＡ：ＭｏｒｇａｎＫａｕｆｍａｎｎ，２００３：５３６—５４７
万方数据
１１５８计算机研究与发展２０１３，５０（６）
［２９３ＸｉｏｎｇＨｕｉ，ＰａｎｄｅｙＧ，ＳｔｅｉｎｂａｃｈＭ，ｅｌａ１．Ｅｎｈａｎｃｉｎｇｄａｔａ［４６］ＦｅｌｌｅｇｉＩＰ，ＳｕｎｔｅｒＡＢ．Ａｔｈｅｏｒｙｆｏｒｒｅｃｏｒｄｌｉｎｋａｇｅ［Ｊ］．
ａｎａｌｙｓｉｓｗｉｔｈｎｏｉｓｅｒｅｍｏｖａｌ［Ｊ］．ＩＥＥＥＴｒａｎｓｏｎＫｎｏｗｌｅｄｇｅＪｏｕｒｎａｌｏｆｔｈｅＡｍｅｒｉｃａｎＳｔａｔｉｓｔｉｃａｌＡｓｓｏｃｉａｔｉｏｎ，１９６９。６４
ａｎｄＤａｔａＥｎｇｉｎｅｅｒｉｎｇ，２００６，１８（３）：３０４—３１９（３２８）：１１８３－１２１０
［３０３ｖａｎｄｅｒＭｅｙｄｅｎＲ．ＬｏｇｉｃａｌＡｐｐｒｏａｃｈｅｓｔｏＩｎｃｏｍｐｌｅｔｅ［４７］ＨｅｒｎｄｎｄｅｚＭＡ，ＳｔｏｌｆｏＳＪ．Ｔｈｅｍｅｒｇｅ］ｐｕｒｇｅｐｒｏｂｌｅｍｆｏｒ
Ｉｎｆｏｒｍａｔｉｏｎ：ＡＳｕｒｖｅｙ［Ｍ］．Ｂｅｒｌｉｎ：Ｓｐｒｉｎｇｅｒ，１９９８：３０７— ｌａｒｇｅｄａｔａｂａｓｅｓ［Ｊ］．ＰｒｏｃｏｆＡＣＭＳＩＧＭＯＤＲｅｃｏｒｄ，１９９５，
３５６２４（２）：１２７—１３８
［３１］ＧｒａｈｎｅＧ．ＴｈｅＰｒｏｂｌｅｍｏｆＩｎｃｏｍｐｌｅｔｅＩｎｆｏｒｍａｔｉｏｎｉｎ

［４８］ＨｅｒｎｄｎｄｅｚＭＡ，ＳｔｏｌｆｏＳＪ．Ｒｅａｌ—ｗｏｒｌｄｄａｔａｉｓｄｉｒｔｙ：Ｄａｔａ
ＲｅｌａｔｉｏｎａｌＤａｔａｂａｓｅｓ［Ｍ］．Ｂｅｒｌｉｎ：Ｓｐｒｉｎｇｅｒ，１９９１ｃｌｅａｎｓｉｎｇａｎｄｔｈｅｍｅｒｇｅ／ｐｕｒｇｅｐｒｏｂｌｅｍ［Ｊ］．ＤａｔａＭｉｎｉｎｇａｎｄ
［３２］ＩｍｉｅｌｉｆｌｓｋｉＴ，ＬｉｐｓｋｉＪｒＷ．Ｉｎｃｏｍｐｌｅｔｅｉｎｆｏｒｍａｔｉｏｎｉｎ

ＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙ，１９９８，２（１）：９－３７
ｒｅｌａｔｉｏｎａｌｄａｔａｂａｓｅｓ［Ｊ］．ＪｏｕｒｎａｌｏｆｔｈｅＡＣＭ（ＪＡＣＭ），
［４９］ＥｌｍａｇａｒｍｉｄＡＫ，ＩｐｅｉｒｏｔｉｓＰＧ，ＶｅｒｙｋｉｏｓＶＳ．Ｄｕｐｌｉｃａｔｅ
１９８４，３１（４）：７６１－７９１
ｒｅｃｏｒｄｄｅｔｅｃｔｉｏｎ：Ａｓｕｒｖｅｙ［Ｊ］．ＩＥＥＥＴｒａｎｓｏｎＫｎｏｗｌｅｄｇｅ
［３３］ＶａｒｄｉＭ．Ｏｎｔｈｅｉｎｔｅｇｒｉｔｙｏｆｄａｔａｂａｓｅｓｗｉｔｈｉｎｃｏｍｐｌｅｔｅ
ａｎｄＤａｔａＥｎｇｉｎｅｅｒｉｎｇ，２００７，１９（１）：卜１６
ｉｎｆｏｒｍａｔｉｏｎ［Ｃ］／Ｐｒｏｃｏｆｔｈｅ５ｔｈＡＣＭｓＩＧＡｃＴ—ＳＩＧＭＯＤ
［５０］ＢｒｉｚａｎＤＧ，ＴａｎｓｅｌＡＵ．Ａｓｕｒｖｅｙｏｆｅｎｔｉｔｙｒｅｓｏｌｕｔｉｏｎａｎｄ
ＳｙｍｐｏｎＰｒｉｎｃｉｐｌｅｓｏｆＤａｔａｂａｓｅＳｙｓｔｅｍｓ．ＮｅｗＹｏｒｋ：ＡＣＭ，
ｒｅｃｏｒｄｌｉｎｋａｇｅｍｅｔｈｏｄｏｌｏｇｉｅｓ［Ｊ］．Ｃｏｍｍｕｎｉｃａｔｉｏｎｓｏｆｔｈｅ
１９８５：２５２－２６６
ＩＩＭＡ，２００６，６（３）：４１－５０
［３４］ＧｏｔｔｌｏｂＧ，ＺｉｃａｒｉＲ．Ｃｌｏｓｅｄｗｏｒｌｄｄａｔａｂａｓｅｓｏｐｅｎｅｄｔｈｒｏｕｇｈ
［５１］ＫｏｕｄａｓＮ，ＳａｒａｗａｇｉＳ，ＳｒｉｖａｓｔａｖａＤ．Ｒｅｃｏｒｄｌｉｎｋａｇｅ：
ｎｕｌｌｖａｌｕｅｓ［Ｃ］／Ｐｒｏｃｏｆｔｈｅ１４ｔｈＩｎｔＣｏｎｆｏｎＶｅｒｙＬａｒｇｅ
Ｓｉｍｉｌａｒｉｔｙｍｅａｓｕｒｅｓａｎｄａｌｇｏｒｉｔｈｍｓ［ｃ］／／Ｐｒｏｃｏｆｔｈｅ２００６
Ｄａｔａｂａｓｅｓ．ＳａｎＦｒａｎｃｉｓｃｏ，ＣＡ：ＭｏｒｇａｎＫａｕｆｍａｎｎ，１９８８：
ＡＣＭＳＩＧＭＯＤＩｎｔＣｏｎｆｏｎ
ＭａｎａｇｅｍｅｎｔｏｆＤａｔａ．Ｎｅｗ
５０－６１
Ｙｏｒｋ：ＡＣＭ，２００６：８０２－８０３
［３５］ＦａｎＷｅｎｆｅｉ，ＧｅｍｓＦ．Ｒｅｌａｔｉｖｅｉｎｆｏｒｍａｔｉｏｎｃｏｍｐｌｅｔｅｎｅｓｓ
ＡＣＭＳＩＧＭＯｎｓＩＧＡｃＴ—ＳＩＧＡＲＴ［５２］ＬｉｍＥＰ，ＳｒｉｖａｓｔａｖａＪ，ＰｒａｂｈａｋａｒＳ，ｅｔａ１．Ｅｎｔｉｔｙ

［Ｃ］／／Ｐｒｏｃｏｆｔｈｅ２８ｔｈ
ｉｄｅｎｔｉｆｉｃａｔｉｏｎｉｎｄａｔａｂａｓｅｉｎｔｅｇｒａｔｉｏｎ［Ｊ］．Ｉｎｆｏｒｍａｔｉｏｎ

ＳｙｍｐｏｎＰｒｉｎｃｉｐｌｅｓｏｆＤａｔａｂａｓｅＳｙｓｔｅｍｓ．ＮｅｗＹｏｒｋ：ＡＣＭ，
Ｓｃｉｅｎｃｅｓ，１９９６，８９（１）：１－３８
２００９：９７－１０６
［３６３ＦａｎＷｅｎｆｅｉ．ＧｅｅｒｔｓＦ．Ｃａｐｔｕｒｉｎｇｍｉｓｓｉｎｇｔｕｐｌｅｓａｎｄｍｉｓｓｉｎｇ［５３］ＡｒａｓｕＡ，ＣｈａｕｄｈｕｒｉＳ，ＫａｕｓｈｉｋＲ．Ｔｒａｎｓｆｏｒｍａｔｉｏｎ－ｂａｓｅｄ
ｖａｌｕｅｓ［ｃ］／／Ｐｒｏｃｏｆｔｈｅ２９ｔｈＡＣＭｓＩＧＭＯＤｓＩＧＡｃＴ— ｆｒａｍｅｗｏｒｋｆｏｒｒｅｃｏｒｄｍａｔｃｈｉｎｇ［ｃ］／／ＰｒｏｃｏｆＩＥＥＥＩＣＤＥ’０８．
ＳＩＧＡＲＴＳｙｍｐｏｎＰｒｉｎｃｉｐｌｅｓｏｆＤａｔａｂａｓｅＳｙｓｔｅｍｓ．ＮｅｗＰｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２００８：４０－－４９
Ｙｏｒｋ：ＡＣＭ，２０１０：１６９—１７８［５４］ＡｒａｓｕＡ，ＫａｕｓｈｉｋＲ．Ａｇｒａｍｍａｒ－ｂａｓｅｄｅｎｔｉｔｙ
［３７］ＡｂｉｔｅｂｏｕｌＳ，ＳｅｇｏｕｆｉｎＬ，ＶｉａｎｕＶ．Ｒｅｐｒｅｓｅｎｔｉｎｇａｎｄｒｅｐｒｅｓｅｎｔａｔｉｏｎｆｒａｍｅｗｏｒｋｆｏｒｄａｔａｃｌｅａｎｉｎｇ［Ｃ］／］Ｐｒｏｃｏｆｔｈｅ
ｑｕｅｒｙｉｎｇＸＭＬｗｉｔｈｉｎｃｏｍｐｌｅｔｅｉｎｆｏｒｍａｔｉｏｎ口］．ＡｃＭＴｒａｎｓ２００９ＡＣＭＳＩＧＭＯＤＩｎｔＣｏｎｆｏｎＭａｎａｇｅｍｅｎｔｏｆＤａｔａ．Ｎｅｗ
ｏｎＤａｔａｂａｓｅＳｙｓｔｅｍｓ（ＴＯＤＳ），２００６，３１（１）：２０８—２５４Ｙｏｒｋ：ＡＣＭ，２００９：２３３—２４４
［３８］Ｂａｒｃｅｌ６Ｐ，ＬｉｂｋｉｎＬ，ＰｏｇｇｉＡ，ｅｔａ１．ＸＭＬｗｉｔｈｉｎｃｏｍｐｌｅｔｅ［５５］ＡｒａｓｕＡ，ＣｈａｕｄｈｕｒｉＳ，ＫａｕｓｈｉｋＲ．Ｌｅａｒｎｉｎｇｓｔｒｉｎｇ
ｉｎｆｏｒｍａｔｉｏｎ口］．ＪｏｕｒｎａｌｏｆｔｈｅＡＣＭ（ＪＡＣＭ），２０１０，５８ｔｒａｎｓｆｏｒｍａｔｉｏｎｓｆｒｏｍｏｆｔｈｅ

ｅｘａｍｐｌｅｓ口］．Ｐｒｏｃｅｅｄｉｎｇｓ
（１）：１－６２ＶＬＤＢＥｎｄｏｗｍｅｎｔ，２００９，２（１）：５１４－５２５
［３９］ＣｈｅｎｇＲ，ＣｈｅｎＪ，ＸｉｅＸ．Ｃｌｅａｎｉｎｇｕｎｃｅｒｔａｉｎｄａｔａｗｉｔｈ

［５６３ＡｒａｓｕＡ，Ｒ６Ｃ，ＳｕｃｉｕＤ．Ｌａｒｇｅ－ｓｃａｌｅｄｅｄｕｐｌｉｃａｔｉｏｎｗｉｔｈ
ｑｕａｌｉｔｙｇｕａｒａｎｔｅｅｓ［Ｊ］．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＶＬＤＢ

ｃｏｎｓｔｒａｉｎｔｓｕｓｉｎｇｏｆＩＥＥＥＩＣＤＥ’０９．
ｄｅｄｕｐａｌｏｇ［ｃ］／Ｐｒｏｃ
Ｅｎｄｏｗｍｅｎｔ，２００８，１（１）：７２２－７３５
Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２００９：９５２－９６３
［４０］ＣｈｏｍｉｃｋｉＪ，ＭａｒｃｉｎｋｏｗｓｋｉＪ．Ｍｉｎｉｍａｌ—ｃｈａｎｇｅｉｎｔｅｇｒｉｔｙ
［５７３ＷｈａｎｇＳＥ，ＢｅｎｊｅｌｌｏｕｎＯ，Ｇａｒｃｉａ—ＭｏｌｉｎａＨ．Ｇｅｎｅｒｉｃｅｎｔｉｔｙ
ｍａｉｎｔｅｎａｎｃｅｕｓｉｎｇｔｕｐｌｅｄｅｌｅｔｉｏｎｓ［Ｊ］．Ｉｎｆｏｒｍａｔｉｏｎａｎｄ
ｒｅｓｏｌｕｔｉｏｎｗｉｔｈｎｅｇａｔｉｖｅｒｕｌｅｓ［Ｊ］．ＴｈｅＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌ
Ｃｏｍｐｕｔａｔｉｏｎ，２００５，１９７（１）：９０—１２１
ｏｎＶｅｒｙＬａｒｇｅＤａｔａｂａｓｅｓ，２００９，１８（６）：１２６１—１２７７
［４１］ＳｃｈｗａｌｂＥ，ＶｉｌａＬ．Ｔｅｍｐｏｒａｌｃｏｎｓｔｒａｉｎｔｓ：Ａｓｕｒｖｅｙ［Ｊ］．
［５８］ＣｈａｕｄｈｕｒｉＳ，ＤａｓＳａｒｍａＡ，ＧａｎｔｉＶ，ｅｔａ１．Ｌｅｖｅｒａｇｉｎｇ
Ｃｏｎｓｔｒａｉｎｔｓ，１９９８，３（２／３）：１２９－１４９
ａｇｇｒｅｇａｔｅｃｏｎｓｔｒａｉｎｔｓｆｏｒｄｅｄｕｐｌｉｃａｔｉｏｎ［Ｃ］］／Ｐｒｏｃｏｆｔｈｅ２００７
［４２］ＺｈａｎｇＨａｏｐｅｎｇ，ＤｉａｏＹａｎｌｅｉ，ＩｍｍｅｒｍａｎＮ．Ｒｅｃｏｇｎｉｚｉｎｇ
ＡＣＭＳＩＧＭＯＤＩｎｔＣｏｎｆｏｎＭａｎａｇｅｍｅｎｔｏｆＤａｔａ．Ｎｅｗ
ｐａｔｔｅｒｎｓｉｎｓｔｒｅａｍｓｗｉｔｈｉｍｐｒｅｃｉｓｅｔｉｍｅｓｔａｍｐｓ［Ｊ］．
Ｙｏｒｋ：ＡＣＭ，２００７：４３７－４４８
ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＶＬＤＢＥｎｄｏｗｍｅｎｔ，２０１０，３（１）：２４４－２５５
［５９］ＦａｎＷｅｎｆｅｉ，ＪｉａＸｉｂｅｉ，ＬｉＪｉａｎｚｈｏｎｇ，ｅｔａ１．Ｒｅａｓｏｎｉｎｇａｂｏｕｔ
［４３３ＣｌｉｆｆｏｒｄＪ，ＤｙｒｅｓｏｎＣ，ＩｓａｋｏｗｉｔｚＴ，ｅｔａ１．Ｏｎｔｈｅｓｅｍａｎｔｉｃｓ
ｒｅｃｏｒｄｍａｔｃｈｉｎｇｒｕｌｅｓ［Ｊ］．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＶＬＤＢ
ｏｆ“ｎｏｗ”ｉｎｄａｔａｂａｓｅｓ［Ｊ］．ＡＣＭＴｒａｎｓｏｎＤａｔａｂａｓｅＳｙｓｔｅｍｓ
Ｅｎｄｏｗｍｅｎｔ，２００９，２（１）：４０７—４１８
（ＴＯＤＳ），１９９７，２２（２）：１７１－２１４
Ｗｅｎｆｅｉ，ＧｅｅｒｔｓＦ，ＷｉｊｓｅｎＪ．Ｄｅｔｅｒｍｉｎｉｎｇｔｈｅ［６０］ＦａｎＷｅｎｆｅｉ，ＧａｏＨｏｎｇ，ＪｉａＸｉｂｅｉ，ｅｔａ１．Ｄｙｎａｍｉｃ

［４４］Ｆａｎｃｕｒｒｅｎｃｙ
ｏｆｄａｔａ［Ｊ］．ＡＣＭＴｒａｎｓｏｎＤａｔａｂａｓｅＳｙｓｔｅｍｓ（ＴＯＤＳ），

ｃｏｎｓｔｒａｉｎｔｓｆｏｒｒｅｃｏｒｄｍａｔｃｈｉｎｇ口］．ＴｈｅＶＬＤＢＪｏｕｒｎａｌ，
２０１２，３７（４）：１—４６２０１１，２０（４）：４９５－５２０
［４５３ＮｅｗｃｏｍｂｅＨＢ，ＫｅｎｎｅｄｙＪＭ，ＡｘｆｏｒｄＳＪ，ｅｔａ１．Ａｕｔｏｍａｔｉｃ［６１３ＳｈｅｎＷ，ＬｉＸｉｎ，ＤｏａｎＡ．Ｃｏｎｓｔｒａｉｎｔ—ｂａｓｅｄｅｎｔｉｔｙｍａｔｃｈｉｎｇ
ｌｉｎｋａｇｅｏｆｖｉｔａｌｒｅｃｏｒｄｓ［Ｊ］．Ｓｃｉｅｎｃｅ，１９５９，１３０（３３８１）：９５４— ［ｃ］／／ＰｒｏｃｏｆｔｈｅＮａｔｉｏｎａｌＣｏｎｆｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．
９５９ＭｅｎｌｏＰａｒｋ，ＣＡ：ＡＡＡＩＰｒｅｓｓ，２００５：８６２－８６７
万方数据
李建中等：大数据的一个重要方面：数据可用性１１５９
［６２］ＷｅｉｓＭ，ＮａｕｍａｎｎＦ．ＤｏｇｍａｔｉＸｔｒａｃｋｓｄｏｗｎｄｕｐｌｉｃａｔｅｓｉｎ［７８］ＷａｎｇＷｅｉ，ＸｉａｏＣｈｕａｎ，ＬｉｎＸｕｅｍｉｎ，ｅｔａ１．Ｅｆｆｉｃｉｅｎｔ
ＸＭＬ［Ｃ］／Ｐｒｏｃｏｆｔｈｅ２００５ＡＣＭＳＩＧＭＯＤＩｎｔＣｏｎｆｏｎ

ａｐｐｒｏｘｉｍａｔｅｅｎｔｉｔｙｅｘｔｒａｃｔｉｏｎｗｉｔｈｅｄｉｔｄｉｓｔａｎｃｅｃｏｎｓｔｒａｉｎｔｓ
ＭａｎａｇｅｍｅｎｔｏｆＤａｔａ．ＮｅｗＹｏｒｋ：ＡＣＭ，２００５：４３１—４４２［ｃ］ｆ／Ｐｒｏｃｏｆｔｈｅ３５ｔｈＳＩＧＭＯＤＩｎｔＣｏｎｆｏｎＭａｎａｇｅｍｅｎｔｏｆ
［６３］ＧｅｔｏｏｒＬ．ＧｒａｐｈＩｄｅｎｔｉｆｉｃａｔｉｏｎ［Ｍ］．Ｂｅｒｌｉｎ：Ｓｐｒｉｎｇｅｒ，２０１０Ｄａｔａ．ＮｅｗＹｏｒｋ：ＡＣＭ，２００９：７５９—７７０
［６４］ＦａｎＷｅｎｆｅｉ，ＬｉＪｉａｎｚｈｏｎｇ，ＭａＳｈｕａｉ。ｅｔａ１．Ｇｒａｐｈ

［７９］ＦｅｒｒｅｉｒａＣｈａｖｅｓＬＷ，ＢｕｃｈｍａｎｎＥ，ＢＯｈｍＫ．Ｆｉｎｄｉｎｇ
ｈｏｍｏｍｏｒｐｈｉｓｍｒｅｖｉｓｉｔｅｄｆｏｒｇｒａｐｈｍａｔｃｈｉｎｇ［Ｊ］．ＰｒｏｃｅｅｄｉｎｇｓｍｉｓｐｌａｃｅｄｉｔｅｍｓｉｎｒｅｔａｉｌｂｙｃｌｕｓｔｅｒｉｎｇＲＦＩＤｄａｔａ［ｃ］／／Ｐｒｏｃ
ｏｆｔｈｅｖＬＤＢＥｎｄｏｗｍｅｎｔ，２０１０，３（１／２）：１１６１一１１７２ｏｆｔｈｅ１３ｔｈＩｎｔＣｏｎｆｏｎ
ＥｘｔｅｎｄｉｎｇＤａｔａｂａｓｅＴｅｃｈｎｏｌｏｇｙ．
［６５］ＦａｎＷｅｎｆｅｉ，ＬｉＪｉａｎｚｈｏｎｇ，ＭａＳｈｕａｉ，ｅｔａ１．Ｇｒａｐｈｐａｔｔｅｒｎ
ＮｅｗＹｏｒｋ：ＡＣＭ，２０１０：５０１－５１２
ｍａｔｃｈｉｎｇ：ｆｒｏｍｉｎｔｒａｃｔａｂｌｅｔｏ
ｐｏｌｙｎｏｍｉａｌｔｉｍｅ［Ｊ］．
［８０］ＢａｔｉｎｉＣ，ＳｃａｎｎａｐｉｅｃａＭ．ＤａｔａＱｕａｌｉｔｙ［Ｍ］．Ｂｅｒｌｉｎ：
ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＶＬＤＢＥｎｄｏｗｍｅｎｔ，２０１０，３（１／２）：２６４—
Ｓｐｒｉｎｇｅｒ，２００６
２７５
［８１］ＦａｎＷｅｎｆｅｉ，ＬｉＪｉａｎｚｈｏｎｇ，ＭａＳｈｕａｉ，ｅｔａ１．Ｉｎｔｅｒａｃｔｉｏｎ
［６６］ＦａｎＷｅｎｆｅｉ，ＬｉＪｉａｎｚｈｏｎｇ，ＬｕｏＪｉｚｈｏｕ，ｅｔａ１．Ｉｎｃｒｅｍｅｎｔａｌ
ｂｅｔｗｅｅｎｒｅｃｏｒｄｍａｔｃｈｉｎｇａｎｄｄａｔａｒｅｐａｉｒｉｎｇ［Ｃ］／／Ｐｒｏｃｏｆｔｈｅ
ｇｒａｐｈｐａｔｔｅｒｎｍａｔｃｈｉｎｇ［Ｃ］／ＰｒｏｃｏｆＡＣＭＳＩＧＭＯＤ．Ｎｅｗ
２０１１ＩｎｔＣｏｎｆｏｎＭａｎａｇｅｍｅｎｔｏｆＤａｔａ．ＮｅｗＹｏｒｋ：ＡＣＭ，
Ｙｏｒｋ：ＡＣＭ。２０１１：９２５—９３６
２０１１：４６９—４８０
［６７］ＦａｎＷｅｎｆｅｉ，ＬｉＪｉａｎｚｈｏｎｇ，ＷａｎｇＸｉｎ。ｅｔａ１．Ｑｕｅｒｙ
［８２３ＣｈｅｎＷ，ＦａｎＷ，ＭａＳ．Ａｎａｌｙｓｅｓａｎｄｖａｌｉｄａｔｉｏｎｏｆ
ｐｒｅｓｅｒｖｉｎｇｇｒａｐｈｃｏｍｐｒｅｓｓｉｏｎ［ｃ］／Ｐｒｏｃｏｆｔｈｅ２０１２ＩｎｔＣｏｎｆ
ｃｏｎｄｉｔｉｏｎａｌｄｅｐｅｎｄｅｎｃｉｅｓｗｉｔｈｂｕｉｌｔ—ｉｎｐｒｅｄｉｃａｔｅｓ［ｃ］／／Ｐｒｏｃ
ｏｎＭａｎａｇｅｍｅｎｔｏｆＤａｔａ．ＮｅｗＹｏｒｋ：ＡＣＭ，２０１２：１５７—１６８
ｏｆＤＥＸＡ’０９．Ｂｅｒｌｉｎ：Ｓｐｒｉｎｇｅｒ，２００９：５７６—５９１
［６８］ＭｏｎｇｅＡＥ，ＥｌｋａｎＣ．Ｔｈｅｆｉｅｌｄｍａｔｃｈｉｎｇｐｒｏｂｌｅｍ：
Ａｌｇｏｒｉｔｈｍｓａｎｄａｐｐｌｉｃａｔｉｏｎｓ［ｃ］／Ｐｒｏｃｏｆｔｈｅ２ｎｄＩｎｔＣｏｎｆｏｎ

［８３］ＦａｎＷｅｎｆｅｉ，ＧｅｅｒｔｓＦ，ＪｉａＸｉｂｅｉ，ｅｔａ１．Ｃｏｎｄｉｔｉｏｎａｌ
ｆｕｎｃｔｉｏｎａｌｄｅｐｅｎｄｅｎｃｉｅｓｆｏｒｃａｐｔｕｒｉｎｇｄａｔａｉｎｃｏｎｓｉｓｔｅｎｃｉｅｓ

ＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄＤａｔａＭｉｎｉｎｇ．ＭｅｎｌｏＰａｒｋ，ＣＡ：
ＡＡＡＩＰｒｅｓｓ，１９９６：２６７－２７０［Ｊ］．ＡＣＭＴｒａｎｓｏｎＤａｔａｂａｓｅＳｙｓｔｅｍｓ（ＴＯＤＳ），２００８，３３
［６９］Ａ，ＥｔｋａｎＣ．Ａｎｅｆｆｉｃｉｅｎｔ（２）：ｌ一４８

Ｍｏｎｇｅｄｏｍａｉｎ—ｉｎｄｅｐｅｎｄｅｎｔ
ａｌｇｏｒｉｔｈｍｆｏｒｄｅｔｅｃｔｉｎｇａｐｐｒｏｘｉｍａｔｅｌｙｄｕｐｌｉｃａｔｅｄａｔａｂａｓｅ［８４］ＦａｎＷｅｎｆｅｉ，ＧｅｅｒｔｓＦ，ＭａＳｈｕａｉ，ｅｔａ１．Ｄｅｔｅｃｔｉｎｇ
ｒｅｃｏｒｄｓ［ｃ］／ＰｒｏｃｏｆＲｅｓｅａｒｃｈＩｓｓｕｅｓｏｎＤａｔａＭｉｎｉｎｇａｎｄｉｎｃｏｎｓｉｓｔｅｎｃｉｅｓｉｎｄｉｓｔｒｉｂｕｔｅｄｄａｔａ［Ｃ］／［ＰｒｏｃｏｆＩＥＥＥ
ＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙ．Ｂｅｒｌｉｎ：Ｓｐｒｉｎｇｅｒ，１９９７：１—７ＩＣＤＥ’１０．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２０１０：６４—７５
［７０］ＣｏｈｅｎＷＷ．Ｄａｔａｉｎｔｅｇｒａｔｉｏｎｕｓｉｎｇｓｉｍｉｌａｒｉｔｙｊｏｉｎｓａｎｄａ

［８５］ＦａｎＷ，ＬｉＪ，ＴａｎｇＮ。ｅｔａ１．Ｉｎｃｒｅｍｅｎｔａｌｄｅｔｅｃｔｉｏｎｏｆ
ｗｏｒｄ—ｂａｓｅｄｉｎｆｏｒｍａｔｉｏｎｒｅｐｒｅｓｅｎｔａｔｉｏｎｌａｎｇｕａｇｅ［Ｊ］．ＡＣＭｉｎｃｏｎｓｉｓｔｅｎｃｉｅｓｉｎｄｉｓｔｒｉｂｕｔｅｄｄａｔａ［ｃ］／［ＰｒｏｃｏｆＩＥＥＥ
ＴｒａｎｓｏｎＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍｓ（ＴＯＩＳ），２０００，１８（３）：２８８— ＩＣＤＥ’１０．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２０１２：３１８—３２９
３２１［８６］ＣｈａｕｄｈｕｒｉＳ，ＧａｎｔｉＶ，ＸｉｎＤ．Ｍｉｎｉｎｇｄｏｃｕｍｅｎｔｃｏｌｌｅｃｔｉｏｎｓ
［７１］ＡｎａｎｔｈａｋｒｉｓｈｎａＲ，ＣｈａｕｄｈｕｒｉＳ，ＧａｎｔｉＶ．Ｅｌｉｍｉｎａｔｉｎｇｆｕｚｚｙｔｏｆａｃｉｌｉｔａｔｅａｃｃｕｒａｔｅａｐｐｒｏｘｉｍａｔｅｅｎｔｉｔｙｍａｔｃｈｉｎｇ［Ｊ］．
ｄｕｐｌｉｃａｔｅｓｉｎｄａｔａｗａｒｅｈｏｕｓｅｓ［ｃ］／Ｐｒｏｃｏｆｔｈｅ２８ｔｈＩｎｔＣｏｎｆ
ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＶＬＤＢＥｎｄｏｗｍｅｎｔ，２００９，２（１）：３９５—４０６
ｏｎＶｅｒｙＬａｒｇｅＤａｔａｂａｓｅｓ．ＳａｎＦｒａｎｃｉｓｃｏ，ＣＡ：Ｍｏｒｇａｎ［８７］ＳｈｕＬｉａｎｇｃａｉ，Ｌｏｎｇ１３０，ＭｅｎｇＷｅｉｙｉ．Ａｌａｔｅｎｔｔｏｐｉｃｍｏｄｅｌ
Ｋａｕｆｍａｎｎ，２００２：５８６—５９７ｆｏｒｃｏｍｐｌｅｔｅｅｎｔｉｔｙｒｅｓｏｌｕｔｉｏｎ［ｃ］／ＰｒｏｃｏｆＩＥＥＥＩＣＤＥ’０９．
［７２］ＣｈａｕｄｈｕｒｉＳ，ＧａｎｔｉＶ，ＭｏｔｗａｎｉＲ．Ｒｏｂｕｓｔｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆ

Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２００９：８８０—８９１
ｆｕｚｚｙｄｕｐｌｉｃａｔｅｓ［ｃ］／Ｐｒｏｃｏｆ１ＥＥＥＩＣＤＥ’０５．Ｐｉｓｃａｔａｗａｙ，
［８８］ＣｈｒｉｓｔｅｎＰ．Ａｕｔｏｍａｔｉｃｒｅｃｏｒｄｌｉｎｋａｇｅｕｓｉｎｇｓｅｅｄｅｄｎｅａｒｅｓｔ
ＮＪ：ＩＥＥＥ，２００５：８６５－８７６
ｎｅｉｇｈｂｏｒａｎｄｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅｃｌａｓｓｉｆｉｃａｔｉｏｎ［ｃ］／Ｐｒｏｃ
［７３］ＧｕｈａＳ，ＫｏｕｄａｓＮ，ＭａｒａｔｈｅＡ，ａｔａ１．Ｍｅｒｇｉｎｇｔｈｅｒｅｓｕｌｔｓｏｆ
ｏｆｔｈｅ１４ｔｈＡＣＭＳＩＧＫＤＤＩｎｔＣｏｎｆｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙ
ａｐｐｒｏｘｉｍａｔｅｍａｔｃｈｏｐｅｒａｔｉｏｎｓ［ｃ］／／Ｐｒｏｃｏｆｔｈｅ３０ｔｈＩｎｔＣｏｎｆ
ａｎｄＤａｔａＭｉｎｉｎｇ．ＮｅｗＹｏｒｋ：ＡＣＭ，２００８：１５１—１５９
ｏｎＶｅｒｙＬａｒｇｅＤａｔａｂａｓｅｓ．ＳａｎＦｒａｎｃｉｓｃｏ，ＣＡ：Ｍｏｒｇａｎ
［８９］ＤｏｎｇＸ，ＨａｌｅｖｙＡ，ＭａｄｈａｖａｎＪ．Ｒｅｆｅｒｅｎｃｅｒｅｃｏｎｃｉｌｉａｔｉｏｎｉｎ
Ｋａｕｆｍａｎｎ，２００４：６３６－６４７
ｃｏｍｐｌｅｘｉｎｆｏｒｍａｔｉｏｎｓｐａｃｅｓＥｃ］／Ｐｒｏｃｏｆｔｈｅ２００５ＡＣＭ
［７４］ＣｈｅｎＺ，ＫａｌａｓｈｎｉｋｏｖＤＶ，ＭｅｈｒｏｔｒａＳ．Ａｄａｐｔｉｖｅｇｒａｐｈｉｃａｌ
ＳＩＧＭＯＤＩｎｔＣｏｎｆｏｎＭａｎａｇｅｍｅｎｔｏｆＤａｔａ．ＮｅｗＹｏｒｋ：
ａｐｐｒｏａｃｈｔｏｅｎｔｉｔｙｒｅｓｏｌｕｔｉｏｎ［ｃ］／Ｐｒｏｃｏｆｔｈｅ７ｔｈＡＣＭ／
ＡＣＭ，２００５：８５—９６
ＩＥＥＥ－ＣＳＪｏｉｎｔＣｏｎｆｏｎＤｉｇｉｔａｌＬｉｂｒａｒｉｅｓ．ＮｅｗＹｏｒｋ：ＡＣＭ。
［９０］ＳｉｎｇｌａＰ，ＤｏｍｉｎｇｏｓＰ．Ｃｏｌｌｅｃｔｉｖｅｏｂｊｅｃｔｉｄｅｎｔｉｆｉｃａｔｉｏｎ［ｃ］／／
２００７：２０４—２１３
Ｐｒｏｃｏｆｔｈｅ１９ｔｈＩｎｔＪｏｉｎｔＣｏｎｆｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．Ｓａｎ
［７５］ＳｉｎｇｌａＰ，ＤｏｍｉｎｇｏｓＰ．Ｅｎｔｉｔｙｒｅｓｏｌｕｔｉｏｎｗｉｔｈｍａｒｋｏｖｌｏｇｉｃ
Ｆｒａｎｃｉｓｃｏ，ＣＡ：ＭｏｒｇａｎＫａｕｆｍａｎｎ，２００５：１６３６—１６３７
［ｃ］／／ＰｒｏｃｏｆＩＥＥＥＩＣＤＭ’０６．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２００６：
５７２—５８２
［９１］ＲａｓｔｏｇｉＶ，ＤａｌｖｉＮ，ＧａｒｏｆａｌａｋｉｓＭ．Ｌａｒｇｅ－ｓｃａｌｅｃｏｌｌｅｃｔｉｖｅ
ｅｎｔｉｔｙｍａｔｃｈｉｎｇ［Ｊ］．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＶＬＤＢＥｎｄｏｗｍｅｎｔ，

Ｅ７６］ＡｕｇｓｔｅｎＮ，ＢｏｈｌｅｎＭ，ＤｙｒｅｓｏｎＣ，ｅｔａＩ．Ａｐｐｒｏｘｉｍａｔｅｊｏｉｎｓ
ｏｆＩＥＥＥＩＣＤＥ’０８．２０１１，４（４）：２０８—２１８

ｆｏｒｄａｔａ—ｃｅｎｔｒｉｃＸＭＬ［Ｃ］／［Ｐｒｏｃ
Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２００８：８ｔ４—８２３［９２］ＭｃＣａｌｌｕｍＡ，ＮｉｇａｍＫ，ＵｎｇａｒＬＨ．Ｅｆｆｉｃｉｅｎｔｃｌｕｓｔｅｒｉｎｇｏｆ
［７７］ＡｕｇｓｔｅｎＮ，Ｂ６ｈｌｅｎＭ，ＧａｍｐｅｒＪ．Ａｐｐｒｏｘｉｍａｔｅｍａｔｃｈｉｎｇｏｆｈｉｇｈ—ｄｉｍｅｎｓｉｏｎａｌｄａｔａｓｅｔｓｗｉｔｈａｐｐｌｉｃａｔｉｏｎｔｏｒｅｆｅｒｅｎｃｅ
ｈｉｅｒａｒｃｈｉｃａｌｄａｔａｕｓｉｎｇＰｑ—ｇｒａｍｓ［ｃ］／Ｐｒｏｃｏｆｔｈｅ３１ｓｔＩｎｔｍａｔｃｈｉｎｇ［ｃ］／Ｐｒｏｃｏｆｔｈｅ６ｔｈＡＣＭＳＩＧＫＤＤＩｎｔＣｏｎｆｏｎ
ＣｏｎｆｏｎＶｅｒｙＬａｒｇｅＤａｔａｂａｓｅｓ．ＳａｎＦｒａｎｃｉｓｃｏ，ＣＡ：ＭｏｒｇａｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄＤａｔａＭｉｎｉｎｇ．ＮｅｗＹｏｒｋ：ＡＣＭ，
Ｋａｕｆｍａｎｎ。２００５１３０１—３１２２０００：１６９－１７８
万方数据
１１６０计算机研究与发展２０１３，５０（６）
［９３］ＫｉｍＨ，ＬｅｅＤ．ＨＡＲＲＡ：Ｆａｓｔｉｔｅｒａｔｉｖｅｈａｓｈｅｄｒｅｃｏｒｄ［１０７］ＬｉＣｈｅｎ，ＷａｎｇＢｉｎ，ＹａｎｇＸｉａｏｃｈｕｎ．ＶＧＲＡＭ：Ｉｍｐｒｏｖｉｎｇ
ｌｉｎｋａｇｅｆｏｒｌａｒｇｅ－ｓｃａｌｅｄａｔａｃｏｌｌｅｃｔｉｏｎｓ［ｃ］／／Ｐｒｏｃｏｆｔｈｅ１３ｔｈｐｅｒｆｏｒｍａｎｃｅｏｆａｐｐｒｏｘｉｍａｔｅｑｕｅｒｉｅｓｏｎｓｔｒｉｎｇｃｏｌｌｅｃｔｉｏｎｓ
ＩｎｔＣｏｎｆｏｎＥｘｔｅｎｄｉｎｇＤａｔａｂａｓｅＴｅｃｈｎｏｌｏｇｙ．ＮｅｗＹｏｒｋ：ｕｓｉｎｇｖａｒｉａｂｌｅ－ｌｅｎｇｔｈｇｒａｍｓ［Ｃ］／／Ｐｒｏｃｏｆｔｈｅ３３ｒｄＩｎｔＣｏｎｆ
ＡＣＭ，２０１０：５２５－５３６ｏｎＶｅｒｙＬａｒｇｅＤａｔａｂａｓｅｓ．ＳａｎＦｒａｎｃｉｓｃｏ，ＣＡ：Ｍｏｒｇａｎ
［９４］ＫｉｒｓｔｅｎＴ，ＫｏｌｂＬ，ＨａｒｔｕｎｇＭ，ｅｔａ１．ＤａｔａｐａｒｔｉｔｉｏｎｉｎｇｆｏｒＫａｕｆｍａｎｎ，２００７：３０３～３１４
ｐａｒａｌｌｅｌｅｎｔｉｔｙｍａｔｃｈｉｎｇ［Ｊ］．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＶＬＤＢ［１０８］ＬｉＣｈｅｎ．ＬｕＪｉａｈｅｎｇ，ＬｕＹｉｍｉｎｇ．Ｅｆｆｉｃｉｅｎｔｍｅｒｇｉｎｇａｎｄ
Ｅｎｄｏｗｍｅｎｔ，２０１０，３（２）：１—８ｆｉｌｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｓｆｏｒａｐｐｒｏｘｉｍａｔｅｓｔｒｉｎｇｓｅａｒｃｈｅｓＥＣ］／／
ＲＰｒｏｃｏｆＩＥＥＥＩＣＤＥ’０８．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２００８：２５７—

［９５］ＢｉｌｅｎｋｏＭ，ＫａｍａｔｈＢ，ＭｏｏｎｅｙＪ．Ａｄａｐｔｉｖｅｂｌｏｃｋｉｎｇ：
ｏｆＩＥＥＥ２６６
Ｌｅａｒｎｉｎｇｔｏｓｃａｌｅｕｐｒｅｃｏｒｄｌｉｎｋａｇｅ［ｃ］／／Ｐｒｏｃ
［１０９］ＬｉｅｂｅｒｍａｎＭＤ，ＳａｎｋａｒａｎａｒａｙａｎａｎＪ，ＳａｍｅｔＨ．Ａｆａｓｔ
ＩＣＤＭ’０６．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２００６：８７—９６
ｓｉｍｉｌａｒｉｔｙｊｏｉｎａｌｇｏｒｉｔｈｍｕｓｉｎｇｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔｓ［ｃ］

［９６］ＷｈａｎｇＳＥ，ＭｅｎｅｓｔｒｉｎａＤ，ＫｏｕｔｒｉｋａＧ，ｅｔａ１．Ｅｎｔｉｔｙ
ｒｅｓｏｌｕｔｉｏｎｗｉｔｈｉｔｅｒａｔｉｖｅｂｌｏｃｋｉｎｇ［ｃ］／／Ｐｒｏｃｏｆｔｈｅ３５ｔｈ／／ＰｒｏｃｏｆＩＥＥＥＩＣＤＥ’０８．Ｐｉｓｃａｔａｗａｙ。ＮＪ：ＩＥＥＥ，２００８：
ｌｌｌｌ一１１２０
ＳＩＧＭＯＤＩｎｔＣｏｎｆｏｎＭａｎａｇｅｍｅｎｔｏｆＤａｔａ．ＮｅｗＹｏｒｋ：
［１１０］ＦｌｅｓｃａＳ，ＭａｎｃｏＧ，ＭａｓｃｉａｒｉＥ，ｅｔａ１．Ｆａｓｔｄｅｔｅｃｔｉｏｎｏｆ
ＡＣＭ，２００９：２１９—２３２
ＸＭＬｓｔｒｕｃｔｕｒａｌｓｉｍｉｌａｒｉｔｙ口］．ＩＥＥＥＴｒａｎｓｏｎＫｎｏｗｌｅｄｇｅ
［９７］ＢａｘｔｅｒＲ，ＣｈｒｉｓｔｅｎＰ，ＣｈｕｒｃｈｅｓＴ．Ａｃｏｍｐａｒｉｓｏｎｏｆｆａｓｔ
ａｎｄＤａｔａＥｎｇｉｎｅｅｒｉｎｇ，２００５，１７（２）：１６０—１７５

ｂｌｏｃｋｉｎｇｍｅｔｈｏｄｓｆｏｒｒｅｃｏｒｄｌｉｎｋａｇｅ［ｃ］／ＰｒｏｃｏｆＡＣＭ
［１１ｉ］ＴａｔｉｋｏｎｄａＳ，ＰａｒｔｈａｓａｒａｔｈｙＳ．Ｈａｓｈｉｎｇｔｒｅｅ－ｓｔｒｕｃｔｕｒｅｄ
ＳＩＧＫＤＤＷｏｒｋｓｈｏｐ．ＮｅｗＹｏｒｋ：ＡＣＭ，２００３：２５－２７
ｄａｔａ：Ｍｅｔｈｏｄｓａｎｄａｐｐｌｉｃａｔｉｏｎｓ［ｃ］／ＰｒｏｃｏｆＩＥＥＥ
［９８］ＶｅｒｎｉｃａＲ，ＣａｒｅｙＭＪ，ＬｉＣ．Ｅｆｆｉｃｉｅｎｔｐａｒａｌｌｅｌｓｅｔ—ｓｉｍｉｌａｒｉｔｙ
ＩＣＤＥ’１０．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２０１０：４２９—４４０
ｊｏｉｎｓｕｓｉｎｇＭａｐＲｅｄｕｃｅ［ｃ］／Ｐｒｏｃｏｆｔｈｅ２０１０ＩｎｔＣｏｎｆｏｎ
［１１２］ＣｈｒｉｓｔｅｎＰ．Ｄｅｖｅｌｏｐｍｅｎｔａｎｄｕｓｅｒｅｘｐｅｒｉｅｎｃｅｓｏｆａｎ

ｏｐｅｎ
ＭａｎａｇｅｍｅｎｔｏｆＤａｔａ．ＮｅｗＹｏｒｋ：ＡＣＭ，２０１０：４９５—５０６
ｓｏｕｒｃｅｄａｔａｃｌｅａｎｉｎｇ，ｄｅｄｕｐｌｉｃａｔｉｏｎａｎｄｒｅｃｏｒｄｌｉｎｋａｇｅ
［９９］ＳａｒａｗａｇｉＳ，ＤｅｓｈｐａｎｄｅＶＳ，ＫａｓｌｉｗａｌＳ．Ｅｆｆｉｃｉｅｎｔｔｏｐ—ｋ
ｓｙｓｔｅｍ［Ｊ］．ＡＣＭＳＩＧＫＤＤＥｘｐｌｏｒａｔｉｏｎｓＮｅｗｓｌｅｔｔｅｒ，
ｃｏｕｎｔｑｕｅｒｉｅｓｏｖｅｒｉｍｐｒｅｃｉｓｅｄｕｐｌｉｃａｔｅｓ［Ｃ］／／Ｐｒｏｃｏｆｔｈｅ
２００９，¨（１）：３９－４８
１２ｔｈＩｎｔＣｏｎｆｏｎ
ＥｘｔｅｎｄｉｎｇＤａｔａｂａｓｅＴｅｃｈｎｏｌｏｇｙ：
［１１３］Ｂｅｎｊｅｌｌｏｕｎ０，Ｇａｒｃｉａ—ＭｏｌｉｎａＨ，ＭｅｎｅｓｔｒｉｎａＤ，ｅｔａ１．
ＡｄｖａｎｃｅｓｉｎＤａｔａｂａｓｅＴｅｃｈｎｏｌｏｇｙ．ＮｅｗＹｏｒｋ：ＡＣＭ，
Ｓｗｏｏｓｈ：ａｇｅｎｅｒｉｃａｐｐｒｏａｃｈｔｏｅｎｔｉｔｙｒｅｓｏｌｕｔｉｏｎ［Ｊ］．Ｔｈｅ
２００９：４５０—４６１
ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｎＶｅｒｙＬａｒｇｅＤａｔａｂａｓｅｓ，２００９。１８
［ＩＯＯ］ＷｈａｎｇＳＥ，Ｇａｒｃｉａ—ＭｏｌｉｎａＨ．Ｅｎｔｉｔｙｒｅｓｏｌｕｔｉｏｎｗｉｔｈ
（１）：２５５—２７６
ｅｖｏｌｖｉｎｇｒｕｌｅｓ口］．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＶＬＤＢＥｎｄｏｗｍｅｎｔ，
［１１４］ＣｈａｕｄｈｕｒｉＳ，ＣｈｅｎＢＣ，ＧａｎｔｉＶ，ｅｔａ１．Ｅｘａｍｐｌｅ—ｄｒｉｖｅｎ
２０１０，３（１／２）：１３２６—１３３７
ｄｅｓｉｇｎｏｆｅｆｆｉｃｉｅｎｔｒｅｃｏｒｄｍａｔｃｈｉｎｇｑｕｅｒｉｅｓＥｃ］／Ｐｒｏｃｏｆｔｈｅ
［１０１］ＫｏｕｄａｓＮ，ＭａｒａｔｈｅＡ，ＳｒｉｖａｓｔａｖａＤ．Ｆｌｅｘｉｂｌｅｓｔｒｉｎｇ

３３ｒｄＩｎｔＣｏｎｆｏｎ
ＶｅｒｙＬａｒｇｅＤａｔａｂａｓｅｓ．ＳａｎＦｒａｎｃｉｓｃｏ，
ｍａｔｃｈｉｎｇａｇａｉｎｓｔｌａｒｇｅｄａｔａｂａｓｅｓｉｎｐｒａｃｔｉｃｅ［ｃ］／／Ｐｒｏｃｏｆ
ＣＡ：ＭｏｒｇａｎＫａｕｆｍａｎｎ，２００７：３２７—３３８
ｔｈｅ３０ｔｈＩｎｔＣｏｎｆｏｎＶｅｒｙＬａｒｇｅＤａｔａｂａｓｅｓ．ＳａｎＦｒａｎｃｉｓｃｏ。
［１１５］ＣｈｅｎＺ，ＫａｌａｓｈｎｉｋｏｖＤＶ，ＭｅｈｒｏｔｒａＳ．Ｅｘｐｌｏｉｔｉｎｇｃｏｎｔｅｘｔ
ＣＡ：ＭｏｒｇａｎＫａｕｆｍａｎｎ，２００４：１０７８—１０８６
ａｎａｌｙｓｉｓｆｏｒｃｏｍｂｉｎｉｎｇｍｕｌｔｉｐｌｅｅｎｔｉｔｙｒｅｓｏｌｕｔｉｏｎｓｙｓｔｅｍｓ
［１０２］ＣｈａｕｄｈｕｒｉＳ，ＧａｎｔｉＶ，ＫａｕｓｈｉｋＲ．Ａｐｒｉｍｉｔｉｖｅｏｐｅｒａｔｏｒｆｏｒ

ＳＩＧＭＯＤＩｎｔＣｏｎｆ
Ｅｃ］／／Ｐｒｏｃｏｆｔｈｅ３５ｔｈｏｎＭａｎａｇｅｍｅｎｔｏｆ
ｓｉｍｉｌａｒｉｔｙｊｏｉｎｓｉｎｄａｔａｃｌｅａｎｉｎｇ［ｃ］／／ＰｒｏｃｏｆＩＥＥＥ
Ｄａｔａ．ＮｅｗＹｏｒｋ：ＡＣＭ，２００９：２０７－２１８
ＩＣＤＥ’０６．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２００６：５－５
［１１６］ＣｏｈｅｎＷＷ，ＲａｖｉｋｕｍａｒＰ，ＦｉｅｎｂｅｒｇＳＥ．Ａｃｏｍｐａｒｉｓｏｎｏｆ
［１０３］ＢｅｈｍＡ，ＪｉＳ，ＬｉＣ，ｅｔａ１．Ｓｐａｃｅ—ｃｏｎｓｔｒａｉｎｅｄｇｒａｍ—ｂａｓｅｄ

ｓｔｒｉｎｇｄｉｓｔａｎｃｅｍｅｔｒｉｃｓｆｏｒｎａｍｅ—ｍａｔｃｈｉｎｇｔａｓｋｓ［Ｃ］／Ｐｒｏｃ
ｉｎｄｅｘｉｎｇｆｏｒｅｆｆｉｃｉｅｎｔａｐｐｒｏｘｉｍａｔｅｓｔｒｉｎｇｓｅａｒｃｈ［ｃ］／／ＰｒｏｃｏｆｔｈｅＩｎｆｏｒｍａｔｉｏｎＩｎｔｅｇｒａｔｉｏｎ
ＩＪＣＡＩ一２００３Ｗｏｒｋｓｈｏｐｏｎｏｎ
ｏｆＩＥＥＥＩＣＤＥ’０９．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２００９：６０４－６１５
ｔｈｅＷｅｂ．２００３：７３－７８
［１０４３ＸｉａｏＣｈｕａｎ，ＷａｎｇＷｅｉ。ＬｉｎＸｕｅｍｉｎ，ｅｔａ１．ＥｆｆｉｃｉｅｎｔＭ，ＪｕｒｋＳ，ＬｅｎｚＨＪ，ｅｔａ１．Ｏｂｊｅｃｔｉｄｅｎｔｉｆｉｃａｔｉｏｎ
［１１７］Ｎｅｉｌｉｎｇ
ｓｉｍｉｌａｒｉｔｙｊｏｉｎｓｆｏｒｎｅａｒ－ｄｕｐｌｉｃａｔｅｄｅｔｅｃｔｉｏｎ口］．ＡＣＭＴｒａｎｓｏｆｔｈｅＩｎｔＤａｔａ

ｑｕａｌｉｔｙ［ｃ］／ＰｒｏｃＷｏｒｋｓｈｏｐｏｎ
Ｑｕａｌｉｔｙｉｎ
ｏｎＤａｔａｂａｓｅＳｙｓｔｅｍｓ（ＴＯＤＳ），２０１１，３６（３）：１５ＩｎｆｏｒｍａｔｉｏｎＢｅｒｌｉｎ：

ＣｏｏｐｅｒａｔｉｖｅＳｙｓｔｓｅｍｓ（ＤＱＣＩＳ）．
［１０５］ＰａｐａｐｅｔｒｏｕＰ，ＡｔｈｉｔｓｏｓＶ，ＫｏｌｌｉｏｓＧ，ｅｔａ１．Ｒｅｆｅｒｅｎｃｅ— Ｓｐｒｉｎｇｅｒ，２００３：１—１０
ｂａｓｅｄａｌｉｇｎｍｅｎｔｉｎｌａｒｇｅｓｅｑｕｅｎｃｅｄａｔａｂａｓｅｓ［Ｊ］．［１１８］ＷｅｉｓＭ，ＮａｕｍａｎｎＦ，ＢｒｏｓｙＦ．Ａｄｕｐｌｉｃａｔｅｄｅｔｅｃｔｉｏｎ
ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＶＬＤＢＥｎｄｏｗｍｅｎｔ，２００９，２（ｉ）：２０５— ｂｅｎｃｈｍａｒｋｆｏｒＸＭＬ（ａｎｄｒｅｌａｔｉｏｎａｌ）ｄａｔａ［Ｃ］／／Ｐｒｏｃｏｆ
２１６Ｉｎｆｏｒｍａｔｉｏｎ
ＷｏｒｋｓｈｏｐｏｎＱｕａｌｉｔｙｆｏｒＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍｓ
［１０６］ＹａｎｇＸｉａｏｃｈｕｎ，ＷａｎｇＢｉｎ，ＬｉＣｈｅｎ．Ｃｏｓｔ—ｂａｓｅｄｖａｒｉａｂｌｅ－（ＩＱＩＳ）．ＮｅｗＹｏｒｋ：ＶＬＤＢＥｎｄｏｗｍｅｎｔ，２００６：１－１９
ｌｅｎｇｔｈ—ｇｒａｍｓｅｌｅｃｔｉｏｎｆｏｒｓｔｒｉｎｇｃｏｌｌｅｃｔｉｏｎｓｔｏ

ｓｕｐｐｏｒｔ［１１９］ＫＯｐｅｋｅＨ。ＴｈｏｒＡ，ＲａｈｍＥ．Ｅｖａｌｕａｔｉｏｎｏｆｅｎｔｉｔｙ
ａｐｐｒｏｘｉｍａｔｅｑｕｅｒｉｅｓｅｆｆｉｃｉｅｎｔｌｙ［Ｃ］／Ｐｒｏｃｏｆｔｈｅ２００８ＡＣＭｒｅｓｏｌｕｔｉｏｎａｐｐｒｏａｃｈｅｓｏｎｒｅａｌ—ｗｏｒｌｄｍａｔｃｈｐｒｏｂｌｅｍｓ［Ｊ］．
ＳＩＧＭＯＤＩｎｔＣｏｎｆｏｎＭａｎａｇｅｍｅｎｔｏｆＤａｔａ．ＮｅｗＹｏｒｋ：ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＶＬＤＢＥｎｄｏｗｍｅｎｔ，２０１０，３（１／２）：４８４－
ＡＣＭ，２００８：３５３－３６４４９３
万方数据
李建中等：大数据的一个重要方面：数据可用性１１６１
［１２０３Ｋ０ｐｃｋｅＨ，ＴｈｏｒＡ，ＲａｈｍＥ．Ｃｏｍｐａｒａｔｉｖｅｅｖａｌｕａｔｉｏｎｏｆ［１３４］ＴｈｏｒＡ，ＲａｈｍＥ．ＭＯＭＡ—ｆｌｍａｐｐｉｎｇ－ｂａｓｅｄｏｂｊｅｃｔ
ｅｎｔｉｔｙｒｅｓｏｌｕｔｉｏｎａｐｐｒｏａｃｈｅｓｗｉｔｈＦＥＶＥＲＥＪ］．Ｐｒｏｃｅｅｄｉｎｇｓｍａｔｃｈｉｎｇｓｙｓｔｅｍ［Ｃ］／／Ｐｒｏｃｏｆｔｈｅ３ｒｄＢｉｅｎｎｉａｌＣｏｎｆｏｎ
ｏｆｔｈｅＶＬＤＢＥｎｄｏｗｍｅｎｔ，２００９，２（２）：１５７４—１５７７ＩｎｎｏｖａｔｉｖｅＤａｔａＳｙｓｔｅｍｓＲｅｓｅａｒｃｈ（ＣＩＤＲ）．Ａｓｉｌｏｍａｒ，
［１２１］ＫＯｐｃｋｅＨ，ＲａｈｍＥ．Ｆｒａｍｅｗｏｒｋｓｆｏｒｅｎｔｉｔｙｍａｔｃｈｉｎｇ：ＡＵＳＡ：ＣＩＤＲＤＢ．ＯＲＧ，２００７：７－１０
ｃｏｍｐａｒｉｓｏｎＥＪ］．Ｄａｔａ＆ＫｎｏｗｌｅｄｇｅＥｎｇｉｎｅｅｒｉｎｇ，２０１０。６９［１３５］ＨａｓｓａｎｚａｄｅｈＯ，ＣｈｉａｎｇＦ，ＬｅｅＨＣ。ｅｔａ１．Ｆｒａｍｅｗｏｒｋｆｏｒ
（２）：１９７—２１０
ｅｖａｌｕａｔｉｎｇｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｓｉｎｄｕｐｌｉｃａｔｅｄｅｔｅｃｔｉｏｎ［Ｊ］．
［１２２３ＭｅｎｅｓｔｒｉｎａＤ，ＷｈａｎｇＳＥ，Ｇａｒｃｉａ—ＭｏｌｉｎａＨ．Ｅｖａｌｕａｔｉｎｇ
ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＶＬＤＢＥｎｄｏｗｍｅｎｔ，２００９，２（１）：１２８２－
ｅｎｔｉｔｙｒｅｓｏｌｕｔｉｏｎｒｅｓｕｌｔｓ［Ｊ３．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＶＬＤＢ

１２９３
Ｅｎｄｏｗｍｅｎｔ，２０１０，３（１１２）：２０８—２１９［１３６］ＨａｓｓａｎｚａｄｅｈＯ，ＭｉｌｌｅｒＲＪ．Ｃｒｅａｔｉｎｇｐｒｏｂａｂｉｌｉｓｔｉｃ

［１２３］ＢｏｈａｎｎｏｎＰ，ＦａｎＷｅｎｆｅｉ，ＦｌａｓｔｅｒＭ，ｅｔａ１．Ａｃｏｓｔ—ｂａｓｅｄｄａｔａｂａｓｅｓｆｒｏｍｄｕｐｌｉｃａｔｅｄｄａｔａ［Ｊ］．ＴｈｅＩｎｔｅｒｎａｔｉｏｎａｌ
ｍｏｄｅｌａｎｄｅｆｆｅｃｔｉｖｅｈｅｕｒｉｓｔｉｃｆｏｒｒｅｐａｉｒｉｎｇｃｏｎｓｔｒａｉｎｔｓｂｙ
Ｊｏｕｒｎａｌｏｎ
ＶｅｒｙＬａｒｇｅＤａｔａｂａｓｅｓ，２００９，１８（５）：１１４１－Ｉｉ６６
ｖａｌｕｅｍｏｄｉｆｉｃａｔｉｏｎ［ｃ］／／Ｐｒｏｃｏｆｔｈｅ２００５ＡＣＭＳＩＧＭＯＤ
［１３７］ＧｕｏＳｏｎｇｔａｏ，ＤｏｎｇＸＬ，ＳｒｉｖａｓｔａｖａＤ，ｅｔａ１．Ｒｅｃｏｒｄ
ＩｎｔＣｏｎｆｏｎＭａｎａｇｅｍｅｎｔｏｆＤａｔａ．ＮｅｗＹｏｒｋ：ＡＣＭ，２００５：
ｌｉｎｋａｇｅｗｉｔｈｕｎｉｑｕｅｎｅｓｓｃｏｎｓｔｒａｉｎｔｓａｎｄｅｒｒｏｎｅｏｕｓｖａｌｕｅｓ
１４３－１５４
［Ｊ］．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＶＬＤＢＥｎｄｏｗｍｅｎｔ，２０１０，３（１／２）：
［１２４］ＣｏｎｇＧａｏ，ＦａｎＷｅｎｆｅｉ，ＧｅｅｒｔｓＦ。ｅｔａ１．Ｉｍｐｒｏｖｉｎｇｄａｔａ
４１７－４２８
ｑｕａｌｉｔｙ：Ｃｏｎｓｉｓｔｅｎｃｙａｎｄａｃｃｕｒａｃｙ［ｃ］／／Ｐｒｏｃｏｆｔｈｅ３３ｒｄＩｎｔ

［１３８］ＭａｙｆｉｅｌｄＣ，ＮｅｖｉｌｌｅＪ，ＰｒａｂｈａｋａｒＳ．ＥＲＡＣＥＲ：ａｄａｔａｂａｓｅ
ＣｏｎｆｏｎＶｅｒｙＬａｒｇｅＤａｔａｂａｓｅｓ．ＳａｎＦｒａｎｃｉｓｃｏ，ＣＡ：
ａｐｐｒｏａｃｈｆｏｒｓｔａｔｉｓｔｉｃａｌｉｎｆｅｒｅｎｃｅａｎｄｄａｔａｃｌｅａｎｉｎｇ［ｃ］／／
ＭｏｒｇａｎＫａｕｆｍａｎｎ，２００７：３１５－３２６
Ｐｒｏｃｏｆｔｈｅ２０１０ＩｎｔＣｏｎｆｏｎＭａｎａｇｅｍｅｎｔｏｆＤａｔａ．Ｎｅｗ
［１２５］ＢｅｓｋａｌｅｓＧ，ｌｌｙａｓＩＦ，ＧｏｌａｂＬ．Ｓａｍｐｌｉｎｇｔｈｅｒｅｐａｉｒｓｏｆ
Ｙｏｒｋ：ＡＣＭ，２０１０：７５—８６
ｆｕｎｃｔｉｏｎａｌｄｅｐｅｎｄｅｎｃｙｖｉｏｌａｔｉｏｎｓｕｎｄｅｒｈａｒｄｃｏｎｓｔｒａｉｎｔｓ［Ｊ］．
［１３９３ＦｕｘｍａｎＡＤ，ＭｉｌｌｅｒＲＪ．Ｆｉｒｓｔ－ｏｒｄｅｒｑｕｅｒｙｒｅｗｒｉｔｉｎｇｆｏｒ
ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＶＬＤＢＥｎｄｏｗｍｅｎｔ，２０１０，３（１１２）：１９７—
ｉｎｃｏｎｓｉｓｔｅｎｔｄａｔａｂａｓｅｓ［Ｃ］／／Ｐｒｏｃｏｆｔｈｅ１０ｔｈＩｎｔＣｏｎｆｏｎ
２０７
ＤａｔａｂａｓｅＴｈｅｏｒｙ．Ｂｅｒｌｉｎ：Ｓｐｒｉｎｇｅｒ，２００５：３３７－３５１
［１２６］ＬｉａｎＸｉａｎｇ，ＣｈｅｎＬｅｉ，ＳｏｎｇＳｈａｏｘｕ．Ｃｏｎｓｉｓｔｅｎｔｑｕｅｒｙ
［１４０］ＦｕｘｍａｎＡ，ＦｕｘｍａｎＤ，ＭｉｌｌｅｒＲＪ．ＣｏｎＱｕｅｒ：Ａｓｙｓｔｅｍｆｏｒ
ａｎｓｗｅｒｓｉｎｉｎｃｏｎｓｉｓｔｅｎｔｐｒｏｂａｂｉｌｉｓｔｉｃｄａｔａｂａｓｅｓ［ｃ］／／Ｐｒｏｃｏｆ
ｅｆｆｉｃｉｅｎｔｑｕｅｒｙｉｎｇｏｖｅｒｉｎｃｏｎｓｉｓｔｅｎｔｄａｔａｂａｓｅｓ［ｃ］／／Ｐｒｏｃｏｆ
ｔｈｅ２０１０ＩｎｔＣｏｎｆｏｎＭａｎａｇｅｍｅｎｔｏｆＤａｔａ．ＮｅｗＹｏｒｋ：
ｔｈｅ３１ｓｔＩｎｔＣｏｎｆｏｎＶｅｒｙＬａｒｇｅＤａｔａｂａｓｅｓ．ＳａｎＦｒａｎｃｉｓｃｏ，
ＡＣＭ，２０１０：３０３－３１４
ＣＡ：ＭｏｒｇａｎＫａｕｆｍａｎｎ，２００５：１３５４—１３５７
［１２７］ＸｉｅＪｕｎｙｉ，ＹａｎｇＪｕｎ，ＣｈｅｎＹｕｇｕｏ，ｅｔａ１．Ａｓａｍｐｌｉｎｇ－ｂａｓｅｄ
［１４１］ＭｏｒｒｏＡ．Ｉｎｔｅｇｒｉｔｙ＝ｖａｌｉｄｉｔｙ＋ｃｏｍｐｌｅｔｅｎｅｓｓ［Ｊ］．ＡＣＭ
ａｐｐｒｏａｃｈｔｏｉｎｆｏｒｍａｔｉｏｎｒｅｃｏｖｅｒｙ［ｃ］／ＰｒｏｃｏｆＩＥＥＥ
ＴｒａｎｓｏｎＤａｔａｂａｓｅＳｙｓｔｅｍｓ（ＴＯＤＳ），１９８９，１４（４）：４８０－
ＩＣＤＥ’０８．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２００８：４７６—４８５
５０２
［１２８］ＪｅｆｆｃｒｙＳＲ，ＧａｒｏｆａｌａｋｉｓＭ，ＦｒａｎｋｌｉｎＭＪ．Ａｄａｐｔｉｖｅ
［１４２］ＬｅｖｙＡ．Ｏｂｔａｉｎｉｎｇｃｏｍｐｌｅｔｅａｎｓｗｅｒｓｆｒｏｍｉｎｃｏｍｐｌｅｔｅ
ｃｌｅａｎｉｎｇｆｏｒＲＦＩＤｄａｔａｓｔｒｅａｍｓ［ｃ］／Ｐｒｏｃｏｆｔｈｅ３２ｎｄＩｎｔ
Ｃｏｎｆ
ｄａｔａｂａｓｅｓ［ｃ］／／Ｐｒｏｃｏｆｔｈｅ２２ｎｄＩｎｔＣｏｎｆｏｎＶｅｒｙＬａｒｇｅ
ｏｎＶｅｒｙＬａｒｇｅＤａｔａｂａｓｅｓ．ＳａｎＦｒａｎｃｉｓｃｏ，ＣＡ：
Ｄａｔａｂａｓｅｓ．ＳａｎＦｒａｎｃｉｓｃｏ，ＣＡ：ＭｏｒｇａｎＫａｕｆｍａｎｎ，１９９６：
ＭｏｒｇａｎＫａｕｆｍａｎｎ，２００６：１６３—１７４
４０２－４ｉ２
［１２９］ＣｈｅｎＨａｉｑｕａｎ，ＫｕＷＳ，ＷａｎｇＨａｉｘｕｎ，ｅｔａ１．Ｌｅｖｅｒａｇｉｎｇ
ｓｐａｔｉｏｔｅｍｐｏｒａｌｒｅｄｕｎｄａｎｃｙｆｏｒＲＦＩＤｄａｔａ

［１４３］ＫｈａｌｅｆａＭＥ，ＭｏｋｂｅｌＭＦ，ＬｅｖａｎｄｏｓｋｉＪＪ．Ｓｋｙｌｉｎｅｑｕｅｒｙ
ｃｌｅａｎｓｉｎｇ［ｃ］／／
Ｐｒｏｃｏｆｔｈｅ２０１０ＡＣＭＳＩＧＭＯＤＩｎｔＣｏｎｆｐｒｏｃｅｓｓｉｎｇｆｏｒｉｎｃｏｍｐｌｅｔｅｄａｔａ［ｃ］／ＰｒｏｃｏｆＩＥＥＥＩＣＤＥ’０８．
ｏｎ
Ｍａｎａｇｅｍｅｎｔｏｆ
Ｄａｔａ．ＮｅｗＹｏｒｋ：ＡＣＭ，２０１０：５ｌ一６２Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２００８：５５６—５６５
［１３０］ＺｈｕａｎｇＹｏｎｇｚｈｅｎ，ＣｈｅｎＬｅｉ．Ｉｎ—ｎｅｔｗｏｒｋｏｕｔｌｉｅｒｃｌｅａｎｉｎｇ［１４４］ＳｉｓｍａｎｉｓＹ，ＷａｎｇＬ，ＦｕｘｍａｎＡ，ｅｔａ１．Ｒｅｓｏｌｕｔｉｏｎ—ａｗａｒｅ
ｆｏｒｄａｔａｃｏｌｌｅｃｔｉｏｎｉｎｓｅｎｓｏｒｎｅｔｗｏｒｋｓＥｃ］｜／ＰｒｏｃｏｆＶＬＤＢｑｕｅｒｙａｎｓｗｅｒｉｎｇｆｏｒｂｕｓｉｎｅｓｓｉｎｔｅｌｌｉｇｅｎｃｅ［ｃ］／／Ｐｒｏｃｏｆ
ＩＥＥＥＩＣＤＥ’０９．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２００９：９７６—９８７
ＷｏｒｋｓｈｏｐｏｎＣｌｅａｎＤＢ．ＮｅｗＹｏｒｋ：ＶＬＤＢＥｎｄｏｗｍｅｎｔ，
２００６：４１—４８［１４５］ＣｏｒｍｏｄｅＧ，ＭｃＧｒｅｇｏｒＡ．Ａｐｐｒｏｘｉｍａｔｉｏｎａｌｇｏｒｉｔｈｍｓｆｏｒ
Ｍ。ｅｔａ１．Ｓｕｂｓｕｍｐｔｉｏｎａｎｄｕｎｃｅｒｔａｉｎｄａｔａ［ｃ］／／Ｐｒｏｃｏｆｔｈｅ２７ｔｈＡＣＭ

［１３１］ＢｌｅｉｈｏｌｄｅｒＪ，ＳｚｏｔｔＳ，Ｈｅｒｓｃｈｅｌｃｌｕｓｔｅｒｉｎｇ
ｄａｔａｆｕｓｉｏｎＳＩＧＭＯＤ－ＳＩＧＡＣＴ—ＳＩＧＡＲＴＳｙｍｐＰｒｉｎｃｉｐｌｅｓｏｆ

ｃｏｍｐｌｅｍｅｎｔａｔｉｏｎａｓ
ｏｐｅｒａｔｏｒｓ［ｃ］／／Ｐｒｏｃｏｆｔｈｅｏｎ
１３ｔｈＩｎｔＣｏｎｆＤａｔａｂａｓｅＳｙｓｔｅｍｓ．ＮｅｗＹｏｒｋ：ＡＣＭ，２００８：１９１－２００

ｏｎ
ＥｘｔｅｎｄｉｎｇＤａｔａｂａｓｅＴｅｃｈｎｏｌｏｇｙ．Ｎｅｗ
Ｙｏｒｋ：ＡＣＭ，２０１０：５１３—５２４［１４６］ＫｒｉｅｇｅｌＨＰ，ＰｆｅｉｆｌｅＭ．Ｄｅｎｓｉｔｙ－ｂａｓｅｄｃｌｕｓｔｅｒｉｎｇｏｆ
［１３２］ＢｅｓｋａｌｅｓＧ，ＳｏｌｉｍａｎＭＡ，ＩｌｙａｓＩＦ，ｅｔａ１．Ｍｏｄｅｌｉｎｇａｎｄｕｎｃｅｒｔａｉｎｄａｔａ［Ｃ］／／ＰｒｏｃｏｆｔｈｅｌｌｔｈＡＣＭＳＩＧＫＤＤＩｎｔ
ｑｕｅｒｙｉｎｇｐｏｓｓｉｂｌｅｒｅｐａｉｒｓｉｎｄｕｐｌｉｃａｔｅｄｅｔｅｃｔｉｏｎ［Ｊ］．ＣｏｎｆｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙｉｎＤａｔａＭｉｎｉｎｇ．ＮｅｗＹｏｒｋ：
ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＶＬＤＢＥｎｄｏｗｍｅｎｔ，２００９，２（１）：５９８— ＡＣＭ，２００５：６７２－６７７
６０９［１４７］ＡｇｇａｒｗａｌＣＣ，ＬｉＹａｎ，ＷａｎｇＪｉａｎｙｏｎｇ，ｅｔａ１．Ｆｒｅｑｕｅｎｔ
［１３３］ＡｎｄｒｉｔｓｏｓＰ，ＦｕｘｍａｎＡ。ＭｉｌｌｅｒＲＪ．Ｃｌｅａｎａｎｓｗｅｒｓｏｖｅｒ

ｐａｔｔｅｒｎｍｉｎｉｎｇｗｉｔｈｕｎｃｅｒｔａｉｎｄａｔａＥｃ］／Ｐｒｏｅｏｆｔｈｅ１５ｔｈ
ｄｉｒｔｙｄａｔａｂａｓｅｓ：Ａｐｒｏｂａｂｉｌｉｓｔｉｅａｐｐｒｏａｃｈ［ｃ］／／ＰｒｏｅｏｆＡＣＭＳＩＧＫＤＤＩｎｔＣｏｎｆｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄＤａｔａ
ＩＥＥＥＩＣＤＥ’０６．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２００６：３０—３０Ｍｉｎｉｎｇ．ＮｅｗＹｏｒｋ：ＡＣＭ，２００９：２９—３８
万方数据
１１６２计算机研究与发展２０１３，５０（６）
Ｅ１４８３ＢｅｒｎｅｃｋｅｒＴ，ＫｒｉｅｇｅｌＨＰ，ＲｅｎｚＭ，ｅｔａ１．Ｐｒｏｂａｂｉｌｉｓｔｉｃ［１５６］ＧｅｎｄａｒｍｉＤ，ＡｂｂａｔｔｉｓｔａＦ，ＬａｎｕｂｉｌｅＦ．Ｆｏｓｔｅｒｉｎｇ
ｆｒｅｑｕｅｎｔｉｔｅｍｓｅｔｍｉｎｉｎｇｉｎｕｎｃｅｒｔａｉｎｄａｔａｂａｓｅｓ［ｃ］／／Ｐｒｏｅｏｆｋｎｏｗｌｅｄｇｅｅｖｏｌｕｔｉｏｎｔｈｒｏｕｇｈｃｏｍｍｕｎｉｔｙ—ｂａｓｅｄｐａｒｔｉｃｉｐａｔｉｏｎ
ｔｈｅ１５ｔｈＡＣＭＳＩＧＫＤＤＩｎｔＣｏｎｆｏｎ

ＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙＩｔ］／Ｐｒｏｃｏｆｔｈｅ１ｓｔＷｏｒｋｓｈｏｐｏｎＳｏｃｉａｌａｎｄＣｏｌｌａｂｏｒａｔｉｖｅ
ａｎｄＤａｔａＭｉｎｉｎｇ．ＮｅｗＹｏｒｋ：ＡＣＭ，２００９：１１９－１２８ＣｏｎｓｔｒｕｃｔｉｏｎｏｆＳｔｒｕｃｔｕｒｅｄＫｎｏｗｌｅｄｇｅａｔＷＷＷ．Ｔｉｂｕｒｇ．
Ｅ１４９］ＺｏｕＺｈａｏｎｉａｎ，ＬｉＪｉａｎｚｈｏｎｇ，ＧａｏＨｏｎｇ，ｅｔａ１．ＭｉｎｉｎｇＮｅｔｈｅｒｌａｎｄｓ：ＣＥＵＲ—ＷＳ．ｏｒｇ，２００７：１－７
ｆｒｅｑｕｅｎｔｓｕｂｇｒａｐｈｐａｔｔｅｒｎｓｆｒｏｍｕｎｃｅｒｔａｉｎｇｒａｐｈｄａｔａ［Ｊ］．［１５７］ＫｕｏＣＳ，ＨｏｎｇＴＰ，ＣｈｅｎＣＩ．．Ａｋｎｏｗｌｅｄｇｅ—ｅｖｏｌｕｔｉｏｎ
ＩＥＥＥＴｒａｎｓｏｎＫｎｏｗｌｅｄｇｅａｎｄＤａｔａＥｎｇｉｎｅｅｒｉｎｇ，２０１０，２２ｓｔｒａｔｅｇｙｂａｓｅｄｏｎｇｅｎｅｔｉｃｐｒｏｇｒａｍｍｉｎｇ［ｃ］／Ｐｒｏｃｏｆｔｈｅ
（９）：１２０３—１２１８２００８ＩｎｔＣｏｎｆｏｎ

ＣｏｎｖｅｒｇｅｎｃｅａｎｄＨｙｂｒｉｄＩｎｆｏｒｍａｔｉｏｎ
Ｅ１５０３ＺｏｕＺｈａｏｎｉａｎ，ＧａｏＨｏｎｇ，ＬｉＪｉａｎｚｈｏｎｇ．ＤｉｓｃｏｖｅｒｉｎｇＴｅｃｈｎｏｌｏｇｙ．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２００８：４３—４８
ｆｒｅｑｕｅｎｔｓｕｂｇｒａｐｈｓｏｖｅｒｕｎｃｅｒｔａｉｎｇｒａｐｈｄａｔａｂａｓｅｓｕｎｄｅｒ［１５８３ＱｉｎＢｉａｏ，ＸｉａＹｕｎｉ，ＰｒａｂｈａｋａｒＳ．Ｒｕｌｅｉｎｄｕｃｔｉｏｎｆｏｒ
ｐｒｏｂａｂｉｌｉｓｔｉｃｓｅｍａｎｔｉｃｓ［ｃ］／Ｐｒｏｃｏｆｔｈｅ１６ｔｈＡＣＭｕｎｃｅｒｔａｉｎｄａｔａ［Ｊ］．ＫｎｏｗｌｅｄｇｅａｎｄＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍｓ，
ＳＩＧＫＤＤＩｎｔＣｏｎｆｏｎ

ＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄＤａｔａ２０１１，２９（１）：１０３—１３０
Ｍｉｎｉｎｇ．ＮｅｗＹｏｒｋ：ＡＣＭ，２０１０：６３３—６４２［１５９］ＧａｏＣｈｕａｎｃｏｎｇ，ＷａｎｇＪｉａｎｙｏｎｇ．Ｄｉｒｅｃｔｍｉｎｉｎｇｏｆ
［１５１］ＬｉＪｉａｎｚｈｏｎｇ，ＺｏｕＺｈａｏｎｉａｎ，ＧａｏＨｏｎｇ．Ｍｉｎｉｎｇｆｒｅｑｕｅｎｔｄｉｓｃｒｉｍｉｎａｔｉｖｅｐａｔｔｅｒｎｓｆｏｒｃｌａｓｓｉｆｙｉｎｇｕｎｃｅｒｔａｉｎｄａｔａ［ｃ］／／
ｓｕｂｇｒａｐｈｓｏｖｅｒｕｎｃｅｒｔａｉｎｇｒａｐｈｄａｔａｂａｓｅｓｕｎｄｅｒＰｒｏｃｏｆｔｈｅ１６ｔｈＡＣＭＳＩＧＫＤＤＩｎｔＣｏｎｆｏｎＫｎｏｗｌｅｄｇｅ
ｐｒｏｂａｂｉｌｉｓｔｉｃｓｅｍａｎｔｉｃｓ［Ｊ］．ＴｈｅＶＬＤＢＪｏｕｒｎａｌ，２０１２，２１ＤｉｓｃｏｖｅｒｙａｎｄＤａｔａＭｉｈｉｎｇ．ＮｅｗＹｏｒｋ：ＡＣＭ，２０１０：８６１—
（６）：７５３－７７７８７０
［１５２］ＺｏｕＺｈａｏｎｉａｎ，ＬｉＪｉａｎｚｈｏｎｇ，ＧａｏＨｏｎｇ，ｅｔａ１．Ｆｉｎｄｉｎｇｔｏｐ－
ｋｍａｘｉｍａｌｃｌｉｑｕｅｓｉｎａｎｕｎｃｅｒｔａｉｎｇｒａｐｈ［ｃ］／ＰｒｏｅｏｆＩＥＥＥＬｉＪｉａｎｚｈｏｎｇ，ｂｏｒｎｉｎ１９５０．Ｐｒｏｆｅｓｓｏｒ，
ＩＣＤＥ’１０．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２０１０：６４９—６５２ＰｈＤｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔｓ

ｓｕｐｅｒｖｉｓｏｒ．Ｈｉｓ
［１５３］ＬｉｕＬｉｎ，ＪｉｎＲｕｏｍｉｎｇ，ＡｇｇｒａｗａｌＣＣ，ｅｔａ１．Ｒｅｌｉａｂｌｅ
ｉｎｃｌｕｄｅｍａｓｓｉｖｅｄａｔａｃｏｍｐｕｔｉｎｇａｎｄ
ｃｌｕｓｔｅｒｉｎｇｏｎｕｎｃｅｒｔａｉｎｇｒａｐｈｓＥｃ］／／ＰｒｏｃｏｆＩＥＥＥ
ｗｉｒｅｌｅｓｓｓｅｎｓｏｒｎｅｔｗｏｒｋｓ．
ＩＣＤＭ’１２．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２０１２：４５９—４６８
［１５４］ＪｉｎＲｕｏｍｉｎｇ，ＬｉｕＬｉｎ，ＤｉｎｇＢｏｌｉｎ，ｅｔａ１．Ｄｉｓｔａｎｃｅ—
ｃｏｎｓｔｒａｉｎｔｒｅａｃｈａｂｉｌｉｔｙｃｏｍｐｕｔａｔｉｏｎｉｎｕｎｃｅｒｔａｉｎｇｒａｐｈｓ［Ｊ］．

ＬｉｕＸｉａｎｍｉｎ，ｂｏｒｎｉｎ１９８４．ＰｈＤ
ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＶＬＤＢＥｎｄｏｗｍｅｎｔ，２０１１，４（９）：５５１—
ｃａｎｄｉｄａｔｅ．Ｈｉｓｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔｓｉｎｃｌｕｄｅ
５６２
ｍａｓｓｉｖｅｄａｔａｃｏｍｐｕｔｉｎｇａｎｄｄａｔａｑｕａｌｉｔｙ

［１５５］ＢｉｅｂｅｒＭ，ＥｎｇｅｌｂａｒｔＤ，ＦｕｒｕｔａＲ，ｅｔａ１．Ｔｏｗａｒｄｖｉｒｔｕａｌ
ｃｏｍｍｕｎｉｔｙｋｎｏｗｌｅｄｇｅｅｖｏｌｕｔｉｏｎ［Ｊ］．Ｊｏｕｒｎａｌｏｆｍａｎａｇｅｍｅｎｔ（ｘｉａｎｍｌｉｕ＠ｇｍａｉｌ．ｃｏｒｎ）．
ＭａｎａｇｅｍｅｎｔＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍｓ，２００２，１８（４）：１１—３５
万方数据

大数据的一个重要方面 数据可用性

Uploaded by

Copyright:

Available Formats

大数据的一个重要方面 数据可用性

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

大数据的一个重要方面 数据可用性

Uploaded by

Copyright:

Available Formats

计算机研究与发展 ＩＳＳＮ １０００—１２３９１ＣＮ １１—１７７７１ＴＰ

Ａｎ Ｉｍｐｏｒｔａｎｔ Ａｓｐｅｃｔ ｏｆ Ｂｉｇ Ｄａｔａ：Ｄａｔａ Ｕｓａｂｉｌｉｔｙ

Ｌｉ Ｊｉａｎｚｈｏｎｇ ａｎｄ Ｌｉｕ Ｘｉａｎｍｉｎ

（Ｓｃｈｏｏｌ ｏｆ Ｃｏｍｐｕｔｅｒ Ｓｃｉｅｎｃｅ ａｎｄ Ｔｅｃｈｎｏｌｏｇｙ，Ｈａｒｂｉｎ Ｉｎｓｔｉｔｕｔｅ ｏｆ Ｔｅｃｈｎｏｌｏｇｙ，Ｈａｒｂｉｎ １ ５０００ １）

Ｉｎｔｅｒｎｅｔ，ｃｙｂｅｒ ｐｈｙｓｉｃａｌ ｓｙｓｔｅｍ，Ｉｎｔｅｒｎｅｔ ｏｆ ｔｈｉｎｇｓ，ｃｌｏｕｄ ｃｏｍｐｕｔｉｎｇ ａｎｄ ｓｏｃｉａｌ ｎｅｔｗｏｒｋ，ｂｉｇ ｄａｔａ

Ｋｅｖ ｗｏｒｄｓ ｂｉｇ ｄａｔａ；ｄａｔａ ｕｓａｂｉｌｉｔｙ；ｄａｔａ ｃｏｎｓｉｓｔｅｎｃｙ；ｄａｔａ ｃｏｍｐｌｅｔｅｎｅｓｓ；ｄａｔａ ａｃｃｕｒａｃｙ；ｄａｔａ

请求，维护着一个超过２．５ ＰＢ的数据库；在高能物 息社会．在美国，由于数据错误而引发的医疗事故，

现实世界中的实体．例如。某城市人口数量为４ １３０４６５， ２）完整的大数据可用性理论体系

２．１．１ Ｗｅｂ数据的高质量获取与整合方法 取方法，利用数据源之间的地理关联特征，过滤冗余

大数据．特别值得注意的是，针对复杂类型、半结构 ［１３］ Ｄｏｎｇ Ｘ Ｌ，Ｂｅｒｔｉ—Ｅｑｕｉｌｌｅ Ｌ，Ｈｕ Ｙｉｆａｎ，ｅｔ ａ１．Ｓｏｌｏｍｏｎ：

Ｓｅｅｋｉｎｇ ｔｈｅ ｔｒｕｔｈ ｖｉａ ｃｏｐｙｉｎｇ ｄｅｔｅｃｔｉｏｎ［Ｊ］．Ｐｒｏｃｅｅｄｉｎｇｓ ｏｆ

系大数据和非关系大数据，系统深入地开展大数据 ｆｏｒ ｉｎｔｅｇｒａｔｉｏｎ［ｊ］．Ｐｒｏｃｅｅｄｉｎｇｓ ｏｆ ｔｈｅ ＶＬＤＢ Ｅｎｄｏｗｍｅｎｔ，

［１５３ Ｃｈｅｎｇ Ｓｉｙａｏ，Ｌｉ Ｊｉａｎｚｈｏｎｇ．Ｓａｍｐｌｉｎｇ ｂａｓｅｄ（ｅ，８）一

和算法． ［１６］ Ｌｉ Ｊｉａｎｚｈｏｎｇ，Ｃｈｅｎｇ Ｓｉｙａｏ．（￡，８）一ａｐｐｒｏｘｉｍａｔｅ ａｇｇｒｅｇａｔｉｏｎ

ａｌｇｏｒｉｔｈｍｓ ｉｎ ｄｙｎａｍｉｃ ｓｅｎｓｏｒ ｎｅｔｗｏｒｋｓ［Ｊ］．ＩＥＥＥ Ｔｒａｎｓ ｏｎ

Ｐａｒａｌｌｅｌ ａｎｄ Ｄｉｓｔｒｉｂｕｔｅｄ Ｓｙｓｔｅｍｓ。２０１２，２３（３）：３８５—３９６

［１］ Ｒｅｄｍａｎ Ｔ．Ｔｈｅ ｉｍｐａｃｔ ｏｆ ｐｏｏｒ ｄａｔａ ｑｕａｌｉｔｙ ｏｎ ｔｈｅ ｔｙｐｉｃａｌ

［２３ Ｍｉｌｌｅｒ Ｄ Ｗ，Ｙｅａｓｔ Ｊ Ｄ，Ｅｖａｎｓ Ｒ Ｌ．Ｍｉｓｓｉｎｇ ｐｒｅｎａｔａｌ ｒｅｃｏｒｄｓ

Ａｍｅｒｉｃａｎ ＭｅｄｉｃａｌＩｎｆｏｒｍａｔｉｃｓ Ａｓｓｏｃｉａｔｉｏｎ，２００５：５３５—５３９

Ｈｕｍａｎ：Ｂｕｉｌｄｉｎｇ ａ Ｓａｆｅｒ Ｈｅａｌｔｈ Ｓｙｓｔｅｍ［Ｍ］．Ｗａｓｈｉｎｇｔｏｎ： ２００７：２４３—２５４

ａｎｄ ｔｈｅ ｂｏｔｔｏｍ ｌｉｎｅ ＪＲ］．Ａｐｐｌｉｃａｔｉｏｎｓ Ｄｅｖｅｌｏｐｍｅｎｔ Ｔｒｅｎｄｓ，

［２２］ Ｆａｎ Ｗｅｎｆｅｉ，Ｍａ Ｓｈｕａｉ，Ｈｕ Ｙａｎｌｉ，ｅｔ ａ１．Ｐｒｏｐａｇａｔｉｎｇ

Ｉｎｆｏｒｍａｔｉｏｎ Ｑｕａｌｉｔｙ：Ｍｅｔｈｏｄｓ ｆｏｒ Ｃｏｓｔｓ ａｎｄ

［２５］ Ｋｏｕｄａｓ Ｎ，Ｓａｈａ Ａ，Ｓｒｉｖａｓｔａｖａ Ｄ，ｅｔ ａ１．Ｍｅｔｒｉｅ ｆｕｎｃｔｉｏｎａｌ

［１０］ Ｄｏｎｇ Ｘ Ｌ，Ｂｅｒｔｉ—Ｅｑｕｉｌｌｅ Ｉ。，Ｓｒｉｖａｓｔａｖａ Ｄ， Ｉｎｔｅｇｒａｔｉｎｇ

Ｐｒｏｃｅｅｄｉｎｇｓ ｏｆ ｔｈｅ ＶＬＤＢ Ｅｎｄｏｗｍｅｎｔ，２００９，２（１）：５５０—５６１ １１７７

ｔｈｅ ＶＬＤＢ Ｅｎｄｏｗｍｅｎｔ，２００９，２（１）：５６２—５７３

】３６９ Ｓａｎ Ｆｒａｎｃｉｓｃｏ，ＣＡ：Ｍｏｒｇａｎ Ｋａｕｆｍａｎｎ，２００３：５３６—５４７

ａｎｄ Ｄａｔａ Ｅｎｇｉｎｅｅｒｉｎｇ，２００６，１８（３）：３０４—３１９ （３２８）：１１８３－１２１０

Ｉｎｆｏｒｍａｔｉｏｎ：Ａ Ｓｕｒｖｅｙ［Ｍ］．Ｂｅｒｌｉｎ：Ｓｐｒｉｎｇｅｒ，１９９８：３０７— ｌａｒｇｅ ｄａｔａｂａｓｅｓ［Ｊ］．Ｐｒｏｃ ｏｆ ＡＣＭ ＳＩＧＭＯＤ Ｒｅｃｏｒｄ，１９９５，

［３１］ Ｇｒａｈｎｅ Ｇ．Ｔｈｅ Ｐｒｏｂｌｅｍ ｏｆ Ｉｎｃｏｍｐｌｅｔｅ Ｉｎｆｏｒｍａｔｉｏｎ ｉｎ

［３２］ Ｉｍｉｅｌｉｆｌｓｋｉ Ｔ，Ｌｉｐｓｋｉ Ｊｒ Ｗ．Ｉｎｃｏｍｐｌｅｔｅ ｉｎｆｏｒｍａｔｉｏｎ ｉｎ

ＡＣＭ ＳＩＧＭＯｎｓＩＧＡｃＴ—ＳＩＧＡＲＴ ［５２］Ｌｉｍ Ｅ Ｐ，Ｓｒｉｖａｓｔａｖａ Ｊ，Ｐｒａｂｈａｋａｒ Ｓ，ｅｔ ａ１．Ｅｎｔｉｔｙ

ｉｄｅｎｔｉｆｉｃａｔｉｏｎ ｉｎ ｄａｔａｂａｓｅ ｉｎｔｅｇｒａｔｉｏｎ［Ｊ］． Ｉｎｆｏｒｍａｔｉｏｎ

ＳＩＧＡＲＴ Ｓｙｍｐ ｏｎ Ｐｒｉｎｃｉｐｌｅｓ ｏｆ Ｄａｔａｂａｓｅ Ｓｙｓｔｅｍｓ．Ｎｅｗ Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２００８：４０－－４９

Ｙｏｒｋ：ＡＣＭ，２０１０：１６９—１７８ ［５４］Ａｒａｓｕ Ａ， Ｋａｕｓｈｉｋ Ｒ． Ａ ｇｒａｍｍａｒ－ｂａｓｅｄ ｅｎｔｉｔｙ

ｏｎ Ｄａｔａｂａｓｅ Ｓｙｓｔｅｍｓ（ＴＯＤＳ），２００６，３１（１）：２０８—２５４ Ｙｏｒｋ：ＡＣＭ，２００９：２３３—２４４

ｉｎｆｏｒｍａｔｉｏｎ口］．Ｊｏｕｒｎａｌ ｏｆ ｔｈｅ ＡＣＭ（ＪＡＣＭ），２０１０，５８ ｔｒａｎｓｆｏｒｍａｔｉｏｎｓ ｆｒｏｍ ｏｆ ｔｈｅ

［３９］ Ｃｈｅｎｇ Ｒ，Ｃｈｅｎ Ｊ，Ｘｉｅ Ｘ．Ｃｌｅａｎｉｎｇ ｕｎｃｅｒｔａｉｎ ｄａｔａ ｗｉｔｈ

ｑｕａｌｉｔｙ ｇｕａｒａｎｔｅｅｓ［Ｊ］．Ｐｒｏｃｅｅｄｉｎｇｓ ｏｆ ｔｈｅ ＶＬＤＢ

Ｗｅｎｆｅｉ，Ｇｅｅｒｔｓ Ｆ，Ｗｉｊｓｅｎ Ｊ．Ｄｅｔｅｒｍｉｎｉｎｇ ｔｈｅ ［６０］Ｆａｎ Ｗｅｎｆｅｉ，Ｇａｏ Ｈｏｎｇ，Ｊｉａ Ｘｉｂｅｉ，ｅｔ ａ１．Ｄｙｎａｍｉｃ

ｏｆ ｄａｔａ［Ｊ］．ＡＣＭ Ｔｒａｎｓ ｏｎ Ｄａｔａｂａｓｅ Ｓｙｓｔｅｍｓ（ＴＯＤＳ），

９５９ Ｍｅｎｌｏ Ｐａｒｋ，ＣＡ：ＡＡＡＩ Ｐｒｅｓｓ，２００５：８６２－８６７

ＸＭＬ［Ｃ］／Ｐｒｏｃ ｏｆ ｔｈｅ ２００５ ＡＣＭ ＳＩＧＭＯＤ Ｉｎｔ Ｃｏｎｆ ｏｎ

［６３］ Ｇｅｔｏｏｒ Ｌ．Ｇｒａｐｈ Ｉｄｅｎｔｉｆｉｃａｔｉｏｎ［Ｍ］．Ｂｅｒｌｉｎ：Ｓｐｒｉｎｇｅｒ，２０１０ Ｄａｔａ．Ｎｅｗ Ｙｏｒｋ：ＡＣＭ，２００９：７５９—７７０

［６４］ Ｆａｎ Ｗｅｎｆｅｉ，Ｌｉ Ｊｉａｎｚｈｏｎｇ，Ｍａ Ｓｈｕａｉ。ｅｔ ａ１．Ｇｒａｐｈ

Ａｌｇｏｒｉｔｈｍｓ ａｎｄ ａｐｐｌｉｃａｔｉｏｎｓ［ｃ］／Ｐｒｏｃ ｏｆ ｔｈｅ ２ｎｄ Ｉｎｔ Ｃｏｎｆ ｏｎ

ｆｕｎｃｔｉｏｎａｌ ｄｅｐｅｎｄｅｎｃｉｅｓ ｆｏｒ ｃａｐｔｕｒｉｎｇ ｄａｔａ ｉｎｃｏｎｓｉｓｔｅｎｃｉｅｓ

ＡＡＡＩ Ｐｒｅｓｓ，１９９６：２６７－２７０ ［Ｊ］．ＡＣＭ Ｔｒａｎｓ ｏｎ Ｄａｔａｂａｓｅ Ｓｙｓｔｅｍｓ（ＴＯＤＳ），２００８，３３

［６９］ Ａ，Ｅｔｋａｎ Ｃ． Ａｎ ｅｆｆｉｃｉｅｎｔ （２）：ｌ一４８

Ｋｎｏｗｌｅｄｇｅ Ｄｉｓｃｏｖｅｒｙ．Ｂｅｒｌｉｎ：Ｓｐｒｉｎｇｅｒ，１９９７：１—７ ＩＣＤＥ’１０．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２０１０：６４—７５

［７０］ Ｃｏｈｅｎ Ｗ Ｗ．Ｄａｔａ ｉｎｔｅｇｒａｔｉｏｎ ｕｓｉｎｇ ｓｉｍｉｌａｒｉｔｙ ｊｏｉｎｓ ａｎｄ ａ

Ｔｒａｎｓ ｏｎ Ｉｎｆｏｒｍａｔｉｏｎ Ｓｙｓｔｅｍｓ（ＴＯＩＳ），２０００，１８（３）：２８８— ＩＣＤＥ’１０．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２０１２：３１８—３２９

３２１ ［８６］Ｃｈａｕｄｈｕｒｉ Ｓ，Ｇａｎｔｉ Ｖ，Ｘｉｎ Ｄ．Ｍｉｎｉｎｇ ｄｏｃｕｍｅｎｔ ｃｏｌｌｅｃｔｉｏｎｓ

［７２］ Ｃｈａｕｄｈｕｒｉ Ｓ，Ｇａｎｔｉ Ｖ，Ｍｏｔｗａｎｉ Ｒ．Ｒｏｂｕｓｔ ｉｄｅｎｔｉｆｉｃａｔｉｏｎ ｏｆ

ｅｎｔｉｔｙ ｍａｔｃｈｉｎｇ［Ｊ］．Ｐｒｏｃｅｅｄｉｎｇｓ ｏｆ ｔｈｅ ＶＬＤＢ Ｅｎｄｏｗｍｅｎｔ，

ｏｆ ＩＥＥＥ ＩＣＤＥ’０８． ２０１１，４（４）：２０８—２１８

Ｋａｕｆｍａｎｎ。２００５ １ ３０１—３１２ ２０００：１６９－１７８

ＡＣＭ，２０１０：５２５－５３６ ｏｎ Ｖｅｒｙ Ｌａｒｇｅ Ｄａｔａｂａｓｅｓ．Ｓａｎ Ｆｒａｎｃｉｓｃｏ，ＣＡ：Ｍｏｒｇａｎ

大数据的一个重要方面数据可用性

大数据的一个重要方面数据可用性

大数据的一个重要方面数据可用性

计算机研究与发展ＩＳＳＮ１０００—１２３９１ＣＮ１１—１７７７１ＴＰ

ＡｎＩｍｐｏｒｔａｎｔＡｓｐｅｃｔｏｆＢｉｇＤａｔａ：ＤａｔａＵｓａｂｉｌｉｔｙ

ＬｉＪｉａｎｚｈｏｎｇａｎｄＬｉｕＸｉａｎｍｉｎ

（ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＨａｒｂｉｎＩｎｓｔｉｔｕｔｅｏｆＴｅｃｈｎｏｌｏｇｙ，Ｈａｒｂｉｎ１５０００１）

Ｉｎｔｅｒｎｅｔ，ｃｙｂｅｒｐｈｙｓｉｃａｌｓｙｓｔｅｍ，Ｉｎｔｅｒｎｅｔｏｆｔｈｉｎｇｓ，ｃｌｏｕｄｃｏｍｐｕｔｉｎｇａｎｄｓｏｃｉａｌｎｅｔｗｏｒｋ，ｂｉｇｄａｔａ

Ｋｅｖｗｏｒｄｓｂｉｇｄａｔａ；ｄａｔａｕｓａｂｉｌｉｔｙ；ｄａｔａｃｏｎｓｉｓｔｅｎｃｙ；ｄａｔａｃｏｍｐｌｅｔｅｎｅｓｓ；ｄａｔａａｃｃｕｒａｃｙ；ｄａｔａ

请求，维护着一个超过２．５ＰＢ的数据库；在高能物息社会．在美国，由于数据错误而引发的医疗事故，

现实世界中的实体．例如。某城市人口数量为４１３０４６５，２）完整的大数据可用性理论体系

２．１．１Ｗｅｂ数据的高质量获取与整合方法取方法，利用数据源之间的地理关联特征，过滤冗余

大数据．特别值得注意的是，针对复杂类型、半结构［１３］ＤｏｎｇＸＬ，Ｂｅｒｔｉ—ＥｑｕｉｌｌｅＬ，ＨｕＹｉｆａｎ，ｅｔａ１．Ｓｏｌｏｍｏｎ：

Ｓｅｅｋｉｎｇｔｈｅｔｒｕｔｈｖｉａｃｏｐｙｉｎｇｄｅｔｅｃｔｉｏｎ［Ｊ］．Ｐｒｏｃｅｅｄｉｎｇｓｏｆ

系大数据和非关系大数据，系统深入地开展大数据ｆｏｒｉｎｔｅｇｒａｔｉｏｎ［ｊ］．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＶＬＤＢＥｎｄｏｗｍｅｎｔ，

［１５３ＣｈｅｎｇＳｉｙａｏ，ＬｉＪｉａｎｚｈｏｎｇ．Ｓａｍｐｌｉｎｇｂａｓｅｄ（ｅ，８）一

和算法．［１６］ＬｉＪｉａｎｚｈｏｎｇ，ＣｈｅｎｇＳｉｙａｏ．（￡，８）一ａｐｐｒｏｘｉｍａｔｅａｇｇｒｅｇａｔｉｏｎ

ａｌｇｏｒｉｔｈｍｓｉｎｄｙｎａｍｉｃｓｅｎｓｏｒｎｅｔｗｏｒｋｓ［Ｊ］．ＩＥＥＥＴｒａｎｓｏｎ

ＰａｒａｌｌｅｌａｎｄＤｉｓｔｒｉｂｕｔｅｄＳｙｓｔｅｍｓ。２０１２，２３（３）：３８５—３９６

［１］ＲｅｄｍａｎＴ．Ｔｈｅｉｍｐａｃｔｏｆｐｏｏｒｄａｔａｑｕａｌｉｔｙｏｎｔｈｅｔｙｐｉｃａｌ

［２３ＭｉｌｌｅｒＤＷ，ＹｅａｓｔＪＤ，ＥｖａｎｓＲＬ．Ｍｉｓｓｉｎｇｐｒｅｎａｔａｌｒｅｃｏｒｄｓ

ＡｍｅｒｉｃａｎＭｅｄｉｃａｌＩｎｆｏｒｍａｔｉｃｓＡｓｓｏｃｉａｔｉｏｎ，２００５：５３５—５３９

Ｈｕｍａｎ：ＢｕｉｌｄｉｎｇａＳａｆｅｒＨｅａｌｔｈＳｙｓｔｅｍ［Ｍ］．Ｗａｓｈｉｎｇｔｏｎ：２００７：２４３—２５４

ａｎｄｔｈｅｂｏｔｔｏｍｌｉｎｅＪＲ］．ＡｐｐｌｉｃａｔｉｏｎｓＤｅｖｅｌｏｐｍｅｎｔＴｒｅｎｄｓ，

［２２］ＦａｎＷｅｎｆｅｉ，ＭａＳｈｕａｉ，ＨｕＹａｎｌｉ，ｅｔａ１．Ｐｒｏｐａｇａｔｉｎｇ

ＩｎｆｏｒｍａｔｉｏｎＱｕａｌｉｔｙ：ＭｅｔｈｏｄｓｆｏｒＣｏｓｔｓａｎｄ

［２５］ＫｏｕｄａｓＮ，ＳａｈａＡ，ＳｒｉｖａｓｔａｖａＤ，ｅｔａ１．Ｍｅｔｒｉｅｆｕｎｃｔｉｏｎａｌ

［１０］ＤｏｎｇＸＬ，Ｂｅｒｔｉ—ＥｑｕｉｌｌｅＩ。，ＳｒｉｖａｓｔａｖａＤ，Ｉｎｔｅｇｒａｔｉｎｇ

ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＶＬＤＢＥｎｄｏｗｍｅｎｔ，２００９，２（１）：５５０—５６１１１７７

ｔｈｅＶＬＤＢＥｎｄｏｗｍｅｎｔ，２００９，２（１）：５６２—５７３

】３６９ＳａｎＦｒａｎｃｉｓｃｏ，ＣＡ：ＭｏｒｇａｎＫａｕｆｍａｎｎ，２００３：５３６—５４７

ａｎｄＤａｔａＥｎｇｉｎｅｅｒｉｎｇ，２００６，１８（３）：３０４—３１９（３２８）：１１８３－１２１０

Ｉｎｆｏｒｍａｔｉｏｎ：ＡＳｕｒｖｅｙ［Ｍ］．Ｂｅｒｌｉｎ：Ｓｐｒｉｎｇｅｒ，１９９８：３０７— ｌａｒｇｅｄａｔａｂａｓｅｓ［Ｊ］．ＰｒｏｃｏｆＡＣＭＳＩＧＭＯＤＲｅｃｏｒｄ，１９９５，

［３１］ＧｒａｈｎｅＧ．ＴｈｅＰｒｏｂｌｅｍｏｆＩｎｃｏｍｐｌｅｔｅＩｎｆｏｒｍａｔｉｏｎｉｎ

［３２］ＩｍｉｅｌｉｆｌｓｋｉＴ，ＬｉｐｓｋｉＪｒＷ．Ｉｎｃｏｍｐｌｅｔｅｉｎｆｏｒｍａｔｉｏｎｉｎ

ＡＣＭＳＩＧＭＯｎｓＩＧＡｃＴ—ＳＩＧＡＲＴ［５２］ＬｉｍＥＰ，ＳｒｉｖａｓｔａｖａＪ，ＰｒａｂｈａｋａｒＳ，ｅｔａ１．Ｅｎｔｉｔｙ

ｉｄｅｎｔｉｆｉｃａｔｉｏｎｉｎｄａｔａｂａｓｅｉｎｔｅｇｒａｔｉｏｎ［Ｊ］．Ｉｎｆｏｒｍａｔｉｏｎ

ＳＩＧＡＲＴＳｙｍｐｏｎＰｒｉｎｃｉｐｌｅｓｏｆＤａｔａｂａｓｅＳｙｓｔｅｍｓ．ＮｅｗＰｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２００８：４０－－４９

Ｙｏｒｋ：ＡＣＭ，２０１０：１６９—１７８［５４］ＡｒａｓｕＡ，ＫａｕｓｈｉｋＲ．Ａｇｒａｍｍａｒ－ｂａｓｅｄｅｎｔｉｔｙ

ｏｎＤａｔａｂａｓｅＳｙｓｔｅｍｓ（ＴＯＤＳ），２００６，３１（１）：２０８—２５４Ｙｏｒｋ：ＡＣＭ，２００９：２３３—２４４

ｉｎｆｏｒｍａｔｉｏｎ口］．ＪｏｕｒｎａｌｏｆｔｈｅＡＣＭ（ＪＡＣＭ），２０１０，５８ｔｒａｎｓｆｏｒｍａｔｉｏｎｓｆｒｏｍｏｆｔｈｅ

［３９］ＣｈｅｎｇＲ，ＣｈｅｎＪ，ＸｉｅＸ．Ｃｌｅａｎｉｎｇｕｎｃｅｒｔａｉｎｄａｔａｗｉｔｈ

ｑｕａｌｉｔｙｇｕａｒａｎｔｅｅｓ［Ｊ］．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＶＬＤＢ

Ｗｅｎｆｅｉ，ＧｅｅｒｔｓＦ，ＷｉｊｓｅｎＪ．Ｄｅｔｅｒｍｉｎｉｎｇｔｈｅ［６０］ＦａｎＷｅｎｆｅｉ，ＧａｏＨｏｎｇ，ＪｉａＸｉｂｅｉ，ｅｔａ１．Ｄｙｎａｍｉｃ

ｏｆｄａｔａ［Ｊ］．ＡＣＭＴｒａｎｓｏｎＤａｔａｂａｓｅＳｙｓｔｅｍｓ（ＴＯＤＳ），

９５９ＭｅｎｌｏＰａｒｋ，ＣＡ：ＡＡＡＩＰｒｅｓｓ，２００５：８６２－８６７

ＸＭＬ［Ｃ］／Ｐｒｏｃｏｆｔｈｅ２００５ＡＣＭＳＩＧＭＯＤＩｎｔＣｏｎｆｏｎ

［６３］ＧｅｔｏｏｒＬ．ＧｒａｐｈＩｄｅｎｔｉｆｉｃａｔｉｏｎ［Ｍ］．Ｂｅｒｌｉｎ：Ｓｐｒｉｎｇｅｒ，２０１０Ｄａｔａ．ＮｅｗＹｏｒｋ：ＡＣＭ，２００９：７５９—７７０

［６４］ＦａｎＷｅｎｆｅｉ，ＬｉＪｉａｎｚｈｏｎｇ，ＭａＳｈｕａｉ。ｅｔａ１．Ｇｒａｐｈ

Ａｌｇｏｒｉｔｈｍｓａｎｄａｐｐｌｉｃａｔｉｏｎｓ［ｃ］／Ｐｒｏｃｏｆｔｈｅ２ｎｄＩｎｔＣｏｎｆｏｎ

ｆｕｎｃｔｉｏｎａｌｄｅｐｅｎｄｅｎｃｉｅｓｆｏｒｃａｐｔｕｒｉｎｇｄａｔａｉｎｃｏｎｓｉｓｔｅｎｃｉｅｓ

ＡＡＡＩＰｒｅｓｓ，１９９６：２６７－２７０［Ｊ］．ＡＣＭＴｒａｎｓｏｎＤａｔａｂａｓｅＳｙｓｔｅｍｓ（ＴＯＤＳ），２００８，３３

［６９］Ａ，ＥｔｋａｎＣ．Ａｎｅｆｆｉｃｉｅｎｔ（２）：ｌ一４８

ＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙ．Ｂｅｒｌｉｎ：Ｓｐｒｉｎｇｅｒ，１９９７：１—７ＩＣＤＥ’１０．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２０１０：６４—７５

［７０］ＣｏｈｅｎＷＷ．Ｄａｔａｉｎｔｅｇｒａｔｉｏｎｕｓｉｎｇｓｉｍｉｌａｒｉｔｙｊｏｉｎｓａｎｄａ

ＴｒａｎｓｏｎＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍｓ（ＴＯＩＳ），２０００，１８（３）：２８８— ＩＣＤＥ’１０．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２０１２：３１８—３２９

３２１［８６］ＣｈａｕｄｈｕｒｉＳ，ＧａｎｔｉＶ，ＸｉｎＤ．Ｍｉｎｉｎｇｄｏｃｕｍｅｎｔｃｏｌｌｅｃｔｉｏｎｓ

［７２］ＣｈａｕｄｈｕｒｉＳ，ＧａｎｔｉＶ，ＭｏｔｗａｎｉＲ．Ｒｏｂｕｓｔｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆ

ｅｎｔｉｔｙｍａｔｃｈｉｎｇ［Ｊ］．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＶＬＤＢＥｎｄｏｗｍｅｎｔ，

ｏｆＩＥＥＥＩＣＤＥ’０８．２０１１，４（４）：２０８—２１８

Ｋａｕｆｍａｎｎ。２００５１３０１—３１２２０００：１６９－１７８

ＡＣＭ，２０１０：５２５－５３６ｏｎＶｅｒｙＬａｒｇｅＤａｔａｂａｓｅｓ．ＳａｎＦｒａｎｃｉｓｃｏ，ＣＡ：Ｍｏｒｇａｎ

［９４］ＫｉｒｓｔｅｎＴ，ＫｏｌｂＬ，ＨａｒｔｕｎｇＭ，ｅｔａ１．ＤａｔａｐａｒｔｉｔｉｏｎｉｎｇｆｏｒＫａｕｆｍａｎｎ，２００７：３０３～３１４

Ｅｎｄｏｗｍｅｎｔ，２０１０，３（２）：１—８ｆｉｌｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｓｆｏｒａｐｐｒｏｘｉｍａｔｅｓｔｒｉｎｇｓｅａｒｃｈｅｓＥＣ］／／

ＲＰｒｏｃｏｆＩＥＥＥＩＣＤＥ’０８．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２００８：２５７—

ｓｉｍｉｌａｒｉｔｙｊｏｉｎａｌｇｏｒｉｔｈｍｕｓｉｎｇｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔｓ［ｃ］

ｒｅｓｏｌｕｔｉｏｎｗｉｔｈｉｔｅｒａｔｉｖｅｂｌｏｃｋｉｎｇ［ｃ］／／Ｐｒｏｃｏｆｔｈｅ３５ｔｈ／／ＰｒｏｃｏｆＩＥＥＥＩＣＤＥ’０８．Ｐｉｓｃａｔａｗａｙ。ＮＪ：ＩＥＥＥ，２００８：

ａｎｄＤａｔａＥｎｇｉｎｅｅｒｉｎｇ，２００５，１７（２）：１６０—１７５

［１１２］ＣｈｒｉｓｔｅｎＰ．Ｄｅｖｅｌｏｐｍｅｎｔａｎｄｕｓｅｒｅｘｐｅｒｉｅｎｃｅｓｏｆａｎ

［１０１］ＫｏｕｄａｓＮ，ＭａｒａｔｈｅＡ，ＳｒｉｖａｓｔａｖａＤ．Ｆｌｅｘｉｂｌｅｓｔｒｉｎｇ

［１０２］ＣｈａｕｄｈｕｒｉＳ，ＧａｎｔｉＶ，ＫａｕｓｈｉｋＲ．Ａｐｒｉｍｉｔｉｖｅｏｐｅｒａｔｏｒｆｏｒ

［１０３］ＢｅｈｍＡ，ＪｉＳ，ＬｉＣ，ｅｔａ１．Ｓｐａｃｅ—ｃｏｎｓｔｒａｉｎｅｄｇｒａｍ—ｂａｓｅｄ

ｓｉｍｉｌａｒｉｔｙｊｏｉｎｓｆｏｒｎｅａｒ－ｄｕｐｌｉｃａｔｅｄｅｔｅｃｔｉｏｎ口］．ＡＣＭＴｒａｎｓｏｆｔｈｅＩｎｔＤａｔａ

ｏｎＤａｔａｂａｓｅＳｙｓｔｅｍｓ（ＴＯＤＳ），２０１１，３６（３）：１５ＩｎｆｏｒｍａｔｉｏｎＢｅｒｌｉｎ：

［１０５］ＰａｐａｐｅｔｒｏｕＰ，ＡｔｈｉｔｓｏｓＶ，ＫｏｌｌｉｏｓＧ，ｅｔａ１．Ｒｅｆｅｒｅｎｃｅ— Ｓｐｒｉｎｇｅｒ，２００３：１—１０

ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＶＬＤＢＥｎｄｏｗｍｅｎｔ，２００９，２（ｉ）：２０５— ｂｅｎｃｈｍａｒｋｆｏｒＸＭＬ（ａｎｄｒｅｌａｔｉｏｎａｌ）ｄａｔａ［Ｃ］／／Ｐｒｏｃｏｆ

［１０６］ＹａｎｇＸｉａｏｃｈｕｎ，ＷａｎｇＢｉｎ，ＬｉＣｈｅｎ．Ｃｏｓｔ—ｂａｓｅｄｖａｒｉａｂｌｅ－（ＩＱＩＳ）．ＮｅｗＹｏｒｋ：ＶＬＤＢＥｎｄｏｗｍｅｎｔ，２００６：１－１９

ｌｅｎｇｔｈ—ｇｒａｍｓｅｌｅｃｔｉｏｎｆｏｒｓｔｒｉｎｇｃｏｌｌｅｃｔｉｏｎｓｔｏ

ｏｆｔｈｅＶＬＤＢＥｎｄｏｗｍｅｎｔ，２００９，２（２）：１５７４—１５７７ＩｎｎｏｖａｔｉｖｅＤａｔａＳｙｓｔｅｍｓＲｅｓｅａｒｃｈ（ＣＩＤＲ）．Ａｓｉｌｏｍａｒ，

［１２１］ＫＯｐｃｋｅＨ，ＲａｈｍＥ．Ｆｒａｍｅｗｏｒｋｓｆｏｒｅｎｔｉｔｙｍａｔｃｈｉｎｇ：ＡＵＳＡ：ＣＩＤＲＤＢ．ＯＲＧ，２００７：７－１０