基于领域知识图谱的生命医学学科知识发现探析

Download as pdf or txt
Download as pdf or txt
You are on page 1of 18

基于领域知识图谱的生命医学学科知识发

现探析
胡正银 ,刘蕾蕾 ,代冰 ,覃筱楚
1,2 1,2 1,2 3,4

1
(中国科学院成都文献情报中心 成都 610041)
2
(中国科学院大学经济与管理学院图书情报与档案管理系 北京 100190)
3
(广州市再生医学与健康广东省实验室 广州 510700)
4
(中国科学院广州生物医药与健康研究院 广州 510530)
摘 要:[目的]探讨融合多源数据,开展深层次学科知识发现研究与服务的方法。[方法]通过
构建科技文献 SPO 语义网络形成领域知识图谱的核心;通过“实体对齐、概念层次融合与
关系融合”实现多源异构数据融合,生成完整领域知识图谱;基于领域知识图谱开展深层次
学科知识发现;选择造血干细胞癌症治疗进行实证研究。[结果]提出了一套基于知识图谱的
学科知识发现方法框架(KGSKD),KGSKD 可多维度、细粒度融合多源异构数据,定义数
据间复杂语义关系,原生支持知识推理、路径发现、链路预测等知识发现应用。[局限] KGSKD
存在容易出现数据过饱和、知识发现过程可解释性较差、与领域专家沟通难度较高等局限。
[结论] KGSKD 具有“数据类型更丰富、知识关联更全面、挖掘方法更先进、发现结果更深
入”等优势,可更有效支持生命医学学科深层次知识发现研究与服务。
关键词:学科知识发现;知识图谱;SPO 三元组;数据融合;实体对齐
分类号:G251.2,TP393
DOI: 10.11925/infotech. 2020-0681.

A Study on Knowledge Graph-based


Subject Knowledge Discovery in Life
Sciences and Medicine
Hu Zhengyin1,2,Liu Leilei1,2,Dai Bing1,2,Qin Xiaochu3,4
1(Chengdu
Library and Information Center, Chinese Academy of Sciences, Chengdu 610041,
China)
2(Department of Library, Information and Archives Management, School of Economics and

Management, University of Chinese Academy of Sciences, Beijing 100190, China)


3(Guangzhou Regenerative Medicine and Health Guangdong Laboratory, Guangzhou 510700,

China)
4(Guangzhou Institutes of Biomedicine and Health, Chinese Academy of Sciences, Guangzhou

510530, China)

通讯作者:胡正银,ORCID:0000-0002-5699-9891,E-mail: [email protected]
本文系中国科学院“十三五”信息化专项“面向干细胞领域知识发现的科研信息化应用”(项目编

号:XXH13506-203)、中国科学院文献情报能力建设专项“科技知识服务大数据基础设施”(项目编
号:Y9290002)与科技部创新方法工作专项“基于群智理论的创新方法新系统研究与应用示范”(项目
编号:2019IM020100)的研究成果之一。
Abstract: [Objective] This paper aims to study the method of deep subject knowledge discovery
by fusing multi-source heterogeneous data. [Methods] This paper constructs a SPO semantic
network of literatures to form the core of a domain knowledge graph, implements multi-source
heterogeneous data fusion through “entity alignment, concept level fusion and relationship fusion”
to achieve the whole domain knowledge graph, and discovers deep subject knowledge based on the
knowledge graph. Hematopoietic Stem Cell for Cancer Treatment (HSCCT) was chosen as a case
study. [Results] This paper proposes a framework of knowledge graph-based subject knowledge
discovery (KGSKD), which can fuse multi-source heterogeneous data fine-grandly from multi-
dimension, define complex semantic relationships between the data, and support knowledge
discovery techniques such as knowledge inference, pathfinder, and link prediction and so on natively.
[Limitations] KGSKD has some limitations including data supersaturation, poor interpretability of
knowledge discovery results and difficulty in communicating with domain experts. [Conclusions]
KGSKD has the advantages of “richer data types”, “more comprehensive knowledge linkage”,
“more advanced mining methods” and “deeper discovery results”, which can more effectively
support the research and service of deep knowledge discovery in life sciences and medicine.
Keywords: Subject knowledge discovery; Knowledge graph; SPO triples; Data fusion; Entity
alignment

1 引言
在数据密集型科学时代,生命医学研究领域不断扩张、细化和交叉,以科
技文献、科学数据和临床试验等为核心的科技数据呈“井喷式”增长,科学研
究日益成为数据驱动的知识发现活动[1,2]。然而学科的知识结构、知识脉络与知
识关联也越来越复杂,对科研人员高效利用多源数据、发现深层次知识带来了
新的挑战[2,3]。学科知识发现的概念从基于文献的知识发现(Literature-based
Discovery,LBD)发展而来,它基于“问题导向”,应用情报学、信息学、数
据科学与计算科学的方法、技术与工具,对学科多源异构的、割裂的、碎片化
的数据进行数据融合、知识关联、知识挖掘与知识计算,以辅助科研人员高效
利用数据,启发科研思路与发现新知识,提供精准智能的知识与情报服务,是
学科情报研究、计算情报研究、智能情报研究与学科信息学的重要内容和发展
方向[2,4-7]。
对论文、专利、临床试验、药物研发以及疾病、基因等“多类型、多来
源、多形态”科技数据进行细粒度、多维度的数据融合与知识关联,是生命医
学学科知识发现的前提与基础以及核心研究问题[2,5]。知识图谱(Knowledge
Graph,KG)是一种基于图对多源异构数据进行数据融合与知识关联的新型知
识组织技术[8]。在知识组织上,KG 支持知识单元的多层次、细粒度、富语义组
织与知识互联,在服务上支持智能检索、知识推理、路径发现、链路预测等知
识发现应用,可有效支持学科知识发现[9,10]。
本文在对传统 LBD 分析的基础上,提出了一套基于知识图谱多源数据融合
的学科知识发现(Knowledge Graph-based Subject Knowledge Discovery,
KGSKD)方法框架,以造血干细胞癌症治疗(Hematopoietic Stem Cell for
Cancer Treatment,HSCCT)为例构建领域知识图谱,进行学科知识发现探索。
本文组织结构如下:第一部分阐述了研究背景与基于知识图谱进行学科知识发
现的研究意义。第二部分介绍了 LBD 与知识图谱数据融合相关知识。第三部分
系统介绍了 KGSKD 方法框架。第四部分是实证研究,介绍了 HSCCT 知识图
谱构建流程以及基于知识图谱进行的深层次学科知识发现服务与探索。第五部
分归纳了 KGSKD 的优点,分析了其在实际应用中存在的问题。第六部分对本
研究进行小结,探讨 KGSKD 未来发展方向。

2 相关研究

2.1 基于文献的知识发现
科学研究中一个领域存在的问题可能在其他领域被解决或部分解决过,它
们之间存在潜在但未被发现的隐性知识关联,这种隐性知识关联的数量、复杂
程度以及对科学发现的意义可能要远超过显性的引用关联[11-14]。LBD 就是一种
发现跨领域知识之间隐性关联的特定类型文本挖掘应用[15],最初由 Swanson 教
授提出[13,14]。它从科技文献中以自动或半自动化的方式挖掘知识概念之间的隐
性关联,揭示尚未被发现的公共知识,以制定或评估新的科学假设,辅助支持
潜在的科学新发现[13-16]。
LBD 的核心思想是 ABC 模型,即如果一个文献集给出“概念 A‘影响’
概念 B”这一知识,而另一文献集给出了“概念 B‘影响’概念 C”这一知
识,那么可挖掘出“概念 A‘影响’概念 C”这一隐性知识关联,其可能代表
了一个潜在的科学假说[13-15]。基于 ABC 模型,LBD 通常被分为封闭式知识发
现和开放式知识发现两类[16,17](图 1)。前者目的是挖掘用户感兴趣两个已知
概念之间的隐性知识关联,即在用户给定概念 a1 与 c1 基础上,发现文献集合
中有可能将两者关联起来的潜在概念集合{b1,b2,b3,…};封闭式知识发
现常用于评估或测试已有科学假设。而开放式知识发现则从用户感兴趣的单一
概念 a1 开始,旨在发现文献集合中所有与 a1 存在间接知识关联的潜在关联概
念集合{c1,c2,c3,…},其常用于制定或发现新的科学假设。

图 1 封闭式知识发现与开放式知识发现示意图[17]
Fig.1 A Diagram of Close Discovery and Open Discovery [17]

LBD 已被广泛应用于生命医学学科知识发现。例如,Swanson[13]通过文献
挖掘发现食用鱼油可以改善或预防雷诺综合征的科学假说。Kostoff 等基于 LBD
发现治疗白内障[18]、多发性硬化症[19]和帕金森病的潜在知识[20]。生物信息学界
还开发了 LBD 工具来预测如基因与疾病的关联、蛋白质相互作用、药物不良事
件等[15,16]。剑桥大学计算科学家和癌症研究人员[17]协同研发一个人工智能驱动
的 LBD 系统,帮助科学家高效地从文献中发现与癌症相关知识。国内学界也积
极尝试开展基于 LBD 的学科知识发现服务。例如,侯跃芳等[21]基于 LBD 来发
现与先天性全身多毛症相关的潜在候选基因。南京中医药大学图书馆建立专门
团队配合科研人员,开展了一系列旨在启发科研思路的学科化知识发现服务,
包括糖尿病肾病的中药治疗靶点筛选、中药防治术后腹腔粘连等,取得了良好
的服务效果[7]。
然而在数据层面,现有 LBD 以分析科技文献为主,较少涉及领域知识本
体、关联数据等其它类型数据。在知识组织层面,LBD 多基于关系模型进行数
据的结构化组织,如使用“外键”进行简单的数据关联,难以描述知识实体之
间复杂的关联关系。在方法层面,现有研究以知识概念共现分析为主,较少引
入知识推理、路径发现等知识挖掘方法,难以挖掘复杂、深层次的隐性知识关
联。总之,现有 LBD 存在“数据来源类型单一、知识组织层次较浅、分析方法
较传统”等局限。

2.2 基于 SPO 三元组的知识图谱数据融合


知识图谱已被广泛应用于生命医学数据融合与知识发现[9,10],而“主语-谓
语-宾语(Subject-Predicate-Object,SPO)”三元组是一种形式简单但功能强大
的语义数据表示方法,大量三元组形成的 SPO 语义网络可认为就是一种领域知
识图谱,可用于学科知识发现[22,23]。美国国家医学图书馆(NLM)发起的语义
知识表示项目(Semantic Knowledge Representation,SKR)开发了一系列自然
语言处理与文本挖掘工具如 SemRep1,MetaMap2等,以 SPO 三元组形式系统地
对生命医学科技文献进行语义知识表示。其中,Subject 与 Object 是统一医学语
言系统(UMLS)超级词表(Metathesaurus)中的规范化概念与术语,即知识
图谱中的知识实体;Predicate 则是以谓语形式展现的概念之间的各种语义关
系,即知识图谱中的关联关系[24]。Kilicoglu 等[25]将这些关联关系归纳为 50 余
种基础语义关系,以期作为生命医学领域语义关系金标准。
以“we used hemofiltration to treat a patient with digoxin overdose that was
complicated by refractory hyperkalemia”为例,从中可挖掘出 4 个 SPO 三元组[24]
(表 1)。其中,前 3 个 SPO 是直接从文本中抽取出来的,第 4 个 SPO 三元组
“Hemofiltration-TREATS-Digoxin overdose”则是通过知识推理得到的隐性知
识。上述 SPO 三元组模型不仅可以表示科技文献中包含的知识实体及其之间的
关联关系,也可以用于表示领域知识本体与关联数据等,以实现多源异构数据
融合与知识关联。
表 1 SPO 三元组示例
Table 1 Samples of SPO Triples
序号 主语 主语语义类型 谓语 宾语 宾语语义类型

Therapeutic or
1 Hemofiltration TREATS Patients Human
Preventive Procedure
Digoxin
2 Injury or Poisoning PROCESS_OF Patients Human
overdose

3 Hyperkalemia Pathologic Function COMPLICATES Digoxin Injury or

1 https://semrep.nlm.nih.gov/
2 https://mmtx.nlm.nih.gov/
overdose Poisoning

Therapeutic or TREATS Digoxin Injury or


4 Hemofiltration
Preventive Procedure (INFER) overdose Poisoning
资料来源:SemRep.2020.https://semrep.nlm.nih.gov/

与基于概率模型、机器学习等重量级的数据融合方式相比,基于 SPO 三元
组的知识图谱数据融合是一种基于语义模型的轻量级数据融合方式。它既不依
赖人工标注的训练数据集,也不需要设计复杂的相似度概率模型,而是将 SPO
三元组向 UMLS 中规范化概念与语义关系金标准进行映射,具有高准确率、高
效率与易解释等优点,被广泛应用于生命医学概念、术语与关系融合[9,22-23]。

3 方法框架
针对现有 LBD 研究局限,本文面向深层次生命医学学科知识发现需求,提
出了一套基于知识图谱多源数据融合的学科知识发现方法框架(图 2)。该方
法框架可以概括为三个部分。
第一部分,科技文献 SPO 语义网络构建。科技文献蕴含的知识具有“可
信、专业、规范、及时、丰富”等特点,是学科知识发现的核心数据源[22,23]。
首先,从科技文献中以 SPO 三元组的形式抽取知识实体及其之间的语义关系,
构建表示领域核心知识内涵与知识结构的 SPO 语义网络。该 SPO 语义网络是
领域知识图谱的核心。
第二部分,知识图谱多源异构数据融合。然后,在科技文献 SPO 语义网络
基础上,进一步融合第三方数据(如关联数据集、其他相关 LBD 数据及知识图
谱等),以丰富与完善领域知识图谱。
第三部分,学科知识发现服务。最后,面向具体需求,基于领域知识图谱
选用合适的知识挖掘方法开展个性化学科知识发现研究与服务。

图 2 KGSKD 方法框架
Fig.2 Framework of KGSKD
3.1 科技文献 SPO 语义网络构建
其目标是从科技文献文本中,以 SPO 三元组形式挖掘领域知识图谱的核心
知识,分为如下 5 个任务。
(1)检索科技文献。构建合适的检索策略,从科技文献数据库中检索相关
科技文献。
(2)抽取 SPO 三元组。本研究选取 SemRep 从文献的文本字段如标题、
摘要、权利要求等中抽取原始 SPO 三元组,示例见表 1。
(3)清洗 SPO 三元组。SemRep 抽取的原始 SPO 三元组数量庞大,且存
在一些较宽泛的概念以及与知识发现不相关的语义关系,在应用之前需要进行
SPO 数据清洗[22,23]。Subject 与 Object 的清洗步骤可参照 Zhang Yi 等[26]提出的
术语收敛框架,Predicate 清洗可参照胡正银[27]提出的谓语清洗流程,主要包括
合并同义项(如将“tumor”与“tumour”合并),删除通用或不相关项(如
“cell”,“disease”,“organ”,“NEG_ISA”等)以及裁剪低频项等。
(4)遴选核心 SPO 三元组。清洗后的 SPO 虽然形式上较规范,但内容上
并不一定全部属于所关注的领域,因此需要进行核心三元组遴选。参照
Fiszman 等[28]提出的“相关性(Relevancy)、连接性(Connectivity)、新颖性
(Novelty)和显著性(Saliency)”四原则,可先从新颖性与显著性角度,基
于 SPO 频次或 TF-IDF 值对 SPO 的重要性进行排序,然后从相关性角度请专家
进一步人工筛选,最后得到核心 SPO 数据集。
(5)构建 SPO 语义网络。基于核心 SPO 数据集构建 SPO 语义网络。该
SPO 语义网络既可作为领域知识图谱的一部分,也可单独用于知识挖掘与可视
化分析[22-23,29]。图 3 是一个 SPO 语义网络示例[22],每一个圆圈代表一个语义实
体。最上层为 Subject 主语网络,中间层为 Predicate 谓语网络,最下层为
Object 宾语网络,中间的连线表示主语和谓语之间的语义关系,不同的颜色代
表了不同的 SPO 簇。

图 3 SPO 语义网络示例图[22]
Fig.3 A sample of SPO semantic Network [22]
3.2 知识图谱多源异构数据融合
其目标是基于 SPO 三元组模型,将第三方数据与科技文献 SPO 语义网络
进行数据融合与知识关联,生成最终的领域知识图谱,分为如下 4 个任务。
(1)映射 SPO 三元组。选择合适的工具,将需要融合的数据集如 RDF 数
据、关系型数据库等先统一映射成 SPO 三元组。如可利用 D2RQ 工具3将关系
型数据库转换成 RDF 数据格式,利用 Apache Jena 工具4进一步将 RDF 数据解
析为 SPO 三元组。
(2)知识实体对齐。在生命医学领域,UMLS 超级词表被广泛用作概念
(知识实体)基准数据集。本研究中知识实体对齐系指找到源知识实体在
UMLS 中对应的规范化目标知识实体的映射过程,可分为“一对一映射、多对
一映射、一对多映射以及一对无映射”4 种(表 2)[30,31]。
表 2 知识实体向 UMLS 映射[30,31]
Table 2 Mapping Types of Knowledge Entities to UMLS[30,31]
源知识实体 目标知识实体
序号 映射类型
(Term) (CUI|Concept Name|STY)*

1 一对一映射 Abnormality of neutrophils C0427515| Neutrophil abnormality| Finding

Central Nervous System


Neoplasms
C0085136| Central Nervous System Neoplas
2 多对一映射 CNS TUMORS ms| Neoplastic Process

CNS NEOPL

C1335654|RUNX1 gene| Gene or Genome


3 一对多映射 RUNX1
C1435548| RUNX1 protein, human| Amino
Acid, Peptide, or Protein

4 一对无映射 Conjunctival icterus ——

注:UMLS 中每一个概念都有唯一的概念标识符 CUI 以及对应的语义类型 STY。

根据上述映射情况,基于 UMLS 专家词典与自然语言处理工具[31]中的原子


映射[32]、术语映射[33]、子术语映射[34]和语义类型映射[32]技术,刘蕾蕾[30]提出了
基于 UMLS 和多维实体映射的知识实体对齐流程(表 3),可高效、标准化地
实现生命医学领域知识实体往 UMLS 超级词表的映射。本研究利用该流程进行
知识实体对齐。
表 3 基于 UMLS 和多维实体映射的知识实体对齐流程[30]
Table 3 Process of Knowledge Entities Alignment based on UMLS and Entities Mapping
知识实体对齐流程(伪代码描述)
1.Input: 源知识实体 (Term1)
2. IF Term1 来自 UMLS 超级叙词表 Metathesaurus
THEN 原子映射 get CUI and 概念优选名称映射 get Concept Name
Output: 目标知识实体(CUI |Concept Name)
3. ELSE 术语映射(MetaMap)

3 http://d2rq.org/
4 https://jena.apache.org/
3.1 IF 完全映射(MetaMapping=1000)THEN Output: 目标知识实体(CUI| Concept Name)
3.2 IF 候选映射(1000>MetaMapping>0)
THEN 子术语映射 Output: 目标知识实体(CUI| Concept Name)
3.3 IF 无映射(MetaMapping 无结果) THEN 专家人工映射
4. 语义类型映射(MRSTY.RRF)5
5. Output: 目标知识实体(CUI| Concept Name| STY)

(3)概念层次融合[30]。概念层次融合是知识实体对齐后的进一步数据融
合操作,系指对知识实体的语义类型进行规范化与对齐。以知识实体
“C0085136|Central Nervous System Neoplasms”为例,在不同数据集中有多种
语义类型定义,如“Central nervous system disease”,“Neoplastic Process”,
“Disease”等,需要对其规范化。UMLS 定义了 127 种语义类型6,旨在提供一
个生命医学知识实体语义类型的金标准。在实际应用中,常由领域专家参照金
标准,选择相关的语义类型以及制定映射规则来实现概念层次融合。
(4)关系融合。不同数据源中知识实体之间的语义关系、语义粒度等并不
完全相同,需对其进行规范化与融合,即实现“谓语(Predicate)”对齐。例
如,“promote”,“increase”,“enhance”等均表示知识实体之间的一种优
化关系,在进行关系融合时可统一映射为“PROMOTE”。关系融合一般先参
照术语收敛框架[26]与谓语词典[27]进行关系规范化,然后再结合语义关系金标准
进行谓语对齐[25]。有时为了特定知识发现目的,还需要进一步对融合后的语义
关系进行语义分组[29]。
然后,可利用图数据库管理系统对知识图谱数据进行持久化存储。Neo4j7
是一款基于原生图模型的图数据库管理系统,提供基于图论的数据存储结构和
知识查询推理,被广泛应用于知识图谱数据管理。本研究采用 Neo4j 管理
HSCCT 知识图谱数据。

3.3 基于领域知识图谱的学科知识发现
从知识组织角度看,学科知识发现可分为共现模型与语义模型两类[16]。共
现模型通常使用共现分析、关联规则等方法,通过分析概念之间的共现关系来
发现知识之间的潜在关联,适用于小数据集上较简单的知识发现。而语义模型
适用于复杂、深层次隐性知识发现,是学科知识发现的主要发展方向。
知识图谱就是一种典型的语义模型,其中的知识实体除了直接关联外,还
可通过一个或多个中间知识实体间接关联起来,产生若干条关联路径
(LinkPath)。当 LinkPath 长度为 1 时,表示两个知识实体之间有直接关系,
通常这种关联路径是公知知识。当 LinkPath 长度大于 1 时,表示两个知识实体
之间存在一些间接的、隐性的关联,这种关联路径有可能揭示了知识实体之间
发生关联的“知识路线”,启发科研思路,是学科知识发现研究的重点[11,14-
16]
。从知识图谱中发现上述关联路径一般有知识推理、路径发现与链路预测三
种方法(图 4)。

5 https://www.nlm.nih.gov/research/umls/META3_current_semantic_types.html
6 https://mmtx.nlm.nih.gov/SemanticTypesAndGroups.shtml
7 https://neo4j.com/
图 4 基于知识图谱的知识发现方法
Fig.4 The Knowledge Graph-based Knowledge Discovery Techniques
(1)知识推理(Knowledge Inference)。知识推理主要利用专家知识,在
知识实体间语义关系的基础上定义若干知识推理规则,形成知识规则库,进而
实现知识推理。Hristovski 等[35]定义药物与疾病之间“Maybe_Treat”知识推理
规则如下(图 4.a):
IF Drug Z1- inhibit- Gene Y1 and
Disease X1- upregulate- Gene Y1
THEN Drug Z1-“Maybe_Treat”- Disease X1 (规则 1)
即如果药物 Z1 与基因 Y1 之间存在“inhibit”关系,并且疾病 X1 与基因
Y1 之间存在“upregulate”关系,那么可认为药物 Z1 与疾病 X1 之间存在
“Maybe_Treat”关系。该方法从本体与知识库发展而来,适用于小数据集学科
知识发现[36]。
(2)路径发现(Pathfinder)。当知识实体之间的 LinkPath 较短时,使用
知识推理发现其隐含关系比较准确、高效;但是当知识实体间 LinkPath 较长
时,人工就很难准确归纳出类似规则 1 那样的推理规则。如图 4.b 所示,当知
识实体 a1 与 z1 之间的关系非常远时,不论是语义检索还是专家人工归纳推理
规则,都难以发现它们之间的隐含关系。路径发现是一种从复杂网络中发现关
键子网络并突出其重要的结构特征的方法,可用于知识图谱中知识实体之间复
杂路径分析与发现[37,38]。
本研究基于 Neo4j 的“多深度关系节点”查询,通过自定义查询路径的长
度范围来进行路径发现,可发现在指定 LinkPath 长度范围内与知识实体 a1 存
在关联关系的所有知识实体。路径发现功能也可用于判断在指定关联路径长度
范围内两个看似无关的知识实体之间是否存在隐性关联。这一分析方法已经被
应用于基因、疾病、免疫等隐性关系分析以及药物设计等领域[38]。
(3)链路预测(Link Prediction)。因为各种原因,知识实体之间的关系
会存在缺失或暂时没有被发现。如图 4.c 所示,如果存在关联关系的知识实体
k1 与 m1 之间的关系链在知识图谱中断开或没有被发现,那么会导致与之相关
的隐性知识无法通过知识推理或路径发现等技术被发现。链路预测是在知识图
谱中进行知识发现的一种重要数据挖掘方法,其目的是预测知识图谱中当前
“缺失”的边(关联关系)或未来可能会出现的边[39]。
链路预测通过计算两个知识实体之间的紧密度,来预测它们之间产生“新
链接”的可能性。Neo4j 的 Graph Data Science 库内嵌了“Adamic Adar、
Common Neighbors、Preferential Attachment 、Same Community”等多种链路预
测算法8。其中,Adamic Adar 算法[40]是一种频次加权的共同邻居算法,可有效

8 https://neo4j.com/docs/graph-data-science/current/algorithms/linkprediction/
平滑知识图谱中因少数共同邻居频次过高带来的偏差,见公式(1)。经比较,
本研究选用 Adamic Adar 算法来进行基于链路预测的知识发现。
1
𝐴(𝑥, 𝑦) = ∑𝑢∈𝑁(𝑥)∩𝑁(𝑦) (1)
log⁡|𝑁(𝑢)|

其中:N(u)是与知识实体 u 相邻的知识实体集合。A(x,y)是知识实体 x,y


之间的紧密度,值越高表明两个知识实体间的紧密度越大。

4 实证研究
造血干细胞(Hematopoietic Stem Cell,HSC)是发现最早、研究历史最长
和临床应用最为有效、广泛的多能成体干细胞,已被成功用于治疗血液系统肿
瘤等疾病,未来可能会更广泛应用于癌症治疗、细胞治疗等领域[41]。本研究选
择 HSC 在医学中一个具体应用 HSCCT 来构建领域知识图谱以及进行学科知识
发现探索。

4.1 HSCCT 科技文献 SPO 语义网络构建


在中国科学院“十三五”信息化专项“面向干细胞领域知识发现的科研信息
化应用”支持下,项目组构建了一个包含论文与专利的 HSC 科技文献集,检索
策略与检索结果如表 4 所示。根据 3.1 所述方法流程,项目组进一步构建了 HSC
科技文献 SPO 语义网络[9]。

表 4 HSC 科技文献检索策略与检索结果
Table 4 Search Policy and Results of HSC Literatures
类型 数据库 检索策略 数据量
(((((((stem cells) OR stem cell)) AND (((((stem cellulose) OR stem.
Cellular) OR cello) OR cellar) OR cellphone))) OR ((((((((((((ESC) O
24,051
论文 PubMed R ASC) OR iPS) OR PGC) OR MSC) OR CSC) OR LSC) OR TS

C) OR ADSC) OR HSC)) near ((cell) OR cells)))) AND ((Hematopo
iet*) AND stem cell*)
(((((ALLD=(("stem cells" OR "stem cell") NOT ("stem cellulose" or
"stem. Cellular" or "cello" or "cellar" or "cellphone")) OR ALLD=((E
SC or ASC or iPS or PGC or MSC or CSC or LSC or TSC or AD
SC or HSC) near (cells OR cell)) OR ALLD=(("totipotent" or "plurip
otent" or "multipotent" or "unipotent" or "progenitor" or "precursor")
ADJ (cells OR cell)) OR ALLD=("tissue engineer*" OR "tissue scaff
Derwent olding " OR "tissue regenerat*of regenerative medicine" OR "tissue e
3,986
专利 Innovatio xpansion of regenerative medicine" OR "tissue therapy of regenerativ

n e medicine" OR "tissue culture of regenerative medicine" OR "tissue
construction of regenerative medicine" OR "biological material*" OR
"animal seed cells") OR ABD=(("skin" OR "cartilage" OR "bone" O
R "tendon" OR "myocardiac" OR "cardiac" OR "vascular" OR "nerve
" OR "cornea" OR "dental" OR "periodontal") ADJ ("tissue engineer
*" or "regenerat*")) OR ALLD=("tissue engineer*" AND biomaterial
*) OR SSTO=("regenerative medicine") OR ICR=("C12N0050735" O
R "C12N005074" OR "C12N0050789" OR "C12N0050797" OR "C12
N005095")) NOT ALLD=("seed*" or "herbicide insect hybrid" or "hy
brid" or "root bud seeding" or "hybrid corn " or "plant tissue seed")
NOT ALLD=(("fuel cell" or "in-plane switching" or "Intrusion Preven
tion System") NOT (("non-pluripotent") ADJ (CELL*))) NOT ICR=
(H or D or E or F or A01B or A01C or A01H or A01G or A21 o
r A22 or A23 or A46 or A24 or A47 or A63 or A62 or A44 or A
45 or C02 or C03C or C05or OR C06 or C10 or C21 or C07B or
C07C or C07D or C07F or C07J))) AND (CC=((WO OR US OR E
P OR JP)))) AND (ALLD=(Hematopoiet* and stem cell*));

本研究在 HSC SPO 三元组基础上,基于“相关性”与“显著性”原则进一


步遴选 HSCCT 领域的核心 SPO 三元组。先基于“相关性”原则,从 HSC SPO
核心三元组集合中,以“cancer”、“carcinoma”、“neoplasm”、“tumor”、
“neoplastic”、“oncologic”、“neoplasia”、“leukemia”和“leukemogenesis”
等为检索词检索出与癌症相关的 SPO 三元组。然后基于“显著性”原则,裁剪
掉低频和无具体意义的 SPO 三元组,以此构建 HSCCT 科技文献 SPO 语义网络。

4.2 HSCCT 知识图谱数据融合


为了有效支持 HSCCT 学科知识发现,本研究进一步选择 DisGeNET 关联数
据集 、LION LBD 数据集10中部分数据和 HSCCT 科技文献 SPO 语义网络进行数
9

据融合,构建完整的 HSCCT 知识图谱。具体来说,本研究选取了 DisGeNET 中


的基因-疾病关联数据、变异-疾病关联数据、变异-基因关联数据以及基因-表型
关联数据,以及 LION LBD 中与癌症高度共现的知识实体,按照 3.2 所述方法流
程进行数据融合,构建了 HSCCT 知识图谱[30]。
目前,HSCCT 知识图谱包含 14 种知识实体语义类型(表 5)、8 类语义分
组与 39 种语义关系(表 6),共计 498,231 个知识实体和 2,733,010 条语义
关系。
表 5 HSCCT 知识实体语义类型[30]
Table 5 Semantic Types of HSCCT Knowledge Entities [30]
语义类型(英文) 语义类型(中文)
Chemicals_Drug 化学物质与药物
Disorder 疾病
Genes_Molecular_Sequence 基因与分子序列
Phenotype 表型
Mutation 突变
Hallmark 癌症标识物
Phenomena 现象
Procedure 程序活动
Device 设备
Physiology 生理学

9 https://www.disgenet.org/,全球最大的疾病-基因关联数据库之一。
10 https://lbd.lionproject.net/,一个基于科技文献的癌症领域知识发现系统。
Concepts(including gene, cell, virus, etc.) 概念(包含基因、细胞、病毒等)
Living_Being 生物
PMID 论文

PN 专利

表 6 HSCCT 语义关系[30]
Table 6 Semantic Relations in HSCCT Knowledge Graph [30]
语义分组
语义关系对象 语义关系(Semantic Relationship)
(Semantic Group)
ASSOCIATED_WITH(mutation_to_disease, mutation_to_phenot
ype, gene_to_mutation, gene_to_disease, gene_to_phenotype, gen
相互作用关系 eRelated);
INTERACT_WITH;PRODUCE;CONVERT_TO;COEXIST_
WITH
TREAT;PREVENT;USE;METHOD_OF;ADMINISTERED_
功能关系
TO
知识实体
表象关系 DIAGNOSE;MANIFESTATION_OF

知识实体 比较关系 HIGH_THAN;LOWER_THAN;SAME_AS;ISA

位置关系 PART_OF;LOCATION_OF;OCCUR_IN

AFFECT;PROMOTE;DISRUPT;CAUSE;INHITBIT;
影响关系 PREDISPOSE;AUGMENT;PRECEDE;PROCESS_OF;
COMPLICATE;STIMULATE;

共现关系 cooccurrence

知识实体
belong_to_PMID
- 隶属关系
belong_to_PN
科技文献
注:大写的语义关系如 AFFECT ,ASSOCIATED_WITH 等来自文献[25]提到的生命医学语义关系金标准。

4.3 基于 HSCCT 知识图谱的学科知识发现探索


HSCCT知识图谱已被用于开展学科知识发现服务与研究,列举若干典型服
务如下。
(1)共现分析。根据 HSCCT 知识图谱中知识实体共现关系(cooccurrence)
分析特定基因与疾病、细胞、免疫等概念在科技文献中的共现情况,为科研人员
初步筛选可能与疾病相关的基因提供服务。
(2)知识推理。基于疾病与基因关系(gene_to_disease)以及基因与表型关
系(gene_to_phenotype),制定了“has_Phenotype”推理规则如下:
IF Disorder D1 - gene_to_disease - Gene Concept G1 and
Gene Concept G1 - gene_to_phenotype - Phenotype P1
THEN Disorder D1 -“has_Phenotype”- Phenotype P1 (规则 2)
首先,通过关联检索,发现与“恶性肺肿瘤(Malignant neoplasm of lung)”
密切相关的基因包括“TP53,KRAS,BRCA2,STK11,GSTP1”等[30]。然后,
通过规则 2 进行知识推理得到一系列可能与“恶性肺肿瘤”相关的表型。最后,
通 过 专 家 咨 询 选 择 “ Distal muscle weakness ” , “ Seizures ” , “ Irregular
hyperpigmentation”,“Clubbed Fingers”与“Abnormal pigmentation of the oral
mucosa”等表型供科研人员进一步分析。
(3)路径发现[30]。以“疫苗(Vaccines)”和“胎盘生长因子(Placental Growth
Factor)”为例,科研人员希望通过分析其 LinkPath 以启发科研思路。利用 “多
深度关系节点”分析功能,结合专家咨询挖掘出了 LinkPath 长度为 2-3 的若干重
要“知识路线”(图 5)。如图 5 所示,“疫苗”和“胎盘生长因子”除了能直
接通过“恶性肿瘤(Malignant Neoplasms)”进行关联外,还可以通过“癌症治
疗(Cancer Treatment)”、“白血病,T 细胞(Leukemia, T-Cell)” 、“肾细
胞癌(Renal cell carcinoma)” 、“胰腺癌(Pancreatic carcinoma)”等知识实
体与“恶性肿瘤”进行关联。专家认为以下两条 LinkPath 有一定的启发意义。
关联路径 1:“Vaccines”- [TREAT] -“Leukemia, T-Cell”- [cooccurrence] -
“Malignant Neoplasms”[ASSOCIATED_WITH] -“Placental Growth Factor”
关联路径 2: “Vaccines”- [USE] -“Cancer Treatment”- [TREAT] -“Malignant
Neoplasms”[ASSOCIATED_WITH] -“Placental Growth Factor”

图 5“疫苗”和“胎盘生长因子”关联路径
Fig.5 LinkPaths between Vaccines and Placental Growth Factor
注:为保证可读性,图 5 种删除了专家认为意义不大的关联路径。

(4)链路预测。例如,“转录因子(Transcription Factor)”与“阿尔茨海
默病(Alzheimer's Disease)”在HSCCT知识图谱中没有关联路径,在Semantic
MEDLINE数据库11中SPO三元组层面共现次数也极少,说明在公开发表文献中很
少对这两个概念一起进行研究。但利用公式(1)计算两者的紧密度为0.79,从网
络视角看两者之间存在较紧密关系。专家表示,转录因子是一大类调控基因表达
的因子的总称,而阿尔茨海默症这类神经退行性疾病与细胞内基因表达异常有关,
寻找它们之间的LinkPath有助于启发研究思路。

11 https://skr3.nlm.nih.gov/SemMed/,一个基于 Medline 的 SPO 三元组数据库。


5 讨论
通过 HSCCT 学科知识发现实践发现,虽然 KGSKD 也是基于 ABC 模型进
行封闭式或开放式知识发现,但与传统 LBD 相比 KGSKD 具有以下 4 点优势:
(1)数据类型更丰富。传统 LBD 分析的数据对象以非结构化科技文献文本
为主,而 KGSKD 的数据对象除了非结构化科技文献文本外,还可以细粒度融合
其他非结构化、半结构化及结构化数据,如相关的关联数据集、LBD 数据集以及
领域知识本体等。 KGSKD 的数据类型更丰富,拓展了学科知识发现的数据范围。
(2)知识关联更全面。传统 LBD 中,知识之间的关联主要是较单一的共现
关系,通常采用关系数据模型描述。关系数据模型具有简单直观等优点,但不能
表示知识之间复杂的语义关系,难以发现知识之间复杂、深层次的隐性关联。而
KGSKD 采用图模型来描述知识之间的关系,除共现关系外,还可定义更多复杂
的语义关系,可支持复杂、深层次学科知识发现,比如细粒度的学科社区发现、
学科演化、学科交叉研究等[42]。
(3)挖掘方法更先进。传统 LBD 以共现分析、关联规则分析等方法为主,
适用于较简单的知识发现。而 KGSKD 中原生图模型不仅支持复杂的知识关联,
还提供了先进的知识挖掘方法,如知识推理、路径发现、链路预测等。KGSKD
的挖掘方法更先进,深化了学科知识发现的方法体系。
(4)知识发现结果更深入。传统 LBD 一般只能进行关联路径很短(如 1-3)
的知识发现,知识发现层次较浅,结果有限。而 KGSKD 理论上可以进行任意长
度的关联路径分析,而且还可以通过链路预测等方法来预测可能存在的潜在知识。
KGSKD 的知识发现层次更深入,结果更全面、更丰富。
然而 KGSKD 应用也存在一些局限:①数据“过饱和”。KGSKD 可高效融
合第三方数据集,但是不同数据源的数据往往存在不同程度的重复或矛盾,因此
KGSKD 容易出现数据“过饱和”现象,即在知识图谱中存在大量近似、重复甚
至矛盾的数据。数据“过饱和”一方面会导致数据清洗工作量增加,另一方面会
影响知识发现准确率。②知识发现可解释性较差。传统 LBD 分析方法如共现分
析,其分析逻辑过程清晰,结果易解读或验证,专家容易理解。而 KGSKD 采用
的图模型及图挖掘算法相对比较晦涩,领域专家往往难以理解其分析过程与结果,
认为知识发现的可解释性较差。③专家参与难度较高。传统 LBD 的知识发现模
式与流程相对成熟,领域专家角色定位较清晰。但是 KGSKD 涉及较多前沿的信
息、数据技术,科学家与领域专家对其理解和认可度还处于初级阶段,专家沟通
参与难度较高。

6 结语
随着“数据密集型科学”的科研范式快速兴起,数据驱动的学科知识发现
将成为科学研究的显著特色和重要方式,是学科化知识服务的发展方向[43]。面
向大数据时代深层次学科知识发现的需求,本文提出了一套基于知识图谱的学
科知识发现方法框架,以 HSCCT 为例进行学科知识发现探索。与传统 LBD 相
比,KGSKD 具有“数据类型更丰富、知识关联更全面、挖掘方法更先进、知
识发现结果更深入”的优点。HSCCT 学科知识发现实践表明,本研究有效拓展
了学科知识发现的数据边界,深化了学科知识发现内涵,丰富了学科知识发现
方法体系。
然而,不管是传统 LBD 还是 KGSKD,目前数据驱动的学科知识发现还只
能是提供少许线索,离真正的激发科技创新思想、促进科学发现还有很长的路要
走。未来,要进一步坚持“需求导向”与“服务导向”,加强数据建设人员、情
报分析人员与科研人员之间的沟通和交流,探索领域专家在学科知识发现中的角
色与定位,把 KGSKD 作为一项服务融入科学家一线科研中,最终将知识发现服
务与重大科技成果联系起来,从而体现出知识发现服务的真正价值。

(致谢:中国科学院文献情报中心钱力博士指导构建基于领域知识图谱的高
质量数据集、中国科学院广州生物医药与健康研究院朱艳玲博士协助解读知识
发现结果,特此致谢!)

参考文献:
[1] 梁娜,曾燕.推进数据密集科学发现提升科技创新能力:新模式、新方法、新挑战——《第四范式:数据密集
型科学发现》译著出版[J].中国科学院院刊,2013,28(1):115-121.(Liang Na,Zeng Yan. Promote Data-intensive
Scientific Discovery, Enhance Scientific and Technological Innovation Capability: New Model, New Method, and
New Challenges Comments on “The Fourth Paradigm: Data-intensive Scientific Discovery”[J]. Bulletin of Chinese
Academy of Sciences, 2013, 28(1): 115-121.)
[2] 张志强,胡正银,杨宁,等.干细胞领域知识发现大数据平台建设与应用[A].//中国科研信息化蓝皮书
2020[M]. 北京:科学出版社,2020. (Zhiqiang Zhang, Zhengyin Hu, Ning Yang, et al. Big Data Platform for Subject
Knowledge Discovery in the Stem Cell Field [A].//China's e-Science Blue Book 2020[M].Beijing: Science
Press,2020.)
[3] 陆伟,李信,任珂.基于解剖结构视角的医学学科画像研究[J].信息资源管理学报,2018,8(3):12-24. (Lu Wei,
Li Xin, Ren Ke. Research on Subject Profile of Medical Science from the Perspective of Anatomical Structure [J].
Journal of Information Resources Management, 2018, 8(3):12-24.)
[4] 张志强,范少萍.论学科信息学的兴起与发展[J].情报学报, 2015,34(10):1011-1023. (Zhiqiang Zhang, Fan
Shaoping. On the Emergence and Development of Subject Informatics [J]. Journal of the China Society for Scientific
and Technical Information, 2015, 34(10):1011-1023.)
[5] 张志强,范少萍, 陈秀娟. 面向精准医学知识发现的生物医学信息学发展[J]. 数据分析与知识发现, 2018,
(1):1-8. (Zhiqiang Zhang, Fan Shaoping, Chen Xiujuan. Biomedical Informatics Studies for Knowledge Discovery
in Precision Medicine [J]. Data Analysis and Knowledge Discovery, 2018, (1):1-8.)
[6] 李广建,江信昱.论计算型情报分析[J].中国图书馆学报,2018,44(2):4-16. (Li Guangjian, Jiang Xinyu. On
Computational Information Analysis [J]. Journal of Library Science in China, 2018, 44(2):4-16.)
[7] 李文林,曾莉,杨斓.基于文献的知识发现服务及其问题——以南京中医药大学图书馆为例[J].大学图书馆
学报,2015,33(2):61-65. (Li Wenlin, Zeng Li, Yang Lan. Experiences and Problems in Literature-based Knowledge
Discovery Service in University Libraries - Taking Nanjing University of Chinese Medicine Library as an Example
[J]. Journal of Academic Library, 2015, 33(2):61-65.)
[8] 漆桂林,高桓,吴天星.知识图谱研究进展[J].情报工程,2017,3(1):4-25. (Qi Guilin, Gao Hen, Wu Tianxing. The
Research Advances of Knowledge Graph [J]. Technology Intelligence Engineering, 2017, 3(1):4-25.)
[9] Hu ZY, Xu HY, Qin XC. A knowledge graph of stem cell oriented to subject knowledge discovery[C]. The 7th
IEEE International Conference on Healthcare Informatics, Xi’an, China, 2019.
[10] Lamurias A, Ferreira J, Clarke L, et al. Generating a Tolerogenic Cell Therapy Knowledge Graph from
Literature[J]. Frontiers in immunology, 2017, (8): 1-12.
[11] 马明,武夷山. Don R.Swanson的情报学学术成就的方法论意义与启示[J]. 情报学报, 2003,22(3):259-266.
(Ma Ming, Wu Yishan. Methodological Enlightenment and Significance of Don R.Swanson's Achievements in
Information Science [J]. Journal of the China Society for Scientific and Technical Information, 2003, 22(3):259-
266.)
[12] 胡 正 银 , 刘 春 江 , 隗 玲 , 等 . 面 向 TRIZ 的 领 域 专 利 技 术 挖 掘 系 统 设 计 与 实 践 [J]. 图 书 情 报 工
作,2017,61(1):117-124. (Hu Zhengyin, Liu Chunjiang, Wei Ling, et al. Design and Practice of Domain Patent Tech
Mining System Oriented to TRIZ [J]. Library and Information Service, 2017, 61(1):117-124.)
[13] Swanson D R. Fish oil, Raynaud's syndrome, and undiscovered public knowledge [J]. Perspectives in biology
and medicine, 1986,30(1): 7-18.
[14] Swanson D R. Undiscovered public knowledge [J]. The Library Quarterly, 1986, 56(2): 103-118.
[15] Smalheiser N R. Literature-based discovery: Beyond the ABCs [J]. Journal of the American Society for
Information Science and Technology, 2012, 63(2): 218-224.
[16] Henry S, Mcinnes B. Literature Based Discovery: Models, methods, and trends [J]. Journal of Biomedical
Informatics, 2017, 74:20-32.
[17] Pyysalo S, Baker S, Ali I, et al. LION LBD: a literature-based discovery system for cancer biology [J].
Bioinformatics, 2019, 35(9): 1553-1561.
[18] Kostoff R N. Literature-related discovery (LRD): Potential treatments for cataracts [J]. Technological
forecasting and social change, 2008, 75(2): 215-225.
[19] Kostoff R N, Briggs M B, Lyons T J. Literature-related discovery (LRD): Potential treatments for multiple
sclerosis [J]. Technological Forecasting and Social Change, 2008, 75(2): 239-255.
[20] Kostoff R N, Briggs M B. Literature-Related Discovery (LRD): potential treatments for Parkinson's disease [J].
Technological Forecasting and Social Change, 2008, 75(2): 226-238.
[21] 侯跃芳,朱瑾,崔梦遥,等. 运用非相关文献知识发现方法挖掘疾病的潜在相关基因[J].中华医学图书情报
杂志, 2010, 19(5):1-4,10. (Hou Yuefang, Zhu Jin, Cui Mengyao, et al. To mine disease-related potential genes using
non-literature related knowledge discovery methods [J]. Chinese Journal of Medical Library and Information
Science, 2010, 19(5):1-4, 10.)
[22] Hu Z Y, Zeng R Q, Qin X C, et al. A method of biomedical knowledge discovery by literature mining based on
SPO predications: a case study of induced pluripotent stem cells[C]. In: Perner P. (eds) Machine Learning and Data
Mining in Pattern Recognition (MLDM 2018), Newyork. Springer, 2018: 383-393.
[23] Hu Z, Zeng R Q, Peng L, et al. Discovering Emerging Research Topics Based on SPO Predications[C]. In:
Uden L., Ting IH., Corchado J. (eds) Knowledge Management in Organizations (KMO 2019), Zomora. Springer,
2019: 110-121.
[24] Rindflesch T C, Fiszman M. The interaction of domain knowledge and linguistic structure in natural language
processing: interpreting hypernymic propositions in biomedical text [J]. Journal of biomedical informatics, 2003,
36(6): 462-477.
[25] Kilicoglu H, Rosemblat G, Fiszman M, et al. Constructing a semantic predication gold standard from the
biomedical literature[J]. BMC bioinformatics, 2011, 12(1): 1-17.
[26] Zhang Y, Porter A L, Hu Z, et al. “Term clumping” for technical intelligence: A case study on dye-sensitized
solar cells[J]. Technological Forecasting and Social Change, 2014, 85: 26-39.
[27] 胡正银.基于个性化语义TRIZ的专利技术挖掘研究[D].北京:中国科学院大学,2015. (Hu Zhengyin. Study
on Patent Tech Mining based on Personalized Semantic TRIZ [D]. Beijing: University of Chinese Academy of
Sciences, 2015.)
[28] Fiszman M, Rindflesch T C, Kilicoglu H. Abstraction summarization for managing the biomedical research
literature[C]. In: Proceedings of the HLT-NAACL Workshop on Computational Lexical Semantics (CLS’04). ACM,
2004: 76-83.
[29] 隗玲,胡正银,庞弘燊,等.基于“主语-谓语-宾语”三元组的知识发现研究——以诱导多能干细胞领域为
例[J].数字图书馆论坛, 2017,(9):28-34. (Wei Ling, Hu Zhengyin, Pang Hongsen, et al. Study on Knowledge
Discovery in Biomedical Literature based on SPO predications: A Case Study of induced Pluripotent Stem Cells [J].
Digital Library Forum, 2017, (9):28-34.)
[30] 刘蕾蕾. 面向学科知识问答的多源数据融合研究—以造血干细胞癌症治疗为例[D].北京:中国科学院大
学, 2020. (Liu Leilei. Research on multi-source data fusion for the question and answer of subject knowledge—A
case study of Hematopoietic Stem Cell for Cancer Treatment [D]. Beijing: University of Chinese Academy of
Sciences, 2020.)
[31] Chris J L. The SPECIALIST Lexicon and NLP Tools [EB/OL]. [2020-5-11]. https://lexsrv3.nlm.nih.
gov/Specialist/Docs/Presentations/2017SummerLectures/2017-SLS-LexSynonym.pdf.
[32] NLM. Metathesaurus [EB/OL]. [2020-5-11]. https://www.ncbi.nlm.nih.gov/books/NBK9685/.
[33] NLM. Term Processing [EB/OL]. [2019-10-16].https://metamap.nlm.nih.gov/Docs/FAQ/ Term Processing.pdf.
[34] Chris J L, Browne, and Allen C. Sub-Term Mapping Tools [EB/OL]. [2019-10-28].
https://lexsrv3.nlm.nih.gov/Specialist/Summary/stmt.html.
[35] Hristovski D, Kastrin A, Peterlin B, et al. Combining semantic relations and DNA microarray data for novel
hypotheses generation[A].//Linking literature, information, and knowledge for biology[M]. Heidelberg: Spring,
2010.
[36] 胡正银,方曙,郑颖,等. 基于Ontology的智能检索技术研究与实践[J]. 情报杂志, 2009, 28(5):159-162. (Hu
Zhengyin, Fang Shu, Zheng yin, et al. Method of Development and Architecture of an Ontology-Based intelligent
retrieval System [J]. Journal of Intelligences, 2009, 28(5):159-162.)
[37] Chen C. Searching for intellectual turning points: Progressive knowledge domain visualization [J]. Proceedings
of the National Academy of Sciences, 2004, 101(suppl 1): 5303-5310.
[38] Song M, Heo G E, Ding Y. SemPathFinder: Semantic path analysis for discovering publicly unknown
knowledge [J]. Journal of informetrics, 2015, 9(4): 686-703.
[39] Kumar A, Singh S, Singh K, et al. Link prediction techniques, applications, and performance: A survey [J].
Physica A: Statistical Mechanics and its Applications, 2020, 553: 1-46.
[40] Adamic L, Adar E. Friends and neighbors on the web [J]. Social networks, 2003, 25(3): 211-230.
[41]郝莎,董芳,胡林萍,等.造血干细胞生物学及临床应用研究概况[J].中国细胞生物学学报,2018,40(13):2237-
2248. (Hao Sha, Dong Fang, Hu Linping, et al. Biology and Clinical Application Research of Hematopoietic Stem
Cells [J]. Chinese Journal of Cell Biology, 2018, 40(13): 2237–2248.)
[42] 周园春, 王卫军, 乔子越, 等. 科技大数据知识图谱构建方法及应用研究综述[J]. 中国科学: 信息科学,
2020, 50(7): 957-987. (Yuanchun Zhou, Weijun Wang, Ziyue Qiao, et al. A survey on the construction methods and
applications of sci-tech big data knowledge graph [J]. Scientia Sinica Informationis, 2020, 50(7): 957-987.)
[43] 张志强,胡正银,文奕.学科信息学与学科知识发现[M].北京:科学出版社, 2020(待出版). (Zhiqiang Zhang,
Zhengyin Hu, Yi Wen. Subject Informatics and Subject Knowledge Discovery [M]. Beijing: Science Press, 2020.)

(通讯作者:胡正银,ORCID:0000-0002-5699-9891,E-mail: [email protected]。)

作者贡献声明:
胡正银:提出论文整体研究思路与 KGSKD 框架;负责构建 HSC 科技文献 SPO 语义网络;
指导学科知识发现研究;负责论文撰写、修改与定稿。
刘蕾蕾:负责知识图谱多源数据融合研究与实现;负责构建 HSCCT 知识图谱;参与学科知
识发现研究;参与论文撰写。
代冰:参与学科知识发现研究;参与论文修改。
覃筱楚:参与构建 HSC 科技文献 SPO 语义网络;参与学科知识发现研究;参与论文修改。
利益冲突声明:
本文作者胡正银、刘蕾蕾在本文研究中使用了Neo4j公司免费的Neo4j图数据库管理系统社区
版本与桌面版本。

支撑数据:支撑数据由作者自存储,E-mail: [email protected]
[1] 胡正银. hscSPO.csv. HSC科技文献SPO语义网络数据.
[2] 胡正银, 刘蕾蕾. hscctKG.dump. HSCCT知识图谱(V1.2)数据库.
[3] 胡正银, 刘蕾蕾. datafusion. py. 基于UMLS和多维实体映射的知识实体对齐程序.
[4] 胡正银. lungneoplasm_hasPhenotype. csv. 恶性肺肿瘤相关表型数据.
[5] 胡正银. vaccines_ placentalgrowthfactor_linkpath.json. 疫苗和胎盘生长因子关联路径数据.

You might also like