编译|黄金朋 审稿|郭梦月
本文介绍了一篇由Payal Chandak、Kexin Huang和Marinka Zitnik三人所著的文章《Building a knowledge graph to enable precision medicine》,文章发表于BioRxiv,他们三人分别来自哈佛麻省理工学院健康科学与技术项目组、斯坦福大学计算机科学系、哈佛大学生物医学信息学系。
他们所提出的模型是PrimeKG,一个面向精准医学的知识图谱,它提供了疾病的整体视图。PrimeKG整合了20个高质量资源,以4050249种关系描述了17080种疾病,这些关系代表了10个主要的生物学尺度,包括疾病相关的蛋白质扰动、生物学过程和途径、解剖学和表型尺度,以及所有已批准和试验性药物及其治疗作用。他们将PrimeKG的图形结构与药物和疾病临床指南的文本描述相结合,以实现多模式分析。
1
研究介绍
本研究旨在将包含疾病信息的原始数据资源整合为一个全面的、疾病丰富的和功能性的知识图谱,但存在三个挑战:(1)现有的疾病网络分析方法需要专家对知识图谱中的数据进行审查和管理,需要大量的人工劳动和昂贵的专家投入,因此很难扩展。(2)缺乏跨生物医学数据集和临床指南的一致疾病表示,医学知识库中精心策划的疾病描述并不遵循任何命名惯例。(3)“独特”疾病的定义在医学和科学上仍然模糊不清。
研究的贡献在于
(1)PrimeKG整合了20个高质量资源,以4050249种关系描述了17080种疾病,这些关系代表了10个主要的生物学尺度,大大扩展之前在基于疾病的知识图谱创建方面的工作。
(2)PrimeKG增加了indications, contradictions 和off-label use这些在其他知识图谱中缺少的边,以支持药物疾病预测。
(3)使用药物和疾病节点的临床指南的文本描述来补充PrimeKG丰富的图形结构,以实现多模态分析。
2
方法(模型)
PrimeKG设计为具有10种类型的节点和30种类型的无向边的异构网络。通过检索并整理图2a所示的资源,以及图2b和2c描述的资源之间的关系和图2d用文本描述扩充了该网络中的药物和疾病节点。
然后他们分几个部分详细介绍了PrimeKG知识图谱的构成过程:
2.1管理主要数据资源
这部分说明选择图2a里20种资源的原因是它们是广泛覆盖生物医学实体的数据集,要么经过专业的注释,要么是广泛使用的标准化本体或者是实验测量的直接读数。
2.2数据资源的标准化和协调
这部分说明了如何将选择的20种资源进行标准化和协调,包括(1)定义节点类型和选择公共本体。(2)协调外部数据资源。(3)解决表型和疾病节点之间的重叠。
2.3构建PrimeKG
他们将统一的原始数据资源合并到一个图中,并提取其最大连通分量,如图2c所示,整合了各种处理过的、精选的数据集,并通过删除Nan和重复边、添加反向边、再次删除重复边和删除自循环来清理图谱。
2.4用临床信息补充药物节点
如图2d所示,他们从DrugBank和Drug Central的知识图中提取了药物节点的文本和数字特征,因为药物是使用DrugBank标识符编码的,因此来自DrugBank的特征直接映射到知识图谱。
2.5用临床信息补充疾病节点
如图2d所示,他们从Mondo Disease Ontology、Orphanet、Mayo Clinic和UMLS中提取知识图中疾病节点的文本特征。
3
数据记录
这部分他们继续详细描述用于构建PrimeKG的20个主要数据资源,篇幅较长,主要是将这些资源的URL列出来,并介绍了一下他们的数据处理手段:如凭借经验筛除、剔除曝光信息、完整引用、只提取部分特征。
4
技术验证(实验结果)
验证PrimeKG的结构和连通性。
4.1 PrimeKG表征
PrimeKG包含129375个节点和8100498条边,其中包含10种类型的节点和30种类型的边,图1展示了图形结构,图1b证明疾病节点与知识图中的其他节点类型紧密相连。疾病特征包括关于疾病流行、症状、病因、危险因素、流行病学、临床描述、管理和治疗、并发症、预防和何时就诊的信息。药物特征包括化合物的分子量信息、适应症、作用机制、药效学、蛋白结合事件和途径信息等。这种描述整个药物和疾病范围的广泛临床信息是PrimeKG的独特特征,使PrimeKG在其同行知识图谱中脱颖而出。图1c提供了在这些表征中可用的支持信息的示例。
表1和表2提供了按节点类型划分的节点数和按边类型划分的边数。
表3和表4展示了可用于药物和疾病节点的功能数量的统计信息。
4.2 PrimeKG与孤独症临床表现相关性的个案研究
他们通过对自闭症谱系障碍进行个案研究,分析PrimeKG的疾病表征是否与其临床表现密切相关,分为两个步骤进行:(1)通过在所有相关的原始数据资源中执行自闭症概念的实体解析。(2)通过检查这些自闭症概念与自闭症临床亚 型之间的关系。他们从探索PrimeKG中的自闭症疾病节点是否调和了数据库和本体中自闭症概念的差异开始。如图3所示,Mondo疾病本体论有37个与自闭症相关的疾病概念,而UMLS有192 个与自闭症相关的概念,Orphanet有6个与孤独症相关的概念。他们通过使用Mondo疾病本体定义所有节点并将所有其他词汇映射到Mondo中的疾病来克服以上概念是如何相互关联,如图3a所示。最后,在使用Mondo疾病概念作为PrimeKG中的疾病节点之前,他们需要评估Mondo中的自闭症疾病概念是否与自闭症的临床亚型相关。孤独症表现为三个临床亚组,导致Mondo中的疾病节点与孤独症的临床表现并不一一对应,他们开发了一种策略,将Mondo中的疾病分组到PrimeKG中的医学相关和一致的节点中,继续描述和评估该策略。
4.3 疾病节点分组的计算方法
自闭症案例研究所示,Mondo中的疾病概念可能与医学亚型没有很好的相关性。因为Mondo包含许多没有明确临床相关性的重复疾病实体,因此他们将Mondo中的疾病分组为医学相关实体,他们采用了一种半自动的无监督方法来对PrimeKG中的疾病概念进行分组、使用跨疾病名称的字符串匹配策略来识别疾病组、通过探索疾病名称之间的单词嵌入相似性,进一步加强了使用字符串匹配识别 的分组,如图3b所示。
最终Mondo中的22205个疾病概念被分解为17080个分组疾病,这导致疾病和更多临床相关疾病节点的平均边缘密度更高。我们预计PrimeKG是一个更强大的数据集,因为疾病表征是集中和稳健的,这反过来可以使从PrimeKG收集的生物学见解具有医学相关性。
5
结论
PrimeKG在更深的生物学水平上描述了药物特征,在更深的临床水平上描述了疾病特征,具有巨大的潜力。PrimeKG可以与机器学习配对发现新的疾病生物标志物,描述疾病过程,完善疾病分类,识别表型特征,预测生物机制,并重新利用药物。随着机器学习功能的实现,预计PrimeKG和类似的知识图谱将成为推进精准医疗的关键工具。
参考资料
https://www.biorxiv.org/content/10.1101/2022.05.01.489928v1
代码
https://github.com/mims-harvard/PrimeKG