编译|李豪
今天介绍一篇美国加州大学戴维斯分校研究团队在nature communications发表的一篇论文“Knowledge integration and decision support for accelerated discovery of antibiotic resistance genes”。本文提出了一个知识集成和决策支持的框架(KIDS),通过知识图谱的构建、数据不一致性的消除和迭代链接的预测来实现自动化的知识发现。本文综合10个公开数据源的知识,构建了一个大肠杆菌抗生素耐药性知识图谱,包含来自23种三元组类型的651,758个关联关系。作者对图进行迭代链接预测,并对生成的假设进行湿式验证,发现了15个抗生素耐药的大肠杆菌基因,其中6个基因从未被报道与微生物的抗生素耐药性有关。阳性结果的概率与实验验证的结果高度相关。此外,在肠道沙门氏菌(Salmonella enterica)中发现了5个同源物,它们都被验证对抗生素有抗性。这项工作展示了证据驱动的决策能以更高的置信度和更快的速度实现自动化的知识发现,从而取代传统的耗时且昂贵的方法。
1
研究背景
生物医学领域已经组织了数量庞大的图形数据库,该类数据库通过利用资源描述框架(RDF)的subject, predicate, object三要素有效地处理密集的关联数据集。自动整合并组织这些异质生物医学数据,使其为下游分析和知识发现做好机器学习准备,对任何生命科学领域都很重要。其中一个领域是发现抗生素抗性基因(ARG)。抗生素耐药性对抗菌药物的疗效构成重大威胁,导致了临床死亡率和成本增加。ARG的识别传统上是通过耗时和昂贵的基于培养的方法,最近则是通过全基因组测序样本的生物信息学分析,包括基于BLAST和基于深度学习的方法。在抗生素耐药性领域之外,已经有多种从知识图谱中发现生物知识的尝试,通常将其表述为知识图谱完成问题,其目的是完成图谱中缺失的链接(发现新知识)。传统上,图特征模型和潜在特征模型被用于知识图谱完成,而利用预训练的语言模型的模型最近也取得了最先进的成果。
2
知识图谱的构建
数据整合:知识图谱的原始数据来自10个数据源,包括抗生素耐药性、抗生素对表达模式的影响、基因与转录因子的调控关系,以及基因在分子、细胞和生物体水平上对生物体的影响。作者使用RDF 三元组的形式(subject, predicate, object) ,将来不同数据源的知识集合以统一的格式进行合并,得到651758个三元组(如图1a, 1b)。其中subject和object是图中的节点(生物实体) ,predicate是它们之间的边(关系)。作者构建的知识图谱所包含的基因数量和抗生素数量分别是17年提出的CARD数据库的18倍和3倍。
同义词解析:对于集成知识图中的实体类型基因和抗生素,单个实体可能存在多种表示形式。作者分别从Ecocyc和ChemidPlus下载大肠杆菌基因和抗生素的同义词映射,建立名称映射表解决同义词问题。
知识推理:作者手动创建了15套规则弥补知识表示中存在的缺陷,对数据进行了扩充。
图1 大肠杆菌知识图谱
3
假设生成模型的输入与训练策略
数据预处理:作者实体关系中的时间信息,以便每种实体关系有更多的训练资料,如‘15 小时后,抗生素产生了耐药性(CRA)’变为‘抗生素产生了耐药性’。预处理操作后,三元组数从651758减少到494,819 ,实体关系类型从23减少至12。
路径排名算法(PRA):作者使用随机游走策略预测知识图中的边的分数。从主体节点开始的有界步长的随机步行,如果随机步行在对象节点上结束,则该路径被认为是成功的。如果没有发现路径,则代表PRA不能预测特定样本。
多层感知机(MLP):作者利一个全连接的前馈人工神经网络,输出一个给定的三元组是否为真的概率。在该网络中,知识图谱的每个节点实体和边都被转换为一个随机的长度为50的向量,通过连接主体、关系和客体的embedding作为输入。该网络包含4个隐藏层,每个层有60个节点。隐藏层使用ReLU、Tanh作为激活函数,输出层使用sigmoid激活函数来产生0和1之间的分数。
AdaBoosted决策树:作者使用AdaBoosted决策树对PRA和MLP进行模型融合。模型输入为PRA和MLP产生的分数,以及PRA的二进制值(0表示实体间无路径,1表示有路径)三个特征。此外作者还使用了SMOTE抽样以平衡正负样本。
图2 假设生成模型的训练策略
4
实验结果
消除知识图谱的不一致性有助于发现新知识
本文作者将主体和对象相同,但关系冲突的三元组视为一组不一致数据。例如,(atpA, CRA after 18 h, Ampicillin)和(atpA, conferers no resistance to antibiotic after 18 h, Ampicillin)这两个三元组被视为一组不一致。本文构建的知识图谱中存在236组不一致数据(如图3a),作者应用 Averagelog不一致消除算法,通过迭代更新数据源的可信度和三元组的信任度来选择两个冲突事实中哪一个更有可能为真(图3b)。湿实验的验证结果表明,作者的算法能够准确地解决这些不一致性(94.07%的准确性,50.0%的F1 score,33.3%的精确度,3.0%的基线精确度)。此外,作者验证发现,不一致性消除操作可以帮助识别两个额外的抗生素耐药性关系(surA, CRA, Vancomycin)和(asmA, CRA, Vancomycin)。
图3 知识图谱不一致性消除
KIDS能加速发现新知识
作者用假设生成模型对不完整的知识图谱进行链接预测,以确定缺失的链接(即生成假说)。作者重点探索大肠杆菌基因和抗生素间的所有成对组合之间缺失的CRA链接(108,078个假说)。为此,作者将五种不同的假设生成方法(PRA、MLP、使用AdaBoost融合PRA和MLP的叠加模型、TransE和TransD)应用于不一致消除后的知识图。5-fold交叉验证的结果显示(如图4),PRA与MLP融合模型在AUCPR方面表现最好。
图4 5种方法的5-fold交叉验证结果
作者使用叠加模型产生了226个不同概率的CRA假设,并对其进行了湿实验测试。在这些假设中,有64个(28.3%)被验证为阳性(图5a)。将这些结果添加到知识图谱中后,作者对KIDS进行了第二次迭代,又产生了90个假设,其中29个(28.8%)被验证为阳性(图5a)。从这两次迭代中,作者通过计算预测和湿实验验证,共产生了83个大肠杆菌基因的93个CRA假说,这些基因对15种抗生素中的一种或多种产生抗性(图5e)。作者分析KIDS生成的假说是可靠的,因为每个假说的校准输出是与验证结果高度相关的置信分数(R2=0.94)(图5a)。例如,概率大于0.8的假设具有较高的真阳性率,在37个测试的假设中,有29个(78.4%)产生了抗生素抗性基因,而概率≤0.2的假设具有真阳性率,在163个测试的假设中,只有14个(8.59%)产生抗生素抗性基因。有趣的是,在第二次迭代中,KIDS在加入新发现的结果后产生了更好的假设(图5b-d)。与随机基线相比,KIDS生成的假设是正相关的,具有很高的一致性。
图5 通过迭代学习加速缺失链接的发现
AI驱动发现6个抗生素抗性基因
作者对牵涉到CRA假设的83个大肠杆菌基因进行广泛的文献检索,发现有15个基因是以前未知的大肠杆菌的抗生素抗性基因,其中6个(1个来自第一次迭代,5个来自第二次迭代)没有作为任何细菌的抗生素抗性基因出现过。这6个是:ftsP, hdfR, lrp, proV, qorB 和 rbsK(图6),它们从未被报道过参与抗生素抗性。对生物过程的进一步调查显示,它们是与氨基酸代谢、营养物质运输和调节有关的多种功能组合的一部分。更具体地说,ftsP是一种细胞分裂蛋白,在压力条件下细菌生长需要它。ftsP在应激条件下稳定或保护分裂组件。HdfR是一个依赖H-NS的flhDC调节器,它抑制鞭毛主操作子flhDC的表达并诱导gltBD操作子的表达,该操作子参与抗酸。lrp编码一个亮氨酸反应性调节蛋白,它调节大肠杆菌中至少10%的基因,包括调节决定细胞膜通透性的主要孔蛋白OmpC和OmpF。据预测,proV是渗透性ABC运输系统的一个组成部分,参与渗透感应。qorB是一种NAD(P)H:醌氧化还原酶,催化醌的还原。过度表达qorB的大肠杆菌菌株显示出生长方面的缺陷和参与碳代谢的几种酶的明显减少。有趣的是,氧化还原酶已被报道涉及抗生素抗性。rbsK是一种糖激酶,除了核糖的磷酸化外,还能促进大肠杆菌中压力诱导的诱变。糖激酶基因的突变,如S. enterica的waaP,导致对抗生素多粘菌素的敏感性增加。
此外,在CARD数据库的4577个ARG中,作者没有发现这六个基因的任何统计学意义上的同源物,但普氏假单胞菌(Pseudomonas putida)的OXA-541对lrp的检测率最高(91.7%的序列相似性,E值=0.12)。这六个基因在人类消化道微生物组中的流行率为0.67%至8.79%。最后,为了研究其他细菌属中与这六个以前未知的ARG同源的基因的抗生素抵抗力,作者在肠道菌中发现了五个同源基因ftsP、lrp、proV、rbsK和yifA(大肠杆菌中的hdfR),其核苷酸序列的相似度大于78%,而qorB的同源基因则未被发现。湿式实验室验证显示,剔除肠道菌中的这五个基因也会增加对抗生素的敏感性。
图6 被发现参与抗生素抗性的6个以前未知的基因的作用方式
5
总结
作者提出了一种知识组织和发现的自动方法,并将之应用于大肠杆菌抗生素耐药性领域,构建了一个包含了651,758个三元组的大肠杆菌知识图谱,该图谱可用于在多次迭代中产生抗生素耐药性关系假设。为了消除图谱中的不一致性,作者在计算上预测,并在实验上验证了236组不一致性数据,精度为94.07%。在假设生成、验证和与现有知识整合的两次迭代中,KIDS框架在预测抗生素抗性基因方面平均达到了0.77 的AUCPR和0.86 的AUROC,预测的抗生素抗性基因概率与验证的结果高度相关。此外,本文分析发现了6个新的抗生素抗性基因,其中肠道沙门氏菌中的5个同源物也表现出抗生素抗性。本文提出的框架是一种系统的、优化的、可重复的实验方法,能够以更短的时间、更少的手工劳动和更高的保真度来阐释复杂的生物系统。
参考资料
Youn, J., Rai, N. & Tagkopoulos, I. Knowledge integration and decision support for accelerated discovery of antibiotic resistance genes. Nat Commun 13, 2360 (2022). https://doi.org/10.1038/s41467-022-29993-z
数据与代码链接:
https://github.com/IBPA/KIDS