编译|陶雯 审稿|黄勇
今天给大家介绍由弗劳恩霍夫算法与科学计算研究所、波恩大学的Vinay Srinivas Bharadhwaj主导,多个机构合作发表在Bioinformatics上的一篇文章“CLEP: a hybrid data- and knowledge-driven framework for generating patient representations”。作者提出了患者的临床嵌入(CLinical Embedding of Patients,CLEP),一种利用先验知识和患者水平数据来生成新的患者表征的新方法。与使用原始转录组数据相比,使用由CLEP生成的新患者表征显著提高了各种机器学习模型在患者和健康对照之间进行分类的性能。
1
简介
机器学习和人工智能在生物医学领域获得了越来越多的应用,例如预测建模、患者分层和模拟。在某些情况下,用于训练模型的数据可能比模型本身的复杂性发挥更重要的作用。在实践中整合多种数据类型往往是有利的,特别是在复杂疾病的情况下,没有单一类型的数据可以有效地解释功能障碍的原因时,整合多种数据类型显得更为重要。然而生物数据集往往既复杂又有噪声,这使得它们的整合具有挑战性。此外,生物数据通常包含的特征数量远远多于样本数量。如果不能解决这些挑战并生成生物数据的综合表征,新技术可能会在一系列分析任务中遭遇困难。但是到目前为止还没有将先验知识与患者数据相结合的方法。
在本文中,作者提出了患者的临床嵌入(CLEP),这是一种利用先验知识和患者水平数据来生成新的患者表征的新方法。该方法需要一个患者水平数据集和一个知识图谱(KG)来作为框架的输入,CLEP将患者作为新节点纳入知识图谱。接下来,CLEP采用知识图谱嵌入模型(KGEM)来生成新的患者表征,新患者表征最终可用于各种下游任务,包括聚类和分类。与使用原始转录组数据相比,使用由CLEP生成的新患者表征显著提高了各种机器学习模型在患者和健康对照之间进行分类的性能。此外,将患者纳入知识图谱还能够促进对特定疾病或患者亚组的生物特征的解释和识别。最后,作者将CLEP作为一个开源的Python软件包连同示例和文档一起发布。
2
材料和方法
2.1 框架描述
图1说明了框架的每个步骤。该方法需要一个患者水平数据集和一个KG来作为框架的输入(图1a)。它可以应用于任何数据集和KG,只要数据集的特征可以映射到KG中的节点。患者作为新的节点被纳入到KG中,并与最能体现给定患者特征的特征相连接(图1b)。一旦患者被嵌入到KG中,KGEM就会被用来生成新的患者表征(图1c)。最后,这些新的患者表征随后可以被用于各种下游应用,包括分类和聚类任务(图1d)。
图1 框架示意图
2.2 软件实现
CLEP被实现为Python软件包,它包含几个工作流,与方法中提出的每个步骤相对应。每个工作流都可以通过命令行界面(CLI)以及编程方式进行访问,允许用户输入他们自己的患者水平数据集和自定义KG。
2.3案例情景
患者水平数据
第一个数据集为阿尔茨海默病神经影像计划(ADNI),在本文中作者使用了研究中收集的血浆转录组数据。该数据集已经过预处理,共包含260名认知健康的对照参与者,215名早期轻度认知障碍患者,225名晚期轻度认知障碍患者和44名阿尔茨海默病患者。为了进行二元分类任务,后三者(即所有认知障碍患者)被归为一个类别(n=494)。预处理过的基因表达数据被直接用作CLEP基准测试的基线。
第二个数据集是转录组数据集,包含三种精神疾病(即重度抑郁症、精神分裂症和双相情感障碍)和健康对照的样本。这个数据集总共包含172个样本(41个重度抑郁症、22个精神分裂症、26个双相情感障碍和83个对照样本)。与ADNI数据集类似,第二个数据集预处理过的基因表达数据被直接用作CLEP验证的基线,并将三种精神疾病归为一组进行二元分类任务。
知识图谱
对于案例情景,作者使用被称为PPI-KG的KG,它包括来自六个资源的蛋白质-蛋白质相互作用。
生成患者表征
作者使用不同的阈值来定义分布的尾部(即末端)。作者将此方法应用于每个阈值,通过连接处于参考分布末端的患者,生成不同的KG(即每个阈值对应一个KG)。
选定的知识图谱嵌入模型
作者选择RotatE、TransE、ComplEx和HolE来学习患者嵌入。为了训练最终模型,作者使用了通过超参数优化得到的最佳超参数。
在认知障碍者和健康对照之间进行分类
使用五种不同的统计建模和ML方法(表1),由KGEM生成的新表征被用来在正常人和认知障碍者(即AD和MCI)之间进行分类。预测性能通过5次重复的5倍交叉验证进行评估,其中模型的超参数通过网格搜索在交叉验证循环中进行调整(图2)。
表1 CLEP可用于执行分类任务的统计建模和机器学习方法列表
图2 模型评估策略示意图
在精神疾病患者和健康对照之间进行分类
使用在前一个数据集中使用的相同设置(图2),作者使用原始数据和CLEP生成的GSE92538数据的新表征,来训练相同的五个ML模型在正常样本和精神疾病患者之间进行分类。
3
结果
3.1 CLEP的表征在对认知障碍患者和健康对照进行分类时优于原始数据
作者将ADNI患者纳入蛋白质-蛋白质相互作用KG(即PPI-KG),使用各种KGEM生成新的患者表征。然后作者根据输入数据是原始转录组数据还是新的患者表征,比较了几个ML模型在区分认知障碍患者和对照组方面的性能。作者在图3a和图3b中总结了五种ML模型的性能。结果显示,使用原始转录组数据作为二元分类器的输入会导致相对较低的预测能力(图3b),而由CLEP生成的新表征则大幅提高了预测性能(图3a)。
作者进行了两个独立的实验,证实了模型评估策略的稳健性和新表征是由KG中的信息驱动的。第一个实验包括使用具有随机患者标签的新表征训练五个分类器(图3c)。第二个实验通过在原始KG的排列版本上生成患者表征来确保新的表征反映KG中编码的信息(图3d)。这些实验的结果产生了与随机分类器性能相当的模型(即AUC-ROC值 ~ 0.5)。
图3 训练用于在认知障碍患者和健康对照之间进行分类的五个ML模型的基准实验
3.2 通过CLEP进行生物学解释和患者亚组识别
作者研究发现将患者纳入KG中有助于对患者亚组进行生物学解释和识别(图4a)。利用从ADNI数据集得出的KG,作者识别了与认知障碍患者(组)有联系但与对照参与者没有任何联系的基因集。在这些基因集中,作者重点研究了一组特殊的基因,这些基因都是相互关联的,而且在认知障碍患者的一个亚组(n=15)中也被识别。然后,作者研究了该患者亚组周围的KG局部邻域中基因的相互作用(图4b)。为了识别这些基因参与的生物通路,对这个基因集进行了通路富集分析(补充表S2)。
图4 将患者纳入KG有助于对患者亚组进行生物学解释和识别
3.3 CLEP的表征在对精神疾病患者和健康对照进行分类时优于原始数据
作者还在一个额外的数据集上重现了作者的方法,该数据集包含精神疾病患者和健康对照。这个数据集的结果显示,在二元分类任务中CLEP生成的患者表征优于原始数据(图5)。
图5 训练用于在精神疾病患者和健康对照之间进行分类的五个ML模型的基准实验
4
总结
在本文中作者提出了一个新的混合数据和知识驱动框架CLEP,它利用患者水平数据和KG来生成个性化的患者表征。作者通过采用转录组数据和包含来自几个蛋白质-蛋白质相互作用数据库的知识的综合KG,在两个独立的数据集上证明了框架的实用性。与原始转录组数据相比,这些表征提高了机器学习模型在二元分类任务中的性能。作者还将CLEP实现为一个软件包,使研究人员能够在各种数据集和网络上进行这些实验。
该框架有一些ML方法固有的局限性:
(1)训练和优化KGEM的计算成本和时间;
(2)方法不能弥补训练数据的不足,也不能弥补数据质量差的问题;
(3)这种方法依赖于将两个或多个数据集与KG有意义地整合的能力;
(4)将患者纳入KG的方法是专门为连续特征设计的;
(5)尽管该框架可以通用于任何数据集,但可能会出现CLEP无法提高性能的情况。
参考资料
Vinay Srinivas Bharadhwaj, Mehdi Ali, Colin Birkenbihl, Sarah Mubeen, Jens Lehmann, Martin Hofmann-Apitius, Charles Tapley Hoyt, Daniel Domingo-Fernández, CLEP: a hybrid data- and knowledge-driven framework for generating patient representations, Bioinformatics, 2021;, btab340,
https://doi.org/10.1093/bioinformatics/btab340
代码
https://github.com/hybrid-kg/clep