导语
GUIDE ╲
估计肿瘤患者的疾病进展对医生来说是非常有价值的。然而,目前的临床方法并不能有效地利用可用于癌症患者的大量多模态数据。为了解决这一问题,作者构建了一个基于多模式神经网络的模型,利用临床数据、mRNA表达数据、microRNA表达数据和组织病理学全载玻片图像(WSIs)来预测20种不同癌症类型患者的生存率。
背景介绍
近年来,许多不同的方法被尝试利用基因组数据来预测癌症预后,比如利用基因组数据或者病理图像数据,基于一些机器学习或者深度学习方法进行预后预测研究,并且以往的研究往往主要集中在单个癌症数据集上,因此没有探索不同组织中肿瘤之间的共性和关系。今天小编给大家介绍的这篇文章是基于深度学习算法,整合了多组学的数据,进行了泛癌的预后预测,并且开发了一种自动化处理图像数据的方法,作为一篇优秀的算法文章,发表在《Bioinformatics》杂志上,题目为:Deep learning with multimodal representation for pancancer prognosis prediction。
数据介绍
主要数据来源是来自PanCanAtlas TCGA项目的预处理和批校正数据。此数据集中主要包含1881个microRNA,60383个基因的基因表达数据,泛癌的临床数据,其中使用了种族、年龄、性别和组织学分级变量,以及超过11000 名患者的WSIs数据。将11160 名患者的TCGA数据集按85/15的比例分为训练和测试数据集,按癌症类型进行分层,以确保在训练和测试集中的癌症分布相同。
结果解析
01
数据分析
表1更详细地描述了数据的分布。许多患者并没有所有可用的数据,这意味着可以处理缺失数据的分类器是必要的。
table1
TCGA中所有癌症部位的Kaplan-Meier生存曲线表明总生存率是组织特异性的。图1左包含了10种平均总生存率最高的癌症,图1右包含了平均总生存率最低的10种癌症。
图1
02
模型架构
为了训练预后预测的泛癌模型,作者首先尝试将每个患者的多模态数据压缩为一个特征向量。先前的研究发现,不同的数据类型(如基因表达、临床、microRNA和图像数据)之间存在显著的相关关系,以无监督的方式学习这些关系可以显著改善预后预测过程。
考虑到多模态数据,对于每一种类型的数据,我们都使用了深度学习的方法,但是每一种类型数据的深度学习方法有所不同。对于临床数据,作者使用全连接层,sigmoid激活函数以及dropout。对于基因数据和microRNA数据,作者使用highway networks网络结构。由于数字病理图像的复杂性,作者使用卷积神经网络结构对图像数据进行编码。图2中描述了不同的架构。根据经验证据将特征空间的长度定义为512。
图2
03
病理图像处理
本研究使用了一种相对简单的采样方式来获取ROIs,作者从最高分辨率下采样200个224 × 224 像素的图像块,使用均方误差来表示每个图像块的RGB三通道颜色均值与整个数字病理图像的RGB三通道的颜色均值的差距。接下来再从这200个图像块中选出排名前40个图像块作为ROIs,确保没有代表性的图像块属于空白区域,过度染色的图像块被忽略。
这40个ROIs平均代表了整个病理图像组织区域的15%。接下来,使用SqueezeNet来对这40个ROIs进行计算,将最后一层替换为512维向量(图3)。
图3
04
无监督特征学习的结果
作者 首先对无监督学习所编码的泛癌特征进行可视化。具有相似特征表示的一群患者往往拥有相同的种族、性别和肿瘤类型,尽管模型没有使用这些变量对模型进行训练(图4)。这表明神经网络模型以一种无监督的方式学习到了不同模态数据之间的联系。这些结果表明我们的无监督模型能够有效地对多模态数据进行概括和总结。
图4
05
multimodal dropout的评估结果
结合多模态数据,利用模型的c指数来预测20个癌症部位的预后。该模型在40个ch后收敛,表明多模态退出提高了验证性能。图5表明训练过程中使用multimodal dropout可以提升验证集的C-index,这表明multimodal dropout可以有效应对缺失值带来的影响。
图5
06
泛癌预后预测的结果
作者使用训练好的模型在测试集上预测单一肿瘤的预后以及泛癌的预后。比较了不同模态数据组合的结果,每种组合都包含临床数据,还评估了multimodal dropout在这些组合中的影响。发现只有在临床信息和mRNA进行组合的时候,multimodal dropout没有提高效果。
对于组合了所有模态数据的模型,在20种肿瘤中,有15种肿瘤使用multimodal dropout的时候都有C-index的提高,平均提升为2.8%。使用较少的模态数据进行组合的时候,也可以得到类似的结果。在泛癌数据上,整合了所有模态数据以后,使用multimodal dropout的C-index为0.78,不使用multimodal dropout的C-index为0.75(表2)。
table2
07
泛癌训练的模型与一种癌症训练的模型比较
作者测试由泛癌得到的模型在单一肿瘤上的效果与单一肿瘤训练的模型的效果进行比较。发现除了KIRC以外,由泛癌训练的模型在单一肿瘤上的效果均比单独训练单一肿瘤的效果更好。
table3
小编总结
作者提出了一种多模态数据融合的方法来预测肿瘤预后,模型在很多方面都有优点。并且展示了如何建立泛癌预测模型,如何进行多模态数据融合,并且提出了一种新的dropout方法,能够在某个模态数据缺失的情况下,充分利用该样本。最后,提出一种有效的数字病理图像分析方法,以采样的方式得到的ROIs能够代表患者肿瘤区域的15%。
预后预测在临床应用上具有非常重大的意义,这篇文章也在这个领域提供了一个新思路,对于深度学习相关研究有兴趣的小伙伴可以多加学习哦!