14+!整合基因组图谱基于深度学习预测癌症依赖性!

2022-03-29 10:59:00 浏览数 (2)

导语

GUIDE ╲

全基因组功能缺失筛选揭示了癌细胞增殖所必需的基因,被称为癌症依赖性。将癌症的依赖性与癌细胞的分子组成或未经筛选的细胞系以及进一步与肿瘤联系起来仍然具有挑战性。

背景介绍

今天小编给大家介绍的文章是使用整合的基因组图谱来预测癌症的依赖性,从而开发一个深度学习模型DeepDEP,使用一种独特的无监督预训练,捕获未标记的肿瘤基因组表示,以提高对癌症依赖性的学习。文章于2021年发表在《SCIENCE ADVANCES》杂志上,最新影响因子为14.136,题目为:Predicting and characterizing a cancer dependency map oftumors with deep learning.

数据介绍

BroadDepMap数据集:436个CCLs中的17634个基因的CRISPR-Cas9 essentiality screens 。

TCGA:tumor和CCLs的突变、基因表达、甲基化和CNAs数据。

结果解析

01

模型构建

作者提出了DeepDEP来预测基于从肿瘤和细胞系样本的高维基因组谱中学习到的基因依赖性。DeepDEP嵌入了一种带有无监督预训练的迁移学习设计,使用未标记的肿瘤样本来学习数据表示,然后对标记的CCL样本进行参数微调,以捕获基因组学和基因依赖性之间的关系(图1A)。

该模型分为几部分:(i)降维编码器神经网络,用于各种分子数据,包括DNA突变、基因表达、DNA甲基化和拷贝数改变(CNA);(ii)编码器网络提取感兴趣基因依赖性的功能指纹(DepOI);(iii)预测网络,将学习到的特征转换为依赖性评分(图1b).

图1

原始的依赖得分是由ceres估计和校正的基因效应得分(图2A)。平均而言,每个DepOI涉及33.2个分子signature(图2B)。总共有360,844个(278个CCLs×1298DepOIs)标记的样本。将CCLs随机划分为训练/验证(90%)和测试(10%)组,其中随机选择前一组的样本进行训练,九分之一进行验证(图2C)。

02

模型的性能和与其他方法的比较

测试集上的预测非常准确(28个测试CCLs×1298DepOIs的person相关系数=0.87)(图2C)。总的来说,模型在所有1298个DepOIs中,平均每depoi为0.18(图2D),远高于预期。使用了三个独立的数据集来验证该模型。对于BroadDepMap在2018Q3至2020Q2新检测的104个CCLs,deepdep预测得分与实际依赖得分一致(图2E)。

其他两个数据集来自(i)Sanger研究所使用不同的CRISPR文库进行的CRISPR-Cas9筛选,(ii)基于RNAi的全基因组依赖筛选。证实了Broad和其他两个筛选在普通CCLs之间的普遍一致性(图2F、G)。

图2

03

利用基因表达谱来表征基因依赖性的模型解释

为了解读瓶颈层神经元的影响,作者人为地干预了这两个神经元,并检测了预测的依赖性分数的变化(图3A)。通过解码器网络重建了两个神经元的6016个基因的表达谱,从而解码了这两个神经元的表达特征(图3B),并通过基因集合富集分析(GSEA)分析其功能相关性。特征1与与细胞增殖相关的通路呈正相关,如DNA修复、E2F靶点和G2M检查点(图3C、D)。

通过编码器网络映射了278个CCLs,将每个CCL的表达式谱转换为瓶颈层的两个signature分数。发现24例白血病、淋巴瘤和骨髓瘤ccl中有20例在特征2中活性最低,但在特征1中表现出高度的变异(图3E)。

图3

04

通过使用Mut-DeepDEP研究SE进行模型解释

为简单起见,作者一次干扰一个突变;从0到1表示将内源性野生型转换为突变,从1到0,反之亦然(图4A)。对于CCLs中的每个突变DepOI对,通过比较有突变和没有突变的DepOI的预测依赖性(突变状态,1对0)来计算SE评分。因此,更负的SE分数表明携带内源性或合成突变的CCL具有更强的重要性。一般来说,SE得分适中(图4B)。而且似乎与细胞系无关(图4C)。CCLs中PTEN/CHD1的平均SE得分明显高于CHD1和其他任何4538个基因突变之间的平均SE得分(图4D)。EGFR是RAS通路的上游调控因子。作者的数据显示,在126个CCLs中,EGFR与KRAS是一个SE相互作用因子(图4E)。

图4

05

肿瘤依赖性的预测及与基因组学的关联

一般来说,肿瘤和CCLs之间的整体依赖谱的相关性与两个CCLs之间的相关性相似(图5A)。这一观察结果与在全基因组表达和甲基化数据中看到的癌症类型特异性形成了对比(图5B)。一些肿瘤的依赖性谱与较高的突变负荷(图5C),CNA增加(第2组)和表达/甲基化模式(第3组)相关。对于每个DepOI,作者计算了四类事件的百分比。大多数DepOIs以E-Dep、M-Dep和C-Dep事件为主(分别为48.6、27.7和22.0%)为主。表明基因表达在预测癌细胞易感性方面具有比于DNA水平特征更高的能力(图5D、E)。

图5

06

利用临床和临床前数据验证预测的肿瘤依赖性

作者首先研究了乳腺癌(BRCA),因为它的全面的临床数据来自TCGA。预测雌激素受体阳性(ER )肿瘤对ESR1有更强的依赖性(图6A)。所有对曲妥珠单抗完全应答的BRCA肿瘤比唯一病情稳定的肿瘤更依赖于ERBB2(图6B)。预测3个获得CR的PDXs对FGFR2/FGFR4的依赖性显著依赖于22例进展性疾病的PDXs(图6C)。在MSI易感性的TCGA癌症中,预测MSI高的肿瘤明显更依赖于WRN(图6D).

图6

07

预测肿瘤依赖性对化疗耐药性和生存率的临床相关性

作者比较了化疗后达到CR和PD的患者之间的预测依赖性。两组间共有71个基因表现出显著差异的依赖性(图7A)。电子传递链中的一种酶NDUFS5的依赖性最为显著(图7B)。

为了进一步建立模型的生理相关性,分析了来自不同谱系的癌症患者的基因依赖性与总生存期(OS)之间的关系。作者在32种癌症中确定了4655种预后依赖性。34种DepOIs对至少8种癌症有预后作用(图7D、E)。另一个顶级预后基因,SMAD4也是一种肿瘤抑制因子。SMAD4依赖性更强的几种肿瘤有明显更好的OS(图7H、I)。

图7

小编总结

这项研究解决了癌症依赖图的快速积累所带来的重大生物信息学挑战:如何将基因组上下文与细胞活力联系起来,以及如何系统地将细胞系分析转化为肿瘤。这也是深度学习在生物信息学问题上的新应用,可以为大家的研究提供很好的参考。

0 人点赞