作者 | 刘冰一
编辑 | 青暮
德国科学家Roman Schulte-Sasse等人借助一款深度学习软件,对数万个医疗数据集展开分析后,鉴别出了165个可能导致癌症的新基因。这项发表在Nature Machine Intelligence上的最新研究为个性化药物靶向治疗以及生物标志物开发开辟了新前景。
论文链接:https://www.nature.com/articles/s42256-021-00325-y
癌症导致细胞失控,癌细胞不断繁殖并进入组织器官,从而损害人体重要的生命功能。这些细胞通常是由癌症基因中控制细胞发育突变的DNA引起的,但是已知的致癌突变基因非常少,这意味着目前表现温和的其他基因也会导致癌症,只是暂未被发现。
可用的高通量分子数据的增加为癌症基因的鉴定带来了计算上的挑战。遗传和非遗传原因均会导致癌症或肿瘤发生,因此有必要开发预测模型以有效整合不同的数据模式。
柏林马克斯·普朗克分子遗传学研究所(MPIMG)和亥姆霍兹Zentrum慕尼黑计算生物学研究所的一组研究人员使用机器学习技术开发了一种新算法,用于识别165个以前未知的癌症基因。
导致癌症的突变基因的数量非常少。基因打靶(又称“基因敲除”,指对一个结构已知但功能未知的基因,从分子水平上设计实验将该基因去除,或用其他相近基因取代,从而观察推测相应基因的功能)会产生突变和拷贝数变化,还有些基因通过遗传机制(例如启动子DNA甲基化或非启动子),或者调节编码突变,间接激活或沉默其他基因等不同的途径将细胞转化为癌细胞。此外,许多基因具有上下文相关的功能,在某些癌症中可被反复突变,而在另一些癌症中被表观遗传改变。
显然,基因失调已可导致癌症。所有新近鉴定的基因都与有名的癌症基因紧密相互作用,并已在细胞培养实验中显示出对肿瘤细胞生存至关重要。
1
个性化癌症治疗的基础
该算法被称为“ EMOGI”,这是一种基于图卷积网络的可解释的机器学习方法,该算法可以解释“基因演变为癌症基因过程中细胞机制之间的关系”,预测癌症及因网络。在不同的PPI网络和数据集中,EMOGI平均表现比其他方法更准确。
正如安娜丽莎·马西科(Annalisa Marsico)领导的研究团队在《Nature Machine Intelligence》期刊上所描述的那样,该研究集成了从患者样本中生成的数万个数据集。这些信息除了包含突变的序列数据外,还包含有关DNA甲基化,单个基因的活性以及细胞途径中蛋白质相互作用的信息。在这些数据中,深度学习算法可检测导致癌症发展的模式和分子原理。
图注:映射框架的原理图-数据收集和串联。
理想情况下,我们可以在某个时刻获得所有癌症基因的完整图片,这可能对不同患者的癌症进展产生不同的影响,”MPIMG研究小组负责人Marsico说道,“这是个性化癌症治疗的基础。”
与传统的癌症治疗方法(例如化学疗法)不同,个性化治疗方法可根据肿瘤类型精确调整药物治疗。“目标是为每位患者选择最佳疗法,即副作用最少的最有效疗法。此外,我们将能够根据癌症的分子特征来识别已经处于早期阶段的癌症。”
研究中说,只有知道了疾病的原因,我们才能够有效地抵消或纠正它们,这就是为什么确定尽可能多的诱发癌症的机制如此重要的原因。
2
用AI算法才能找到它们
“直到现在,大多数研究都集中在基因序列的致病性变化上,即细胞的蓝图,” Marsico团队的博士生,该出版物的第一作者Roman Schulte-Sasse说。“与此同时,近年来已经变得很明显,表观遗传扰动或基因活性失调也可能导致癌症。”
这就是为什么研究人员将反映蓝图故障的序列数据与代表细胞内部事件的信息合并在一起的原因。最初,科学家们证实突变或基因组片段的倍增确实是癌症的主要驱动力。然后,在第二步中,他们找出与实际癌症驱动基因不太直接相关的基因候选物。
Schulte-Sasse说:“例如,我们发现了在癌症中序列基本不变的基因,但是由于它们调节能量供应,因此对于其他功能是必不可少的。” 这些基因通过其他方式失控,例如DNA上的化学变化--甲基化。这些修饰使序列信息完整无缺,但支配着基因的活性。这些基因是有前途的药物靶标,但由于它们在后台运行,因此我们只能使用复杂的算法才能找到它们。”
图注:双聚类的基因和特征贡献图,揭示了癌症基因具有独特的功能特征。
3
发现新的火车连接
研究人员的新程序在可疑的癌症基因列表中添加了大量新条目,近年来,这一数目已增长到700至1,000。只有结合了生物信息学分析和最新的人工智能(AI)方法,研究人员才能够找到隐藏的基因。
Schulte-Sasse说:“蛋白质和基因的相互作用可以映射为一个数学网络,称为图。” “你可以把它想象成试图猜测一个铁路网;每个车站对应一个蛋白质或基因,它们之间的每个相互作用都是火车连接。”
借助深度学习,研究人员甚至能够发现那些以前未被注意的火车连接。舒尔特-萨斯(Schulte-Sasse)的计算机分析了16种不同癌症类型的成千上万种不同的网络图,每个网络图包含12,000至19,000个数据点。
图示:Emogi提取对应于对癌症基因分类重要的子网的PPI网络组分。红色基因名称表明该基因预测通过eMogi是癌症基因,节点的形状表明该基因是否已经在癌症基因的数据库中注释。
4
不仅限于癌症
数据中隐藏了许多有趣的细节。我们看到的模式取决于特定的癌症和组织, Marsico说,“我们认为这是肿瘤由不同器官中不同分子机制触发的证据。”
研究人员强调,EMOGI计划不仅限于癌症。从理论上讲,它可以用来整合各种生物数据集并在那里找到模式。Marsico解释说,“将我们的算法应用于收集了多方面数据并且基因起着重要作用的类似复杂疾病可能是有用的,例如乳腺癌、甲状腺癌,还有糖尿病等疾病。”
“我们提出了165个新的癌症基因,这些基因不一定在反复变化,但可以与已知的癌症基因相互作用,技术显示这些发生作用的癌症细胞与功能丧失筛选中的必需基因相对应。我们相信,人工智能方法可以为精密肿瘤学开辟新的研究途径,并成为用于预测其他复杂疾病的生物标志物。”
参考链接:
https://www.nature.com/articles/s42256-021-00325-y
https://www.sciencedaily.com/releases/2021/04/210412142730.htm