深度学习 mix 生物科学
作为一枚长期关注BT与IT融合的小编,最近挖到一篇NC综述,作者从蛋白质结构预测、蛋白质功能预测、基因工程、系统生物学和数据集成以及系统发育推断五个方面讨论了深度学习(DL)的最新进展、局限性和未来展望。
深度学习(DL)允许使用由多层非线性计算单元组成的复杂模型,找到具有多层抽象的数据表示。
机器学习场景和常用DL架构概述
作者从如下四个方面回顾了DL的进展:(i)范式转换(其中DL明显优于其他ML和经典方法,并提供了广泛的影响);(ii)重大成功(其中DL性能通常高于其他ML和经典方法);(iii)中等成功(DL性能通常与其他ML和经典方法相当);(iv)小成功(DL方法未被广泛采用或与其他ML和经典方法相比表现不佳)。然后讨论生物科学中DL的常见挑战。
深度学习在生物科学领域的应用
DL在计算生物学中对经典ML技术的改进,到目前为止取得了不同程度的成功。
范式转变
蛋白质结构预测可能是DL在计算生物学中最成功的应用之一。多序列比对(MSA)形式的大量无监督数据,使得学习蛋白质的非线性进化信息表征成为可能。国际竞赛CASP加速了该领域的进展,CASP13中由谷歌DeepMind小组开发的AlphaFold几乎是基于此前版本预测的两倍。遵循该领域最近的趋势,AlphaFold和AlphaFold2利用了DL和MSA的组合使用。这被证明是一个成功的策略,能够克服缺乏大型蛋白质结构训练数据集的问题。
AlphaFold2对结构生物学领域的影响是不可否认的;它成功地展示了基于DL的实现在高精度蛋白质结构预测中的应用。此外,DeepMind还与EMBL合作,创建了一个以AlphaFold2为模型的蛋白质结构开放存取数据库。该数据库已经覆盖了98.5%的人类蛋白质,其中至少36%的氨基酸残基被高度可靠地预测。
基于DL的方法可能会增强实验方法的准确性和覆盖面(不是取代实验方法),正如初步应用于解决具有挑战性的X射线晶体学和冷冻电镜数据的结构所证明的那样。
然而,仍有许多注意事项、局限性和开放性问题。特别是,虽然AlphaFold2成功地预测了一个蛋白质的静态结构,但关于蛋白质的生物功能的许多关键见解来自于其动态构象。此外,多种蛋白质的动态相互作用仍然是该领域的公开挑战。今后,监测DL在这些后续研究领域的应用将非常重要。
重大成功
> 预测蛋白质功能是蛋白质结构预测之后的下一步。尽管UniProtKB数据库中可用的蛋白质序列有了巨大的增长,但绝大多数蛋白质的功能注释仍然部分或完全未知。有限且不平衡的训练示例、可能功能的大输出空间以及GO标签的层次性是与蛋白质功能注释相关的一些主要瓶颈。为了克服一些问题,最近的方法利用不同来源的特征,包括序列、结构、交互网络、科学文献、同源性、领域信息,甚至结合了一种或多种DL体系结构来处理预测任务的不同阶段(例如特征表示、特征选择和分类)。
DeepGO是解决这个问题最成功的DL方法之一,它结合CNN学习序列级嵌入,并将其与从蛋白质相互作用(PPI)网络获得的每个蛋白质的知识图嵌入相结合。DeepGO是首批基于DL的模型之一,在三个GO类别的功能注释任务上,它的性能优于BLAST和此前的方法。该工具的改进版DeepGOPlus在CAFA3挑战赛中与其他工具相比,在三个GO类别中表现最佳。
DAEs等无监督方法也有助于学习蛋白质的密集、稳定和低维特征。相关研究人员开发了一个DAE来表示用于分配缺失GO注释的蛋白质,并且与非 DL方法相比,在六个不同的GO数据集上显示了6%到36%的改进;sdAE学习更稳定的蛋白质特征;deepNF使用多模态DAE(MDA)从多个异构交互网络中提取特征,其性能优于基于矩阵分解和线性回归的方法。
除了预测GO注释标签外,研究还集中在其他几个特定任务的功能类别,如确定特定的酶功能和潜在的翻译后修饰位点。
目前的研究表明整合多模态数据类型(例如序列、结构、PPI等)特征的模型更有可能优于依赖单一数据类型的模型。文献中的趋势表明,依赖特定于任务的体系结构可以极大地增强各个数据类型的特征表示。在这个方向上,未来的工作可能集中在将DAEs和RNNs结合起来用于基于序列的表示,以及将图卷积网络(GCN)结合起来用于基于结构以及基于PPI的信息。在多任务DNN等分层分类器中结合这些表示与生物学相关的正则化方法,可以为蛋白质功能预测提供可解释且计算可行的DL架构。
> 基因工程是生物学中的一个重要领域,DL模型已被越来越多地使用。在CRISPR/Cas9基因编辑领域,在提高靶向效率的同时减少脱靶一直是基因工程靶向DL技术的一个重要目标。已经成功开发了几种计算工具来设计具有最大目标活动和最小非目标影响的gRNA,包括DeepCas9、DeepCRISPR、CnnCrispr、ADAPT、SPROUT、FORECasT和InDelphi等。
DL的未来是面向新的编辑技术的,如CRISPR-Cas12a(cpf1)、碱基编辑和质粒编辑。事实上,DL已经在预测人类细胞中的腺嘌呤碱基编辑(ABEs)和胞嘧啶碱基编辑(CBEs)以及质粒编辑2(PE2)活动的效率方面显示出前景。然而,未来的挑战是如何理解这些模型。CRISPRLand是一个最新的框架,从高阶相互作用的角度解释和可视化DL模型。除了可解释性,我们推测能够对预测结果进行不确定性估计的方法在基因组编辑中会更加普遍。此外,由于细胞类型对CRISPR实验的效率有显著影响,因此了解在基因组工程中部署DL模型时的分布变化至关重要。整合领域适应方法以限制这种分布变化的影响是未来的其他重要方向之一。
中等成功
系统生物学和数据集成。系统生物学从整体的角度对复杂的生物过程进行建模,最终揭示基因型和表型之间的联系。整合不同的组学数据是弥合这一差距的关键,使稳定的预测模型成为可能,这导致了从基础生物学到精密医学的几项最新突破。数据整合任务分为两大类:1)跨不同平台的整合和单一数据类型的研究,有时与其他非组学数据整合;2)不同组学数据类型之间的整合。在单一数据类型内的整合方面已经开发了经典的ML和统计方法,用于批量校正、全局基因共表达模式建模、用于功能预测的贝叶斯整合策略和表型分类。最近,单细胞转录组的日益流行催生了一系列新的经典ML和DL方法,用于跨实验的数据整合。从广义上讲,考虑到集成的执行阶段,同时将不同研究或不同类型的数据类型组合在一起的数据集成分析通常分为三类:基于串联、基于转换或基于模型。
小成功
系统发育学。系统发育是模拟一组分类群进化历史的进化树。系统发育推断问题涉及从被调查的分类群中获得的数据--通常是分子序列--建立一个系统发育。
然而,分类方法有一个主要的局限性,即它们不能推断分支长度,也不能扩展到非常少的分类单元之外,因为可能的拓扑(类)的数量随着这个变量呈超指数增长。但也许更重要的是,像DL模型这样的分类器需要训练数据,而在这个领域几乎不可能获得已知真实系统发育的基准数据。相反,模拟一直是生成训练数据的首选方法,但这是一个主要的依赖性,并且已知方法在模拟和生物数据上有不同的性能。对于复杂版本的系统发育推理问题,需要更真实的模拟协议。最后,从某种意义上讲,对单个基因的系统发育推断本身就是一个简化的问题:从全基因组数据推断单个系统发育会带来一种复杂性,即不同的基因可能有不同的历史,或者真正的系统发育可能是一个网络,而不是一棵树。由于这些原因,DL要么取得了有限的成功,要么仅限于主要推理任务之外小的子问题。
尽管如此,仍有人尝试将DL用于上述分类任务,例如SOTA算法基于神经网络对序列进行分类,并从序列数据重建系统发育树;最近CNN被用于推断四个分类群的无根系统发育树。
系统发育推断的标准和DL方法
基于距离的方法是另一类常用的系统发育推理技术,其中最常见的是邻域连接方法,DL已被用于改进距离表示。其他应用程序使用DL来辅助更传统的推理管道。例如,用于最大似然搜索的特定似然模型通常被视为理所当然的用户决策,但最近的一种方法使用DL来优化该决策。
生物科学领域中深度学习的挑战
DL方法面临的最常见问题源于缺乏注释数据、非模拟数据集固有的基础事实的缺失、训练数据分布与真实测试(如临床)数据分布之间的严重差异、结果基准和解释方面的潜在困难,最终克服数据集和模型中的偏见和伦理问题。此外,随着数据和DL模型的增长,训练效率已成为进步的主要瓶颈。
可解释性:或许DL模型今天最关键的局限性之一,尤其是在生物学和临床应用中,它们不像统计学中更简单的回归模型那样可解释;很难解释网络的每个节点代表什么,以及对性能建模的重要性。DNN的高度非线性决策边界及其超参数化性质,使其能够实现高预测精度,也使其难以解释。这种可解释性的缺乏成为计算生物学中的一个重要问题。ML领域一直在努力开发解释 "黑盒 "DL模型的方法。早期的工作是在计算机视觉和生物医学应用中开发的,其中一些也被应用于计算生物学的问题。开发DNN解释工具的努力仍处于起步阶段;在生物学中,对于一个完全可解释的系统仍然有很多挑战。关键问题是,目前解释DL模型的通用方法不够充分,尤其是在临床环境中。为了让科学家和临床医生相信这些黑盒模型,他们需要能够以人们可以理解的方式,以可量化的不确定性水平来解释自己,总结他们行为的原因,并需要提出附加步骤(例如实验、临床研究等)以支持其决定。笔者推测,新一代可解释方法专注于帮助这些黑盒模型从假设生成机器过渡到更容易与医生沟通的假设检验机器。
训练效率:尽管许多DL方法有很高的准确性,但它们的性能往往要付出很高的费用和计算成本。例如,训练最先进的蛋白质结构预测模型AlphaFold2需要相当于100~200个GPU运行几周的计算资源。降低DL方法训练成本的最直接方法是对现有的预训练通用模型进行迁移学习,而不是从头开始训练新模型。另一种方法是设计效率更高的DL模型体系结构。对于计算生物学应用,一种提高效率的方法依赖于利用生物数据固有的稀疏性和局部性。随着生物数据量的不断增加,神经网络的规模也将增加,并导致收敛所需的训练迭代总数增加。因此,探索数据集缩减策略作为解决效率挑战的方法之一。一个可行的方案是构造训练数据集的核心集。