2022年4月1日,休斯顿莱斯大学计算机科学系的Todd J. Treangen等人在Nat Commun杂志发表文章,讨论了深度学习在五个生物科学领域的最新进展、局限性和未来前景。
以下是文章主要内容。
摘要
本文讨论了深度学习(DL) 在五个广泛领域的最新进展、局限性和未来前景:蛋白质结构预测、蛋白质功能预测、基因组工程、系统生物学和数据集成、系统发育推断。讨论了每个应用领域并分析了DL方法的主要瓶颈,例如训练数据、问题范围以及在新环境中利用现有DL架构的能力。最后总结了DL在整个生物科学领域面临的特定问题和开放挑战。
前言
深度学习允许使用由多层非线性计算单元组成的复杂模型来找到具有多层抽象的数据表示 (图1)。深度学习的效果取决于专门的神经网络架构的开发,这些架构可以捕获数据的重要属性,例如空间局部性 (CNN)、序列性质 (RNN)、上下文依赖 (Transformers) 和数据分布 (AE)。图1展示了在计算生物学领域中应用最多的六种深度学习架构。
图1 机器学习场景和常用的DL架构概述
图的上部分概括了机器学习的三种最常见的范式:数据集包含真实标签的监督学习、数据集不包含真实标签的无监督学习、算法代理与真实或模拟环境交互的强化学习。图的底部概述了最流行的DL架构理念,每个架构都是为了实现特定的目标。
这些DL模型彻底改变了语音识别、视觉对象识别和对象检测,并且最近在解决计算生物学中的重要问题方面发挥了关键作用。深度学习在计算生物学的一些领域 (例如功能生物学) 的应用正在增长,而其他领域 (例如系统发育学) 则处于起步阶段。
计算生物学不同领域DL的接受度之间存在巨大差异,一些关键问题仍未得到解答:(1) 是什么让一个领域成为DL方法的首选?(2)DL在计算生物学应用中的潜在局限性是什么?(3) 哪种DL模型最适合计算生物学的特定应用领域?
于是本文评估了DL在计算生物学中对经典ML技术的改进 (图 2)。对于每个领域,作者都探索了当前方法的局限性和改进机会,并包括实用技巧。围绕计算生物学中五个广泛而不同的领域展开讨论:蛋白质结构预测、蛋白质功能预测、基因组工程、系统生物学和数据整合以及系统发育推断 (表1)。在每一领域的影响程度,划分为范式转变、主要成功、中等成功、小成功。
表1 深度学习对五个计算生物学领域的影响
图2 5个领域的数据集,以及计算生物学DL方法中使用的架构
5个领域的每个领域的关键数据集和数据库的大小估计,以及这些数据的预计增长率。最右边的一列总结了应用于生物科学相应领域的最流行的深度学习架构。
DL带来成功的范式转变
蛋白质结构预测
众所周知,蛋白质的氨基酸序列决定了它的三维结构,而三维结构又直接关系到它的功能。考虑到X射线晶体学 (蛋白质结构测定的金标准实验方法) 的高成本和技术局限性,以及人类基因组计划后对生物序列越来越多的访问,从序列中预测蛋白质的三维结构已成为计算生物学的珠穆朗玛峰 (这一挑战被广泛称为"蛋白质折叠问题")。最初的努力集中在使用生物物理上精确的能量函数和基于知识的统计推理,但最近随着对DL的更多关注,取得了更快的进展。
最近DL在这一领域取得成功的关键原因之一是多序列比对 (multiple sequence alignment, MSA) 形式的丰富的无监督数据,这使得学习蛋白质的非线性进化信息表示成为可能。AlphaFold和AlphaFold2联合使用了DL和MSA,这被证明是一个成功的策略,能够克服缺乏大型蛋白质结构训练数据集的问题。蛋白质数据库 (PDB) 是实验确定的大分子结构的参考数据库,目前拥有近18万个条目。对于问题中涉及的复杂的映射来说,这是一个小数量的数据点,而且这些数据还受到实验方法的技术限制而产生偏离。而另一方面,蛋白质序列数据的可用规模要大得多。MSA允许建模方法从这个更大的数据库中提取成对的进化相关性,最大限度地提高对现有结构数据的学习。DL在这一领域成功的其他关键因素包括模型设计的创新,如针对蛋白质的不变性和对称性调整的新注意力策略、基于图形的表示和模型循环策略。
AlphaFold2对结构生物学领域的影响是不可否认的,它成功地展示了如何使用DL进行高精度的蛋白质结构预测。基于DL的方法可能会提高实验方法的准确性和覆盖面,然而许多注意事项、限制和开放性问题仍然存在。特别是,虽然AlphaFold2成功地预测了一个蛋白质的静态结构,但关于蛋白质的生物功能的许多关键见解来自其动态构象。此外,多种蛋白质的动态相互作用仍然是该领域的公开挑战。今后,监测DL在这些后续研究领域的应用将非常重要。
DL的主要成功
蛋白质功能预测
蛋白质功能的预测是蛋白质结构预测之后的一个自然的步骤。蛋白质功能预测涉及将目标蛋白质与本体进行映射,如基因本体 (GO) 术语、生物过程 (BP)、分子功能 (MF) 和细胞成分 (CC)。蛋白质结构可以传达很多关于这些本体的信息,然而,两者之间没有直接的映射关系,而且映射关系往往非常复杂。尽管UniProtKB数据库中的蛋白质序列有了巨大的增长,但绝大多数的蛋白质的功能注释仍然是部分或完全未知的。有限的和不平衡的训练实例、大量的可能功能的输出空间和GO标签的层次性是与蛋白质功能注释有关的一些主要瓶颈。
最近的方法利用了不同来源的特征,包括序列、结构、相互作用网络、科学文献、同源性、领域信息,结合了一个或多个DL架构来处理预测任务的不同阶段 (如特征表示、特征选择和分类)。
最成功的DL方法之一,DeepGO结合了CNN来学习序列级嵌入,并将其与从蛋白质-蛋白质相互作用 (PPI) 网络中获得的每个蛋白质的知识图谱嵌入相结合。DeepGO是首批基于DL的模型之一,在三个GO类别的功能注释任务上,表现比BLAST和以前的方法更好。该工具的改进版DeepGOPlus在CAFA3挑战赛中与其他工具相比,在三个GO类别中成为表现最好的之一。DeepGOPlus使用不同大小的卷积滤波器和单独的最大集合来学习嵌入在单次编码方案中的蛋白质序列的密集特征表示。作者表明,将CNN的输出与DIAMOND的基于同源性的预测相结合,可以获得更好的预测精度。
无监督的方法,如DAEs,也通过学习密集的、稳健的和低维的蛋白质表征发挥了作用。
除了预测基因本体的标签,研究还集中在其他几个特定任务的功能类别,如识别特定的酶功能和潜在的翻译后修饰位点。这些研究是开发具有专门功能的新型蛋白质或修改现有蛋白质功效的基本步骤,这在最近DL在酶工程方面的进展中可以看到。展望未来,深度学习在为特定功能而设计的蛋白质中的应用可以帮助提高候选蛋白质的产量,影响制药相关的应用。
这个方向的未来工作可以集中在结合DAEs和RNNs进行基于序列的表示,以及结合GCNs进行基于结构和PPI的信息表示。在分层分类器中结合这些表示,如多任务DNN和生物相关的正则化方法,可以为蛋白质功能预测提供一个可解释的和计算上可行的DL架构。
基因组工程
生物医学工程,特别是基因组工程,是生物学的一个重要领域,其中DL模型已被越来越多地采用。在基因组工程技术中,CRISPR最近已被用作识别和切割人类基因组上特定位置的guide。由于能够精确瞄准基因组上的特定位置,自Cas9开发以来,我们已经观察到基于CRISPR的编辑技术取得了巨大的进步。然而,最近的研究表明,Cas9结合了意想不到的基因组位点进行切割 (称为脱靶效应)。脱靶对细胞的功能和完整性有致病作用。由于治疗目的缺乏效率、可靠性和可控性的挑战,Cas9的全面临床部署一直很缓慢。因此,减少脱靶并提高在靶效率一直是DL技术在基因组工程领域的最终目标。
对DNA修复过程进行建模所涉及的生物过程的复杂性,以及CRISPR检测成本的迅速下降带来的标签数据的不断增加,使得基于DL的方法成为寻找低效率的根本原因的特别成功的选择。一些计算工具已被成功开发出来,用于设计具有最大的靶向活性和最小的脱靶效应的gRNAs。
DL的未来是面向新的编辑技术,如CRISPR-Cas12a (cpf1)、碱基编辑和质粒编辑。事实上,DL已经显示出预测人类细胞中的腺嘌呤碱基编辑 (ABEs) 和胞嘧啶碱基编辑 (CBEs) 以及质体编辑2 (PE2) 活动效率的前景。然而,未来的挑战是如何理解这些模型。CRISPRLand是一个最新的架构,它迈出了第一步,从高阶相互作用的角度解释和可视化DL模型。除了可解释性,我们推测,能够对预测结果进行不确定性估计的方法在基因组编辑中会更加普遍。此外,由于细胞类型对CRISPR实验效率的显着影响,了解在基因组工程中部署DL模型的分布变化至关重要。整合域适应方法以限制这种分布变化的影响是其他重要的未来方向。
DL的中等成功
系统生物学和数据集成
系统生物学从整体上对复杂的生物过程进行建模,以最终解开基因型和表现型之间的联系。整合不同的组学数据是弥合这一差距的核心。
鉴于最近的成功以及单一和共同检测数据的普遍存在,该领域现在致力于整合不同的数据类型 (如基因组学、转录组学、表观基因组学、蛋白质组学、代谢组学),涉及单一个体、许多个体、表型组内部和之间以及不同的生物体。数据整合任务主要分为两类:1) 不同平台和单一数据类型的研究之间的整合;2) 不同组学数据类型 (如RNA-seq、ChIP-seq、ATAC-seq、BS-seq) 之间的整合。
单一数据类型的整合 (特别是转录组数据的整合)方面已经取得了很大进展,人们开发了经典的ML和统计方法,用于批量校正、为全球基因共表达模式建模、功能预测的贝叶斯整合策略以及表型分类。在这一领域的DL方法已经产生,因为需要有能与大量细胞一起扩展的方法,并有能力对细胞相似性的非线性模式建模。
将来自不同研究或不同类型的数据类型同时组合在一起的数据集成分析通常分为3类:基于串联、基于转换或基于模型。
基于串联的整合方法是在方法管道的早期进行数据整合,在任何联合建模和分析之前,以原始或处理过的形式将数据结合起来。传统的基于串联的ML方法通常是无监督的,通常使用自动特征提取技术。这些方法通常适用于来自大型联盟 (如TCGA) 的精心策划的多组数据集,因此最常被用来寻找有意义的病人亚群,其特点是跨数据模式的不同模式。最近,自动编码器被用作初始数据处理步骤,以产生低维嵌入,然后连接在一起作为下游模型的特征。这些方法比现有的方法有更好的性能,可能是由于自动编码器在去噪任务中的优势,以及它们对非线性潜在结构的建模能力,即使没有样品标签。
一些研究小组没有直接连接单独的潜伏嵌入,而是通过映射到一个共同的表征 (如图或核矩阵) 来联合建模数据,追求基于转换的整合方法。这是数据整合中一个快速增长的领域,特别是对于DL方法。在使用经典ML方法的锚点的基础上,新的最先进的方法经常训练单一模式的自动编码器,然后再进行跨模式的对齐程序。其他令人振奋的发展是将这些嵌入表征的力量与其他DL方法一起利用,用于广泛的预测任务,包括细胞命运、药物反应、生存和临床疾病特征。
也许整合多模态数据最直接的方法是训练单个数据模态模型,然后通过结合单个模型的结果来整合它们,称为基于模型的整合。在基于模型的整合方面,DL方法还没有获得很大的发展,可能是因为大多数DL方法的本质模糊了基于转换和基于模型的范式之间的界限。
DL的小成功
系统发育学
系统发育是一棵进化树,它模拟了一组分类群的进化历史。系统发育推断问题涉及从正在研究的分类群中获得的数据 (通常是分子序列) 中构建系统发育。图3展示了四个分类群的系统发育推断问题,在这种情况下,它可以被看作是三个可能的拓扑结构中的一个分类问题。
图3:系统发育推断的标准和DL方法。
然而,分类方法有一个很大的局限性,即它们不能推断出分支的长度,也不能超过非常小的分类群数量,因为可能的拓扑结构 (类) 的数量会随着这个变量的增加而呈超指数增长。但也许更重要的是,像DL模型这样的分类器需要训练数据,而真正的系统发育是已知的,在这个领域几乎不可能获得基准数据。
而且,从全基因组的数据中推断一个单一的系统发育引入了不同基因可能有不同历史的复杂性,或者真正的系统发育可能是一个网络,而不是一颗树。由于这些原因,DL要么取得了有限的成功,要么被限制在主要推理任务之外的小的子问题上。尽管如此,已经有人尝试使用DL来完成上述分类任务。
总的来说,这些相关的成功是令人印象深刻的,但鉴于上述的挑战,很难想象在不久的将来会有一个端到端的DL模型来直接从原始数据中估计系统发育树。如果要开发一个模型,考虑到它对 (可能是模拟的) 训练数据的依赖,在传统的系统发育方法被取代之前,它对实际生物序列的适用性需要被仔细验证。
生物科学中DL的开放挑战
并非所有DL的应用在计算生物学中都同样成功。虽然DL在一些领域 (如蛋白质结构预测和基因组编辑)已经发现了重大的成功,但DL在其他领域 (如系统发育推断) 却面临着重大的障碍 (表1)。DL方法所面临的最常见的问题是:缺乏注释数据、非模拟数据集缺乏基本事实、训练数据分布和真实世界的测试 (如临床) 数据分布之间的严重差异、结果基准和解释的潜在困难、数据集和模型的偏见和道德问题。此外,随着数据和DL模型的增长,训练效率已成为进展的一个主要瓶颈。
具体来说,计算生物学不同子领域的DL的成功高度依赖于以下方面:标准化的监督和非监督数据集的可用性和多样性、具有明确生物影响的ML基准、问题的计算性质、训练DL模型的软件工程基础设施。
计算生物学中DL的其余挑战包括:提高模型的可解释性、提取可操作性和人类可理解的见解、提高效率、限制训练成本、减轻DL模型日益增长的伦理问题。
创新的解决方案正在DL和计算生物学社区出现 (表2)。
表2 使用DL时计算生物学和潜在解决方案面临的常见挑战
我们接下来回顾两个关键的改进领域:可解释性和训练效率。
可解释性
也许今天DL模型最关键的限制之一,特别是对于生物和临床应用,是它们不像统计学中更简单的回归模型那样可以解释。要解释网络的每个节点代表什么以及它对模型性能的重要性是很有挑战性的。DNN的高度非线性决策边界和它们的超参数化性质,使它们能够达到很高的预测精度,这使它们也很难解释。事实上,在生物学中,一个模型为什么能很好地预测的问题往往与它能多准确地预测一个现象一样重要。
在过去的几年里,ML社区有一些努力来开发解释"黑箱"DL模型的方法。
开发用于可解释DNN的工具的努力仍处于起步阶段,并在迅速增长,不过在实现生物学中的完全可解释系统方面仍存在大量挑战。关键问题是,目前解释DL模型的通用方法是不够的,特别是在临床环境中。为了让科学家和临床医生信任这些黑箱模型,他们需要能够以人类可理解的方式解释自己的不确定性水平,并提出能够可靠地支持其决策所需的额外步骤 (如实验、临床研究等)。
我们推测,新一代的可解释方法的重点是帮助这些黑箱模型从假设生成机器过渡到假设检验机器,这样可以更容易地与医疗工作者沟通。
训练效率
尽管许多DL方法的准确度很高,但它们的性能往往要付出高昂的资金和计算成本。例如,训练一个模型所消耗的电力和计算时间的资金成本估计高达几十万美元。大型DL模型的极端成本会阻碍更广泛的研究机构复制和改进当前的结果。因此,考虑成本较低的替代方法对于资源较少的研究人员来说是可行的。这些问题与将DL应用于计算生物学有关。例如,训练最先进的蛋白质结构预测模型AlphaFold2需要相当于100-200个GPU运行几周的计算资源。接下来,本文将讨论DL社区用来减少训练中的内存和计算成本的常见策略,以及应用类似策略来提高计算生物学中DL模型效率的潜在方向。
降低DL方法训练成本的最直接方法是在现有的预训练的通用模型上进行迁移学习,而不是从头开始训练新模型。这是训练NLP任务的DL模型的常见方法,而且已经证明一般语言知识模型是各种不同NLP任务的良好起点。使用预训练的模型在很大程度上减少了 (i) 训练所需的特定任务数据集的大小;以及 (ii) 研究人员感兴趣的某些任务所需的本地训练总量。因此,创建可以被整个研究界共享和使用的通用模型将大大减少单个研究小组在特定任务上训练模型所需的资源。然而,如果不同的下游任务的数据分布与一般的预训练模型所使用的数据相比有很大的不同,这种方法将不太有用。例如,由于二倍体和单倍体基因组以及核酸分布的不同,DeepVariant对非人类SNV调用的适用性有限。在这些情况下,仍然需要从头开始训练,或者花费大量的资源来重新训练基础模型。
另一种方法是设计具有更高效率的DL模型架构。作为DL中研究最广泛的架构之一,CNN的许多低成本变体已经被提出。一些流行的高效CNN架构示例包括MobileNet系列、DenseNet、EfficientNet和CSPNet。同样地,人们已经为Transformer模型提出了许多基于效率的架构修改,其中许多旨在减少由自我注意机制引起的二次计算复杂性。此外,一些Transformer架构变体探索使用参数共享和分解来降低模型训练的内存成本。再往前走,已经为RNN和GNN发现了有效的架构变体,包括在生物领域内为提高效率而调整的专门架构。
对于计算生物学的应用,一种提高效率的方法是依靠利用生物数据固有的稀疏性和局部性。研究人员也在使用Transformer进行DNA/RNA序列建模,但是由于昂贵的全局注意力机制,Transformer模型的训练成本很高。这里可以利用先前的领域专业知识来帮助修剪注意力邻域,并随后提高模型的训练效率。最后,人们还可以在训练过程中改变模型的结构,以适应性地提高训练效率。模型修剪的做法,即从模型中删除不重要的参数,已经成为部署轻量级 (lightweight) DL模型的流行方法。
随着生物数据量的不断增加,神经网络的规模也会随之增加,并导致收敛所需的训练迭代总数增加。因此,探索减少数据集的策略是很自然的,这也是解决效率问题的方法之一。一个可行的建议是构建训练数据集的核心集。这可以通过在数据集上使用聚类方法并选择中心点作为数据集的代表来实现。或者,可以通过选择能够最接近在整个数据集上训练模型的效果的数据样本来实现数据集的浓缩。解决DL的高训练成本问题的一个正交方法是将训练分布在几个廉价的低端设备上。这一步将通过分布式训练减少总的训练时间,并通过使用多个计算能力较低的廉价设备减少总预算。一般来说,主要的分布式训练方法是数据并行、模型并行和混合并行训练。数据并行训练将部分数据集拆分并分发到每个设备,模型并行训练将模型的部分拆分并分配给每个设备。由于所有上述方法都是任务无关的,它们可以很容易地应用于计算生物学的DL模型。
结论
综上所述,虽然DL在蛋白质结构预测等领域的成功是范式的转变,但其他领域如功能预测、基因组工程和多组学也在观察到与传统方法相比性能的快速提升。对于其他领域,如系统发育学,经典的计算方法似乎在这些领域占了上风。应用于整个生物科学挑战的DL的额外进展,将进一步利用特定领域的生物知识,同时努力实现高可解释性和提高效率。
参考资料
Sapoval, N., Aghazadeh, A., Nute, M.G. et al. Current progress and open challenges for applying deep learning across the biosciences. Nat Commun 13, 1728 (2022). https://doi.org/10.1038/s41467-022-29268-7
--------- End ---------