2022年11月19日,西班牙赫罗纳大学的Noelia Ferruz等人[1]在Computational and Structural Biotechnology Journal上发表综述From sequence to function through structure: Deep learning for protein design。
作者总结了近年来深度学习辅助蛋白质结构、序列与功能设计的最新进展,并讨论了该领域的挑战和机遇。
背景
设计生物分子,特别是蛋白质的过程正在见证可用工具和方法的快速变化。
从通过物理化学力场的建模,到通过端到端可微统计模型快速生成可信的复杂序列,为了实现有条件和可控的蛋白质设计,人工智能和生物学界的研究人员利用深度学习技术与计算硬件的进步,从不断增长的生物数据库中学习模式,对蛋白质进行注释。这些被注释的模式可以用来提供对药物发现和生物分子设计的新见解。
2018年,DeepMind发布的AlphaFold[2]在蛋白质3D结构序列预测问题上取得了重大突破,2021年发布的AlphaFold2[3]则进一步提升了蛋白质结构的准确度。与AlphaFold并行,利用自然语言处理方法通过学习蛋白质序列,蛋白质语言模型(protein language model,PLM)为从多序列比对(multi-sequence alignment,MSA)中提取信息提供了一种替代途径。蛋白质设计领域现在有了一个独特的机会来生成序列、解释深度学习表示,以帮助蛋白质设计和药物开发的各个阶段。
方法
作者关注这些方法试图解决的问题类型:固定骨架设计(图1a)、结构生成(图1b)、序列生成(图1c),以及伴随的结构和序列设计(图1d)。
图1. 深度学习用于蛋白质设计
第一类方法侧重于解决传统的蛋白质设计问题,即找到最佳采用所需骨架的序列(图1a)。SPIN[4]利用三层完全连接的神经网络从嵌入为一维张量的结构特征中学习。但由于一维输入表示编码局部和全局上下文的缺点,模型遭受了信息损失。SPROF[5]通过利用二维卷积神经网络来弥补信息损失。与此同时,深度学习研究人员试图解决神经网络的训练挑战,例如, DenseCPD [6]通过使用稠密连接来降低训练成本。另一方面,蛋白质3D结构也可以用图表示,其中节点是残基(或原子),边缘表示结构接近度。图神经网络(GNN)直接利用图的表示。Ingraham等人[7]训练了一个编码器-解码器结构Transformer,其中GNN编码器学习由图表示的蛋白质结构,而解码器采样的序列以编码器学习结构表示为条件。另一个GNN编码器-解码器ABACUS-R[8]将周围残差的主干结构特征和侧链类型作为编码器的输入,并使用解码器输出给定残差的侧链类型。
第二类方法(图1b)发轫于在蛋白质接触图上训练生成对抗网络(GAN),接触图用作凸优化算法(交替方向乘子法)的输入,以恢复3D坐标[9],使用Rosetta[10]从设计的主干生成序列。GAN在坐标恢复过程中缺乏令人满意的精度,并且在将结构输入为接触图或距离图时分辨率降低,这导致缺少生化特征和不切实际的设计。IG-VAE[11]通过训练变分自编码器(VAE)解决了这些缺点,该编码器直接生成类特异性免疫球蛋白骨架原子的3D坐标。SCUBA[12]从编码3D结构的不同表示中学习和使用骨架的统计表示。SCUBA的设计通过X射线晶体学进行了实验评估,从而发现了三种新颖的拓扑结构。
第三类方法专注于序列生成(图1c)。语言模型已广泛应用于蛋白质序列(例如,ESM[13])。ProtTrans[14]是对基于Transformer的架构编码蛋白质序列知识的能力的广泛探索。ProtGPT2[15]利用了在UniRef50数据集上训练的GPT-2类模型,在天然蛋白质空间的未探索区域中生成蛋白质。Traception[16]利用了自回归目标,但采用了一种新的注意力机制,旨在提取子序列,这被证明对蛋白质建模非常有效。另一个具有生成能力的模型是EVE[17],一种用于预测蛋白质变体致病性的VAE。ReLSO[18]使用了与函数预测配对的Transformer自动编码器,从序列嵌入推断蛋白质功能,该模型还可以用于通过优化梯度上升的潜在空间来生成新的序列。
第四类设计方法包括能够同时设计序列和结构的方法(图1d)。在RFjoint[19]中,通过使用RoseTTAFold[20]找到了3D结构差异的最小值,这允许RFjoint在几秒内修复缺失的序列和结构。Anishchenko等人[21]将随机的蛋白质序列(仅具有任意的局部结构模式)传递给结构预测方法,通过每次对序列进行一次突变并重新计算其距离图,以最终达到背景分布和距离图之间的最佳距离,使用蒙特卡洛方法对这一过程进行迭代,得到了清晰定义的距离图。
总结
深度学习为蛋白质设计、工程、预测和优化带来了新的工具浪潮。在多阶段管道(如药物发现)中,将体内和体外方法有效地结合起来仍然是复杂的、昂贵的,通常需要许多类型的专业知识。然而,从业者现在可以使用越来越多的嵌入式深度学习工具,这已经开始了蛋白质设计的一场革命,这一领域在过去几年中发生了范式转变。生成序列模型可以用于创建可信序列的大型库,并提供数据,专家可以从中选择和提炼出一个或一组有前途的候选者,构成体外实验的起点。这一范式有潜力应对许多新兴的生物医学和环境挑战。
深度学习解决方案的两个有趣的方面是它们的端到端性质和组合不同损失的能力,即使用数学公式调节输入(例如结构)上的输出(例如序列),该数学公式考虑了应用环境(例如生物制药)中感兴趣的方面。用于蛋白质设计的深度学习模型在大型生物数据集上进行的端到端优化,通常受到实验缺陷的限制,例如,模型所捕获的是蛋白质3D结构的静态概念,而不是其动态性质(例如,蛋白质与蛋白质相互作用期间的构象修饰)。因此,虽然蛋白质设计的深度学习模型可能编码提出可行生物制剂所需的生物机制,但在没有实验验证的情况下,它们还不能被盲目利用。类似地,由于蛋白质功能缺乏严格的定义(例如,可能是结合或定位,或两者兼有),围绕蛋白质功能的设计仍然比围绕序列或结构的设计更具挑战性,并且药物发现的功能选择,通常通过靶向功能测定,以得到更好的验证。
20世纪90年代上半叶,在解决蛋白质折叠挑战偶尔成为头条新闻之际,结构预测的关键评估(CASP)确立了蛋白质结构的计算机预测方法需要证明进展的标准。结合建立数据标准化和单一数据存储库,这导致了多种革命性的方法,从早期使用单一频率模型(即位置评分矩阵)到通过直接耦合分析的复杂协同进化表示,一直到AlphaFold 2等端到端解决方案。
可以说,结构预测的成功是多种因素的结合,包括技术、生物学理解和直觉,以及更复杂和有原则的统计方法。然而,从根本上讲,通过CASP进行的结构预测为如何促进创新树立了榜样。最终,通过克服测量进展的挑战,深度学习将使蛋白质工程师能够设计具有可控特性的序列、结构和功能。
参考资料
[1]Ferruz et al. From sequence to function through structure: Deep learning for protein design. Comput Struct Biotech. 2022
[2]Senior et al. Improved protein structure prediction using potentials from deep learning. Nature. 2020
[3]Jumper et al. Highly accurate protein structure prediction with AlphaFold. Nature. 2021
[4]Li et al. Direct prediction of profiles of sequences compatible with a protein structure by neural networks with fragment-based local and energy-based nonlocal profiles. Protein. 2014
[5]Chen et al. To Improve protein sequence profile prediction through image captioning on pairwise residue distance map. J Chem Inf Model. 2020
[6]Qi et al. DenseCPD: improving the accuracy of neural-network-based computational protein sequence design with DenseNet. J Chem Inf Model. 2020
[7]Ingraham et al. Generative models for graph-based protein design. NeurIPS. 2019
[8]Liu et al. Rotamer-free protein sequence design based on deep learning and self-consistency. Nat Comput Sci. 2022
[9]Anand et al. Generative modeling for protein structures. NeurIPS. 2018
[10]Alford et al. The Rosetta all-atom energy function for macromolecular modeling and design. J Chem Theory Comput. 2017
[11]Eguchi et al. Ig-VAE: Generative modeling of protein structure by direct 3D coordinate generation. PLOS Comput Biol. 2022
[12]Huang et al. A backbone-centred energy function of neural networks for protein design. Nature. 2022
[13]Rives et al. Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences. Proc Natl Acad Sci. 2021
[14]Elnaggar et al. ProtTrans: Towards cracking the language of lifes code through self-supervised deep learning and high performance computing. IEEE Trans Pat Anal Mach Intel. 2021
[15]Ferruz et al. ProtGPT2 is a deep unsupervised language model for protein design. Nat Common. 2022
[16]Notin et al. Tranception: protein fitness prediction with autoregressive transformers and inference-time retrieval. ICML. 2022
[17]Frazer et al. Disease variant prediction with deep generative models of evolutionary data. Nature. 2021
[18]Castro et al. Transformer-based protein generation with regularized latent space optimization. Nature. 2022
[19]Wang et al. Scaffolding protein functional sites using deep learning. Science. 2022
[20]Baek et al. Accurate prediction of protein structures and interactions using a three-track neural network. Science. 2021
[21]Anishchenko et al. De novo protein design by deep network hallucination。Nature. 2021
--------- End ---------