Curr Opin Struc Biol|蛋白质设计的深度生成建模

2022-03-04 14:54:32 浏览数 (1)

2021年12月25日,来自加拿大多伦多大学的Alexey Strokach和Philip M. Kim在Curr Opin Struc Biol合作发表综述“蛋白质设计的深度生成建模”。

以下是该综述内容。

亮点

• 机器学习正在成为蛋白质设计过程的关键组成部分。

• 深度生成模型可以产生新的蛋白质序列和结构。

• 条件生成模型可以产生具有特定性质的蛋白质。

• 判别式预测可用于进一步微调设计过程。

摘要

深度学习方法在图像分类和自然语言处理等领域取得了重大突破,并在蛋白质设计领域取得了快速进展。研究人员已经已经开发了许多包含所有已知蛋白质序列的蛋白质生成模型,模拟特定的蛋白质家族,或推断单个蛋白质的动力学。这些生成模型可以学习蛋白质表示,通常比手工设计的特征更能提供蛋白质结构和功能的信息。此外,它们可用于快速提出数百万种在表达水平、稳定性或其他属性上与天然蛋白质类似的新型蛋白质。蛋白质设计过程可以进一步由判别式预测指导,以选择具有所需性质概率最高的候选蛋白质。在本综述中,我们讨论了五类在蛋白质建模方面最成功的生成模型,并为模型引导的蛋白质设计提供了一个框架。

前言

蛋白质设计是生成与具有所需功能的蛋白质相对应的新氨基酸序列的过程。蛋白质设计的主要策略是定向进化,使用多轮随机诱变和高通量筛选来选择最有前途的序列。计算方法已被提议作为随机诱变的替代方法,并且可以提高所提出序列的质量。早期的计算方法依赖于进化曲线和半经验能量函数来指导序列空间的探索,最近,深度学习因为可以利用蛋白质序列和结构大型数据集中的信息、并构建更准确地捕获蛋白质序列功能的模型而备受关注。

本综述的目的是正式确定用于蛋白质设计的不同深度学习模型,并描述生成满足特定目标的新型蛋白质的框架(图1)。我们首先描述了五类生成模型,可用于产生新的蛋白质序列和结构,或学习有意义的表示(图1a)。我们还在适当的情况下描述了实现卓越性能的监督模型,它们利用了训练有素的生成模型学到的表示(图1b)。然而,监督模型不是本综述的重点,其应用已在其他地方被详细描述。最后,我们描述了用于将生成模型与监督模型、模拟和领域专业知识相结合以生成所需蛋白质的策略(图1c)。

图1 蛋白质设计的不同机器学习方法概述。(a)在蛋白质序列或结构上训练的生成模型可以学习由训练数据定义的概率密度,并可用于生成表达、稳定且可选地具有特定结构和功能的新蛋白质。这些模型可以粗略地细分为自监督模型和潜在变量模型,前者使用监督学习从另一个方面学习数据的一个方面,后者从定义结构的潜在变量中学习到数据的映射。(b)判别模型学习从蛋白质的序列或结构中预测蛋白质的特定性质。在某些情况下,特别是当训练数据有限时,判别模型在利用生成模型学习的蛋白质表示时可以显著提高性能。(c)模型引导的蛋白质设计涉及一个生成模型,该模型提出新的蛋白质序列或结构,以及一个或多个判别性预测,根据预测的蛋白质实现特定目标的能力为其分配分数。

蛋白质序列和结构的生成模型

近年来,深度生成模型被广泛采用,因为它们能够从大量无标签数据集中学习,对数据进行有意义的表示和密度估计,并生成引人注目的连续性的示例。研究开发了许多生成模型(图2),考虑了各种权衡和限制,使它们非常适合蛋白质设计的不同方面(表1)。在这里,我们概述了五类深度生成模型及其在蛋白质设计中的显著应用。

图2 本综述中涵盖的五种生成模型架构的概述。(a) 自回归模型学习根据前面或周围token的身份来预测构成蛋白质的token(例如氨基酸)的身份。(b) 变分自编码器(VAE)包括经过训练以参数化潜在变量z分布的编码器和以使用来自编码器定义的分布样本重建输入的解码器。(c) 标准化流(NF)使用双射模型将输入映射到潜在表示和从潜在表示映射。模型参数经过优化,使得训练数据在潜在空间中的概率很高,而将数据映射回输入空间所需的“扭曲”量很低。(d) 基于能量的模型 (EBM) 学习一种能量函数,该函数将低能量分配给可能的状态,包括训练数据,并将高能量分配给不可能的状态,通常是通过扰动训练数据产生的。噪声对比估计 (NCE) 是EBM的一种训练策略,其中从预定义的分布中抽取假样本,并训练模型区分真假样本。(e) 生成对抗网络 (GAN) 包括一个生成器,该生成器经过训练以生成对判别器而言似乎真实的示例,以及一个经过训练以区分真实示例和生成示例的判别器。

表1 用于蛋白质设计的不同生成模型的优缺点

自回归模型

训练自回归模型以在给定先前token的情况下预测下一个token,或在给定未屏蔽token的情况下预测屏蔽token(图2a)。近年来,这些模型因在自然语言处理(NLP)方面的成功而备受关注。与语言类似,蛋白质序列很容易被表示为一系列token,这使得最先进的NLP模型可以应用于蛋白质序列而几乎不需要修改。

第一个应用于蛋白质序列的自回归模型使用具有长短期记忆(LSTM)层或扩张卷积的循环神经网络(RNN)来预测给定上述氨基酸的氨基酸身份。最近,transformer架构得到了普及,因为它通常在下游任务(包括远程同源检测、二级结构预测、接触预测和突变效应预测)中产生更高的重建精度和更好的性能。Transformer的力量主要来自于他们使用多头注意力,允许每个元素直接访问存储在序列中所有其他元素中的信息。此外,transformer模型的训练效率高于RNN,因为它们并行处理整个序列,而不是一次处理一个元素。

图神经网络可以看作是对transformer架构的扩展,允许使用“边”属性来编码token对之间的关系,并可以限制共享信息的邻居多头注意力。Ingraham等人开发了Structured Transformer,这是一种具有编码器-解码器架构的图神经网络,其中编码器将蛋白质结构作为输入,由主链扭转角和残基对之间的距离和相对平移和旋转定义,解码器生成对前面的残基具有自我注意的氨基酸序列,并关注编码器生成的嵌入。与仅序列自回归模型相比,Structured Transformer分配天然氨基酸的概率更高,并且它能够以比 Rosetta更高的准确度恢复NMR蛋白质结构中的正确氨基酸。Strokach等人开发了ProteinSolver,这是一个图神经网络,其中输入节点和边属性分别定义了氨基酸对之间的身份和距离,并且该网络被训练以重建掩蔽氨基酸的身份。ProteinSolver生成了具有所需拓扑结构的稳定蛋白质序列,正如一系列计算验证技术和表达纯化蛋白质的圆二色谱所证实的那样,它比不利用结构信息的transformer更能预测蛋白质稳定性和亲和力的变化。

Transformer架构也以其他方式进行了扩展。Rao等人使用轴向注意力来利用多序列比对中的信息,提高重建精度并在接触预测、二级结构预测和突变效应预测方面实现更好的性能。Madani等人使用额外的输入token来编码蛋白质的功能,并训练条件转换器生成具有预定功能的新蛋白质序列。作者通过生成新的溶菌酶验证了他们的模型,并通过实验表明产生的蛋白质具有溶菌酶活性并折叠成现有溶菌酶特征的结构。最后,使用具有目标功能或拓扑结构的蛋白质序列对预训练模型进行微调,可以成为提高这些蛋白质特定任务的模型性能的简单方法。

变分自编码器 (VAE)

变分自编码器(VAE)使用编码器网络将输入映射到低维潜在空间,并使用解码器网络利用来自该潜在空间的样本重建输入(图2b)。训练VAE以最小化原始输入和重建输入之间的距离,同时将潜在空间约束为近似标准高斯以提高泛化性。

VAE是第一批预测突变效应的无监督方法之一 ,并已用于生成具有预定功能的新蛋白质序列。Greener等人在PDB中的4,000个短单体结构及其来自 UniRef 的同源物上训练了一个条件VAE,其中包含蛋白质的粗拓扑结构作为附加输入,并表明生成的模型可以生成对应于指定拓扑的新蛋白质序列。Hawkins-Hooker等人在约70,000个荧光素酶序列上训练了VAE,并表明该模型生成的蛋白质也经常发光。Das等人对UniProt的肽序列进行了VAE训练,通过受控生成和筛选,能够生产出具有抗菌活性的新型肽。

VAE还被用于生成具有预定拓扑结构的蛋白质主链。Eguchi等人将距离矩阵作为输入训练VAE,并生成与输入距离矩阵和相应蛋白质结构的扭转角相匹配的3D坐标。在对约11,000个免疫球蛋白结构进行VAE训练后,生成的模型能够生成与预期键长、键角和扭转角相匹配的新型免疫球蛋白主链,并学习有意义的潜在表示,可以探索以找到具有所需形状和特征的主链。

标准化流 (NF)

标准化流(NF)使用可逆神经网络来学习输入和潜在表示之间的双向映射(图2c)。可逆网络的使用使得在给定模型参数的情况下,计算训练数据的准确概率并相应地优化模型参数成为可能。尽管这也对可以使用的神经网络架构的类型施加了实质性的限制。

标准化流在蛋白质设计中最显著的应用是蛋白质动力学建模。Noé诺等人介绍了Boltzmann生成器:学习多体系统配置和潜在表示之间的映射的神经网络。作者表明,在使用由分子力学力场预测的一组蛋白质构象和能量训练Boltzmann生成器后,可以生成通过分子动力学模拟确认的新构象,并准确模拟已知状态之间的跃迁和能量差异。

基于能量的模型 (EBM)

基于能量的模型(EBM)是一大类模型,它们不是在输入空间上学习概率密度函数,而是经过训练来给观测状态分配低值(或“能量”),给未观察或不可能状态分配高值(图2d)。训练EBM需要一种策略来有效地对一组具有代表性的不可能状态进行采样,并且通常针对不同的应用采用不同的策略。

EBM已被广泛用于学习蛋白质序列和结构的有意义的表示。Gainza等人介绍了MaSIF,这是一种经过训练的模型,可将蛋白质表面网格映射到称为“指纹”的紧凑表示,因此已知结合物的互补表面具有互补指纹(即当两个指纹之一被否定时,欧几里得距离较低)。由此产生的指纹可用于执行蛋白质-蛋白质相互作用预测和蛋白质对接,比传统方法更快的同时准确性相当。通过将特征生成步骤合并到模型架构中,允许对模型进行端到端的训练,可以进一步扩展这种方法。

EBM也被用于固定主链设计。Du等人介绍了原子Transformer,这是一种经过训练的模型,可预测氨基酸旋转异构体是否与由k个最近原子的身份和位置定义的上下文相匹配。该模型经过训练,在上下文与天然旋转异构体配对时分配低能量,而在上下文与非天然旋转异构体配对时分配高能量。在调节主链扭转角和氨基酸类型后,从旋转异构体库中随机选择非天然旋转异构体。由此产生的模型在恢复天然旋转异构体方面与Rosetta准确性相当,并支持连续的旋转异构体表示。如果将旋转异构体布局作为分类问题,则不可能做到这一点。但是,为了将旋转异构体分配给给定的上下文,必须评估所有可能的旋转异构体,这使得推断相对较慢。

生成对抗网络 (GAN)

生成对抗网络(GAN)是EBM的一个子集,其中训练生成网络以提出具有挑战性的负样本,训练识别器网络以区分真实样本和生成样本(图 2e)。生成器网络的同步训练使GAN能够有效地生成新示例,而许多其他EBM的生成新示例需要广泛采样。

GAN 已被用于生成和改进距离矩阵,并生成具有特定折叠和功能的新型蛋白质序列。Anand和Huang训练了一个GAN模型,使用2D卷积、池化和上采样层来生成与新蛋白质折叠相对应的距离矩阵。可以通过解决凸优化目标或使用经过训练的模型将距离矩阵映射到坐标,从距离矩阵中重建蛋白质骨架。Repecka等人在苹果酸脱氢酶(MDH)序列的数据集上训练了一个采用卷积和注意力层的GAN模型。由所得模型生成的序列经过实验验证,在约24%的情况下具有酶活性。

模型引导的蛋白质设计

在模型引导的蛋白质设计中,使用预训练的深度生成模型(最好以目标蛋白质的结构或功能为条件)来生成初始候选池。然后使用判别式预测独立验证生成的候选,为实验验证确定优先级,或指导生成器生成更理想的序列或结构。最终,可以在大量无标签数据上训练的生成模型增加了候选序列对应于有效序列或结构的概率,而判别式预测(可以包括分子力学模拟或在特定领域数据集上训练的模型)增加了候选序列具有所需功能的概率。

结语

在本综述中,我们描述了许多蛋白质设计场景,其中深度生成模型成功生成了新型蛋白质,通常比传统方法快几个数量级。现有蛋白质序列和结构数量的持续增长,加上蛋白质特异性机器学习库和网络架构的开发,可能会导致进一步的发展。此外,我们期望同时在多个任务上训练生成模型,涵盖蛋白质序列、结构和功能的不同方面,将有助于学习更多信息表示,并允许对生成的蛋白质进行更细粒度的控制。

事实上,AlphaFold2的广泛应用可以部分归因于在训练期间优化的许多序列和结构级目标函数。最后,生成模型和判别模型在蛋白质设计过程中都发挥着重要作用,我们有效结合这两种模型的能力可能会继续提高。

参考资料

Alexey Strokach, Philip M. Kim. Deep generative modeling for protein design. Curr Opin Struct Biol. 2022;72:226-236. doi: 10.1016/j.sbi.2021.11.008.

----------- End -----------

0 人点赞