编译 | 刘名权 审稿 | 夏忻焱
本文介绍一篇Facebook AI实验室近期的工作《Learning inverse folding from millions of predicted structures》,模型任务是从蛋白质骨架坐标中预测出它的蛋白质序列。在已有实验性确定的蛋白质结构的基础上,他们使用AlphaFold2预测的蛋白质结构作为额外数据,训练出一个具有几何不变处理层的seq2seq Transformer模型。该模型在蛋白质骨架结构数据上达到51%的原生序列复现率,对于隐蔽残基的复现率达到72%,整体上比已有方法提升了10个百分点。
1
介绍
实验性确定结构在已知的蛋白质序列空间中的占比不足0.1%,这限制了深度学习方法的使用。他们使用AlphaFold2对UniRef50中的12M序列进行结构预测,将训练数据增加了近3个数据级,以此来探索预测结构是否能克服实验数据的限制。
此外,作者将逆向折叠定义为sequence-to-sequence问题,并使用自回归的编解码架构进行建模。其中的模型任务是从蛋白质骨架坐标中预测出它的蛋白质序列,流程如下所示:
2
模型
问题定义
架构
使用Geometric Vector Perceptron(GVP)层来学习向量特征的等变转换和标量特征的不变变换。具体的,有以下三种架构:(1)GVP-GNN;(2)GVP-GNN-large,更宽和更深的GVP-GNN;(3)由GVP-GNN结构编码器和通用Transformer组成的混合模型。为了保证预测的序列独立于结构坐标的参考框架,GVP-GNN和GVP-Transformer都满足以下特征:给定输入坐标的旋转平移变换T,输出应该关于这些变换不变,即。GVP和GVP-GNN参考如下论文:
GVP结构旨在通过提高生物分子结构的几何推理能力,结合CNN和GNN方法在学习生物分子结构方面的优势。GNN通过使用旋转不变标量编码向量特征(如节点方向和边方向)来编码蛋白质的3D几何结构,通常是通过定义每个节点的局部坐标系。相反,作者建议将这些特征直接表示为R3中的几何向量特征,这些特征在图形传播的所有步骤中,在空间坐标的变化下进行适当的变换。这带来了两个好处。首先,输入表示更有效:不必通过节点与所有邻居的相对方向来编码节点的方向,而只需为每个节点表示一个绝对方向。其次,它标准化了整个结构的全局坐标系,允许几何特征直接传播,而无需在局部坐标之间转换。例如,空间中任意位置的表示,包括本身不是节点的点,可以通过欧几里德向量加法轻松地在图中传播。然而,这种表示法的关键挑战是,在保持标量表示法提供的旋转不变性的同时,以一种同时保留原始GNN的全部表达能力的方式执行图传播。为此,作者引入了一个新的模块,几何矢量感知器(GVP),以取代GNN中的线性层。
以下是GVP的结构示意图:
(A)给定一个变量和矢量输入特征元组,感知机计算病更新元组,是关于和的函数。(B)基于结构的预测任务描述。在计算蛋白设计任务中(top),目标是预测能折叠成给定蛋白质的氨基酸序列。单个原子被表示为彩色的球体。在模型质量评估任务中(bottom),目标是预测候选结构的质量分数,用于测量候选结构和实验性确定结构(灰色)的相似度。其算法描述如下:
GVP的核心是两个独立的线性变化和,分别用于标量和矢量特征以及接下来的非线性层和。在标量特征进行转换之前,会将其与转换后矢量特征的范数进行拼接,这允许模型从输入向量中提取旋转不变信息。线性变化仅用于控制输出矢量的维度。
GVP虽然概念简单,但是可验证其具有所需要的等变形/不变性和表达能力等性质。首先,GVP的标量和矢量输出关于旋转和反射的随机组合R具有等变和不变性质。即如果,则。此外,GVP架构能够近似出任意关于V连续的反射、旋转不变的标量值函数。
3
实验结果
使用两种总体设置来评估模型:固定的骨架序列设计和突变作用的zero-shot预测。
3.1 固定的骨架蛋白设计
Perplexity和复现率是评估这一任务的两个常用指标。Perplexity测量原生序列在预测序列分布中的逆向似然(低Perplexity意味着高似然)。序列复现(精度)测量采样序列在每个位置和原生序列匹配的频率。结果如下所示:
固定骨架序列设计。在CATH 4.3 拓扑分割测试集上进行评估。模型根据每残基Perplexity(越低越好;最低复杂度加粗)和序列恢复率(越高越好;最高序列恢复加粗)进行比较。大型模型可以更好地利用预测的UniRef50结构。使用预测结构训练的最佳模型(GVP Transformer)比仅使用CATH训练的最佳模型(GVP-GNN)提高了8.9个百分点的序列恢复率。
部分掩蔽骨架:在训练过程中进行遮蔽能有效地预测测试集中所掩盖区域的序列。
不同长度的掩蔽坐标区域的Perplexity。GVP-GNN体系结构掩蔽区域超过几个tokns时退化为背景分布的Perplexity,而GVP Transformer在长掩蔽跨度上保持中等精度,尤其是在对遮罩跨度的数据集上进行训练时。
蛋白质复合物:模型对于多链蛋白质复合物具有良好的泛化性能。结果证明GVP-GNN和GVP-Transformer能有效利用来自于氨基酸的链与链之间的信息来提升对每条链序列的预测精度。
在CATH拓扑测试中,当仅给出一条链(“Chain”列)的主干坐标时,以及当给定复合体(“Complex”列)的所有主干坐标时,复合物的序列设计性能也进行相应的分割。最终对于两列,在复合体中的同一条链上对Perplexity进行评估。
多构象:给定同一蛋白的两种状态A,B,来预测它的序列。使用两者条件似然度的几何平均值作为期望分布的代理,并保证序列与两种状态兼容。结果显示,多状态设计相比于单状态拥有更低的序列Perplexity,结果如下所示。
双状态设计。在PDBFlex数据集中,同单一构象条件相比,双构象条件下的GVP Transformer在局部柔性残基处的序列Perplexity更低。
3.2 zero-shot预测
接下来,我们将展示反向折叠模型是实际设计应用中突变效应的有效零次(zero-shot)预测器,包括复合物稳定性、结合亲和力和插入效应的预测。例如,对于SARS-CoV-2 Spike的受体结合域(RBD)结合能预测的零次(zero-shot)表现如下所示:
零次预测基于受体结合基序(RBM)的序列对数似然,RBM是RBD与ACE2直接接触的部分(Lan等人,2020年)。在四种情况下进行评估:
1)仅给定序列数据(“No coords”);
2) 给定ACE2和RBD的主干坐标,但不包括RBM,且无序列(“No RBM coords”);
3) 考虑到RBD的完整主干,但没有ACE2的信息(“No ACE2 coords”);
4)给定RBD和ACE2的所有坐标(All coords)。
4
总结
他们探讨了由深度学习方法预测的蛋白质结构是否可以和实验性结构一起用于训练蛋白质设计模型。为此,他们使用AlphaFold2生成了12M UniRef50的序列并用此进行训练,在perplexity和序列复现两大指标上取得重大的提升,并证明了其在更长的蛋白质复合物、多构象的蛋白质、突变作用下的结合能的zero-shot预测和AAV packging的预测等任务中的泛化性能。这些结果表明,在逆向折叠任务中除了几何归纳偏置这一主要问题需要解决,设法利用更多训练数据来源对于提升模型容量也同等重要。通过将主干跨距掩蔽集成到反向折叠任务中,并使用序列到序列转换器,可以为短掩蔽跨距实现合理的序列预测。
参考资料
https://doi.org/10.1101/2022.04.10.487779
https://github.com/facebookresearch/esm