蛋白质设计在寻找能折叠成所需构象的序列方面取得了成功,但设计功能性蛋白质仍然具有挑战性。
2022年7月21日,华盛顿大学蛋白质设计研究所David Baker等人在Science发表文章,描述了如何采用两种深度学习方法来设计含有预先指定的功能位点的蛋白质。
摘要
蛋白质的结合和催化功能通常由整个蛋白质结构保持的少量功能残基介导。在这里,我们描述了用于搭建此类功能位点的深度学习方法,该方法无需预先指定骨架的折叠或二级结构。第一种方法,即”约束性幻觉 (constrained hallucination)",优化序列,使其预测的结构包含所需的功能位点。第二种方法,“修复 (inpainting)",从功能位点开始,填充额外的序列和结构,通过专门训练的RoseTTAFold网络,在单次向前传递中创建一个可行的蛋白质骨架。我们使用这两种方法来设计候选免疫原、receptor traps、金属蛋白、酶和蛋白质结合蛋白,并使用计算和实验测试的组合来验证设计。
前言
蛋白质的生化功能往往是由构成功能位点的残基子集来完成的,例如,酶的活性位点或蛋白质或小分子结合位点,因此,具有新功能的蛋白质的设计可以分为两个步骤。其中第一步是确定能产生所需活性的功能位点的几何形状和氨基酸特性。
在此,我们重点讨论第二步:给出一个来自任何来源的功能位点描述,设计一个氨基酸序列,使其折叠成一个包含该位点的三维结构。以前的方法可以构建由一个或两个连续链段组成的功能位点,但是,除了helical bundles方法,这些方法不容易扩展到由三个或更多链段组成的更复杂的位点,而且生成的骨架不能保证是可设计的 (即可由一些氨基酸序列编码)。
一个理想的功能性从头设计蛋白质的方法是:(i) 将功能位点以最小的变形嵌入到可设计的骨架蛋白质中;(ii) 适用于任意位点的几何形状,在所有可能的骨架拓扑结构和二级结构组成中搜索那些最适合容纳指定位点的结构;以及 (iii) 联合生成骨架结构和氨基酸序列。
我们以前证明了trRosetta结构预测神经网络可以用来生成新的蛋白质,方法是在序列空间的蒙特卡洛抽样过程中最大限度地提高trRosetta输出的概率,即一个序列折叠成某些 (未指定的)三维结构。我们把这个过程称为” hallucination",因为它产生的解决方案被网络认为是理想的蛋白质,但不符合任何已知的天然蛋白质;晶体和核磁共振结构证实hallucination序列折叠到hallucination结构。鉴于这种设计序列和结构的能力,我们推断trRosetta可以被用来解决功能位点的骨架问题。
多目标损失函数的部分约束性hallucination
为了将现有的基于trRosetta的设计方法扩展到功能位点的骨架上 (图1A),我们使用复合损失函数优化了氨基酸序列,以折叠成包含所需功能位点的结构,该函数将先前使用的hallucination损失与功能位点 (而不是整个结构,如的图案重建损失) 相结合 (图1B;见补充资料中的材料和方法)。尽管我们成功地生成了具有紧密再现功能位点的片段的结构,但Rosetta结构预测表明,这些序列对结构的编码很差,因此我们使用Rosetta设计计算来生成更理想的序列。
通过约束性hallucination产生的几个针对PD-L1的设计,其结合图案来源于PD-1 (表S1),然后用Rosetta设计,发现其结合亲和力在中纳摩尔范围 (图S1,B至E)。虽然这种实验验证是令人鼓舞的,但使用Rosetta进行序列设计的要求与联合设计序列和结构的目的是不一致的。
图1. 蛋白质功能设计的方法
(A) 功能位点骨架的应用。(B) hallucination设计方法。(C) 缺失信息恢复 ("inpainting") 设计方法。(D) 蛋白质设计挑战被表述为缺失信息恢复问题。(E) RFjoint可以同时恢复一个被掩盖的蛋白质区域的结构和序列。(F和G)Motif骨架基准数据,比较RFjoint与约束性hallucination。
在开发RoseTTAFold (RF) 之后,我们发现它在通过功能位点约束性hallucination指导蛋白质设计方面比trRosetta表现更好,可能反映了蛋白质序列-结构关系的整体建模更好。用RoseTTAFold进行约束性hallucination的另一个优点是,由于三维坐标是明确建模的 (trRosetta只产生残基间的距离和方向),因此可以在坐标层面上评估位点重现性,并且可以在坐标空间中实施额外的特定问题损失项,以评估与目标的相互作用。
缺失信息恢复的方法inpainting
虽然功能强大且通用,但约束性hallucination方法是计算密集型的,因为在序列优化过程中,每个梯度下降步骤都需要通过网络的前向和后向。在最近版本的RoseTTAFold的训练中,输入的多序列比对中的一个子集位置被屏蔽,网络被训练成除了预测结构外还能恢复这些缺失的序列信息。
这种恢复序列和结构信息的能力为功能位点骨架问题提供了第二个解决方案:给定一个功能位点描述,通过网络的前向传递可以用来完成或inpaint蛋白质的屏蔽区域的蛋白质序列和结构 (图1C;材料和方法)。在这里,设计挑战被表述为一个信息恢复问题,类似于使用语言模型完成一个句子的前几个词或使用inpaint完成损坏的图像。各种各样的蛋白质结构预测和设计挑战也可以类似地表述为缺失信息恢复问题 (图1D)。
我们从为结构预测训练的RoseTTAFold (RF) 模型开始,除了标准的固定序列结构预测任务外,还对固定骨架序列设计进行了进一步训练,以避免模型退化。这个模型被称为RFimplicit,能够恢复同时缺失序列和结构的小而连续的区域。受到这个结果的鼓舞,我们训练了一个明确的模型,除了序列设计和结构预测任务外,还考虑到周围的蛋白质背景,对序列和结构缺失的片段进行修复。由此产生的模型能够高保真地修复缺失区域 (图1E和图S4),并在序列设计 (训练期间32%的原生序列恢复) 和结构预测 (图S4C) 方面表现良好。
为了评估我们的方法所产生的设计质量,我们使用了AlphaFold蛋白质结构预测网络,该网络对新设计的蛋白质具有很高的准确性 (图S7A)。RF和AF有不同的结构,并且是独立训练的,因此AF的预测可以被看作是对RF设计的序列是否折叠成预定结构的部分正交测试。我们用AF来比较hallucination和inpainting重建缺失蛋白质区域的能力 (图1,F和G,以及图S5)。
Inpainting产生的解决方案具有更准确的预测固定区域 ("AF-RMSD";图1G和图S5B)和总体上更有把握地从其氨基酸序列预测的结构,在NVIDIA RTX 2080图形处理单元上每次设计只需要1到10秒 (hallucination每次设计需要5到20分钟)。然而,当缺失区域较大时 (图S5),hallucination给出了更好的结果,并产生了更大的结构多样性。
应用案例
我们通过设计含有广泛功能主题的蛋白质的几个案例,显示了hallucination和inpainting方法的力量 (图2-5和表S1)。对于几乎所有案例 (设计候选免疫原、receptor traps、金属蛋白、酶和蛋白质结合蛋白),总体和基序 (功能位点)均方根偏差 (RMSD) 通常分别为 <2 和 <1 Å,具有高模型置信度。更关键的是,我们通过实验评估了这些设计的蛋白质的活性。
图2. 表位骨架和receptor traps的设计
图3. 金属结合的设计
图4. 酶活性位点的计算设计
图5. 蛋白质结合蛋白的设计
结论
本文介绍的功能位点骨架化方法除了所需功能位点的结构和序列外,不需要其他输入,与以前的方法不同,不需要指定二级结构或骨架的拓扑结构,可以同时生成序列和结构。
尽管最近对使用机器学习来设计蛋白质序列的兴趣激增,但对蛋白质结构的设计却相对探索不足,这可能是由于有效表示和学习结构的困难造成的。
生成对抗网络和变异自动编码器已被用于生成特定折叠家族的蛋白质骨架,而我们的方法是利用RoseTTAFold在整个PDB上的训练来生成几乎无限多样的新结构,并能够设计任何所需的功能残基群。
我们的”激活最大化”hallucination方法通过利用其关键优势,即使用为特定问题定制的任意损失函数和设计任何长度序列的能力,扩展了该领域的相关工作。我们的inpainting方法能够从一个给定的功能位点扩展到产生一个连贯的序列-结构对,由于其速度和通用性,在蛋白质设计中应该有广泛应用。
随着更精确的蛋白质结构、界面和小分子结合预测网络的发展,这两种方法的单独使用以及两者结合使用的能力会增强。
参考资料
Wang J, Lisanza S, Juergens D, Tischer D, Watson JL, Castro KM, Ragotte R, Saragovi A, Milles LF, Baek M, Anishchenko I, Yang W, Hicks DR, Expòsit M, Schlichthaerle T, Chun JH, Dauparas J, Bennett N, Wicky BIM, Muenks A, DiMaio F, Correia B, Ovchinnikov S, Baker D. Scaffolding protein functional sites using deep learning. Science. 2022 Jul 22;377(6604):387-394. doi: 10.1126/science.abn2100.
--------- End ---------