今天介绍一篇由耶鲁大学Egbert Castro等人于2022年9月26日发表在nature machine intelligence上的文章。本文引入了正则化潜在空间优化(ReLSO),这是一种基于深度Transformer的自动编码器,它具有高度结构化的潜在空间,经过训练可以联合生成序列并预测适应度。作者团队在几个公开可用的蛋白质数据集上评估了这种方法,观察到ReLSO的序列优化效率更高。
介绍
基于序列的蛋白质设计的主要挑战是潜在序列的巨大空间。上位性(序列中较远残基的氨基酸之间的高阶相互作用)进一步加剧了这一障碍,使得很难预测序列中微小变化对性质的影响。总之,这激发了对更好序列-功能关系的方法的需求,通常使用适应度景观来描述,来生成具有所需特性的蛋白质。蛋白质的适应度(通常指的是氨基酸序列所具有的某种可量化的功能水平:比如结合亲和力、荧光、催化和稳定性)更直接地是其折叠的三维结构的结果,但是结构信息不总是可用的,因此通常将适应度直接与序列联系起来。
为了在序列空间中导航,通常应用定向进化的迭代搜索过程,其中生成多批随机序列并对感兴趣的功能或属性进行筛选。然后,最好的序列被带到下一轮文库生成和选择。有效地,使用爬山方法搜索序列空间,因此容易受到局部极大值的影响,这可能会掩盖更好的序列发现。在序列空间工作的另一种选择是学习多肽和蛋白质的低维、语义丰富的表示。使用这种方法,可以称为在潜在空间优化的过程中,使用其潜在表示来优化候选治疗。
作者团队提出了ReLSO,一种基于深层转换器的蛋白质设计方法,它将模型的强大编码能力与产生信息丰富的低维潜在表示的瓶颈相结合。ReLSO的主要贡献如下:
- 基于的编码器的新用途,具有自动编码器类型的瓶颈,用于蛋白质序列的丰富和可解释性编码;
- 由序列-功能关系组织的潜在空间,这减轻了由于组合爆炸造成的优化困难;
- 使用基于范数的负采样重塑的凸潜在空间,从而为基于梯度的优化引入边界和停止标准;
- 一种基于插值的正则化,当遍历潜在空间时,该正则化强制解码序列空间中的渐变。这允许对训练数据所在的基础序列流行进行更密集的采样;
- 从潜在空间生成新序列的梯度上升算法。
实验
ReLSO架构和正则化
ReLSO架构旨在共同生成蛋白质序列,以及从潜在的表现预测适合度。使用多任务损失公式来训练该模型,该公式同时通过结构和功能来组织潜在空间,从而将从高维离散空间中的搜索问题中寻找高适应性序列的任务简化为低维连续空间中的更易处理的优化问题。ReLSO创新性地使用了插值正则化,该正则化增强了序列的平滑性,由此对潜在表示的小扰动对应于重构序列中的微小变化。
基于降维的编码器
图1. RelSO将序列映射到一个正则化的模型适应度景观
ReLSO采用基于变换器的编码器来学习从序列x到其潜在表示z的映射(如图1所示)。编码器网络中的 将输入蛋白质转换为令牌级表示,其中序列中的每个氨基酸都由固定长度的位置编码替换。然后,使用基于注意力的池化机制将该表示压缩为粗略的序列级表示,该机制计算位置编码的凸和。与其他变换器编码器相比,使用全连接网络(图1a)进一步降低了序列级表示的维数。这相当于通过信息瓶颈传递序列信息,产生信息丰富的低维z。
联合训练自动编码器(JT-AE)
ReLSO在蛋白质设计中结合了两个重要因素:(1)序列,(2)适合度信息。通过用预测网络联合训练自动编码器,由编码器和解码器组成的原始自动编码器架构补充了网络,网络的任务是从z预测适应性。最终目标函数采取以下形式:
这包括重建损失和适应性预测损失。作者团队将利用重建和适应性预测损失训练的模型架构称为JT-AE。
潜在空间伪凸性的负采样
在潜在空间中执行优化的基本挑战是优化轨迹可能偏离训练数据很远,进入模型预测精度恶化的区域,产生不可信的结果。JT-AE的适应度预测头为潜在空间优化提供方向信息。然而,它没有强加任何停止标准或任何强有力的边界或适应度最优的概念。
为了充分利用由适应度预测头提供的梯度信号,作者团队在学习适应度函数中引入偏向训练数据附近的潜在空间中的区域的偏差。这是通过一种叫做基于范数的负采样的数据扩充技术来实现的。从训练数据获得的每个z用一组负样本来补充。这些负样本是通过对真实潜在点周围的潜在空间的高范数区域进行采样而产生的(图1d)。通过给这些人工点分配低适合度,并将它们包括在适合度预测损失中,以这样一种方式被重新成形。使用这种正则化,隐式信赖域形成,从而为潜在空间优化提供自然停止准则。作者团队将把用这种正则化方法扩充的JT-AE模型称为ReLSO。
潜在空间连续性的插值采样惩罚
图2. 基于最大似然法的蛋白质序列优化效率比较
其中,x1和x2是潜在空间中最近的邻居,是内插潜在点的解码序列。最后,具有负采样和插值采样正则化的完整模型被称为ReLSO。
基于ReLSO的潜在空间优化和序列生成
作者团队利用ReLSO高度结构化的潜在空间对几个公开可用的数据集进行蛋白质序列优化。首先,潜在空间不仅对适应度(图2a)而且对序列信息(图2c)保持全局组织。接下来,负采样和插值采样正则化引入了具有若干属性的潜在空间,这些属性简化了蛋白质序列优化任务,例如伪cave适应度函数。最后,在ReLSO的潜在空间中的遍历导致顺序和适合度的逐渐变化。
为了优化蛋白质序列,我们使用梯度上升,这允许对适应度进行系统和有效的调节。首先,序列x由编码以产生潜在编码z。该过程将输入蛋白质序列映射到其在模型潜在适应度景观中的点。接下来,计算相对于潜在点的预测适应度的梯度。所确定的梯度提供了朝向潜在适应度最大值的方向信息,并用于更新潜在点。
这个迭代过程需要两个超参数,步长
和步数k。在优化循环结束时,产生最终潜在点。总的来说,这个过程被称为潜在空间优化,由此蛋白质序列在模型的潜在空间中而不是直接被优化。这个点相应的使用解码为相应的序列。总的来说,这个过程被称为潜在空间优化,由此蛋白质序列在模型的潜在空间中被优化而不是直接被优化。
与其他蛋白质序列优化策略的比较
图3. 基于最大似然法的蛋白质序列优化效率比较
近年来,出现了许多依赖于使用深度学习模型的蛋白质序列优化方法。其中一些方法使用该模型对由迭代或随机搜索产生的候选序列进行计算机筛选。在这项研究中,作者团队寻求利用
中存在的梯度信息来搜索更合适的蛋白质序列。由于优化的序列可能具有在下游分析中出现的隐藏缺陷(例如,抗体的免疫原性),因此通常希望在优化阶段结束时产生几个有希望的候选者。作者团队通过在集合Φ中收集高适应度序列来复制这种情况,其中包含仅限于预测具有高于某个阈值的适应度值的序列。作者团队通过每种方法的Φ的基数(图 3a)和结束的适应度值(图 3b)来评估所考虑的优化方法,最终发现ReLSO能够以更少的优化步骤在数据集上产生更大的高适应度序列集。
讨论
作者团队采取了一种结合两种学习目标的替代方法,即采用多任务学习方法。通过同时优化蛋白质序列生成和适应度水平预测,显式地加强了富含关于序列和适合度信息的潜在空间。然后,添加反映蛋白质工程原理的规则,重塑过程中的潜在空间。利用这些正则化和模型的架构,作者团队展示了梯度上升优化如何在蛋白质序列空间中搜索时提供蛋白质优化的改进。此外,作者团队提出的方法仅依赖于与适合度值配对的序列信息,这表明ReLSO-like结构可以应用于其他生物分子,如DNA和RNA。
参考资料
Castro, E., Godavarthi, A., Rubinfien, J. et al. Transformer-based protein generation with regularized latent space optimization. Nat Mach Intell (2022).
https://doi.org/10.1038/s42256-022-00532-1
源码
https://github.com/dhbrookes/CbAS