编译 | 应俊杰 审稿 | 陈梓豪 指导 | 闵小平(厦门大学)
今天给大家介绍的是华为发表在 arxiv 上的预印本《Structured Q-learning For Antibody Design》。作者将用于组合优化的结构先验融入进 Q 学习中,提出了结构化 Q 学习 (SQL),这是一种 Q 学习的扩展。经过分子对接模拟器的测试,作者证明 SQL 可以找到具有高结合能的序列,并在八项具有挑战性的抗体设计任务(包括为 SARS-COV 设计抗体)上优于基线。
1
研究背景
组合优化是许多领域面临的普遍问题,其中一个任务是找到组合变量的有序或无序排列,以最大化目标函数。在生命科学中,组合问题涉及 DNA、mRNA 和蛋白质等核心结构,以及由 SMILES 或 SELFIES 字符串表示的功能分子。作者构建模型来解决抗体设计中的组合问题。这项工作的贡献如下:(i)引入了结构化 Q 学习(SQL),这是 Q 学习的扩展,配备了结构先验,如结构批评目标、结构策略评估、结构探索算子和结构策略改进 . (ii) 使用分子对接模拟器(Aboslut!),展示了引入的结构先验允许 SQL 在具有挑战性的抗体设计任务上的改进。
如上图公式所述,组合优化的目标是找到最优结构s*最大化目标函数f,在抗体设计的背景下,目标函数f是一个分子对接模拟器,它接受一个抗体蛋白序列,并评估其对目标抗原的结合能(亲和力)。
2
结构化的Q学习
作者团队提出结构化 Q 学习。SQL 是一种用于组合优化的异策略强化学习(off-policy RL)算法,由引入结构先验的四个组件组成:结构批判器(structure critic targets)、结构策略评估(structure policy evaluation)、结构探索算子 φ 和结构策略改进,如图1中的算法。
图2:结构化Q学习算法
随机结构评估:在第一步中,我们对随机结构 s进行采样并在环境中对其进行评估,以获得完整结构 f (s) 的reward,并将其结构s(i)和亲和力得分f(s(i))存在缓存区来训练 SQL 的结构critc。
结构批判器:根据从上一步获得的观察到的structure-reward对训练结构critic,critic 的目标是学习直接预测预期奖励 f (s),本文利用因式分解训练。
结构策略评估: critic被训练来获取结构并预测其目标函数值,这一步骤可以使用不同的策略,以确定下一个的结构策略改进步骤应该是什么。通常,生成一条序列的策略可以是顺序生成或一次性同时生成。
结构探索算子Φ:引入结构探索算子以便在训练过程中探索新的结构。从结构缓冲区中均匀地采样一个结构时,引用一个统一的替换操作从另一个分布采样新结构。
结构性策略改进:策略改进用于权衡何时探索或采用,作者将这些探索策略推广到结构上。为了做到这一点,作者团队定义了一个标准p来选择贪婪结构或随机结构。作者提出3种策略,分别e-greedy、S-greedy、Sampling来决定继续探索还是采用序列。
图3: 使用 Transformer 实现的两种结构策略评估策略。
左侧显示顺序策略(Greedy),右侧显示非顺序策略(Masked)
作者团队用一种Transformer网络来训练结构 critic。在顺序情况下,以与自回归语言模型类似的方式训练 SQL Critic,其结构类似 GPT 一样,带有一个对角注意力掩码,防止注意力机制中的“前瞻”。当以同时生成为目标时,Critic 被训练为类似于 BERT 或 RoBERTa 等非自回归掩蔽语言模型,使其能够同时预测多个变量。
3
实验与结果
抗体设计问题:抗体是大的 Y 形分子,在其可变区末端与抗原结合由于其结构多样性,位于抗体可变区末端的 CDRH3 蛋白序列在确定其结合特异性方面起着至关重要的作用。因此,抗体设计过程的一个目标可以是在 CDRH3 区域中找到一个蛋白质序列,该序列将决定最佳结合位点。在作者的工作中,使用 Absolut!模拟分子对接(结合),它计算来自序列的分子表示的晶格视图并评估其与抗原的结合。如上所述,本文使用 Absolut!对接模拟器作为目标函数f。
SQL 和基线设置:作者使用 k=1(贪婪)和 k=20(Beam)的束搜索使用 SQL 评估两种顺序结构化方法评估策略。还评估了非顺序策略(Masked)。对于结构化的策略改进,作者使用从实验结果中选择的 S-greedy。比较了用于组合优化(具有结构先验)的 SOTA RL 算法的两种变体(Critic 和 MaxB)并将其命名为结构化策略梯度(SPG)。基线包括流行的组合优化算法模拟退火 (SA)、随机搜索 (RS),以及传统Q-learning (QL) 和策略梯度 (PG)。
图4:显示了八种高度不同的抗体设计任务的热图结果
每个块都是一个独特的抗体任务。每列是一种方法,每个单元格是 10 个种子的平均结合能,而 y 轴显示随时间变化的蛋白质设计数量。根据模拟退火最终平均性能的改进程度为每个单元着色,较深的颜色突出显示增加的改进。
图5:跨抗原任务和随机种子平均的归一化结合能热图
该图进一步显示了所有随机试验和多个抗原任务的平均归一化能量。大于 1.0 的归一化分数意味着,该方法找到的抗体序列比690万个序列(来自Absolut!数据库)具有更好的能量分数。我们观察到 SQL(Masked)排名是最好的方法,平均而言,只有 SQL 变体的能量得分(> 1.0)。在该图中,我们看到QL 与 SQL相比、PG 与 SPG相比,结构先验提高了性能。
图6:为 SARS-COV (2DD8_S) 选择的 AA 比例热图,颜色越亮,比例越高
该图跟踪了针对所有种子的 SARS-COV 上不同药剂的优化过程中的氨基酸选择。对于每个氨基酸(x 轴),显示了它在每个结构建议步骤(y轴)中选择的比例。SQL 和 QL 在整个任务中都显示出不同的踪迹;虽然 QL 似乎在继续探索,但 SQL 最终专注于利用一些核心氨基酸的变化来提供出色的能量评分。
图7:结构先验消融
作者展示了改变评估方法和改进策略的影响。对于每个评估方法(贪婪、光束搜索、掩蔽),运行所有可能的改进策略(e-greedy、S-greedy、sampling)。并与 SPG (Critic) 进行比较,后者是先前实验中总体上表现最好的非 SQL 方法。每种方法对 20 个种子进行了消融研究。似乎所有评估策略的最佳改进策略是 S-greedy,而性能随着 e-greedy 和sampling而降低。有趣的是,对于掩蔽策略评估,sampling似乎明显优于 e-greedy。
4
结论
作者介绍了结构化 Q 学习(SQL),这是对具有结构先验的经典 Q 学习的扩展。作者使用分子对接模拟器评估了 SQL 优化蛋白质序列并与各种目标病原体结合的效果,观察到它显著改善了现有的强化学习方法。所有学习算法都使用相同的神经架构,不同之处仅在于该架构如何被利用起来。作者团队希望将 SQL 扩展到其他组合领域,以及类似地采用其他异策略强化学习方法进行组合优化。
参考资料
Cowen-Rivers A I, Gorinski P J, Sootla A, et al. Structured Q-learning For Antibody Design[J]. arXiv preprint arXiv:2209.04698, 2022.