Nat. Mach. Intell. | 使用属性评估中的高效查询优化分子

编译|夏欣审稿|王成

本文介绍由美国IBM研究院的Pin-Yu Chen和Payel Das共同通讯发表在 Nature Machine Intelligence 的研究成果：本文作者提出了一个通用的基于查询的分子优化框架，query-based molecule optimization framework(QMO)，其利用了分子自动编码器的潜在嵌入。QMO基于高效查询，在一组分子性质预测和评估指标的外部指导下，改进输入分子的期望性质。在相似性约束下优化有机小分子药物相似性和溶解度的基准任务中，QMO优于现有的方法。此外，作者还展示了QMO在两个新的具有挑战性的任务中的性能：(1) 优化现有潜在的SARS-CoV-2主要蛋白酶抑制剂，使其具有更高的亲和力；(2) 改进已知的抗菌肽以降低毒性。QMO的结果与外部验证的结果高度一致，为解决具有约束的分子优化问题提供了一种有效的方法。

简介

使用分子优化(MO)改善分子的结构和功能是许多科学和工程应用的关键步骤。MO的挑战在于需要搜索由所有可能分子组成的巨大空间，并生成新的、有效的和最优的分子。近年来，机器学习已经成为一种常用的MO工具，可以基于实时模型预测和分析的即时反馈，改进迭代加速MO。例如，机器学习驱动的MO可以从现有的先导分子开始，迅速设计出优化的候选分子，从而更好地抑制严重急性呼吸综合征冠状病毒(SARS-CoV-2)蛋白质。由于SARS-CoV-2病毒的新性质，现在人们普遍认为，大多数现有药物难以实现与SARS-CoV-2靶标的期望结合(和抑制)。因此，优化现有的先导分子，使其具有更好的SARS-CoV-2靶标亲和力，同时保持较高的分子相似性。同样，一种有效的MO方法可以指导设计具有更好毒性的抗菌素，以对抗耐药病原体。作者将需要优化以满足一系列期望性质和约束条件的起始分子称为先导分子。近期聚焦于机器学习MO的研究将分子表示为由化学单位组成的字符串，通常用SMILES形式表示。为了提高效率，模型将分子描述为低维连续空间中的嵌入向量，并使用序列到序列的编码-解码器模型(如自动编码器)，学习分子在潜在空间中的连续表示。然后，基于潜在表示的不同优化或采样技术可在一组分子性质预测器和模拟器的外部引导下改进分子。

基于机器学习的MO的相关工作可以分为两大类：引导搜索和翻译。在第一类中，虽然可以用遗传算法和贝叶斯优化(BO)搜索离散序列空间，但在搜索维数较高的情况下效率可能很低。近期的工作已经利用了潜在表示学习和不同的优化或采样技术来实现高效搜索，例如变分自动编码器(VAE)与BO、高斯采样和进化算法等技术的联合使用。在第二类中，基于翻译的方法将分子生成视为一个序列到序列的翻译问题。与引导搜索相比，基于翻译的方法需要学习额外的配对序列，将先导分子翻译成改进分子，因此这个方法可能不适用于信息有限的新MO任务。此外，这两个类别并不是唯一的，引导搜索与翻译可以结合使用。

本文中，作者提出了一种新的基于查询的分子优化(QMO)框架，如图1所示。QMO采用编码-解码器和外部指导，但与现有的工作有以下两个方面的不同：(1) QMO是一个通用的端到端优化框架，通过解耦表示学习和引导搜索来降低问题的复杂性，其适用于任何具有连续潜在表示的编码-解码器。同时，它直接在分子序列水平上进行的多次预测和评估指标中引导搜索，无需进一步的拟合。(2) QMO采用了一种新的仅使用函数求值来执行高效数学优化的技术——基于零阶优化的查询引导搜索方法，它支持精确的属性评估引导搜索，只在分子序列水平上评估，而不是潜在表示或代理模型上。

图1 设计的QMO架构

结果

用于学习潜在分子表示的编码-解码器

在QMO框架中，根据下游的MO任务，作者把一个分子建模为氨基酸字符串或者是用来编码小型有机化学物质的字符串。为了解决分子序列搜索空间大的问题，QMO采用编码-解码器框架，使用编码器将序列嵌入到d维的连续表示，再用解码器将潜在表示解码为序列。QMO适用于任何具有连续嵌入表示的(预训练)编码-解码器，从而分离了表示学习和引导搜索，降低了MO的问题复杂度。

基于引导搜索的MO方法

除了利用从分子编码-解码器学到的潜在表示，QMO框架将分子性质预测模型和序列的相似性度量作为外部指导。对于任意给定的序列，使用一组独立的预测模型来评价MO的性质。此外，在优化过程中可以同时施加J个单独的约束。通过指定预测模型和约束可以很容易地扩展到其他MO设置。QMO框架设计了两个MO方案：(1)优化分子相似性，同时满足所需的化学性质；(2)利用相似性约束，优化化学性质。

QMO框架

QED基准测试和惩罚logP优化

作者首先在两个单一属性上测试QMO：惩罚的logP和QED。给定一个相似约束条件，使用两个基准：利用QED评分提高化合物的药物相似性或提高被惩罚的logP得分，寻找优化分子。对于一对原始和优化的序列,)，使用公式(2)定义的QMO目标函数，其中使用谷本相似性，以及获得的属性分数（QED和惩罚的logP）记为。

在实验中，使用ZINC测试集中的800个logP惩罚分数偏低的分子以及800个的分子作为初始序列。对于QED优化任务，定义成功率为相似度大于δ = 0.4的改进分子的百分比，QMO的表现超过所有基线至少15%。对于惩罚的logP任务，QMO优化的分子显著优于基线结果。上述分子性质优化任务较容易解决，没有捕捉到与现实世界相关的复杂性，因此，作者还考虑两个任务：(1)优化现有SARS-CoV-2 抑制剂分子的亲和力；(2)降低已知抗菌肽的毒性。

优化现有的SARS-CoV-2主要蛋白酶抑制剂分子，使其具有更好的

为了加速针对新病毒SARS-CoV-2的药物发现，优化一组现有的SARS-CoV-2 Mpro抑制剂的亲本分子结构。已知抑制剂分子，目标为找到一个优化分子，其满足亲和力大于阈值且谷本相似性最大。即采用公式(1)中的QMO公式，使用一个预训练的亲和力预测器输出，并计算原始分子和优化分子之间的谷本相似性。

作者选择23个与SARS-CoV-2有弱到中等的亲和力的现有分子，设定亲和力阈值为即强亲和力。表1比较了最终优化的分子与引导分子，突出了常见的子结构，并使用相似图来强调变化。此外，作者报告了QMO优化变体的束缚自由能(BFE)和模式。首先使用AutoDock Vina在Mpro的整个结构上进行盲对接模拟，进一步用分子力学/泊松玻耳兹曼表面积(MM/PBSA)方法和AMBER力场重估了每个原始分子与QMO优化分子的前三个对接姿势。图2展示了双嘧达莫及其QMO优化变体与底层结合袋的顶部对接姿态，与MM/PBSA BFE一致，QMO优化变体与双嘧达莫相比增加了与底层结合袋的14%的接触。

表1 SarS-CoV-2主要蛋白酶抑制剂分子的最终QMO优化分子与初始状态进行比较

图2 双嘧达莫的高层对接构成以及针对SARS-CoV-2主蛋白酶()的QMO优化变体

优化现有的抗菌肽改善毒性

抗菌肽(AMPs)被认为是下一代抗生素的候选者，为应对全球抗菌素耐药性增加的危机，快速发现新抗生素，最佳的AMP设计需要在多个紧密交互的属性目标之间取得平衡，比如高效，低毒。为了应对这一挑战，作者使用QMO发现已知的具有毒性的AMPs的改良变体，与原始的AMPs相比，这些变体具有较低的预测毒性和较高的序列相似性。在AMP优化任务中，用20个天然氨基酸特征序列表示肽分子，使用QMO优化中的公式(1)，其中约束定义为毒性预测值和AMP预测值。

QMO的目标是在满足AMP活性和毒性预测的同时，通过最大程度的相似性来寻找改进的AMP序列。在实验中，作者使用QMO优化从Das公共数据库中收集的150个验证有毒的AMPs，在最初的几次迭代中，超过60%的分子被成功优化，最终，约72.67% (109/150)的分子可以被成功地优化。对所有109对原始改良组合的分析显示出显著的变化，例如：在QMO优化的AMP序列中疏水性和疏水矩的降低(图3 a, b)。这一趋势与报道的疏水性和疏水矩与细胞毒性和溶血活性的正相关性一致，图3c显示了已知的AMPs及其QMO优化的变异序列，并给出了优化序列与原始序列的相似度比，表明QMO序列与初始序列有很大差异。

图3 原序列与QMO优化的抗菌肽(AMP)序列比较

属性可视化和轨迹分析

为了更好地理解QMO如何根据性质约束和目标优化先导分子，作者在分子嵌入空间上进行二维局部插值提供QMO属性可视化分析和搜索轨迹。具体地，考虑最初的嵌入以及由QMO返回的最优的候选嵌入，按照两个选择的方向和进行局部网格采样，然后评估采样嵌入解码序列的性质，以进行属性分析。图4a显示了使用瑞德西韦作为先导分子，最大化谷本相似度同时确保预测的亲和力高于阈值7.5时，预测优化分子的谷本相似度与亲和力的情况。图4b显示了候选分子的共同子结构与瑞德西韦分子的子图相似度以及它们在QMO中经过采样迭代后的预测性质。

图4 QMO优化过程的轨迹可视化及子结构分析

除了展示优化先导分子的效率外，作者还通过改变QMO中用于基于查询的引导搜索的随机种子，研究优化分子的多样性。图5显示了使用瑞德西韦作为先导分子时预测亲和力的三组不同轨迹。可视化结果表明三组轨迹是不同的，并且在嵌入空间中，每条轨迹上的最佳候选分子彼此之间的距离很远。这表明QMO可以发现一系列具有理想性能的改良分子。此外，作者还发现在QMO中，设置较低的相似性阈值可以使序列更加新颖多样。

图5 使用瑞德西韦作为先导分子时，预测亲和力的三组QMO轨迹可视化

总结与讨论

这项研究中，作者提出了一个QMO架构，适用于任何预先训练的具有连续潜在分子嵌入的编码-解码器以及任意一组性质预测和评估指标。它的特点是利用分子性质评估和约束进行高效的引导搜索。更广泛地说，QMO是一个机器学习工具，可以通过深度生成模型（如生成对抗网络）整合到不同的科学发现管道中，以实现带约束的高效引导优化，能够针对不同的目标、约束条件和起始序列进行成功的优化。原则上，提出的QMO框架可以应用于其他类别的材料，如金属氧化物、合金和基因。

QMO在具有相似性约束的优化药物相似性和惩罚logP得分的任务上的性能优于基线结果。作者还应用QMO提高了现有SARS-CoV-2主蛋白酶抑制剂的亲和力，并改善了AMPs的毒性。通过盲目对接和MM/PBSA重新评分，QMO优化后的分子显示出与SARS-CoV-2主要蛋白酶的良好BFE，而QMO优化的多肽也被外部多肽特性预测器一致预测为抗菌和无毒。最优轨迹的属性分析与低维可视化为QMO如何在属性空间中找到具有所需属性的一组不同的改进分子提供了有效的导航。结果证明QMO可以作为一种新颖实用的分子优化以及其他工艺或产品设计问题的工具，在限制条件下帮助加速化学发现，此外，使用一个更好的编码-解码器可以进一步提高它的性能。

未来方向：将包括将多保真度专家反馈集成到QMO框架中，以实现人机协同材料优化，利用QMO加速新型、高性能、低成本材料的发现。

参考资料

Hoffman, S.C., Chenthamarakshan, V., Wadhawan, K. et al. Optimizing molecules using efficient queries from property evaluations. Nat Mach Intell (2021).

https://doi.org/10.1038/s42256-021-00422-y

数据

https://github.com/IBM/QMO

代码

https://github.com/IBM/QMO

amp 优化

0 人点赞