CELLS:潜在空间中目标定向分子生成的成本效益进化

2022-03-25 13:37:34 浏览数 (1)

编译 | 夏欣 审稿 | 王成

本文介绍百度公司Zhiyuan Chen,Xiaomin Fang等人的研究成果:在寻找满足各种性质要求的分子时,由于无法搜索整个化学空间,近年来的研究都采用目标定向分子生成模型,倾向于利用迭代过程优化分子生成模型的参数。然而,大多数工作需要大量昂贵和耗时的评估过程,为了减少迭代过程中的评估,本文作者提出了一种具有成本效益的潜在空间进化策略——Cost-efficient evolution in latent space(CELLS),优化分子的潜在表示向量,采用一个预训练的分子生成模型来映射潜在和观察空间,利用大规模的未标记分子学习化学知识。为了进一步减少评估的数量,作者引入了一个预筛选器作为评估的代理。经过多个优化任务上的大量实验,所提出的框架在较少的评估下获得了更好的性能。

1

简介

探索化学空间,寻找满足各种性质要求的分子,例如,生物活性、药物相似性和合成物的可及性,是药物发现行业中最关键的任务之一。已知的分子库含有数百万个分子,而整个化学空间的尺度是,远远超过了已知分子的规模。尽管彻底探索整个化学空间对于新药的开发是有价值的,但费力地搜索和评估所有的分子是非常昂贵的。因此,定向分子生成的任务需要高效、有效的搜索方法。

近期工作倾向于利用分子生成模型进行目标导向的探索。通过贝叶斯优化、强化学习或进化算法优化生成模型的参数,在每次迭代中评估生成的分子,为模型优化提供方向。通过优化模型参数,分子生成模型可以生成更符合性能要求的分子。然而,这样的框架需要大量的评估分子(标记分子)。由于分子评估耗时且昂贵,这些框架难以实际应用。评估分子需求量大的原因如下:首先,要从头开始重建模型,同时学习化学知识和目标优化方向;其次,一个好的分子生成模型至少包含数十万个有待优化的参数。

为了提高目标导向分子生成的迭代过程的成本效益,作者提出了一个新颖实用的分子生成框架——潜在空间的成本效益进化(CELLS)。具体地,作者在潜在空间分子进化而不是参数空间:首先,用分子生成模型映射观察空间和潜在空间,通过大量未标记的分子来预训练一个分子生成模型,以学习化学知识;然后,作者介绍了一种在潜在空间中发挥作用的进化算法,寻找最大化目标的所需分子,与优化生成模型的参数相比,在潜在空间中搜索表示向量大大减少了搜索空间(一个典型的表示向量只包含数百个元素),从而减少了昂贵的评估费用;此外,作者引入了一个预筛选器,以进一步提高成本效益,预筛选器利用在每次迭代中收集到的标记分子,并作为评估的代理。

作者在两种优化任务上,将CELLS与各种先进的分子生成方法进行了比较。实验结果表明,CELLS能产生优良属性的分子,同时消耗更少的评估。案例分析和消融实验也验证了探索分子潜在空间和预筛选器的有效性。本文贡献如下:1.提出了一种基于潜在空间进化的目标定向分子生成框架,其效率大大超过以往的研究成果。2.在这个框架中,使用预筛选器作为代理来有效地利用现有的评估数据。3.进行了大量的实验来验证所提出框架的有效性和效率。

2

相关工作

一般的分子生成

一般分子生成的任务是生成一组分布与现有分子库相似的有效分子。生成的分子集合可以看作是一个虚拟分子库。一般分子生成方法可分为四大类,包括基于递归模型、变分自编码器(VAE)、生成对抗网络(GAN)和基于流的模型。

首先,基于递归的模型将每个分子的SMILES字符串作为一个句子,采用语言模型生成新的SMILES字符串。其次,对于VAE算法,通过编码器将分子编码成表示向量,再通过解码器将其重构。一些方法以分子的SMILES作为输入,应用序列VAE体系结构生成分子。其他一些基于分子图的工作,将原子视为节点,化学键视为边。其中,结合树变分自编码器(JT-VAE)的使用基于图的VAE来了解分子支架之间的连接。第三,一些先进的研究中在分子生成任务中引入了基于SMILES字符串或分子图的对抗训练。第四,基于流的模型设计了从潜空间到观测空间的可逆映射,GraphNVP,CRF和 MolFlow一次性生成分子图,而GraphAF逐个节点的生成分子图。特别地,MolFlow是第一个利用可逆映射一次性高效生成分子图的方法,并且保证了有效性。

目标导向分子生成

目标导向分子生成的目的是寻找能够满足多个目标的分子,选择有希望的分子进行进一步验证。一些方法根据专家经验手工设计分子转化规则,并基于这些规则使用进化算法对分子进行优化。然而,以这种方式探索化学空间很大程度上依赖于手工设计的规则。

其他方法则应用分子生成模型来生成分子,这与利用潜在的分子转化规律是相似的。以往的工作采用了多种优化策略,如贝叶斯优化、强化学习、进化算法优化分子生成模型的参数。然而,基于理论的方法需要评估分子才能获得理论依据。

之前的工作可以取得很好的表现,但需要大量评估分子来优化生成模型的参数,缺乏药物发现的实用性。作者提出了一个新的框架来减少对评估分子的需求,它利用了一般分子生成方法和目标定向分子生成方法:利用预先训练好的一般分子生成模型学习化学知识,绘制潜在空间和观测空间,并利用一种常用于目标定向分子生成的进化算法来优化分子潜在表示向量。

3

方法

本节介绍了提出的搜索满足多种特性要求的分子的CELLS框架。通过进化策略来探索分子的潜在空间,优化分子的表示向量。

总体框架

CELLS的总体框架由四个模块组成,如图1所示,初始化模块随机初始化分子种群。自然选择、潜在空间扰动和子代预筛选是产生和筛选分子的主要模块,产生有待进一步验证的候选分子。首先,自然选择模块从分子群体中选择适应度最高的分子作为精英。然后,潜在空间扰动模块通过扰动潜空间中的精英分子产生大量的候选子代。接下来,子代预筛选模块通过预筛选器对候选子代进行筛选,选出的子代作为下一次迭代的分子种群。

图1 CELLS的总体框架

自然选择

潜在空间扰动

作者将分子进化应用于潜在空间,从自然选择模块中选出的精英产生各种候选后代。具体步骤为:首先,通过预训练的生成模型将一个分子编码成一个潜在的表示向量,通过添加噪声对其表示向量进行连续扰动,得到多个扰动的表示向量;然后,用预训练的生成模型从扰动表示向量中重建分子,作为后代预筛选模块的候选后代。

分子潜在空间

在迭代过程中,保持训练好的分子编码器和解码器的模型参数不变,以优化潜在表示向量。通过预先训练的分子编码器,得到精英分子的表示向量,然后,对精英分子的表示向量进行扰动,通过分子解码器将扰动后的分子重构为候选分子。

扰动

后代预筛选

4

实验

整体性能

作者在两个优化任务上评估了各种分子生成方法的总体性能: GSK3 JNK3和GSK3 JNK3 QED SA。表1展示了不同方法在两种优化任务的评估次数(代价)和前K个分子的平均适应度得分,结果显示:(1)一般来说,CELLS的平均适应度得分高于基线算法,目标定向分子生成的性能可以接近,甚至比基线方法更好。(2)由于在潜空间中搜索表示向量比搜索模型参数大大减少了搜索空间,CELLS用于优化的成本比基线方法低得多。

表1 不同方法在两种优化任务的优化成本和顶级分子的平均适合度得分

成本分析

表2针对任务二,评估不同成本的分子生成方法的性能。结果表明,使得以前的分子生成方法依赖大量的评估来优化模型参数,对于药物发现是不实际的。

表2 任务二中不同成本的分子生成方法的性能

潜在空间中进化的影响

为了验证潜在空间进化的可行性,作者研究了分子表示向量的扰动与分子结构变化之间的关系。首先给定一个分子,对它的表示向量进行不同步长的扰动,比较由扰动表示向量重建的分子的结构。图2用案例展示扰乱分子表示向量的效果,可以发现,步长越大,扰乱分子与原始分子的结构差异越大,反之亦然。此外,与直接在分子结构上添加、删除或修改原子或功能团相比,对分子的连续表示向量进行扰动要简单得多。

图2 用不同步长扰动分子表示向量的效果演示

预筛选器的效果

为了分析后代预筛选模块中预筛选器的作用,比较了CELLS中预筛选器的消融实验。图3显示了前100个分子的平均适应度得分和所有生成分子的多样性得分,分子集的多样性分数定义为所有分子对的平均距离。结果显示:(1)适应度得分与多样性得分相反,适应度得分高的分子很可能聚集在某些特定区域;(2)具有完整预筛选器( )的演化框架优于没有预筛选器(None)的演化框架。

图3 CELLS中用于优化GSK3β JNK3 QED SA任务的预筛选器的消融研究

5

总结

高效地探索化学空间,找到满足多种性质要求的分子,可以加速药物的发现过程。然而,以往的分子生成框架需要大量分子来优化生成模型的参数,使得这些框架难以应用。通过对生成模型的参数进行优化,作者提出了一种具有成本效益的潜在空间演化框架(CELLS)。通过预先训练的分子生成模型,将观察空间映射到潜在空间,并从大规模的未标记分子中学习化学知识。此外利用预筛选器作为评估的代理,通过勘探和开发来选择有价值的分子作为种群。实验结果表明,该方法能够以较低的成本获得较好的性能。

参考资料

Chen Z, Fang X, Wang F, et al. CELLS: Cost-Effective Evolution in Latent Space for Goal-Directed Molecular Generation[J]. arXiv preprint arXiv:2112.00905, 2021.

0 人点赞