从头设计的分子生成模型综述

2021-07-05 10:14:10 浏览数 (1)

编译 | 罗潇澧 审稿 | 罗晓妍

大家好,今天给大家介绍来自英国伦敦独角兽公司BenevolentAI的Meyers,Fabian和Brown近日发表在Drug Discovery Today上的综述论文。在该综述中,作者回顾了基于原子,基于片段,基于反应的三种范式的分子从头设计与生成的方法,同时对该领域的存在的挑战和机遇做出了阐述。

1

背景介绍

近年来,使用AI生成模型来做分子生成的流行程度日益上升,从头设计的分子生成也被称作是生成式化学。化学空间是十分巨大的,因此,研究人员在通过从头设计来定向的对分子进行生成时,希望能更有效地遍历化学空间,使得需要考虑的分子数量在一个更小的范围内。

分子的化学结构不仅可以通过嵌入原子和键来在原子层级上表征,也可以通过嵌入官能团和子结构来在片段层级上表征,还可以在反应层级上进行表征,这种情况下目标分子被视为反应物与反应条件的产物。实际上,基于原子,基于片段,基于反应的三种范式的方法有着明显的优劣,而很多方法模糊了这之间的区别,如图1所示。

图1. 基于原子的方法需要建立一个包含原子和键的词汇表;基于反应的方法需要有两组反应物和一组反应规则;基于片段的方法需要有一个划分片段的模式和一组可以互换的片段。

2

梯度无关的分子优化

给出一个分子表示,优化算法会根据目标函数来引导其朝着最优分子的方向来优化生成。元启发式的从头设计方法,使用基于种群的随机优化来探索化学空间,如进化算法或群体智能。

基于原子的一些方法目前能够在GuacaMol基准上达到SOTA性能。以基于图的遗传算法(GB-GA)为代表,它使用反应SMARTS对一群候选分子进行变化和交叉,并能够确保种群的最优分子得到保持;

基于片段的方法需要用一组简单的规则或逆合成的断开连接规则来对分子进行解构。以MOARF为代表,它使用了一组逆合成的断开连接规则(SynDiR)和进化算法来进行分子的从头设计;

基于反应的方法是从头设计最实用的策略。以AutoGrow4为代表,它利用遗传算法和反应库来对种群中的分子进行突变。

表1 从头分子设计的范例方法总结

3

基于梯度的分子优化

尽管基于种群的元启发式方法已经被证明在寻找最优分子方面是鲁棒的,但在过去的3年中,分子设计的深度学习方法仍然被广泛采用 。

很多基于原子的的方法使用SMILES字符串作为分子的表征,这使得许多深度学习的序列模型可供使用,然后再通过预训练-微调的思路让模型学习研究人员所感兴趣的化学空间。除此之外,基于分子图表示的模型也越来越受到关注。不同于SMILES字符串,图模型不需要学习SMILES字符串的语法规则,它直接学习分子的拓扑结构,如GraphVAE,MolGAN。近来,与强化学习相结合的图模型方法展现了具有前景的结果。

与基于原子的方法相比,基于片段的生成模型缩小了搜索的化学空间。Jin等人在JT-VAE的工作中,使用了一个两步生成方法来生成分子,首先构建一个描述组成分子的子结构骨架树,再用图消息传递网络解码最终的分子结构。

最近的研究报道了使用强化学习来将正向合成建模为马尔可夫决策过程的方式来探索巨大的可能反应空间。以REACTOR为代表,它使用一套双反应物的反应模板(SMARTS),并根据哪一个反应物将最大限度地提高下一个状态的奖励来选择缺失的反应物。当产生多个反应产物时,与最大奖励相关联的产物被选择。

4

结语

机器学习和人工智能方法在药物发现中的作用越来越大,因为它们能够比传统虚拟筛选和人类专家更有效地在巨大的化学空间探寻研究人员所感兴趣的分子。现在,该领域面临的挑战是评估生成器和优化目标是否对当前的任务有用。分子的从头设计和生成化学模型在药物发现领域仍然是一个有争议的话题,但作者认为,从集体经验中还是能够学习到很多有用的方法,并期待将这些方法添加到药物化学工具箱中。

参考资料

Meyers J, Fabian B, Brown N. De novo molecular design and generative models. Drug Discovery Today, 2021.

https://doi.org/10.1016/j.drudis.2021.05.019

0 人点赞