JCIM|用Transformer-decoder模型进行分子生成

2021-12-06 14:54:25 浏览数 (1)

2021年10月25日,JCIM杂志发表MolGPT: Molecular Generation Using a Transformer-Decoder Model。该文章提出用Transformer-decoder模型进行分子生成。

以下是全文主要内容。

摘要

应用深度学习技术的分子生成在药物设计中极具吸引力。受生成性预训练(GPT)模型在生成文本中的成功应用的启发,在本研究中,作者利用掩蔽的自我注意机制训练转换器解码器进行标记预测来生成类药物分子。结果证明,该模型生成有效的、独特的和新颖的分子能力与其他用于分子生成的现代机器学习框架不相上下。另外,实验还证明该模型可以通过有条件的训练来控制生成分子的多种性质。通过限定所需分子的骨架 SMILES等条件,该模型可以生成具有所需骨架和所需分子特性的分子。

1.前言

据推测,潜在的候选药物总数在1023到1060个分子之间,其中只有约108个分子可以被合成。由于难以筛选无限的化学空间,而且可合成的分子和潜在的分子之间存在巨大差距,因此生成模型常用来模拟分子的分布,来对具有理想性质的分子进行采样。

最早的一些深度学习模型如循环神经网络(RNNs),变分自动编码器(VAE),对抗性自动编码器(AAE),以及生成对抗性神经网络 (GANs)等可用于分子生成。受生成性预训练模型(GPT)的启发,作者及其团队训练了一个名为MolGPT的GPT模型,以预测分子生成的SMILES标记序列。这是第一个将GPT架构用于分子生成的工作。为此,作者使用一个正则表达式(后来被称为SMILES标记器),将SMILES字符串分解成一组相关的标记,用来训练模型。此外,该模型很容易学习SMILES语法,从而可以专注于对分子特性的更高层次的理解。因此,作者也有条件地对该模型进行了训练,以明确地学习某些分子性质。

2.研究方法

数据集

作者使用了两个基准数据集MOSES和GuacaMol来训练和评估该模型。MOSES数据集由Zinc数据集中190万个clean lead-like 分子组成(分子量范围为250至350 Da,可旋转键的数量低于7,XlogP低于3.5)。MOSES数据集的创建主要是用于表示类药性分子,因此具有理想药物性质的分子分布。

GuacaMol数据集是ChEMBL数据库的一个子集,包含160万个分子。MOSES和GuacaMol数据集中的分子属性的概率分布如图1所示。

图1 MOSES和GuacaMol数据集中分子性质的概率分布(logP、分子量、QED、SAS、SMILES长度和TPSA)

在进行条件控制和优化时使用的分子性质如下:

Log P:化合物油水分配系数 P 的对数值, 指未解离的分子在油相与水相的分配平衡。

Synthetic Accessibility score (SAS):合成化合物难度的度量。为介于1(易合成)和10(难合成)之间的分数。

Topological Polar Surface Area (TPSA):拓扑极性表面积,所有极性原子的表面积之和,用于测量药物渗透细胞膜的能力。TPSA大于140Å2的分子渗透细胞膜的能力较差。

Quantitative Estimate of Drug-likeness (QED):通过考虑主要分子特性,对药物相似性进行量化。其范围从0(所有不利性质)到1(所有有利性质)。

模型

训练和生成MolGPT模型的示意图如图2所示。对于无条件训练,分子SMILES首先使用SMILES标记器进行标记,然后在下一个标记预测任务中训练模型。

图2 使用MolGPT模型进行训练和生成的流程

对于性质和骨架条件的训练,作者使用RDkit提取分子性质和骨架,并将它们作为条件与分子SMILES一起传递。生成过程则是首先给模型提供一个开始的标记,模型按顺序预测下一个标记,从而生成一个分子,然后,向模型提供一组分子性质和骨架条件以及开始标记来对分子进行采样。

模型的架构如图3所示,该模型基本上是生成预训练Transformer(GPT)模型的迷你版。与GPT1有大约110M的参数不同,MolGPT只有大约6M的参数。MolGPT由堆叠的解码器块组成,每个解码器块都是由掩蔽的自我注意层(通过“点状产品注意力”来计算的,且提供对用于预测的序列的所有标记的关注)和全连接神经网络组成。

图3 MolGPT模型体系结构

全连接神经网络的最后一层返回一个大小为256的向量,然后作为下一个解码器块的输入。MolGPT由八个这样的解码器块组成。为跟踪输入序列的顺序,将位置值嵌入分配给每个标记。在条件训练期间,提供分段标记以区分条件标记和SMILS标记。分段标记的嵌入表示特定输入是条件还是分子SMILES令牌,以便于通过模型区分两者。使用嵌入层将所有分子SMILES标记映射到256维向量。类似地,使用单独的可训练嵌入层来将位置标记和分段标记映射到256维向量。然后将这些SMILES的标记嵌入、位置嵌入和分段标记嵌入相加,为SMILES的每个标记产生大小为256的向量,然后将其作为输入传递给模型。

评价指标

有效性:生成的分子中有效的部分。作者使用RDkit对分子进行有效性检查。有效性衡量模型学习SMILES语法和原子价的程度。

独特性:有效生成的唯一分子的分数。低独特性意味着重复的分子生成和低水平的模型分布学习。

新颖性:不在训练集中的有效独特的生成分子的分数。低新颖性是过拟合的标志。

内部多样性(IntDivp):衡量生成分子的多样性,专门设计用于检查模式崩溃或模型是否继续生成类似结构的度量。

Frechet化学网络距离(FCD):使用生成分子的特征和数据集中分子的特征计算。这些特征是从ChemNet模型的倒数第二层获得的。低FCD值表示模型已成功捕获数据集的统计信息。

KL散度:KL发散度是使用生成集和参考集的大量物理化学描述符计算的。较低的值表示该模型已经很好地了解了这些特性的分布。

3.结果和讨论

在该部分,研究人员首先介绍了在非条件下生成分子的结果。然后对MolGPT的性能与其他最先进的方法进行比较,接着对MOLGPT模型的可解释性提出了一些见解。此外,还展示了该模型仅基于性质和骨架的条件下的生成能力,以及基于性质和支架的条件生成的结果。最后,研究者们列举出MolGPT模型被用于优化起始分子的QED值和优化SAS值的例子。

非条件下生成分子的结果

MolGPT与以前的方法在FCD和KL散度等指标上进行了比较。除有效性外,所有的指标都是在模型生成的有效分子集上计算的。作者将MolGPT在MOSES数据集和GuacaMo的表现与CharRNN、VAE、AAE、LatentGAN和JT-VAE等模型的表现进行比较。其中,JT-VAE使用图形作为输入,而其他的使用SMILES。结果如表1和表2所示。

表1 在MOSES数据集上使用不同方法训练的非条件分子生成对应的不同指标的比较

表2 在GuacaMol数据集上使用不同方法训练的非条件分子生成对应的不同指标的比较

在MOSES基准测试中,MolGPT的分子及其骨架的FCD得分最高。这表明该模型已经很好地学习了数据集的统计数据。在两个内部多样性方面,它的性能与其他模型不相上下。在有效性的情况下,如前所述,JT-VAE总是生成有效的分子,因为它在生成的每一步都检查有效性。除JT-VAE外,我们观察到MolGPT在生成有效和独特的分子方面表现最好。MolGPT在没有使用显式约束的情况下,在MOSES数据集上获得了近乎完美的有效性分数,这表明该模型对SMILES语法有很强的学习能力。然而,MolGPT在数据集上的新颖性得分较低,仅略好于AAE。

在GuacaMol基准测试上,MolGPT在有效性、新颖性和KL发散性方面表现出最好的结果,而其FCD仅比RNN少0.006。研究者认为,与MOSES相比,这种新颖性的提升是由于GuacaMol数据集中分子的更大多样性(图1)。此外,尽管与MOSES数据集相比,GuacaMol数据集有更大的分子,但MolGPT生成的分子具有非常高的有效性,这也表明该方法可以很好地处理了长期依赖性。

可解释性

作者使用显著性图来可视化模型的分子生成过程。图4显示了生成分子的一些生成标记的输入显著性图。输入显著性方法给每个输入标记分配一个分数,表示该标记在生成下一个标记中的重要性。"(","C "和 "c "分别指从链、非芳香族碳和芳香族碳的分支。

从图4中可以看出,在生成第一个显著性图谱中的 "O "原子时,该模型关注之前的双键和 "N "原子。双键满足了氧原子的化合价,而 "N "原子参与了同分异构体(Lactam和Lactim)的形成,从而增加了结构的稳定性。在生成第二张显著性地图中的 "C "原子时,模型关注"("和")"以检查它们是否平衡,同时也关注非芳香环中的原子。在非芳香环中,它主要关注近邻的 "2 "和 "N "原子。当生成 "2 "标记时,它关注紧邻的 "C "标记和非芳香族环中的标记。当在显著性地图的最后一行和倒数第二行生成 "c "标记时,该模型正确地关注了芳香环中的原子,因为该环仍然是不完整的。因此,这些显著性图为生成过程提供了化学可解释性。

图4 输入所示生成分子的显著图。深紫色下划线是考虑用于显著图的标记。每个标记的颜色强度指示该标记对于生成带下划线的标记的重要性。

基于单个或多个性质的生成

为评估MolGPT生成具有特定性质分子的能力(条件生成)。作者测试了该模型在Guacamol数据集训练的控制分子性质的能力。虽然只有logP、SAS、TPSA和QED被用于性质控制,但该模型可以被训练来学习任何从分子推断出来的性质从分子的二维结构中推断出的任何属性。对于每个条件下,生成10,000个分子来评估性质控制。

在控制单一性质的同时,MolGPT生成的分子性质的分布如图5所示。每种性质的平均偏差(MAD)、标准差(SD)、有效性、唯一性和新颖值如表3所示。如图5所示,性质的分布集中在所需值周围。表3中较低的SD和MAD得分(相对于属性值范围)进一步说明了这一点。

图5 生成分子的性质分布以(A)logP、(B)TPSA、(C)SAS和(D)QED为条件。红色实线描绘的分布对应于整个数据集。在温度=1.0的GuacaMol数据集上进行训练。

表3 基于GuacaMol数据集(使用温度值1.0)训练生成单一性质条件的分子时不同指标的比较

作者测试并评估了模型同时控制多个性质生成所需分布的能力。生成的分子性质分布见图6。从图中可观察到以期望的性质值为中心的分离良好的集群。

图6取决于(A)TPSA logP、(B)SAS logP、(C)SAS TPSA和(D)TPSA logP SAS 的生成分子的性质分布。

表4中报告的每个分子性质组合的低MAD和SD值(与属性值的范围相比),表明MolGPT对多个性质的控制能力很强,可以准确地生成。

表4 GuacaMol数据集的多性质条件训练

基于骨架的生成

研究者评估了MolGPT在保持骨架结构的同时生成具有特定性质值的结构的能力,该研究是在MOSES基准数据集上进行的,因为它包含与训练集中存在的骨架数据集不重叠的一组测试骨架。首先随机选择了100个测试骨架,为每个骨架生成100个分子后计算有效性、唯一性、新颖性和“相似比”。“相似比”被定义为生成分子的骨架与条件骨架的骨本相似性大于0.8的有效生成分子的比例。

结果如图7所示,对于所有100个骨架,有效性都大于0.8。约75%的骨架具有0.7以上的独特性和新颖性。所有的骨架都有大于0.8的“相似比”,这表明大多数生成的有效分子的骨架与用于训练的骨架非常相似。

图7 骨架条件结果的评估指标的框图

基于骨架和分子性质的生成

在研究者评估MolGPT在保持骨架结构的同时生成具有特定属性值的结构的能力的实验中,随机选择了MOSES测试集五个不同大小的骨架。其中,将有效分子定义为那些满足化学价态,并且包含与所需支架的Tanimoto相似度至少为0.8的分子图。所有基于支架的实验的有效性分数都是基于该定义计算的。

图8在MOSES数据集上训练的以骨架(A)logP、(C)SAS、(E)TPSA和(G)QED为条件的生成分子的性质分布。生成的分子的骨架和用于调节(B)logP、(D)SAS、(F)TPSA和(H)QED的骨架的骨本相似性的分布。

图8中显示出单一性质控制的生成分布,以及生成分子的骨架和条件骨架之间的Tanimoto相似度的分布。对于所有的骨架和性质,分布图的峰值为1。由于基于骨架的生成对性质控制的约束性更强,生成的分布图不像以前那样结构良好。

图9 在MOSES数据集上训练以支架 (A)TPSA logP、(B)SAS TPSA、(C)SAS logP和(D)TPSA logP SAS为条件的生成分子的性质分布。

MolGPT在骨架上添加不同的官能团,以获得所需的性质值。多性质控制集群如图9所示。

图10 在MOSES数据集上训练的(A)TPSA logP,(B)SAS TPSA,(C)SAS logP,和(D)TPSA logP SAS的生成分子的骨架和用于调节的骨架的骨本相似性的分布。

即使使用多个性质,也可以在图10中看到Tanimoto相似性分布在1处达到峰值。可以理解的是,基于性质的集群不像以前那样形成良好。但是,两个性质控制的集群之间有很好的分隔。

图11骨架条件下QED值的优化的图例

图12 SAS减少,保持TPSA、logP和骨架结构的图例

此外,作者给出几个例子,如图11的样本生成的分子所示,骨架结构在生成的分子中保持不变,其QED值在0.9左右。在图12中,作者展示了其他样本例子,其中TPSA、LogP和支架结构保持不变,SAS被改进到更理想的值。

4.结论

在这项工作中,作者设计了一个名为MolGPT的Transformer-decoder的模型用于分子生成。这个模型利用了掩蔽的自我注意机制,使其更简单地学习字符串标记之间的长距离依赖关系。通过基准实验,MolGPT在MOSES和GuacaMol数据集上显示了非常高的有效性和唯一性分数以及出良好的FCD和KL散度。

该项研究还表明,MolGPT可以通过分子性质控制来学习更高层次的化学表现。并生成属性值与用户所需的属性值仅有些许偏差的分子。此外它还能够生成含有用户指定的骨架的分子,同时控制这些性质。尽管基于骨架的药物设计有一定的限制条件,但它仍能很好地实现这一目标。因此认为MolGPT模型是一个强大的体系结构。

参考资料

Viraj Bagal, Rishal Aggarwal, P. K. Vinod, and U. Deva Priyakumar,Journal of Chemical Information and Modeling ,DOI: 10.1021/acs.jcim.1c00600

----------- End -----------

sas

0 人点赞