3D分子构象生成指的是给定2D分子图,生成对应的稳定3D分子构象,即生成每一个原子的坐标。相对于传统的基于实验或者数值计算的方法,基于机器学习的方法具有计算速度快、计算效果好的优势。在本篇论文中,作者提出一种基于深度学习的分子构象直接生成的方法,论文发表在Transactions of Machine Learning Research 2022。
方法
基于机器学习的分子构象生成已经存在不少探索工作。其中,很多工作基于某一中间量(键长、原子间距离的梯度、二面角等)来生成坐标,但可能会违反某些潜在的规则(如三角不等式)。所以,在本篇论文中,作者设计了一种方案(direct molecular conformation generation, 简记为DMCG)可以直接从2D分子图生成3D分子构象而不借助中间变量。
直接生成3D分子构象存在两个挑战:一是保持生成构象坐标的旋转平移不变性,二是对称原子的坐标的置换不变性。以图一中的分子为例进行说明。(1)如果任意旋转或者平移整个分子构象的坐标,分子构象应该具有不变性。在损失函数中,应体现为旋转平移后的构象和标准构象的误差应保持一致。(2)图一中的分子右侧的嘧啶(由原子12~17组成)应该沿着11-12的碳硫键具有对称性。也就是,如果将原子13、17的坐标对调,同时也对调原子14、16的坐标,分子构象应该保持不变。我们将一个分子中所有对称部分的置换操作记做。对图一来说,
, 其中
对于其余原子
。
图一:分子图例
为了保持这两种不变性,作者提出了一个新的损失函数:
其中R是真实的分子构象,
是预测的构象,
是任意一种旋转平移变换操作,
是分子图中所有对称部分的置换操作。关于求解
, 作者提出了如下策略:首先对于任意分子,计算它的
。这一步可以根据图同构算法得到。之后,对于任意
, 最优平移旋转操作
可通过求解一个矩阵的特征值和特征向量得到。这个矩阵中的元素与R和
相关。根据这两步即可实现
的求解。具体细节在论文第2.1节。
另外,由于一个分子存在多个稳定的3D构象,作者采用VAE的训练框架实现一个分子到多个构象的映射。
除此之外,作者提出一种新的图神经网络结构,如图二所示。网络的每一层包含四个模块,它们工作方式如下:(1)对于每一个化学键,利用它两个端点的原子特征去更新该化学键的特征;(2)对于任意原子,利用和它相邻的化学键去更新原子的特征;(3)利用刚刚更新的原子和化学键特征去更新分子的一个整体表达(4)根据每个原子特征,预测它的坐标。分子的构象逐层优化,最终实现从一个初始随机噪声,得到一个真实分子构象。
图二:网络结构示意图
实验结果
实验结果见下图。从图可见,该文提出的方法在各项指标上都取得了目前最优的结果。
另外作者还将DMCG用在了分子对接(docking)的实验中。分子对接的第一步是获得配体小分子的3D构象,之后将其送入分子对接软件进行后续分析。通常人们会选择RDkit产生初始构象。这里,作者将构象生成这一步替换为采用深度学习工具,包括GeoMol, ConfGF, GeoDiff以及作者提出的DMCG。实验结果如图三所示。DMCG的初始构象能够获得更好的结合能,并且相对于真实的配体构象,DMCG的方法RMSD最小。同时我们也观察到,基于深度学习的方案效果,要好于基于RDKit的构象生成。
图三:分子对接实验。
拓展:2D & 3D 联合预训练
DMCG侧重于从2D分子图生成3D构象。基于DMCG的模型架构和训练方案,作者提出基于2D & 3D的联合预训练。该工作发表于KDD2022。训练目标如图四所示,是三个损失函数的加和。图四(a)展示的重构被掩码的原子属性(例如原子属性、电荷数等)和原子坐标。具体来说,给定一个2D的原子图和每个原子坐标,随机遮盖掉一部分原子和坐标,训练目标是重构被遮盖掉的部分。图四(b)展示的是给定2D分子图,重构它的3D构象。这部分采用的是DMCG的方案。图四(c)展示的是给定3D构象,恢复原子类型的属性。作者在PCQM4M-v2的数据集上进行预训练,训练预料约3.38M个 2D/3D数据对。预训练的网络结构和DMCG网络结构保持一致。
图四:损失函数流程图。
作者在分子属性预测,和2D到3D构象生成任务上进行了实验,都取得了令人满意的结果。
表2:分子属性预测任务。
在表2中,作者展示了若干分子属性预测任务的结果。表2(a)和2(b)展示的是在moleculeNet和OGB-molpcba上预测的结果。这两个数据集都是只有2D图信息,没有3D信息。表2(c)展示的是在一个毒性预测数据集上我们算法的效果,该数据集中的分子具备3D信息。
在2D分子图到3D构象生成的任务上,作者和未经过预训练的版本进行了对比。经过预训练后,在3D构象生成的任务上也取得了显著提升。
表3:分子构象生成任务。
参考资料
论文和代码
[1] Direct molecular conformation generation, TMLR22, https://openreview.net/forum?id=lCPOHiztuw,
https://github.com/DirectMolecularConfGen/DMCG
[2] Unified 2D and 3D Pre-Training of Molecular Representations, KDD22, https://arxiv.org/abs/2207.08806,
https://github.com/teslacool/UnifiedMolPretrain