本文介绍一篇来自浙江大学侯廷军教授和谢昌谕教授课题组、中南大学曹东升教授课题组、碳硅智慧和腾讯量子实验室联合发表在Acta Pharmaceutica Sinica B的论文《MF-SuP-pKa: Multi-fidelity modeling with subgraph pooling mechanism for pKa prediction》。该论文提出了一种将化学领域知识和图神经网络算法相结合的通用pKa预测模型MF-SuP-pKa。作者采用子图池化(subgraph pooling, SuP)算法提高模型对分子局部和全局信息的表征能力;利用解离反应的可逆性进行数据增强(data augmentation, DA),将模型适用范围拓展至带电分子;此外,采用多精度学习(Multi-fidelity learning,MFL)的训练策略充分利用高-低精度数据集,有效提高了模型的泛化能力。实验结果表明,MF-SuP-pKa在微观pKa(micro-pKa)和宏观pKa(macro-pKa)的预测中均取得了最优性能,与现有的开源模型相比适用范围更广,使得多步电离预测成为可能。
研究背景
酸解离常数(pKa)是反映化合物电离能力的关键参数,决定了药物在生理环境下的存在形式,进而影响其体内吸收、分布、代谢、排泄等药代动力学性质,对先导化合物优化具有重要的指导意义。考虑到实验测定方法耗时耗力,且无法应用于水溶性或稳定性差的小分子,开发快速、准确的pKa预测模型具有重要的应用价值。
pKa的准确预测仍然具有挑战性:(1)两性分子同时具有酸性pKa和碱性pKa,需要分别建模;(2)多质子化合物需要进一步区分微观pKa和宏观pKa,其中微观pKa表征某个特定位点的解离能力,而宏观pKa反映的是整个分子的解离能力。Micro-pKa和Macro-pKa之间可以通过近似公式转换:
近年来,机器学习(ML)和深度学习(DL)算法已被应用于pKa预测问题。传统ML方法需要繁杂的特征工程,不能充分利用小分子的结构信息,容易引入专家偏见。DL中图神经网络(GNN)算法能够处理不规则图结构(如分子图),自动提取任务相关的特征,已经在分子属性预测中取得了诸多成功应用。在pKa预测问题中,Graph-pKa和MolGpKa是两个典型的基于GNN的工作,充分证明了GNN的潜在优越性,但它们的适用范围较为有限,仅能预测中性分子的pKa,不能处理多步电离问题;其中Graph-pKa将微观pKa的预测定义为节点回归任务,可能会损失解离官能团的语义信息,导致泛化能力不佳。
针对上述不足,作者将化学领域知识和深度学习算法的有机结合,提出了MF-SuP-pKa模型,在Attentive FP模型的基础上引入多精度学习、子图池化和数据增强的策略。实验结果表明,与现有模型相比,MF-SuP-pKa在多个内、外部测试集中实现了最优性能,对最强解离位点的识别与专家标注具有较高的一致性,并能够实现带电分子的pKa预测。
材料与方法
数据准备
解离位点列表:在现有列表基础上,增加了质子化的碱性位点(视作酸性位点)和脱质子化的酸性位点(视作碱性位点),以及DataWarrior数据集中较为常见的两种酸性官能团。最终采用的解离位点列表包括148个可电离基团(SMARTS表示)。
低精度数据集:即ChEMBL数据集。从ChEMBL数据库中下载ChemAxon软件预测的pKa数据,进行数据清洗,根据高精度数据集中多质子/单质子化合物比例筛选,最终数据集包含626.8K酸性pKa和489.5 K碱性pKa。
高精度数据集:即DataWarrior数据集。剔除无法识别解离位点的化合物,最终数据集包含2750个酸性pKa和2992个碱性pKa。数据集按照训练/验证/测试8:1:1随机划分,不同随机种子重复10次。
知识引导的数据增强:作者将质子化的碱性位点定义为酸性位点,脱质子化的酸性位点定义为碱性位点。根据解离反应的可逆性,同一个共轭酸碱对的酸性和碱性pKa数值应是相同的。基于此,作者新增了67,095个带负电分子至ChEMBL碱性数据集,85,574个带正电分子至ChEMBL酸性数据集。数据增强的策略可以丰富低精度数据集中的化合物类型,从而有利于下游任务的预测。
图1. 知识引导的数据增强示意图(实线表示原有数据,虚线表示新增数据)
模型架构
MF-SuP-pKa模型的训练和预测流程如图2所示。模型首先在低精度ChEMBL数据集上预训练,再迁移到高精度DataWarrior数据集上微调。
完整的pKa预测流程包括四个步骤:
- 图表征:输入小分子SMILES,根据SMARTS列表识别解离位点并构建分子图,包括节点特征
,边特征
,邻接矩阵
和节点间拓扑距离矩阵
描述了节点
和
之间的最短路径长度。
- 图卷积:本文采用两层Attentive FP进行消息传递更新节点表征
:
- 子图池化:将每个解离位点及其k阶邻(k的取值根据超参数优化实验确定)定义为子图
,每张子图对应一个和分子中每个原子相连的虚拟节点。首先,将子图内原子
表征根据距离衰减相加得到虚拟节点的初始表征
式中,
是一个常数(设定为0.1),
表示子图内节点
和解离中心
之间的最短距离。
其次,为了表征含有虚拟节点的图结构,作者将原子表征和子图表征合并获得
,并用邻接矩阵
表示从原子节点到子图节点的有向边:
最后,采用两层Attentive FP利用分子内所有原子的信息更新虚拟节点表征;
4. pKa预测:将更新后的子图虚拟节点表征输入全连接层,预测micro-pKa,再通过近似公式转化为macro-pKa,和已知标签比较:
图2. MF-SuP-pKa模型架构示意图:(A)多精度学习流程;(B)pKa预测流程
实验设置
基准模型:作者比较的基准模型包括Attentive FP和两个SOTA的开源pKa预测工具,即MolGpKa和Graph-pKa。由于MolGpKa和Graph-pKa只能预测中性分子pKa,作者分别报道了模型在整个测试集和在中性部分测试集上的表现。
评估指标:pKa预测为回归任务,采用的评估指标包括R2,MAE和RMSE。在微观pKa预测任务中,由于缺乏实验数据,评估指标为模型判定的最强解离位点和专家标注的一致性。
结果与讨论
Macro-pKa预测
内部测试集:如表1所示,MF-SuP-pKa在酸性和碱性数据集中的性能均显著优于基准模型。由于MolGpKa和Graph-pKa在预测带电分子pKa时会进行强制中和处理,它们在完整测试集中的表现显著下降。结果表明,MF-SuP-pKa不仅将模型适用范围拓展到了带电分子,即使在中性测试集上也实现了大幅度的性能提升。作者还指出,MF-SuP-pKa的10次独立运行结果的标准差显著降低,说明模型具有更好的鲁棒性。从误差分布上来看,酸性和碱性数据集中分别有84%和85%的小分子预测误差在±1.0 log pKa范围内。
表1. 不同模型在内部测试集中的Macro-pKa预测性能
外部测试集:如表2所示,作者比较了模型在三个外部测试集上的表现,分别为SAMPL6、SAMPL7和Novartis测试集。为了评估MF-SuP-pKa预测带电分子的能力,作者额外引入了基于半经验量子力学描述符和径向基函数的模型(Hunt’s model)进行比较。结果表明,除了在SAMPL6中性测试集上的MAE指标外,MF-SuP-pKa的性能均为最优,证明模型在真实应用场景下同样有效。作者进一步对误差进行分析,指出MAE指标差,R2和RMSE指标较好的原因主要在于模型对SAMPL6-SM21预测的绝对误差较大。长共轭效应、分子内氢键、非常见官能团、插烯作用等因素可能导致预测难度增大而引入较大误差。
表2. 不同模型在外部测试集中的Macro-pKa预测性能
Micro-pKa预测
作者在SAMPL6测试集上评估了模型对micro-pKa的预测能力。专家标注信息从已有的文献中获取。图3显示了10次独立运行模型的预测结果,MF-SuP-pKa在酸性和碱性分子中各有1次和7次超过了Graph-pKa,仅有2次在碱性分子中劣于Graph-pKa。值得注意的是,与Graph-pKa相比,MF-SuP-pKa训练所用的实验pKa数据仅为1/3左右。
图3. 模型对micro-pKa的预测性能比较(纵坐标表示模型预测和专家标注的最强解离位点一致的分子个数,多质子酸性和碱性分子共有4个和17个)
消融实验
作者通过消融实验验证了多精度学习(MTL)、子图池化(SuP)和数据增强(DA)策略的有效性(表3)。其中,MTL和DA缓解了数据稀缺问题,SuP能够更好地捕获与pKa相关的化学环境信息。此外,和基于自监督的预训练模型(如Grover)相比,MTL能够有效避免负迁移(negative transfer)问题。作者进一步将数据集划分为子集,以分析模型对不同类型分子的预测能力。结果显示,数据增强策略不仅实现了提高带电分子预测能力的目的,中性分子也有所获益。
表3. MF-SuP-pKa消融实验结果
超参数敏感性分析
作者对模型的关键参数,即子图提取半径k进行了调优。如图4所示,酸性和碱性数据集的最优取值分别为2和3,这和酸性或碱性官能团的特征相关。碱性官能团往往出现在杂环中(图5 A),3阶邻能够更好地区分不同的杂环;酸性官能团所处的化学环境可以分为芳香性或脂肪性(图5 B),2阶邻就能够较好地区分。
图4. 模型对子图提取半径k的敏感性分析
图5. 典型的碱性和酸性官能团
子图表征可视化
为了比较MF-SuP-pKa在预训练和微调阶段学习到的子图表征,作者从DataWarrior训练集中随机选取了1501个单质子化合物,采用t-SNE方法对模型提取的特征向量降维可视化。如图6所示,预训练模型能大致区分不同pKa范围的分子,这对下游任务很有帮助,但能观察到一些pKa值相差较为悬殊的分子混杂在一起,这可能源于预测pKa和实验pKa之间的偏差。经过微调后,不同pKa取值的子图表征区分得更加清晰和理想,证明MF-SuP-pKa确实能够学习到更好的表征并在子图级别的回归任务上表现优异。
图6. 子图表征t-SNE可视化:(A)预训练模型提取的子图表征;(B) 微调后MF-SuP-pKa模型提取的子图表征
结论
综上所述,本文提出了一种新型的基于GNN的pKa预测模型MF-SuP-pKa,将化学领域知识通过数据增强和子图池化的方式有机结合到现有的GNN框架中,并通过多精度学习有效提高了模型对少量高精度数据的拟合能力。广泛的内部和外部测试实验表明,MF-SuP-pKa与基准模型相比具有更好的泛化能力和鲁棒性。此外,MF-SuP-pKa保留了带电分子的质子化状态,为多步电离预测提供新的策略。与SOTA模型Graph-pKa相比,MF-SuP-pKa仅采用1/3左右的实验数据实现了相当甚至更优的性能,可以预期随着pKa实验数据质量和数量的增长,模型性能还有较大的提升空间。
参考资料
Wu J, Wan Y, Wu Z, et al. MF-SuP-pKa: multi-fidelity modeling with subgraph pooling mechanism for pKa prediction[J]. Acta Pharmaceutica Sinica B, 2022.
https://www.sciencedirect.com/science/article/pii/S2211383522004622