2022年9月19日,北京邮电大学傅湘玲团队在BMC Bioinformatics上发表文章。作者提出了ABCD-GGNN(Anti-Breast Cancer Drug selection method utilizing Gated Graph Neural Networks),一种使用门控图神经网络(GGNN)架构来筛选抗乳腺癌药物的新型算法。ABCD-GGNN通过每个不同化合物的原子描述符构建原子级图,可以拓扑地学习候选药物的隐式结构和子结构特征,然后将表示与显式离散分子描述符集成,生成分子级表示。因此,ABCD-GGNN的表示可以归纳地预测ERα、药代动力学特性和每种候选药物的安全性。
背景
乳腺癌是目前世界上死亡率较高的癌症之一。抗乳腺癌药物的生物学研究侧重于雌激素受体α(ERα)的活性、药物动力学特性和化合物的安全性,然而,这是一个昂贵和耗时的过程。深度学习的发展为有效促进乳腺癌候选药物的选择带来了潜力。本文提出了ABCD-GGNN表示方法,有效地将分子的拓扑结构和子结构特征与离散的分子描述符相结合,预测的特性有效地促进了抗乳腺癌候选药物的选择。
方法
为了评估所提出的方法的效率,作者收集了一个包含1974个有机化合物的数据集,这些化合物可能是抗乳腺癌的候选药物。该数据集提供了分子的SMILES和每种有机化合物的729个分子描述符。729个分子描述符包括二维和三维分子特征的不同描述。数据集标记了每种有机化合物的ERα值,用pIC50表示。同时,为了客观评估每种有机化合物的药代动力学特性和安全性,数据集使用5个特性标签对其进行量化:吸收、分布、代谢、排泄和毒性(ADMET)。在数据集中,这5个特性涉及以下指标:MN、Caco-2、CYP3A4、人类Ether-a-go-go相关基因(hERG)和人类口腔生物利用度(HOB)。
在拓扑分子图表示阶段,采用图神经网络对药物结构进行原子化建模,以三维学习拓扑分子特征,最终表示ABCD-GGNN。由于原子节点信息在图结构中全局交互,拓扑结构和子结构特征都可以很好地表示和集成。基于ABCD-GGNN的拓扑分子图表示的整体框架如图1所示。
图1. ABCD-GGNN模型图
图的构造是拓扑图表示的核心阶段。假定图表示为G=(V,E),其中V是图节点集,E是图边集。在候选药物的原子级图构建方面。V表示分子中的原子集,E表示分子中化学键集。在每个原子节点的特征初始化方面,作者从相应的SMILES和729个分子描述符中总结了8个原子描述符,分别是原子类型、键数、形式电荷、手性、氢键数、杂化、芳香性和原子质量。每个原子描述符被转换为一个独热向量,并连接起来形成一个39维向量,作为原子特征的初始化。图的邻接矩阵的元素值在0、1、2、3和1.5之间变化,表示键类型:单键(1)、双键(2)、三键(3)和芳香烃(1.5)。
构建分子图后,作者使用门控图神经网络GGNN[2]实现原子节点之间的全局信息交互。GGNN通过带门控递归单元(GRU)的神经网络学习节点表示,从而可以融合来自邻域的信息,丰富自己的表示。节点间的信息融合不断加强,最终可以实现整个拓扑结构的全局信息交互。随着不同分子的拓扑结构表示更新,ABCD-GGNN随后在读出阶段将原子级表示聚合为分子级表示。读出函数如[3]所述设计,旨在反映所有原子节点表示通过平均函数和最大池函数有助于信息聚合的事实,而只有部分由注意机制分配的权重较高的原子节点贡献更多。
子图被认为意味着重要的属性特征,可以进一步提取和增强原始的图表示,特别是对于分子的图表示,其子结构表示分子的支架,这应该意味着许多属性知识。因此,ABCD-GGNN还通过SMILES对编码(pair encoding)算法从分子的SMILES中提取子结构[4]。考虑到不同的子结构对分子表示的贡献是不均衡的,这里作者采用注意力机制来动态调整原始图和每个子图的权重。这样,分子图表示和各种子结构图表示得到了深入的集成。换句话说,候选药物的拓扑图表示得到了极大增强。
此外,ABCD-GGNN还使用XGBoost进行特征筛选与学习。鉴于抗乳腺癌候选药物数据集提供了所有候选药物的729个分子描述符,这是一个相当大的数字。在这里,作者首先使用XGBoost算法来选择计数更多的描述符,然后进一步降低集成分子描述符表示的维数,以实现分子描述符表示读取。XGBoost是一种基于决策树的集成学习算法,它使用梯度提升框架,来选择前50个与属性相关的描述符,以便进一步集成和读取特征。接着,采用注意力机制来动态调整每个描述符的权重。然后,为了进一步整合离散分子描述符表示,以便更好地整合拓扑分子表示,ABCD-GGNN利用全连接层将分子描述符表示的维数减少为39维矢量,从而使由图神经网络学到的表示H1和由XGBoost学到的表示H2具有相同维度。最终得到的表示
H=λH1 (1-λ)H2
其中0<λ<1,图2表明了不同λ值下预测ADMET的精确度值。可见,综合使用基于图神经网络的表示与基于XGBoost的表示,其结果优于仅使用一种表示。当λ=0.6时,模型表现最好。
图2. 不同λ值下的精确度值
结果
作者将ERα值和ADMET特性的预测分别视为一个回归任务和一个二分类任务,使用十折交叉验证,利用所学到的表示H进行预测。可以看出, ABCD-GGNN在这两种预测任务上都优于所有具有代表性的模型。具体来说,在ERα预测任务中,ABCD-GGNN实现了最低的MSE值和最高的R2值,这意味着ABCD-GGNN的预测结果能够以较低的误差更好地拟合预期的ERα值。在ADMET预测任务中,ABCD-GGNN在精度、召回、F1、AUC和AUPR方面取得了最高的性能,并在很大程度上领先于其他模型。
表1. ERα预测结果对比
表2. ADMET预测结果对比
总结
本文提出了ABCD-GGNN表示方法,旨在拓扑地表示抗乳腺癌候选药物的特征,并预测有机化合物的ERα值和ADMET性质。使用排名运算符,可以基于这些重要指标促进药物选择研究。ABCD-GGNN表示方法从拓扑上学习候选药物的隐式结构和亚结构特征,然后将它们与显式离散分子描述符深度集成,以增强分子水平的表示。在作者收集的抗乳腺癌候选药物数据集上进行的大量实验表明,所提出的模型优于所有其他代表性方法。
参考资料
[1] Gao et al., Topology-enhanced molecular graph representation for anti-breast cancer drug selection, BMC Bioinform, 2022
[2] Li et al., Gated graph sequence neural networks, in ICLR, 2016
[3] Gao et al., SMP-graph: Structure-enhanced unsupervised semantic graph representation for precise medical procedure coding on EMRS, in IEEE BIBM, 2021
[4] Feng et al., Predicting the reproductive toxicity of chemicals using ensemble learning methods and molecular fingerprints, Toxicol Lett, 2021
--------- End ---------