王理团队开发大规模小分子预训练方法“S2DV”用于抗HBV药物研发

2022-03-25 13:52:53 浏览数 (1)

近日,由南通大学信息科学技术学院、南通大学智能信息技术研究中心的王理教授为通讯作者在Briefing in Bioinformatics杂志发表了其团队最新研究成果:该作者提出了“S2DV”方法,这是一个用于对小分子药物进行表示学习的方法。该方法通过对小分子SMILES字符处理,提取小分子结构信息,将其转化为嵌入表达,同时创新性地在预训练过程中结合了Ising模型梯度矫正以提高预训练效果。以大规模的预训练为基础的分类模型能够较为准确地预测小分子化合物HBV抑制率和肝细胞毒性。作者团队还通过湿实验对模型准确率进行了验证并开发出了基于web的小工具用于在线对抗HBV化合物的预测。

背景

在过去的几十年里,由乙型肝炎病毒(HBV)引起的慢性乙型肝炎已成为危害人类健康的最严重疾病之一。创新系统的开发对于研究乙型肝炎的复杂发病机制和减少由药物引起的副作用至关重要。HBV抑制药物已经通过各种各种方法被发现,但是对于其进一步推向市场的过程通常受到常规实验筛选和较慢药物开发的限制。近年来,化合物的虚拟筛选以其强大的筛选速度和准确率逐渐应用于药物研究,并进一步应用于抗HBV药物筛选,从而促进了可靠的潜在抗HBV药物的筛选过程。尽管计算机药物化学取得了进展,但药物大规模筛选仍然是评估药物分子针对特定靶点的药理活性的缓慢而困难的过程。

图 1 S2DV方法的计算工作流程

方法

为了解决以上障碍,作者提出了S2DV方法,使用小分子的SMILES式作为处理化合物任务的输入。SMILES编码空间向量的监督分类模型用于预测小分子对特定目标的活性。在这项工作中,作者将来源于ChEMBL中的小分子化合物的SMILES通过“SMILES to SC”和“SMILES to ECFP”两种方法进行token提取。在后续研究中,也针对两种token提取方法的参数进行了对比和优化,选择适合于不同预测任务的参数对模型进行针对性的训练。

SMILES编码文本由不同的原子和原子结构组成,各种化学结构,如原子、化学键、支链、环结构和离子键,都是通过文本编码来描述的。这些化学结构相互关联,也能够相互区分,形成相似实体的含义。作者团队在这项工作中提出了一种将Ising模型应用于预训练的梯度矫正策略。Ising模型在物理学中常来解释铁磁材料的相变过程中磁场在局部和全局关系中的相互影响,该模型不同组成部分在很大的范围内相互关联,这正是通过局部相互作用构建全局相关矩阵所需要的,能够极大提升梯度矫正的效果。经过验证,该矫正方法应用于化学结构的描述,能够统一局部化学结构和全局结构的微妙关系。

因此,在开发“S2DV”工作过程中,作者提出了一种结合Ising模型梯度矫正的word2vec模型,在多种目标数据集上展示了相较于传统word2vec更好的性能。该模型在预测化合物的HBV抑制率和肝细胞毒性方面具有一定优势,具有良好的筛选潜在抗HBV药物的能力。此外,在小分子信息提取为token的过程中,针对多种信息提取半径、token长度等参数进行了比较,尝试实现模型最佳性能。这项研究不仅展示了该方法在公共数据集中较传统药物表示学习的优势(图2),还展示了其在实际药物细胞实验中的预测能力(图3),这是Ising-word2vec模型的潜力。

图 2 小分子对HBV抑制率(A,B)和肝细胞毒性(C,D)的分类预测结果

图 3 湿实验中Ising-word2vec在小分子药物对HBV抑制率和HepG2毒性分类预测工作

作者还基于对HBV抑制率和肝细胞(HepG2)毒性的训练模型构建了在线预测潜在化合物对HBV抑制作用(IC50)和肝毒性(CC50)的工具(图4),该工具用于抗HBV药物的大规模筛查(http://www.vectorspaceai.cn/S2DV/home).

图 3 基于S2DV的在线预测抗HBV化合物工具

总结

这项研究的重点是人工智能表征学习,将SMILES转化为药物载体,预测抗HBV小分子的活性。进行了湿实验室实验,以测试基于S2DV的Ising-word2vec模型的可靠性。还发布了一个工具,可以通过互联网访问用于潜在抗HBV化合物的筛选。这项通过预测抗HBV药物的化合物性质的工作可以提高抗HBV新药发现的效率。

参考资料

https://academic.oup.com/bib/advance-article/doi/10.1093/bib/bbab593/6513448

代码

https://github.com/NTU-MedAI/S2DV

0 人点赞