编译 | 刘名权 审稿 | 夏忻焱
今天给大家介绍来自杨森制药Generative AI Team的Jörg Kurt Wegner等人以及来自英国伦敦帝国理工学院化学工程系CPSE的Ehecatl Antonio del Rio-Chanona共同发表在nature machine intellgence上的一篇文章《A geometric deep learning approach to predict binding conformations of bioactive molecules》。分子优化的关键在于理解配体和靶蛋白之间的相互作用。作者提出了一种能够预测配体和靶蛋白结合构象的几何深度学习方法。具体的,该模型能够学习每一个配体-靶体对的基于距离似然的statical potential。这种potential能够结合全局优化算法重新构建出配体的实验性结合构象。作者提出,同已有的用于对接和筛选任务中的评分函数相比,这种基于距离似然的potential有类似或者更好的效果。
1.介绍
药物设计无疑是一项有挑战的任务,因为在庞大的化学空间中只有小部分分子能和特定的生物靶体结合达到有效的治疗效果。在这样的形势下,若能预先知道生物靶体及其三维结构,可能会有更高的成功率。很大程度上,这样的成功起因于使用一些实验和计算方法来指导分子优化,这些方法能帮助我们更好的理解配体和靶蛋白之间的关键相互作用。
近年来,实验性结构数据的爆发式增长推动了机器学习和人工智能在配体-靶体之间相互作用研究中的应用。例如,机器学习已经成功的被运用到寻找配体能直接结合的蛋白质所在区域的任务中。此外,已经有大量的方法能够根据配体-靶体复合物的三维结构来预测结合亲和度。
依赖于通过实验或者计算方法所得到的配体-靶体复合物的三维结构,大量的人工智能方法被运用到药物发现工作当中。在这里,作者提出了DeepDock网络用于预测配体-靶体的结合构象。这种基于深度学习的模型有两个优点:能考虑大量的分子和对未出现在训练集中的原子组合的进行推测。
2.DeepDock模型
和大多数预测配体结合构象的计算方式不同,DeepDock网络尝试学习出每一个配体-靶蛋白结合体的potential,通过优化potential得到最优结合构象。DeepDock主要负责两项任务:从输入数据中提取特征以及寻找关键的配体-靶蛋白相互作用,如图1所示。
对于靶体,作者直接使用结合位点处分子表面的多边形网格作为数据输入,网格的节点包含了化学和拓扑信息(图1.a)。对于配体,作者将其简单的表示为二维无向图,并使用独热编码表示原子和键的类型(图1.b)。二者经过两个独立的残差图神经网络(Residual GNNs)进行特征提取得到节点特征。
接下来,如图1.c所示,作者将每一个配体节点的特征和每一个靶体节点的特征进行拼接,然后将其输入到混合密度神经网络(mixture density network,MDN)中,学习到每一个配体-靶体原子对之间距离的概率分布。最后将所有的配体-靶体对距离似然的负对数进行求和得到potential。
图1. DeepDock模型
3.实验结果
基于距离似然的potential可作为精度评分函数
作者使用CASF-2016基线来评估potential是否可以作为优化算法的精度评分函数。主要考虑了docking power和screening power这两项指标。结果如图2所示。可以看到,DeepDock在Top 1、Top 2、Top 3 (或者是1%、5%、10%)的成功率排名都比较靠前,验证了将potential作为评分函数的有效性。此外,作者指出DeepDock模型并不适用于预测结合亲和力等任务,因此只考虑了和本研究相关的docking power和screening power任务。
图2. 评分函数在多种任务上的成功率比较
基于距离似然的potential能重构出实验性结合构象
DeepDock的优势之一在于其很容易结合优化算法来发现最优配体构象。优化算法对分子中的可旋转键进行调整,同时对整个配体进行旋转和平移,直到找到最适合于结合口袋的构象(图3.a)。这里,作者使用的是差分进化算法(differential evolution,DE)。最终,该模型在CASF-2016核心数据验证集上取得87%的精度,在额外的分子验证集上取得67%的精度。有趣的是,对于大部分可旋转键数量超过10的化合物来说,优化的效果很差(图3.g-h),作者给出的解释是由于自由度过高导致优化算法效率太低。一般来说,如果优化正确完成,所生成的构象会非常接近真实姿势(图3.i-j)。
图3. 生成结合构象
4.总结
作者提出了用于预测配体结合构象的几何神经网络方法。与其它one-fits-all评分函数不同,该网络为每个配体-靶体复合物学习出一个potential并用它来寻找最优几何构象。作者演示了这种potential可以作为分子对接和虚拟筛选任务中的评分函数。最后,作者展示了这种potential可以使用全局优化算法进行最小化。综上所述,作者证明了几何深度学习方法可用于预测配体和它的生物活性靶体的结合构象。作者预料,几何深度学习的进一步发展将会显著改善和加速基于结构的虚拟筛选任务。
参考资料
Méndez-Lucio, O., Ahmad, M., del Rio-Chanona, E.A. et al. A geometric deep learning approach to predict binding conformations of bioactive molecules. Nat Mach Intell (2021).
https://doi.org/10.1038/s42256-021-00409-9