Curr Opin Struc Biol|小分子通用力场的最新进展

2022-02-06 09:20:08 浏览数 (1)

2021年12月20日,来自美国匹兹堡大学药学院的Junmei Wang和德克萨斯大学生物医学工程系的Pengyu Ren等人在Curr Opin Struc Biol合作发表综述“小分子通用力场的最新进展”。

亮点

• 在准确性和化学空间覆盖率方面取得了持续改进。

• 自动化工具包有助于分配键合和非键合参数。

• 机器学习方法已应用于力场参数化。

• 正在积极开发可极化力场,以进行更广泛的应用。

以下是该综述内容。

摘要

计算硬件和自由能算法的最新进展,使受体和小分子配体之间结合相互作用的分子模拟得到更广泛的应用。在过去几年(2018-2020年)中,小分子的基本分子力学力场(FF)在准确性、用户友好性和速度方面也取得了进步。除了在主流的经典附加力场和可极化力场中扩展类配体分子的化学空间覆盖范围外,研究人员还提出了新的电荷模型以提高准确性和可转移性,应用了避免预定义原子类型的新化学感知,并开发了包括机器学习方法的新自动参数化工具包,以方便用户使用。

前言

分子模拟在生物化学和生物物理科学中发挥了重要作用。它们捕捉了生物分子(蛋白质、核酸、碳水化合物等)在原子级和精细时间分辨率下与配体、溶剂、共溶剂和其他分子相互作用的结构特征和动态行为。特别是在现代药物发现领域,计算机模拟通常用于从巨大的化合物池中虚拟筛选出对特定药物靶点有活性的潜在化合物,通常通过计算蛋白质配体结合自由能来识别和优化先导化合物。

分子模拟的这种重要应用是非常理想化的,目前仍然面临许多挑战。分子模拟研究和基于结构的合理药物设计成功的关键是分子力学力场(MMFF)的利用质量。MMFF由一组简单函数组成,用于键合项(键、角度、二面角、非正常二面角)、非键合库仑和范德瓦尔(VDW)相互作用和相关参数,这些函数可以计算势能和力。

在众多MMFF中,以下四个家族是生物系统原子分子动力学(MD)模拟中最受欢迎的:能量精炼辅助模型构建(AMBER)、哈佛大分子力学化学(CHARMM)、液体模拟优化潜力(OPLS)和格罗宁根分子模拟(GROMOS)。这些力场家族通常包括蛋白质、核酸、脂类和碳水化合物的特定力场。它们还包括各种小分子的通用力场,如通用AMBER力场(GAFF)、CHARMM通用力场(CGenFF),以及最近OPLS和GROMOS系列中的扩展参数。传统上将MMFF分组到一个家族中,主要根据其非键合项,特别是VDW参数。因此,尽管普通力场的名称与它起源的力场不同,但根据这一传统,它仍然属于同一个家族。Nerenberg和Head-Gordon的最近评论总结了2018年之前蛋白质、核酸和小分子全原子生物分子力场的发展。本综述重点关注2018年至2020年小分子通用力场的进展情况,首先总结了经典的附加力场,然后是可极化力场(图1)。

图1 本文回顾的小分子力场的主题

热门小分子力场大升级

过去两年间广泛使用的小分子力场中最显著的更新是 OPLS3e 的发布。在之前的 OPLS 系列的基础上,OPLS3e 进一步扩展了与类药化合物相关的键、角度和扭转项的广泛参数。它还集成了一种特定于配体的方法来动态分配原子电荷。正如 CGenFF 所做的那样,电荷模型包括以离原子为中心的虚拟站点,用于孤对和 sigma 孔的电荷分布。改进的参数可转移性导致在小分子构象能量分布、溶剂化自由能和受体-配体结合自由能方面的性能得到改善。此力场在商业Schrodinger软件套件中实现。

自2015年以来,第二代GAFF(GAFF2)的参数稳步扩展,可以通过AmberTools免费获取。最初,GAFF 和 GAFF2 是利用 RESP(受限静电势)方法开发的,为原子分配电荷,这符合HF/6-31G* 从头计算的静电势,与 AMBER 蛋白力场的协议相同。但在实践中,GAFF/GAFF2 用户更喜欢快速半经验的 AM1-BCC 模型来获得原子部分电荷,因为避免了从头计算。最近,He等人调整了 GAFF2 原始 AM1-BCC 模型中的键电荷校正 (BCC) 项,计算了400 多种有机溶质的水合自由能的平均无符号误差 (MUE)仅为 0.37 kcal/mol。这种新版本的电荷模型(称为ABCG2)结合GAFF2参数,很好地计算了各种有机溶剂中近900对各种有机溶质的溶剂化自由能,其介电常数从1.8到37.2不等(图2) ,而相应的MUE 仅为 0.51 kcal/mol。该结果证明了新推导出的ABCG2模型处理不同介电环境的能力,这对于定量预测转移自由能和结合自由能很重要。

尽管CGenFF和GROMOS没有宣布小分子参数的重大更新,但出现了新的工具包(如下所述)可以促进力场参数化。

图2 895 对各种中性有机溶质在不同中性有机溶剂中的计算溶剂化自由能与其实验数据。溶剂的介电常数(ε)范围为 1.8 至 37.2:A,ε <2.0;B、epsilon 在 2.0 到 3.0 之间;C,epsilon 在 3.0 到 10.0 之间;D,epsilon 介于 10.0 和 40.0 之间。使用热力学积分(TI)方法进行了计算,用ABCG2电荷模型和GAFF2参数描述了溶剂和溶质分子。RMSE:均方根误差;MUE:平均无符号误差;MSE:平均符号误差;PI:预测指数;R:皮尔逊相关系数;n:数据数量。

促进参数化的自动化工具包

力场参数化是一个繁琐而耗时的过程,通常涉及人类专家的决定。为了减轻为非专家用户开发缺失参数的负担,人们研究开发了自动化工具包,以从量子力学(QM)数据中生成特定参数(通常是键合项或部分电荷),例如GAFF/GAFF2的PARMSCAN和Antechamber,AMBER的Paramfit,CGenFF的ffTK,GROMOS的ATB,OPLS-AA的LigParGen,以及可极化FF AMOEBA的Polytype。最近,Nash等人提出了一个Java工具ForceGen,通过进行振动频率分析来提取键和角度的力常数和平衡值,输出采用Gromacs拓扑格式化。MacKerell实验室开发了FFParam包,以促进CGenFF和CHARMM Drude可极化力场的参数化过程。Horton等人开发了一个工具包QUBEKit(量子机械定制套件),直接从特定小分子的量子力学中推导出FF参数。

力场参数化中的机器学习方法

最近,为了提高效率,力场参数化采用了机器学习(ML)方法。Galvelis等人结合了通用FF和几个神经网络电位(NNP)来改进二面角参数。他们证明,与使用密度泛函理论(DFT)计算的等效程序相比,使用torchANIs-ANI-1x NNP可以在更短的时间内对小分子进行参数化。然而,在MMFF参数化中应用NNP需要进行广泛评估。

Martin等人使用ML算法快速分配筛选分子的部分电荷,这些分子被编码为循环无向图,原子与顶点和边缘键相对应。研究人员开发了一个网络工具ContraDRG,使用随机森林模型分配部分电荷。同样,Wang等人最近开发了一种深度学习算法,通过图形卷积网络预测基于QM的原子电荷。

Wilkins等人使用高精度的QM LR-CCSD理论计算了7000多个小有机分子(最多包含7个重原子)的静态偶极极化率张量,并使用名为SA-GPR的ML方法准确预测LR-CCSD分子极化率,计算成本可忽略不计。分子偶极子极化率是下文讨论的一些可极化力场中的一个重要参数。

不依赖原子类型的新化学感知

通常,为分子分配适当的力场参数的过程是基于一组预定义的原子类型完成的。开放力场联盟致力于通过标准化学子结构查询自动识别部分并分配每种类型的参数的方法。Polytype之前使用这种方法来促进AMOEBA FF的自动参数分配。通过行业标准的SMARTS语言及其SMIRKS扩展对化学模式中的特定原子进行了识别。从GAFF原子类型和参数开始,实现了新的FF格式,并命名为SMIRKS Native Open Force Field(SMIRNOFF)。获得的参数定义文件仅包含大约300行,但可以覆盖500万个类药分子。与GAFF相比,获得的力场(名为SMIRNOFF99Frosst)在小分子的水合自由能和有机本体液体的测试性能上表现出相似的准确性。

最近开发的另一种在不依赖原子类型概念的情况下确定力场扭转参数的方法是H-TEQ(扭转能量化的超共轭)。它基于以下化学原理和假设:(1)扭转相互作用由超共轭、静电和立体效应的组合控制;(2)超共轭项可以取代传统的扭转形式,以改善扭转剖面;(3)超共轭项可以从一个简单的化学性质——沿扭转原子的电负性中导出。H-TEQ的作者发现,他们提出的超共轭项参数可以方便地从中心和相邻原子的电负性值中获得,只需一些相关规则,不需要任何原子类型。人们使用这种方法,可以为感兴趣的分子实时导出原子电荷、电负性,从而推导超共轭项。H-TEQ对再现不同有机分子的QM扭转剖面和共轭类药物分子的扭转剖面方面的表现与GAFF相当。

可极化力场

当将同一组固定部分电荷应用于不同的环境中时,经典的附加力场模型仍然存在问题。其中电荷分布预计将发生变化,例如气体到水溶液,溶剂到蛋白质腔,透膜性和异质界面。在改进静电模型和解决附加模型中缺乏极化的问题方面,研究人员做出了越来越多的努力。Inakollu等人最近回顾了可极化力场,并深入讨论了难以用纯附加力场进行良好建模的关键相互作用和特殊情况。对可极化力场算法和最近在各种生物系统上取得的成功也在别处进行了讨论和深入回顾。目前,应用于常见有机分子的经验极化模型可以分为四类:波动电荷、Drude振荡器、高斯静电和诱导偶极子。然而,波动电荷模型过去几年并未得到积极发展。因此,本综述不讨论这个问题。

Drude振荡器方法通过谐波弹簧将带电虚拟粒子(Drude振荡器)连接到每个可极化原子上,从而引入了显式极化。通过优化Drude粒子相对于固定原子核的位置,原子偶极可以根据周围的电场而变化。小分子(包括烷烃、醚、酒精、酰胺、芳香剂、含硫化合物、酮、醛以及卤代乙烷和苯)的CHARMM Drude振荡器模型在其他地方进行了更深入的回顾。离子尤其容易受到极化效应的影响,单价离子以及分子离子,如氨和衍生物、咪唑、鸟苷、醋酸甲酯、甲硫代酸酯、苯甲酯,之前曾用CHARMM进行参数化。研究优化了可极化Drude离子的参数,使其与实验中中性盐的无水合作用能量保持一致,同时为单价离子生成准确的能量和几何形状。这是对CHARMM之前的非极化离子模型的改进。

高斯静电模型(GEM)和高斯多极模型(GMM)利用具有高斯函数的电荷密度连续表示来模拟极化和电荷渗透效应。AMBER力场联盟开发了一个可极化高斯多极(pGM)模型,该模型采用高斯函数或其导数来表示原子多极,以实现更高效的静电。另一个独特的基于ML的多体势是MB-pol模型,该模型在水及其与离子和CH4等相互作用方面显示出优异的效果。

AMOEBA可极化力场在原子位点上采用诱导偶极子来模拟极化。此外,研究还描述了一个名为Polytype的自动化程序,为AMOEBA生成小分子参数。更高版本的Polytype 2目前正在开发中,包括其他功能,如扭转拟合的碎片、环形褶皱(扭转参数化),以及自动VDW参数化和2D扭转-扭转校正映射。研究还实现了扭转参数化的分子碎片化器,以显著缩短必要的从头计算时间。AMOEBA已成功应用于蛋白质配体结合自由能计算,通常配体包含许多环,如主客体系统。Polytype 已被用于推导有机氯化合物、IN17 衍生物以抑制 MELK(许多含环化合物)、含有磷酸基团和氟化基团的 ALDOLASE 抑制剂、ATP 和 ADP的参数。一系列有机小分子也在隐性溶剂中得到验证,产生高质量的实验性无水合能。

最近研究对 AMOEBA 功能形式进行了改进。这种新一代力场,AMOEBA ,包括新的电荷渗透、电荷转移和几何相关的电荷通量项。一系列有机小分子也在隐式溶剂中得到了验证,产生了高质量的实验无水合作用能量。最近对AMOEBA功能表单进行了改进。新一代力场AMOEBA ,包括了新的电荷渗透、电荷转移和几何相关的电荷通量术语。它推导了烷烃、炔烃、胺、醇、二氧基、硫化物、卤化物、酮、羧酸酯、酰胺、酸酐、草酸草酸酯、丙二酸、酰亚胺、叠氮化物、硝基、氨基酸、亚砜、硫氰酸盐、磷酸盐、苯衍生物的电荷通量参数。

通用MMFF开发中的潜在问题

准确性、效率、可转移性、一致推导力场参数的完整性,以及使用多个力场来描述系统时力场之间的兼容性,是衡量小分子MMFF成功与否的主要因素。与前两个指标不同,可转移性、完整性、与伴随力场(生物分子FF、脂质FF、水和离子模型等)的兼容性有时被忽视。对MMFF及其变体的批判性评估需要付出巨大努力。力场变体可能会通过重新参数化来提高准确性或效率,对整个力场的完整性、可转移性和兼容性产生不利影响。当非键合项更改且训练集数据有限时,可能会发生这种“不需要”的结果。因此,系统评估力场变体对于保持或改善由五个指标衡量的通用MMFF性能至关重要。

结语和展望

在过去两年里,我们见证了有机分子通用力场发展的重大进展,这反过来又提高了热力学预测的准确性。机器学习算法越来越多地应用于力场开发,特别是在高质量的部分电荷分配中。ANI-1x表示的基于人工神经网络的电位可用于高效检测不良力场参数,尽管目前它们可能无法发挥高级从头模型的作用来生成用于MMFF参数化的参考数据。

高级力场,如适用于小分子的可极化力场,也在各种应用中取得了振奋人心的成功。由于对极化进行了明确处理,高级力场的参数化得益于在气相中直接使用量子力学分子特性。尽管如此,额外的物理术语和参数需要更多数据和基于大数据的更复杂的参数化方法。强大而自动的参数化工具对于拓展高级力场对小分子的应用至关重要。

参考资料

He X, Walker B, Man VH, Ren P, Wang J. Recent progress in general force fields of small molecules. Curr Opin Struct Biol. 2021 Dec 20;72:187-193. doi: 10.1016/j.sbi.2021.11.011.

----------- End -----------

0 人点赞