S66
文献:Jan Řezáč, Kevin E. Riley, Pavel Hobza, J. Chem. Theory Comput. 2011, 7, 2427–2438
2011年,Hobza等人又提出了S66数据集,顾名思义,该数据集中含有66个复合物。这些复合物同样分为三类:静电(氢键)主导、色散主导和两者均有,结构如下图所示:
文章中,作者介绍了他们在构建S66数据集时考虑的一些因素:
(1) S66数据集的目的依旧是提供生物分子的相互作用能参考数据,因此数据集中的结构基本都是生物分子中常见的结构单元。
(2) 在相互作用能上,只考虑相互作用大于1.5 kcal/mol的体系,否则在数据统计分析时可能出现较大的偏差。在一个比较好的数据集中,相互作用能最好比较接近。S66数据集中的相互作用能多集中在−4 kcal/mol附近。不过在S66中也含有少量−15到−20 kcal/mol之间的体系,这些体系中含有两个氢键,这在生物体系中也很常见,所以也包含进来了。另外,S66中没有包含带电体系,因为一般阴阳离子的静电相互作用会比普通的弱相互作用大一个数量级。
(3) 相互作用类型要均衡。在S66中,氢键主导的体系有23个,色散主导的体系有23个,其他类型有20个。理想状态下,数据集中三种类型的作用能的和最好相等,这样有利于拟合参数和对方法进行测试。实际无法做到正好相等,S66中三类体系的相互作用能之和约为−205 kcal/mol、−80 kcal/mol和−70 kcal/mol。氢键主导的体系的相互作用能远大于后两类。作者解释到,一方面在第三类体系中,含有较多的色散作用,另一方面,即使在氢键主导的体系中,也存在色散相互作用。DFT-SAPT能量分解得到体系中色散与静电作用的比例是大约是0.86:1。
S66中的能量计算使用了如下公式:
其中,HF能量没有进行外推,而是直接使用了aug-cc-pVQZ基组下的能量。这是完全合理的,因为SCF水平下,使用aug-cc-pVQZ基组所得的能量已经非常接近基组极限了。MP2基组极限的能量使用了aug-cc-pVTZ和aug-cc-pVQZ两点的外推。ΔCCSD(T)是指在小基组下MP2和CCSD(T)之间的能量差。由于计算能力的限制,当时能承受的基组为cc-pVTZ或aug-cc-pVDZ,后者虽然仅为double-zeta基组,但是含有弥散函数。经过测试,aug-cc-pVDZ的表现要稍微好一些,因此选择了aug-cc-pVDZ计算ΔCCSD(T)的值。
为了得到高质量的结构,作者对各体系进行了如下步骤的操作:
(1) 对不清楚最低能量构型的结构使用了SCC-DFT-B方法进行了构象搜索,确定可能的结构。
(2) 用TPSS泛函加色散校正,使用TZVP基组进行结构优化。
(3) RI-MP2/cc-pVTZ水平下进一步优化结构。
(4) 改变单体间的距离,分别为平衡结构的0.9, 0.95, 1.05, 1.1, 1.25, 1.5和2.0倍,由此,每个复合物共8个结构,构成S66×8数据集。
(5) 对每个体系的CCSD(T)/CBS曲线上的前5个点,将能量对距离拟合成4次多项式,计算得到能量最低点的距离,作为S66数据集。因此,S66数据集并不是S66×8的子集。
构建完数据集后,作者对数据集中的体系进行了DFT-SAPT相互作用能分解计算,并测试了一系列波函数方法在计算相互作用能时的表现。关于DFT-SAPT能量分解以及作者所使用的一些波函数方法的变种(如MP2.5、SCS-MP2、DW-MP2、SCS-MI-CCSD、MP2C等等)我们会在以后的推送中向大家介绍。在作者的测试中,SCS-MI-CCSD/CBS的表现是最好的。
作者还将S66与他们之前提出的S22进行了对比:
(1) S66中复合物的数量是S22的三倍,虽然22个结构在很多研究中已经足够用,但如果只想研究某一种类型的相互作用,S22中的结构就可能不够了。
(2) S22中的结构以碱基为主,类型不如S66广泛。在色散相互作用方面,S22以共轭环的堆积结构为主,而在S66中还包含了脂肪结构的色散相互作用。
(3)S66的结合能计算对所有结构使用了相同的基组。
(4) S66中所有结构的获得方式也是一样的。
(5) S66数据集使用了DFT-SAPT方法进行能量分解,能更清楚地知道相互作用的本质。而S22数据集在提出时没有进行该分析。
(6) S66×8数据集在描述解离曲线时比S22×5更好。