自然·机器智能 | 利用机器学习预测有机金属框架的水稳定性

2022-04-01 11:21:24 浏览数 (1)

发表期刊:自然·机器智能(Nature · Machine Intelligence) 发表日期:2020年11月9日 作 者:Rohit Batra, Carmen Chen, Tania G. Evans, Krista S. Walton and Rampi Ramprasad 翻译:何骁 中科院物理化学研究所 审校:欧高炎 博雅数智 下载原文:请在公众号发送关键词“机器学习有机金属” 下载数据:请登录爱数科(www.idatascience.cn)

摘要

金属有机骨架(MOFs)由于其高度可调节的结构特性,在吸附、分离、传感和催化等领域具有极大的应用潜力。然而,MOFs必须能在水蒸气中保持稳定,才能在工业中得到应用。目前,预测MOFs的水稳定性是十分困难的:一是因为MOFs合成的时间成本高昂,二是因为目前的建模技术无法准确地捕获MOFs水稳定性特征。对此,我们建立了一个机器学习模型,可以根据不同的应用目的或所处环境的水蒸气浓度,迅速且准确地判断MOFs是否稳定。该模型的训练集包括200多个已测量水稳定性的MOFs,并设计了一套全面的化学特征描述符。描述符中的信息包括三类:MOFs的金属节点、有机配体、金属-配体摩尔比。除了为未来的实验筛选水稳定的MOFs候选材料外,我们还从训练好的模型中提取了一些关于MOFs水稳定性的简单化学趋势。本文所述的通用方法,可以基于其他设计标准筛选MOFs。

介绍

金属有机骨架(MOFs)是一种多孔的晶体材料,其在气体分离,储存,催化等领域的应用研究逐年增高。MOFs由有机配体和金属离子或团簇通过配位键自组装形成,具有多孔的三维(3D)晶体结构。MOFs以其易于调节组成结构而闻名——可以对金属、有机连接物、相关官能团或金属配体键进行修饰,以根据不同的应用定制其固有属性。然而,从理论上看,金属离子和有机配体之间存在无限种组合,这使得高效筛选具有需求性能的MOFs变得非常困难。

为了满足工业需求,MOFs的一个关键性能是它的水环境稳定性,因为在很多的工业流程中都无法避免接触到水分,例如气体的分离储存过程。不幸的是,大多数的MOFs(比如, MOF-15和MOF-508)在水蒸气中十分不稳定,这极大阻碍了MOFs的商业化应用。基于过去的实验和理论成果,相关学者也提出了一些MOFs水稳定性的通用化学趋势。金属节点和有机配体间存在强配位键的MOFs是热力学稳定的,若MOFs存在显著的空间位阻和疏水官能团则会使其具有较高的动力学稳定性。近些年中,这些通用规则已经应用于一些水稳定MOFs的合成,包罗镧基的和,锆基的,金属唑啉骨架(MAF)系列和超疏水的氟化MOFs。尽管这些规则很有用,但是需要预先知道MOF的原子排列,并不能用来高效地筛选稳定的MOFs。

因此,在本文中,我们建立了一个可以高效且实时地筛选水稳定MOFs的机器学习模型,如图1所示。我们使用了200多个实验测得的MOFs水稳定性数据集来构建机器学习模型,该模型能够判断的MOF是否水稳定。从每一个有效的分子式单元出发,每个MOF都被指纹编码,由一个化学特征向量所唯一表示,这些特征包含的信息有:金属节点、有机配体、金属离子与配体的摩尔比以及相关的 、 和 位点。以这些 MOF 指纹特征作为参量,构建了两种类型的分类模型,以区分不同MOFs在不同水分浓度下的稳定性。第一个是二类模型,将MOFs区分为稳定的和不稳定的两类;第二个是三类模型,将 MOF 分类为不稳定、动力学稳定或热力学稳定。测试了三种不同的机器学习算法,通过分析学习曲线和混淆矩阵对三种算法进行了评估,选择出一种最适算法,在后续实验中利用其对未知MOFs的水稳定性进行了预测。模型训练结束后,我们使用了一个包含10个样本的数据集对模型进行验证(这10个样本全部发表自2014年以后,Burtch集发表于2014年以前),模型在该样本集上的高效表现表明了我们的模型具有很强的外沿适用性。图1所示流程图的倒数第二步是用于筛选水稳定性未知的新型MOFs,并为将来的MOFs合成实验提供了一个基于水稳定性排序的候选MOFs列表。另外我们还利用开发的机器学习模型和已有的实验数据推导出了水环境稳定MOFs的简单化学规则。例如,若MOFs满足以下条件则其水稳定性通常较强:同时含有大原子半径和较低电离电位的金属离子;或含有较少六元环数量和环状二价节点数量较多的配体。我们的模型除了能够有效筛选具有所需水环境稳定性的MOF之外,随着更多关于MOF水环境稳定性的实验数据产生,这个机器学习模型还可以随之更新优化。

数据准备和机器学习方法

MOFs水稳定性数据集

图2总结了本次工作中使用的MOF水环境稳定性数据集。这个数据集从Burtch等人的综述论文中获得,共包含207个MOFs样本。每一个MOF被分为四种稳定性水平中的一种:稳定(S),高热力学稳定(HK),低热力学稳定(LK)或者不稳定(U)。这个分类的标准是MOFs在不同水蒸气浓度测试(水环境,潮湿环境,干燥环境)所能稳定存在的遇水时间长度(几周,几天,几小时)。MOFs在水中的降解表征手段主要是粉末X射线衍射(powder X-ray diffraction)和布鲁纳-埃米特-特勒表面积测量(Brunauer–Emmett–Teller surface area measurements)。从实际应用的角度来说,MOFs最重要的设计标准是保证其在不降解的情况下所能共存的最大水含量。在化学多样性方面,数据集包含22个不同的金属节点和128个不同的配体(图2中展示了一些例子)。扩展图1中还包含额外的高水稳定性金属数据。此后,我们将此数据集称为Burtch数据集。

值得注意的是,每类MOFs的样本量是有一些不平衡的:在S, HK, LK, U类的MOFs分别有25,118,42和22个。为了减少不同种类的不平衡的影响,尽量减少“positive sample”过多而带来的内隐偏差,我们策略性地将原本四类样本进行了组合。对于二类模型,将S与HK(记为class 1)和U与LK(记为class−1)结合得到两个类别,分别包含143例和64例。这是因为,从分类的角度来看,U类和LK类、S类和HK类之间的界限比U类和S类之间的界限要模糊得多。因此,如果S类的MOF被错误地预测为U,而不是预测为HK时,ML模型的分类表现就应该被认为不佳。对于三类模型,只有U类和LK类被合并在一起,并得出了以下三类:S(记为1) ,HK (记为0) ,LK和U(记为-1)并显示在图3中。从应用的角度来看,这样的分组也是有现实意义的——LK型的MOFs通常无法在工业种应用,因为工业过程中无法避免MOFs与水接触。

除了专门用于机器学习模型开发的Burtch数据集(207个样本)之外,我们还从文献中收集了另外两个数据集。第一个数据集包含了十个已知水稳定性的MOFs(于Burtchs数据集之后发表),这10个样本用于对机器学习模型进行公正的评估。第二个数据集包括88个没有水稳定性测量报告但被发现有其他应用的MOFs,如捕获C2H4或CO2。该数据集将用于筛选可能表现出高水稳定性的候选MOFs。

MOF特征的选取和降维

为了建立精准可靠的机器学习模型,提取出与MOFs水稳定性相关的化学特征是非常重要的。这些特征必须能唯一地表示一种现有MOF并且适用于描述新的MOF。因此根据MOF的一般特点,我们设置了三种化学描述符:(1)金属集,用于捕获金属节点的信息;(2)连接集,用于表示有机配体;(3)摩尔集,用于描述连接单元、、、相对于金属位点的摩尔比例。表1提供了每个集合中包含的描述符的不同子类型及其数量。

从MOF活化配方单元(通常可通过各种经验方法获得,经常在文献中报道)开始,我们提取了它们的组成金属离子、有机配体和摩尔比。金属离子可以使用常用的化学性质(表1)来描述,有机配体被转换为它们相应的正则SMILE字符串来表示(通过SMILE字符串,可以得到从RDKit中获取相应的分子指纹等数据)。同时,基于我们以前编码聚合物的经验,我们决定使用多级次描述符来捕获不同尺度上配体的几何和化学信息。在原子尺度上,描述符同时包含原子的个数以及成键情况(例如,中,和 被定义为三个配位的C(两个单键一个双键)和一个配位的O(双键)以及1个原子(三键))。在稍微大一点的长度尺度上,我们使用了定量构性关系(QSPR)描述符,该描述符常用于化学和生物科学,并可在RDKit-Python库中实现。最后在最高维的尺度上,我们使用了形态描述符,例如最大支链的长度,环之间的最小拓扑距离。关于不同层次描述符的更多细节请参见补充表1和我们之前的工作。在多个金属离子和配体存在的情况下,描述符则通过选取所有单个片段进行加权摩尔平均得到。最后,为了唯一地表示一个MOF,我们添加了四个摩尔比特征,详情可见表1。

为了只保留相关重要特征并简化机器学习过程,我们利用基于线性支持向量机(5折交叉验证)的特征递归消除(RFE)对初始的149维特征集进行了处理。RFE从ML模型本身获得特征的重要性(这里是线性支持向量机模型的系数),并逐步重复删除其中不重要的特征,直到所有特征都遍历了。对于二类和三类模型,REF都增加了模型的精准度,并且将特征维度从149分别降为37和29。二类和三类模型中在RFE降维后的特征集中包含了很多(~25个)公共描述符,这说明降维后的特征也保留了和水稳定性相关的重要特征,也说明本文的降维操作是可信的(完整的特征集在补充表1中提供)。此外,REF处理后的特征集仍然包含多个尺度的特征,这也说明了多尺度描述MOFs的重要性。

机器学习算法

在本工作中,共使用了三种分类算法:支持向量机(SVM),随机森林(RF),梯度提升(GB)。每一种分类算法都训练了两个模型(二类模型和三类模型),且都使用5折交叉验证来调参。三类算法均通过Python中的Scikit-learn库实现。

支持向量机是一种二元的广义线性分类器,它通过最大化某些特殊数据点(称为支持向量)与超平面之间的边界来获得任意两个类(例如稳定或不稳定的MOFs)的超平面或分类边界。SVM通常也可以采用不同的核以获取非线性分类边界,本工作采用了径向基函数(RBF)作为SVM的核函数。通过5折交叉验证,对支持向量机超参数、RBF长度尺度和正则化C参数进行估计,较好地泛化了模型,避免过拟合。

RF和GB都属于集成方法,它们都是ML算法家庭中经典且高效的分类模型。RF是一个决策树的集合,它从一组“弱模型”中对预测进行平均,从而得出总体上更好的预测。本文中RF的主要超参数包括决策树的数量和单个决策树可访问的特征的数量。同样地,GB以分段的方式建立了一组可加性模型,其工作过程中,下一个预测器将与前一个预测器的残差相拟合。本工作中优化的GB超参是预测器的数量。

为了解决类不平衡问题,采用最小化类加权精度的方法对模型进行训练。并使用总体精度、类别加权精度、每个类别的recall、precision和F1 score (recall和precision的调和平均值)来评价ML模型的性能。为了估计模型在未知数据(unseen data)的预测误差,通过改变训练集和测试集的相对大小来生成学习曲线。将训练样本从Burtch集中分离后,剩下的样本构成测试集。此外,对于每一个随机的训练集测试集划分,均使用不同随机种子做了十次的算术平均以获取具有统计意义的测试结果。另一个包含10个最近报道的MOFs数据集不包括在学习过程中,仅用于模型评估。

模型表现和验证

图3给出了二类和三类MOF分类模型的表现。我们分别给出了二类模型和三类模型中表现最好的算法的学习曲线,分别是随机森林(RF,二类),支持向量机(SVM, 三类)。从类加权精度学习曲线中,很明显可以看出,使用RFE降维后特征集(-RFE)训练的模型比使用初始149维特征集(-Full)训练的模型表现更好:二类(RF)最高精度从80提高到83%,三类(SVM)最高精度从64提高到71%。此外,正如预期的那样,不论是用初始特征集(-full)还是降维后特征集(-RFE)进行训练,当训练集包含更多的样本时,二类和三类模型的测试准确性都会增加。对于训练集占数据的90%的情况,测试集中测试样本过少(尤其是-1类),故仅仅将数据放在图3中作为展示。

Precision、Recall和F1-Score是在处理不平衡的分类问题时,尤其需要考虑的重要指标。精确率指是预测为正的样本中有多少是真正的正样本,而召回率是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。F1-Score则是前二者的调和平均值,常被用作不平衡数据的重要度量。由于所有的模型参数都以最大化类加权精度(class weighted accuracy)为目标调整,对于样本量少的类(-1类),其召回率会比精确度高,而对于样本量多的类,则情况相反。这是因为当分类器错误地从样本量少的类中分类一个数据点时,类加权精度度量对分类器的惩罚更大。结果导致分类器学习预测更多属于少数类的情况,从而降低这些情况下的精度。例如,在三类模型中,针对各类的精确度和召回率值按样本量大小排列为60,73(Class 1); 63,66(Class -1); 81,73(Class 0)。

然而,不同类别的recall、precision和F1 score 值都是可以接受的。例如,在两类和三类模型中,样本量最少的类 F1得分分别为76和63%,尽管它们只占总体数据的30和12%。这表明本工作中训练的模型并不偏向于样本量大的类。在图3中,两类和三类模型的示例混淆矩阵也证实了上述讨论的准确性趋势。此外,对于三类模型,可以观察到邻近类较高的误分类率——当预测错误时,类别1和−1分被分类为类别0,而不是彼此(不会将1类误分为-1类,反之亦然)。两种模型的高分类精度、precision和recall,以及三类模型在邻近类中的误分类偏好,表明确实已经训练得到了质量良好的分类模型。

为了进一步验证我们的水稳定性模型的通用性和准确性,我们使用在整个Burtch数据集的207个点上训练的二类和三类模型来预测2014年后报告的10个MOFs的水稳定性。采用与Burtch数据集相同的分类标准来确定这10个MOFs的真实水稳定性值(S, HK, LK或U)。从表2的结果可以看出,这两个模型都表现得很好。二类和三类模型的预测分别有9/10和6/10是正确的,在三类模型中,4个错误的预测中有3个被分类至与其真实类别相近的S级和HK级之间,这是可以接受的。此外,两个模型的稳定性预测是一致的,也就是说,对于二类模型预测了类1 (S或HK)的情况,三类模型也预测了类1 (S)或类0 (HK)。这两个模型都错误地预测了MOF 是稳定的,而我们的文献分析表明它具有LK水稳定性。

从机器学习模型中获得化学内涵

过去的工作已经提出了一些提高MOFs水稳定性的化学趋势,包括提高金属节点的惰性,通过增大配体碱度和使用价态更高的金属来增强金属与配体之间的相互作用,是结构包含更强和更多的金属配体键,以及使MOFs结构具有更高的空间屏蔽。在接下来的文章中,我们将使用已开发的ML方法来挖掘更多这样的化学趋势或见解。为此,我们首先使用两类RF模型确定了最重要的特性。在随机森林模型中,某个特征的相对重要性可以用该特征被用于分类节点时的相对等级(或深度)来定义,因为树顶部的特征会对预测结果占有更大的贡献比例。基于这一思想,扩展数据图4给出了不同特征对MOF水稳定性预测的相对重要性。如预期的那样,金属离子的原子半径和电离势以及配体与金属的比例是非常重要的。除此之外,各种配体的分子量子数(MQNs),环二价节点()或六元环()的数量,氢键受体位点()的数量也是重要的特征。

接下来,利用这些高重要性的特征,我们寻找MOFs中水稳定性的简单化学规则。 如图4中蓝色阴影区域所示,Burtch数据集中含有大原子半径、低电离势的金属离子,以及低MQNS36、高MQNS30的配体的MOFs具有较高的水稳定性。值得关注的是, 当金属离子原子半径大于1.4埃米,金属离子电离势小于7.5 eV, 配体的MQNS36小于0.04、配体的MQNS30大于0.01时,66/75(88%),71/ 82(87%),75/90(83%)和51/55(93%)的MOFs样本是稳定的(S或HK)。此外,当同时考虑两种性质时,22个金属离子原子半径大于1.4 Å,MQNS36小于0.04的,金属离子电离势小于7.5 eV和带有MQNS36小于0.04的MOFs中有21个(95%)是稳定的。扩展数据图5提供了从MOF特征和水稳定性之间的线性相关性得出的类似见解。研究结果为MOFs的水稳定性研究提供了新的思路,并可为未来稳定MOFs的研究提供指导。

寻找新的水稳定性MOFS

在建立了模型所达到的精度水平后,我们接下来使用它们来筛选未知水稳定性的MOF候选者。该测试表明,如果只给出活化的分子式单元,可以轻松地对“新的”MOFs进行即时水稳定性预测。从吸附、分离或催化性能等领域的文献中寻找了88种MOFs(水稳定性在相关文献中未提及),并分别使用二类和三类模型对每一种MOFs进行预测。在表3中,我们列出了排名前五位的候选MOF,根据他们进入第一类的概率排序(即两类模型的S或HK,三类模型的S),所有88个候选MOF的预测结果在补充表2中提供。预测结果说明了我们训练的ML模型如何用于筛选或优先合成MOF,并有效地探索水稳定的MOF。我们注意到,在大多数情况下(88例中有75例),两个模型的预测是一致的。虽然这88个候选MOFs的真正水稳定性性质并非完全未知,但通过文献搜索,我们发现了其中12个候选MOFs的一些信息。其中,ML模型正确识别了两个稳定的MOFs, 和。此外,5/6的HK-MOF在两种模型中被正确预测,而只有1/4的U类MOF被正确分类。虽然这些案例太有限,无法得出统计结论,但它们表明,我们训练的ML模型确实有助于筛选水稳定的MOFs。

对于机器学习模型的使用也应该保持警惕。对88种新型MOFs的模型预测分析表明,它们倾向于水稳定性MOFs。虽然二类模型仅预测了约20%的MOFs是不稳定的,但三类模型预测的新MOFs分别有28%、32%和40%分布在U或LK、HK和S类。 有两个潜在的原因可能导致模型预测的偏差。首先,模型偏向于稳定MOF是因为Burtch数据集中的样本主要由HK和S类构成。第二,88个用于预测的新MOF集虽然是随机搜集的,但是这些文献的发表是存在固有偏差的,也就是说,有一定稳定性的MOF才会被发表,因为不稳定的MOFs通常无法应用。尽管我们缺乏一个真正无偏的数据集来消除这种类偏差,但我们仍要强调:88个新MOF集的分类分布和Burtch数据集匹配的很好,因为Burtch数据集是在2014年时对水稳定性作出的一份无偏综述,在这篇综述发表之前,没有人会想到该数据集会在日后用于机器学习研究。虽然缺乏真正无偏测试数据集使得我们无法彻底解决有偏的问题,我们认为对88个新MOFs的分类预测分布能够较好地与Burtch数据集相吻合。该数据来源于2014年报告该领域无偏见状态的综述文章,没有任何假设该数据集之后会被用于ML研究。除此之外,我们采用了类加权、交叉验证等手段,尽力避免模型中的类偏差。

值得注意的是,因为在这项工作中使用的所有特征(金属,连接单元和摩尔集)可以只使用MOF公式单元导出,不需要先验的结构信息,使这些提出的ML模型通用且易于应用。然而,这也凸显了当前模型的局限性,也就是说,它们不能区分MOF的不同相,或者即使保持相同的金属连接剂摩尔比,配体排列也会发生变化,随之而带来性质上的变化。虽然这个问题可以通过扩展我们的特征集来包括结构信息(例如,孔隙限制直径和密度)来解决,但添加结构特征将限制ML模型的通用性,只适用于那些可以获得精确结构测量的MOFs。因此,我们选择不添加更多基于MOF结构的特性到我们的模型中。

结论

综上所述,我们开发了简单且通用的ML模型来预测MOFs的水稳定性。我们利用包含207个MOFs的数据集训练了两种分类模型(二类和三类)。这些模型可以快速且准确地预测MOFs的水稳定性。在模型的训练中,我们使用了多维度的特征,包括金属结点、有机连接单元以及摩尔比(详情见表1),并在后续的训练中使用了特征递归消除来进行特征降维以提升训练速度和模型精度。我们最终选用了随机森林和支持向量机分别作为二类和三类的代表模型,其模型表现经类加权精度以及类准确度、类召回率进行评估。我们的模型不仅被用于验证10个已知谁稳定性的MOFs的水稳定性,还被用于扫描新的具备高水稳定性的候选MOFs。总之,这项工作可以在将来被用于寻找新的具有一定程度水稳定性的MOFs,同时这项工作也可以加深对水MOFs降解行为的基本理解。

0 人点赞