今天给大家介绍韩国高级科学技术研究所Jidon Jang等人在Journal of the American Chemical Society上发表的文章“Structure-Based Synthesizability Prediction of Crystals Using Partially Supervised Learning”。通过预测无机材料的合成能力可以加速新材料的发现,传统方法依靠计算热力学稳定性来预测定材料合成性,但考虑因素过于简单,本文中提出了一种基于材料数据库半监督学习的机器学习方法来量化合成概率。通过对positive and unlabeled machine learning (PU learning)的优化,实现图卷积神经网络作为分类器模型输出合成分数(CLscore)。CLscore排名前100的虚拟材料中有71种材料在文献中被证实可合成。
一、研究背景
在过去的几十年里,高性能计算化学已经非常成功地通过基于密度泛函理论(DFT)的大规模高通量虚拟筛选(HTVS),帮助实验发现新的无机晶体材料。最近,数据驱动的机器学习(ML)技术进一步加速了这些计算方法。ML方法通过以比dft更少的计算成本预测材料性能,并通过使用各种生成模型(GMs)在反设计框架中生成具有所需性能的新材料,加速了材料发现。一旦通过计算或数据驱动模型设计出候选材料,下一步就是合成。然而,目前上述所有的晶体材料设计方法,要么忽略了合成的可行性,要么仅仅通过考虑热力学形成能来估计合成性。GMs可以生产具有完全不同结构基元的材料,因此其合成的可行性总体上可能低于简单替代已知材料获得的材料。在药物发现和分子领域,有一种称为合成可及性评分(SAscore)的指标,它基于分子结构来评估合成的可能性。这个度量可与经验丰富的化学家对合成能力的估计相媲美。在各种分子设计研究中,它已经被广泛地用于快速粗略估计有机分子合成的可行性。然而,对于晶体结构,没有这样的模型来评估其合成能力。在本文中,使用部分监督分类模型来预测晶体结构的合成概率。晶体稳定(基台)材料可以产生网络特性,通过相图对基态晶体进行网络分析,可以预测尚未合成的晶体的合成能力。ICSD和MP是常见的晶体数据库,包括实验合成晶体和dft计算虚拟晶体的结构。由于虚拟晶体的合成能力尚未确定,这些数据库只有已经合成的“阳性数据”和尚未被合成的“未标记数据”。为了解决这个问题,论文使用了PU learning来将材料分类为可合成的和不可合成。PU学习技术已成功应用于数据流分类、信息检索、、疾病基因鉴定等存在大量未标记数据且阳性数据比例较小的分类任务。最近,利用基于决策树的分类器实现的PU学习被用于预测二维金属碳化物和氮化物及其前体合成的可能性。
二、模型与方法
2.1 PU Learning(Positive-unlabeled learning)
PU Learning是半监督学习的一个研究方向,指在只有正样本和无标记样板的情况下,训练二分类器。本研究中使用的PU learning是Mordelet等人开发的transductive baggingSVM的变种,采用pu-bagging的方法。Bagging即套袋法,其算法过程如下:
A)从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstrap(可重复抽样)的方法抽取n个训练样本。
B)使用抽样得到的训练集训练模型。
C)重复A和B步骤k次,k个训练集共得到k个模型。
D)计算上述模型的均值作为最后的结果。
2.2 本研究原理
图1. 本研究原理图
从原始样本集中使用Bootstrap(可重复抽样)的方法抽取训练样本,P代表正样本,U代表未标记的样本,N代表负样本,每次迭代从U随机选取与P等量的样本标记为N, 通过当前训练集训练GNN二分类模型,并对剩余未标记数据进行预测。如果未标记的样本很可能是正样本(可合成),分类器预测分类输出接近于1。重复这个过程T次后,通过在不包含该样本的子样本上训练的GNN分类器的预测分数求平均得到每个样本的最终得分。这个平均值被定义为在0到1之间的晶体相似性分数(CLscore) ,使用这个CLscore来量化给定晶体结构的合成能力。
2.3 广义的体图卷积神经网络(CGCNN)框架
如下图所示,晶体图G是一个无向图,它由节点表示原子和边表示晶体中原子之间的连接来定义。与分子图不同,晶体图允许在同一对端点节点之间有多条边,因为晶体图具有周期性。每个节点i用一个特征向量vi表示,对节点i对应的原子的属性进行编码。同理,每条边表示为特征向量到连接原子i和原子j的第k个键。
图2晶体图卷积神经网络的图解
在晶体图上构建的卷积神经网络主要由卷积层和池化层两部分组成。卷积层通过非线性图卷积函数迭代更新原子特征向量Vi与周围原子和键的“卷积”。
经过R次卷积后,网络通过迭代包含其周围环境,自动学习每个原子的特征向量Vi(R)。然后利用池化层生成晶体的总体特征向量Vc,可以用池化函数表示。
除了卷积层和池化层外,还添加了两个深度为L1和L2的全连接隐藏层,以捕捉晶体结构和属性之间的复杂映射。最后,使用输出层连接L2隐藏层来预测目标属性ˆy。
训练是通过最小化预测属性ˆy和DFT计算属性y之间的差异来执行的。整个CGCNN可以看作是一个由权值W参数化的函数f,将晶体C映射到目标属性ˆy。利用反向传播和随机梯度下降(SGD),用DFT计算数据迭代更新权值来解决以下优化问题。
上述卷积函数忽略了邻居之间交互强度的差异,为克服这一问题,重新设计了一个新的卷积函数,其中⊕表示原子和键特征向量的级联,⊙表示元素的乘法,σ表示一个sigmoid函数,Wc, Ws, b分别是第t层的卷积权矩阵、自权矩阵和偏置,g是引入层间非线性耦合的激活函数。
优化后的超参数如下图所示。
表1 卷积神经网络分类器的超参数
三、实验结果
通过评估测试阳性数据的真阳性率来评估模型性能。如果使用CLscore = 0.5作为合成性预测的决策边界,那么87.4%(9356中的8178)已经合成的材料确实被模型预测为可合成。
图3 2015 - 2019年935种新合成材料的晶体相似性评分预测结果
利用随机标记数据建立了PU学习的基线模型进行比较。也就是说,在总共124 515个MP数据点中,没有使用真阳性的46 781个数据点进行训练,而是随机选择46 781个数据点并将其标记为阳性,其余77 734个数据点被视为未标记。该基线模型的性能表明,9356个测试阳性数据点中的4251个被预测为阳性(CLscore > 0.5),真实阳性率为45.4%
图4使用MP数据库随机标记的阳性数据进行训练的基线模型CLscore分布
图5 MP和OQMD数据库中虚拟材料的预测CLscore分布
为了验证模型,在CLscore中将MP中的77734个虚拟数据点按降序排序,并搜索文献,查看是否有前100个可合成虚拟材料中的任何材料被合成。在这100种可合成的虚拟材料中,有71种确实被实验合成并发表在科学论文中。其中,排名前5位的晶体如下图所示(仅列出一种),其MP-id(无ICSD标签)、空间群、CLscore以及VESTA所示的晶体结构,这些虚拟结构的X射线粉末衍射图谱与文献报道的实验结构相吻合。
图6CLsore最高的晶体的mp-id、空间组和x射线粉末衍射图
四、总结
在本文中作者提出的基于材料数据库部分监督学习的机器学习模型通过调整PU learning实现图卷积神经网络作为分类器,输出的CLsore量化晶体合成概率。该模型对材料项目中实验报告的案例(9356种材料)测试集的真阳性预测精度为87.4% (CLscore > 0.5)。并进一步验证该模型,通过预测2015 - 2019年新报道的实验材料的CLsore,使用与2014年底数据库训练的模型,真实阳性率为86.2%。排名前100的高分虚拟材料中有71种材料确实在文献中有过合成。利用所提出的晶体相似度数据驱动指标,高通量虚拟筛选和生成模型可以有效地减少化学搜索空间,提高新晶体材料的开发速度。
代码
https://github.com/kaist-amsg/Synthesizability-PU-CGCNN
参考文献
https://pubs.acs.org/doi/10.1021/jacs.0c07384?ref=pdf