蚂蚁金服提新概率图模型GLN,正确率提升8.2%,具备可解释性 | NeurIPS 2019

2019-12-11 17:21:09 浏览数 (2)

作者 | 蚂蚁金服

编辑 | Jane

出品 | AI科技大本营(ID;rgznai100)

【导读】一年一度的国际顶级学术会议NeurIPS 2019将于12月8日至14日在加拿大温哥华举行。作为人工智能和机器学习领域最顶级的盛会之一,每年都会吸引来自全世界的AI大牛、学者、技术爱好者参会。今天为大家推荐的这篇论文是蚂蚁金服的技术专家对入选论文《Retrosynthesis Prediction with Conditional Graph Logic Network》做出的深度解读。

1. 前言

逆合成分析是有机化学中重要的几个问题之一。给定一个产物,该分析过程需要给出可能用来参与生成该产物的反应物。该方向近年来得到了来自化学和计算机科学领域的关注。在这篇文章中,我们提出一个叫做条件图逻辑网络(Conditional Graph Logic Network, GLN)的新模型来解决这个问题。该模型通过图神经网络学习如何应用化学反应的模板,并且隐式地考虑到了结果的可行性以及重要性。为了降低计算代价,我们提出一种层次化的高效采样方法。在标准数据集中,我们的正确率相比于当前最好的方法提升了8.2%,同时我们的方法也能够提供相关的可解释性分析。

2. 简介

逆合成规划的目的是找到一系列反应使得能够产生给定的目标产物。由于该过程是从生成物出发寻找反应物,可能的搜索空间理论上是所有可能的化学反应。所以通常解决该问题需要经验丰富的化学家的创造力。这个规划问题最基本的问题是单步合成,即给定生成物,确立相应的用来反应的反应物。这个基本问题实际上是化学反应预测的逆问题。例如在图1中,反应预测问题通过给定的反应物预测生成物。由于生成物所需要的原子都来自于反应物中,该过程可以视作是一种演绎推理。然而在逆合成反应中,我们需要猜出这些原子的超集,所以也可以视作一种溯因推理。

图 1 化学反应和对应的逆合成模板

在当前基于计算机的方法中,有很大一类是通过选取合适的逆合成模板来完成,但是表达能力有限。另外最近也有一些基于机器翻译技术的方法。不过由于缺乏相应的化学先验,往往需要大量的训练数据才能得到好的效果。

所以在这篇文章中,我们提出了一个新的概率图模型,通过提取逆合成模板的逻辑规则来降低配分函数(partition function)的计算空间。同时我们结合了图神经网络以提升表达能力和泛化能力,以及使用层次化采样加速训练。在下文中,我们首先介绍相关的背景知识,然后提出我们的图模型以及对应的层次化分解。具体的参数化设计以及细节分析可以参考原文。

3. 逆合成模板与逻辑规则

一个化学反应可以看做是从N个反应物

到生成物的过程。在这个过程中产生变化的原子形成了反应中心(reaction center),在计算化学中逆合成模板对应了子图重写规则:

参考图1,我们使用子图

作为 O 的反应中心,同时

对应了生成物的中心。

4. GLN概率图模型

我们用

来表示子图匹配函数。上面模板的对应的逻辑表达是:

由于未知化学反应的不确定性,符合模板规则的化学反应可能发生或不发生。为了对这种不确定性进行建模,我们建立以下的图模型:我们使用

作为模板评分函数,另外我们用

作为反应物打分函数。对应以上两个逻辑表达式,我们有:

于是通过以上两步概率建模,对应的联合条件概率模型变为:

该模型也非常容易通过额外的反应类别信息进行拓展:

图 2 GLN的推断过程。图中三个虚线框分别代表了逆合成模板,反应中心子图以及所有分子的集合。不同颜色代表了不同的逆合成路径。虚线路径代表了可能的没有发现过的逆合成路线。

4.1 分拆

由于可能的模板数量有很多,直接对模板概率进行建模会比较困难。通过重新观察上面的逻辑表达式,我们发现可以进一步分拆模板评分函数为:

同时对应的模板匹配概率变为:

具体来说,我们将采样过程

分拆为先对

采样,再对

进行采样。

4.2 优化

给定化学反应数据集

,我们通过最大似然估计来训练模型参数:

对应的梯度为:

由于用MCMC得到蒙特卡洛梯度比较耗费时间,我们使用importance sampling作为替代。

5 实验

以下我们将呈现论文中的一些主要结果。更多的分析请参考原论文。

图 3标准数据集实验结果

我们在一个包含5万个化学反应的数据集中进行了如上图所示的实验。我们对比了两种不同条件下的实验结果。在表3的上半部分,我们对比了当反应类型不确定情况下的逆合成预测准确率。可以看到我们的方法比第二好的方法提升了8.2%。在表3下半部分,我们也对比了在反应类型作为先验知识的情况下的效果。

图 4 GLN预测的可视化分析

在图4中,我们对模型预测的反应中心进行了可视化的分析。可以看到,模型概率最大输出与真实的反应中心非常吻合。这间接说明了我们的模型学习到了一部分反应过程的知识。

(*本文为AI科技大本营整理文章)

0 人点赞