蚂蚁金服提新概率图模型GLN，正确率提升8.2%，具备可解释性

作者 | 蚂蚁金服

编辑 | Jane

出品 | AI科技大本营（ID；rgznai100）

【导读】一年一度的国际顶级学术会议NeurIPS 2019将于12月8日至14日在加拿大温哥华举行。作为人工智能和机器学习领域最顶级的盛会之一，每年都会吸引来自全世界的AI大牛、学者、技术爱好者参会。今天为大家推荐的这篇论文是蚂蚁金服的技术专家对入选论文《Retrosynthesis Prediction with Conditional Graph Logic Network》做出的深度解读。

1. 前言

逆合成分析是有机化学中重要的几个问题之一。给定一个产物，该分析过程需要给出可能用来参与生成该产物的反应物。该方向近年来得到了来自化学和计算机科学领域的关注。在这篇文章中，我们提出一个叫做条件图逻辑网络(Conditional Graph Logic Network, GLN)的新模型来解决这个问题。该模型通过图神经网络学习如何应用化学反应的模板，并且隐式地考虑到了结果的可行性以及重要性。为了降低计算代价，我们提出一种层次化的高效采样方法。在标准数据集中，我们的正确率相比于当前最好的方法提升了8.2%，同时我们的方法也能够提供相关的可解释性分析。

2. 简介

逆合成规划的目的是找到一系列反应使得能够产生给定的目标产物。由于该过程是从生成物出发寻找反应物，可能的搜索空间理论上是所有可能的化学反应。所以通常解决该问题需要经验丰富的化学家的创造力。这个规划问题最基本的问题是单步合成，即给定生成物，确立相应的用来反应的反应物。这个基本问题实际上是化学反应预测的逆问题。例如在图1中，反应预测问题通过给定的反应物预测生成物。由于生成物所需要的原子都来自于反应物中，该过程可以视作是一种演绎推理。然而在逆合成反应中，我们需要猜出这些原子的超集，所以也可以视作一种溯因推理。

图 1 化学反应和对应的逆合成模板

在当前基于计算机的方法中，有很大一类是通过选取合适的逆合成模板来完成，但是表达能力有限。另外最近也有一些基于机器翻译技术的方法。不过由于缺乏相应的化学先验，往往需要大量的训练数据才能得到好的效果。

所以在这篇文章中，我们提出了一个新的概率图模型，通过提取逆合成模板的逻辑规则来降低配分函数(partition function)的计算空间。同时我们结合了图神经网络以提升表达能力和泛化能力，以及使用层次化采样加速训练。在下文中，我们首先介绍相关的背景知识，然后提出我们的图模型以及对应的层次化分解。具体的参数化设计以及细节分析可以参考原文。

3. 逆合成模板与逻辑规则

一个化学反应可以看做是从N个反应物