IBM | 基于断开提示的逆向合成语言模型

2022-11-28 17:58:51 浏览数 (2)

编译 | 程宁 审稿 | 周鹏

本文介绍一项IBM欧洲研究所的研究工作。作者首次将提示学习用于化合物逆向合成预测,在标注提示断开位置上进行监督学习,训练出的断开感知模型在断开预测方面性能具有一定提升。同时利用自动标注模型对断开感知模型进行扩展,提升了模型的鲁棒性,并通过实验证明了断开感知模型在酶促反应中的有效性。该模型首次使用人类设计的提示改进逆向合成,将专家知识与深度学习有效结合,在序列语言预测上比基线模型提高了39%的准确率。

1

简介

逆向合成法由目标分子出发,将复杂的分子结构逐渐简化,向前一步步推导出所需简单的起始原料。每一步推导目标分子的前体可分为两个部分:一是确定合适的断开位点;二是选择最佳官能团转换。但是断开位点的选择常受到专家领域知识的影响,数据驱动也会具有训练集数据的化学反应偏差。

在计算机辅助化学合成中,结合自然语言处理的深度学习方法具有高准确性、易用性、可扩展性。语言模型能够直接从原始数据中学习化学转化规则。然而,由于数据驱动包含训练集数据的偏差,导致预测的多样性很差,降低了计算机辅助合成的有效性。

因此,本文作者使用提示学习来减少训练集导致的模型偏差。提示学习能够增强人们与人工智能系统交互的可能性,使模型沿着输入提示确定的方向进行推理。作者的贡献如下:

  • 首次在逆向合成任务中通过人或机器标注化学预测,使用基于提示学习的语言模型来减少从训练数据中继承的预测偏差。
  • 引入了指定断开位置的提示,将深度学习算法与该领域经验知识相结合,从而提高预测的反应类别多样性。
  • 利用自动标注模型对断开感知模型进行扩展,提升模型鲁棒性。
  • 验证了模型在酶促反应中的预测性能,证明了模型对于其他反应类型也具有一定作用。

2

方法

2.1 提示生成

断开提示可以是人工标注的,也可以是自动提取的。通过识别化合物中变化的原子和键,从SMILES中自动提取提示,自动提取的提示仅用于模型训练。该提示对应断开位置,通过识别反应物和生成物之间键序不同的原子,在生成物SMILES中进行标记。在确定断开位点后,删除前体和生成物的原子映射,并在化合物的SMILES序列中以[*:1]做标记,如图1所示。作者使用了监督学习对提示生成模型进行训练。

图1 化学反应的处理流程、单步逆向合成与提示断开感知逆向合成

2.2 逆向合成预测

(1) 自动标注提示模型

作者利用监督学习来训练自动标注提示模型,该模型以化合物分子作为输入,以ground truth作为标签,模型能够自动识别化学键断开位置并对其进行标注,如图2(A→C)所示。

(2) 自动标注补全模型

由于用户输入的断开提示可能会有缺失,为处理这种情况,作者引入自动标注补全模型,作为输入和前体预测之间的步骤。该模型通过监督学习进行训练,其输入是将提示标注重新排列组合的化合物,以模拟用户的不完整输入,如图2B所示,输出为对应的具有全部提示标注的分子,如图2(B→C)所示。

(3) 断开感知模型

断开感知模型使用包含提示的分子SMILES序列作为输入(图2C),以该分子的前体(图2D)作为标签进行训练,如图2(C→D)所示。

(4) 排列断开感知模型

排列断开感知模型作为断开感知模型的变体,以提示标注排列组合过的化合物作为输入(图2B),以该分子的ground truth(图2D)作为标签进行训练,如图2(B→D)所示。

图2 以杂环形成为例的实验与训练模型

3

实验

3.1 断开感知模型

作者在Pistachio, USPTO, USPTO50k三种数据集上以断开精度和往返精度为评价标准对断开感知模型进行评估,断开精度反应了模型预测正确键变化的能力,往返精度指的是从预测前体重新生成产物的能力,如图3A、3B所示,断开感知模型在断开精度上优于基线模型Transformer,在所有数据集上平均高出39%。图3C展示了不同标记数量在数据集中所占比例。

此外,如图3A、3B所示,在原子标记个数为4时,两个指标在USPTO50k数据集上都有明显下降,作者分析是由于该数据集中实际并不存在标记个数为4的数据。但在这种情况下,模型仍具有20%左右的精度,这说明该模型能够推广至训练集中没有出现过的数据。

图3 模型性能对比

3.2 评估试剂的影响

对于那些未映射的成分(即未参与实际反应或者没有为生成物提供原子),如溶剂、碱、催化剂等,这些对断开感知模型的预测具有一定干扰性,如图4中第6个预测结果所示。作者进行了两种实验分析,一种是对于断开感知任务,样本中包含全部的成分,另一种样本中排除了那些未映射的成分,结果显示,预测结果与ground truth相符的比例从14%提升至41%。尽管预测结果与ground truth相符的比例有所增加,但是其断开精度和往返精度却与基线模型相差不大。作者认为预测性能的差异是源于未映射成分变量。此外,这对于模型预测影响可以忽略不计,可能是由于训练集数据的化学空间较为稀疏。

图4 断开模型的具体预测结果示例

3.3 自动标注补全模型

为了模拟用户的输入为一组不完整的标注提示,作者将标注进行排列组合,如图2B所示。并以此进行了三种实验。

  1. 利用断开感知模型直接从不完整标注提示的化合物输入进行预测。
  2. 通过自动标注提示模型对不完整标注提示的化合物进行断开标注,然后使用断开感知模型进行预测(图2 B→C、C→D)。
  3. 将不完整标注提示的化合物作为输入,然后使用排列断开感知模型进行预测(图2 B→D)。

其结果如图5所示。上述三种实验的准确率都低于使用完整标注提示化合物的断开感知模型,同时也说明了模型具有一定鲁棒性。

图5 不完整标注提示的实验结果

3.4 逆向合成预测的提示驱动

为研究对于任意断开是否会产生有效的前体集合,作者通过在同一分子上标注不同的断开提示来验证断开感知模型是否能够区分相似的断开位置,如图6所示,在同一分子上进行5种不同的断开标注提示,模型的预测结果存在一定差异。实验结果证明,断开感知模型能够较好地区分相同分子的不同断开位置提示,并预测出不同的前体集合。作者认为模型能够任意指定断开位置,使模型转向可选的反应类别,有助于促进用户与模型的交互,为化学语言建模开辟了新途径。

图6 不同断开位置提示的实验结果

3.5 逆向合成的类别多样性

作者指出断开感知模型同样可以适用于人类不参与交互的场景,比如自动或多步逆向合成预测。经过实验证明,在USPT0数据集上使用经过训练的auto-tag模型标记断开提示,然后使用断开感知模型进行预测,如图7B所示,其可预测的反应类别多样性提高至少2倍。Auto-tag模型的预测结果于真实情况呈现大致相同的分布,如图7A所示。同时作者指出SMILES序列的长度越长,则auto-tag模型的预测性能越差。在SMILES长度为25到100时(覆盖96%数据集),模型的预测误差都在可接受范围内。通过auto-tag模型标注的分子及其前体预测如图7D所示。

图7 USPT0数据集上auto-tag模型实验结果

3.6 酶的催化反应

作者在ECReact数据集上将原子断开提示应用于酶促反应,并通过断开感知模型进行前体预测,扩展了断开感知逆向合成方法。实验表明模型具有79%的平均断开精度,在所有标记原子数量上平均往返精度为52%,证明了模型在酶促反应中的有效性。图8展示了断开感知模型在几个酶促反应上的预测示例。

图8 enyzme测试集上具有不同标记原子数量的酶促反应前体预测示例

4

总结

在这项工作中,作者首次使用了提示学习来减少模型由于训练数据导致的预测偏差,通过实验证明断开感知模型的有效性,相较于基线模型提升了39%的性能。同时该模型还能扩展到酶促反应,具有79%的预测准确率。此外作者利用auto-tag模型对断开感知模型进行了扩展,使其与自动和多步逆向合成预测兼容,提升了预测反应类别的多样性。

参考资料

Thakkar A, Vaucher A, Byekwaso A, Schwaller P, Toniato A, Laino T. Unbiasing Retrosynthesis Language Models with Disconnection Prompts. ChemRxiv. Cambridge: Cambridge Open Engage; 2022

代码

https://github.com/rxn4chemistry/disconnection_aware_retrosynthesis

0 人点赞