编·译作者 | 王建民
化学反应可以被归为不同的类别,但在大规模的情况下,确定一个特定的反应属于什么类别并不是一件小事。一项新的研究展示了利用自然语言处理(NLP)的方法对化学反应进行数据驱动的自动分类。
化学反应是一个反应物转化为一种或多种产物的过程。药物化学和制药行业以外的人可能不知道,新药研发项目中,每天都会有新产物被制造出来,其目的是发现能够治疗或治愈疾病的新化学实体。影响决定下一步应该制造什么产物的因素很多,其中一个关键问题是如何选择最合适的合成路线。目前,在不断扩大的药物化学合成工具箱中,有几百种不同类型的反应可供选择。这些合成方法一般被归类为 "人名反应"(如Wittig反应或Buchwald-Hartwig胺化反应),以纪念其发现者,并方便科学家之间的交流。最近,Schwaller等人在Nature Machine Intelligence上发表文章,描述了一种很有前途的机器学习方法,它能够自动对这些有机化学反应进行分类。
以前的先进方法是通过使用适用于分子反应数据库的定制规则来识别和分类反应。这些相对庞大的反应机制规则集通常由专家手工制作,并以SMIRKS格式存储。SMIRKS是一种通用的反应转化语言,学习起来相当复杂。因此,全世界很少有人能写出有意义的、正确的SMIRKS语句。通过自动化分类过程,明确制定规则这一具有挑战性的问题可以交给机器来解决。另外,自动化和机器学习有可能提高分类过程的准确性和鲁棒性。
为了学习哪些化学基团可以区分不同的反应,Schwaller等人使用了神经网络和基于注意力机制的方法,这些方法在自然语言处理中使用。两者,一个序列到序列(seq-2-seq),以及双向编码器表示从Transformers(BERT)模型能够预测和分类化学反应类。
但神经网络需要大量的训练数据才能可靠地工作。虽然企业和公共数据库中都有大量的化学反应数据,但更多的时候,这些数据的存储格式是不一致的。因此,它们与标准的机器读取是不兼容的。Schwaller等人的研究表明,基于transformer的模型可以从非注释的化学反应文本表示的大型数据库中推断出反应类别。因此,他们可以使用无监督学习来结构化反应空间,这可以用来在有限的标记数据中建立准确的反应类分类器。
作者展示了通过他们的BERT模型学习到的表征可以作为反应指纹使用。反应指纹的一个优点是它们不需要原子映射,可以用于非结构化数据。这些反应指纹比以前的方法带来的另一个改进是它们不受参与反应的分子数量的影响。同时,这些指纹在反应分类中的表现优于参考指纹2倍,可以用于有效地搜索和寻找名称反应空间中的类似反应类型。作者利用这一点创建了一个交互式的反应图谱,实现了化学反应的可视化聚类,目的是使其更具可解释性。早期的日一个例子使用Jorner等创建了一个亲核芳香族取代反应的反应图,并能够与相同的亲核原子和离开原子的集群反应。开发这样的工具是一个值得称道的举措,因为接受过有机合成和计算方法培训的化学家的工作描述正在合并到未来药物化学家的定义中。这种合并的过程在过去是有些不平衡的。虽然有机化学家已经被提供了大量的分子设计工具,但帮助计算化学家进行合成化学的工具较少。为了影响药物化学实验室合成哪些分子,计算化学家需要学会与有机化学家说同一种语言。未来,药物化学家需要同时精通计算机辅助分子设计和化学合成。
人工智能和机器学习有望在药物发现中发挥关键作用,但也存在一些开放的挑战。当前深度学习方法的一个关键问题是它们需要大量的数据来学习。药物发现项目的大多数方面都不具备这样的奢侈条件,许多领域给机器学习带来了压倒性的障碍。然而,在反应分类中,可以获得大量的原始数据。Schwwaller方法可以成为一个强大的工具,对数据进行排序和理解。与之前的方法相比,它提供了一个优势,在没有人类(SMIRKS)专家的情况下,它能够自动生成规则。最后,BERT表征可以用来聚类类似的反应类型,提供重要的基础工作,为未来药用化学家努力寻找合成路线以外的经验的新可视化工具的发展铺平了道路。
参考资料
Boström, J. Transformers for future medicinal chemists. Nat Mach Intell (2021).
https://doi.org/10.1038/s42256-021-00299-x
Schwaller, P., Probst, D., Vaucher, A.C. et al. Mapping the space of chemical reactions using attention-based neural networks. Nat Mach Intell (2021).
https://doi.org/10.1038/s42256-020-00284-w