李洪林团队发布首个快速高效的Markush结构图像识别系统

2022-11-16 18:16:21 浏览数 (2)

解锁马库什结构,构建“近药空间”。

近日,华东理工大学药学院上海市新药设计重点实验/华东师范大学人工智能新药创智中心李洪林/张凯团队在Briefings in Bioinformatics上发表题为Multi-Modal Chemical Information Reconstruction from Images and Texts for Exploring the Near-Drug Space的文章[1]。

研究团队历时近4年之久,基于多模态学习发展了一种从文本和图像中进行化学信息重建的系统CIRS (Chemical Information Reconstruction System),实现快速高效的Markush结构识别以及其与可变取代基文本的信息重建任务,进而自动提取化学专利中的化学分子结构。该方法是目前唯一一个快速高效的Markush结构图像识别系统,对“近药空间“的构建以及候选新药的设计具有重要意义。

研究背景

发现具有优良生物学效应的新化学实体是新药发现的目的及核心问题。因此,多样性化学空间的探索,特别是类药空间(Drug-like Space)的探索是化学信息学家和药物化学家最关注的技术难点问题。目前可合成的化学真实空间(Real Space)已达到1010(百亿)的级别[2],而科学家初步估算的类药化学空间可能包含1060符合类药五规则的分子。传统的分子虚拟空间构建方法包括枚举法和虚拟库等方法,由于生成的分子多样性、可合成性及成药性不足,上述方法愈发无法满足需求了,随着近年来人工智能(AI)在药物设计中的涉入和计算能力的大幅提升,使得更大化学空间的构建成为可能。但是否构建的化学空间越大越好?答案当然不是!从巨大的化学空间中快速识别出包含活性分子的区域即药效空间(Pharmacological space)才是药物发现的关键所在。

随着网络技术和信息技术的快速发展,文献、专利、网页、图片、生化数据库等各类知识为化学空间和知识图谱构建提供了各种信息来源,其中,专利类文献在制药业和生物技术中始终占据重要地位,这不仅是因为其具有信息披露早数据覆盖面全数据来源可靠的特点,还因为具有可合成性质和针对特定靶点的主要活性候选分子仅在专利中公开[3],而散布在这些药物专利的核心结构周围的药效空间,是具有最大可能发展成为候选药物的 “近药空间”分子(Near-Drug Space)。不同于普通文献数据来源[4],专利文献往往是以一个类属(Genus)化合物发明的通式——马库什(Markush)结构扩大其广泛的保护范围,这在化学领域——特别是化学药物领域尤为重要。因具有极强概括能力,Markush这一独特的结构在化学和生物医药领域被广泛应用。Markush概念实质上是一种简化和概括,以马库什方式撰写的文献和专利权利要求实质上是用简化的方法来描述具有相同或者相似功能的一类结构、设计或者系统[5],而这种简化方法却提供了广泛的法律覆盖范围,因此Markush结构也是生物医药专利研究之热点和专利纠纷主要集中点。

尽管以Markush结构为核心部分,通过组合可变取代基能够衍生出大量性质相似的“近药空间”分子,进而为新药研发提供优质的起点分子。但其可变取代基的复杂性使得马库什结构的检索和识别成为化学信息学领域的一大难题,亦是化学信息学领域几十年来的研究热点。同时,专利文献中Markush结构的绘图风格(原子标签、键描绘风格等)不规范、开放访问数据集匮乏以及传统算法效率较低等问题限制了Markush结构识别相关研究的发展[6]。现有的分子结构识别软件也只是简单的图像分子识别,多不能解决Markush结构中功能基团和R基团的识别,类如image2smiles也仅能识别简单的R基团却不支持特殊的键形式[7]。因此,开发快速高效的Markush结构识别工具,既可以提高化学分子结构数据识别效率以解决该领域难点技术问题,也可为“近药空间”的扩展提供广阔数据来源,进而提高药物发现成功率并降低药物研发成本

研究内容

因专利类文献中涵盖不同形式的化学信息,挖掘不同领域知识之间的联系对提取更为准确的化学信息至关重要。尤其Markush结构图像和可变取代基实体文本具有高度异构性,如何快速高效地融合两个领域知识并完成信息自动提取是化学信息领域的关键挑战之一。CIRS设计了图像处理单元(左)、异构数据生成器(中)和文本处理单元(右)(图1),可用于同时处理专利文献中的Markush结构图像和可变取代基文本并通过二者内在关联规则完成化学信息的重建。

图1 CIRS的框架

该团队开发的系统框架具体流程如下:首先,数据生成器将生成Markush结构图像和原子/键标签(像素级),然后将其作为训练数据输入到图像处理单元。在图像处理单元中使用了分割模块(U-Net3 )和分类模块(YOLO),以便将图像数据中的像素分割成原子、键和电荷并为其分配正确的标签。在右侧的文本处理单元中,采用BiLSTM-CRF模型的完成化学实体识别,以识别文本中的化学实体,识别出的实体则通过建立的结构数据库转化为SMILES格式,最后将这两部分的输出进行融合,通过左侧的原子标签和右侧的实体类型进行化学信息重建,组合出图像及文本中涵盖的化学实体结构。值得一提的是,作为中心模块的数据生成器对生成训练样本的数量和多样性没有严格限制,它可以根据用户需求随机修改分子,因此为图像处理和文本处理单元的泛化性能提供基础,这也是CIRS适用于从大量知识来源中提取化学信息并推广到各类文献中分子结构提取的关键。

在Markush结构图像识别方面,该团队基于异构数据生成器,随机模拟出含有官能团、官能团占位符(R 基)和椒盐噪声等的分子图,进而提高模型的泛化能力。图2显示了生成的分子图像的几个示例,图像主要包含R-基团、官能团、环R键和随机椒盐噪声。

图2 生成的分子图像实例

进一步通过先进算法组合,即语义分割模块(U-Net3 )和分类模块(YOLO)(图3A),完善Markush结构图像识别准确率,其中对分子图像中原子、键型电荷的识别精确度超过98%,同时对Markush结构图像的识别正确率超过97%(图3B)。

图3 CIRS中图像处理单元的语义分割及分类模型(A)及评估结果(B)

此外,识别文本中的化学实体并将其转换为预定义的标签是实现不同领域化学信息融合的基础。该团队通过手工标注克服文本识别训练集匮乏难题,并通过数据增强技术扩充标注数据规模(图4A),采用经典的BiLSTM-CRF模型完成文本描述中的实体识别(图4B),实现Markush结构图像与可变取代基文本描述这两个不同领域化学信息融合,基本解决了取代基文本直接转化为可编辑的结构数据的难点问题(准确率大于97%)(图4C)。

图4 文本信息处理单元中的数据增强规则(A)、模型框架(B)以及模型表现(C)

同时,为了解决文本数据无法转化为结构数据问题,该团队建立了包含取代基结构信息的结构化数据库,实现化学文本直接转换为药物化学家可编辑的化学结构,进而有效地用于构建可扩展的分子结构,从而实现以Markush结构为中心快速构建“近药空间”的分子

最后,为了诠释CIRS能够实现不同领域知识重建并具有在现实场景中进行自动信息提取与重建的潜力,该团队进行了实际案例研究(图5),通过CIRS系统处理专利中的Markush结构图像和取代基实体文本,可获得大量的分子结构来促进近药物分子的生成,并有望为药物化学家构建一个具有重要意义的近药空间。此外,从化学专利中自动提取信息可以更容易地定义专利覆盖范围,从而避免未来药物发现中的化学知识产权冲突。

图5 CIRS从化学专利中自动提取结构实例研究

总结

综上所述,该团队提出了一个多模态化学信息重建系统CIRS,该系统实现了快速高效的马库什结构识别,同时可以自动识别文本中化学实体并转化为结构数据,并通过多模态策略学习信息融合规则,最终实现不同领域知识的化学信息重建。CIRS在探索“近药空间”领域是一个极具潜力的化学信息重建工具,可为“近药分子”生成与优化等任务提供高质量的数据支持。基于CIRS系统,团队现已开展药物专利核心数据库和知识库(如知识图谱)的建设,为实现化学知识的智能检索和近药空间药物设计奠定研究基础。

该工作的共同第一作者是华东理工大学的博士研究生王洁和沈子豪同学,相关算法和软件已申请专利和软件著作权保护。该成果得到了国家自然科学基金等项目的支持。

原文链接:https://doi.org/10.1093/bib/bbac461

参考文献

[1]Jie Wang, Zihao Shen, Yichen Liao, and et al. Multi-Modal Chemical Information Reconstruction from Images and Texts for Exploring the Near-Drug Space. Briefings in Bioinformatics,2022. bbac461.

[2]https://enamine.net/compound-collections/real-compounds/real-space-navigator

[3]Peter G. Markush structure searching by information professionals in the chemical industry – Our views and expectations,World Patent Information, 2013, 35(3): 178-182.

[4]Keenan G, Cronin L. A universal system for digitization and automatic execution of the chemical synthesis literature. Science, 2020, 370(6512): 101-108.

[5]https://www.cas.org/resources/articles/markush-structures-opportunities-and-risks

[6]Seeber F. Patent searches as a complement to literature searches in the life sciences-a 'how-to' tutorial. Nature Protocol, 2007, 2(10): 2418-2428.

[7]Khokhlov I Krasnov L Fedorov M et al. Image2SMILES: Transformer-Based Molecular Optical Recognition Engine. Chemistry–Methods, 2022 ,2, e20210006.

供稿:王洁/沈子豪

校稿:李诗良

编辑:毛丽韫

华东理工大学/上海市新药设计重点实验室/李洪林教授课题组

--------- End ---------

0 人点赞