在大语言模型时代,自然语言将成为人机交互的关键媒介。在生物化学领域,诸如性质预测和分子挖掘等任务至关重要,但在技术上具有挑战性。在自然语言和化学语言中架起分子表达的桥梁可以显著提高这些语言的可解释性和易用性,整合各种来源的化学知识,从而更深入地了解分子。
2024年9月2日,清华大学刘知远老师团队在Bioinformatics上发表文章ChatMol: Interactive Molecular Discovery with Natural Language。
作者提出了ChatMol,利用自然描述和编辑目标分子的语言进行对话式分子设计。ChatMol是一个预训练的分子大语言模型。该模型通过结合实验属性信息、分子空间知识、以及自然语言和化学语言之间的联系,证明了对话式分子设计的有效性。实验结果表明,ChatMol的性能超越了现有模型。
如图1所示,ChatMol在多任务预训练期间将所有具有不同任务前缀的数据混合,在微调期间应用分子映射关联中的插件。在分子设计的每一个训练轮次中,人类用户和智能系统都可以通过化学语言来参考分子,或者通过自然语言来参考化学性质。给定会话历史H(M, T),其中包含分子M1,2,…,p和化学性质描述T1,2,…, q,ChatMol关注研究人员期望智能系统实现的两个主要功能: (1)分子理解:系统需要为H中的分子Mi生成一段性质描述Ti。(2)分子生成:系统还应该生成一个特定的分子Mj满足H中的要求,这可以用自然语言来描述,也可以用相似的分子来描述。由于可能有多个分子与描述相匹配,因此人类用户可以迭代地补充属性描述Tj 1,系统将根据当前的文本描述,生成修改后的分子。
图1 ChatMol结构图
对于传统的文本生成任务,BLEU,ROUGE和METEOR分数被广泛用于衡量预测结果与参考答案的相似性。BLEU分数主要用于评价生成内容的精准率;ROUGE分数主要评价内容的完备性(召回率);METEOR分数通过外部知识来源考虑同义词,主要评价内容的意义相似度。它们也可以应用于分子理解的评价。然而,对于分子生成任务,从分子准确性的角度来看,内容文本相似度并不具有说服力。
对于分子生成,除了使用BLEU分数来衡量文本精度外,作者主要考虑两个方面:匹配率和分子相似度。对于匹配率,要求模型为每个输入生成三个最可能的分子,并计算第一个分子(精确匹配精度)和前三个分子(hit@3精度)的命中频率。对于分子相似性,应用各种指纹系统相似性进行评估,例如Tanimoto相似性。
由于SMILES和自然语言的特征有很大的不同,作者准备了两套编码器和解码器分别对M和T进行处理。每个集合都被设置为一个公共序列到序列(seq2seq)框架,并使用T5模型进行初始化,这是一种被广泛采用的具有220M参数的序列到序列预训练语言模型。在数据准备方面,相应的<M,T>对可以从化学的数据库中获得,其中提供了物质的简短文字介绍。
如果分子名称出现在文本中,可能会导致信息泄露。为了解决这个问题,目标分子的同义词被一般的参考短语取代,比如“分子”。为了进行多回合分子生成,作者基于ChEBI-20创建了一个新的数据集ChEBI-dia。在原始数据集中,用于描述分子M的T通常包含多个句子,描述的顺序从精细结构到整体性质。为了获得多回合文本描述,作者将T分成句子,并颠倒它们的顺序,得到S1,2,…,其中详细信息的数量依次增加。对于第k次训练,有Tk = {S1, S2,…, Sk}。为了得到分子中间结果,作者采用预训练的MolT5-caption2smiles-large模型,自动生成5个候选Mk1,k2,…,对于给定的Tk,随机选择一个作为期望生成的分子Mk,该分子具有RDK指纹相似性,目标是最终答案Mn大于0.5,小于1(即为了避免信息泄露)。这一方法建模了分子映射相关性。
此外,作者过滤掉那些只包含一个对话回合的条目,并删除句子中带有“-”的条目,以避免出现标准化学命名法(例如IUPAC命名法)来直接揭示答案。作者还随机保留一些中间分子与最终答案相似度较低的项,以保持多样性,增强模型的鲁棒性。
为了验证数据集的代表性,作者分析了所有相关分子之间的相似性。RDK分子指纹在训练和测试数据内和数据间的平均相似度均小于0.18;训练集中出现的测试分子不到32%,分子量超过5000g/mol的大分子很少。因此,所涉及的分子范围很广,测试场景具有足够的普遍性。
作者首先进行了流行的预训练范式掩码语言建模(MLM),以确保模型对自然语言和化学语言的基本理解和生成能力。然而,为了处理多模态对话分子设计数据,模型还需要捕获两种语言之间的关联并进行转换。作者使用SciSpacy工具检测文献语料库中的分子实体,然后从PubChem中检索他们的SMILES。给定自然语言片段,分子生成模型需要为依次出现在其中的所有分子生成SMILES表达式。相反,期望分子理解模型生成给定分子的标准名称。通过这种方式,ChatMol以最少的监督建立并行关联。
数据库还可以在下游微调和推断过程中扮演插件的角色。对于生成分子的文本描述,根据模型提示提供了自动注释的实体SMILES字符串。为了避免信息泄露,强制删除提示框中与答案中的分子相同的SMILES字符串。
考虑到分子理解(分子到文本生成)和分子生成(文本到分子生成)是一对相互的任务,而现有的分子SMILES字符串远远超过自然语言中的分子性质描述,ChatMol采用双重学习的框架,这是神经机器翻译中的一种常见机制,以缓解缺乏并行数据的挑战。具体来说,微调后的分子理解模型可以为任何给定的分子生成增强文本描述,并对分子生成训练进行反馈。
注入分子知识是为了深入理解给定的化学语言表达式,生成更合理、更有信息量的自然语言描述。ChatMol使用两种类型的分子知识进行训练。一是属性知识。为此,作者收集了PubChem数据库中实验确定的15种物理和化学性质,包括溶解度、颜色、腐蚀性等。这些性质可以用自然语言直接描述,并为分子理解提供监督信号。二是空间结构知识。分子的空间信息对于理解分子性质至关重要,而SMILES表达式在语言模型中并不能直接表达分子的拓扑结构。为了满足理解分子结构的需要,作者引入了空间相关的预训练任务,使用RDKit工具包来获得输入分子的空间结构。
作者将ChatMol与一些具有代表性的方法进行了比较,如表1和表2所示。在本研究中,分子理解任务上的评测使用不同阈值下的BLEU(BL-2, BL-4),ROUTE(RG-1, RG-2, RG-L)和METEOR(MET)。分子生成采用完全匹配率(EM),前三命中率(hit@3),BLEU,Levenstein距离,以及基于RDK指纹,MACCS指纹和Morgan指纹的相似度进行评估。↑表示数值越高越好,↓表示数值越低越好。结果可见,在分子理解和分子生成任务上,ChatMol相对于现有方法在CheBI和PCdes数据集上均有显著提升,且ChatMol所需的训练步数远少于MolT5。
表1 分子理解:与其他方法对比
表2 分子生成:与其他方法对比
作者设计了消融实验来验证模型设计的有效性。如表3所示,w/o属性(property)、w/o空间(spatial)和w/o映射(mapping)是指在多任务预训练中去除实验属性预测、空间结构预测和分子映射相关性;w/o对话(conversation)是指对话历史中分子的去除;w/o增强(augmentation)是指去除双重增强训练;w/o提示(prompting)是指删除从数据库获得的SMILES提示。ChatMol的所有非完整版本在这两个任务上的表现都更差,这证明了我们的方法的有效性。特别是各个部件都去除后(w/o all,即使用基础的预训练语言模型)得分显著降低,表明桥接多用途子域的能力对于完成会话分子设计至关重要。w/o对话版本证明了迭代修改形式比直接提供整段文本需求更合理。
表3 消融实验
作者还进行了案例分析。如图2所示,输入文本描述,模型给出了对应的回答描述。可见,ChatMol提供了更高质量的分子描述输出,还掌握了一些关键的必需子结构,生成了非常相似的分子,同时提供了比基线模型更简洁的描述。
图2 案例分析
在本文中,作者提出了对话式分子设计模型ChatMol,这是一种利用自然语言描述和编辑目标分子的创新交互范式。作者在本研究中探索两个特定的任务:分子理解和分子生成。为了支持这些任务,作者开发了为会话交互量身定制的数据集ChEBI-dia。ChatMol是一个知识生成模型,有效地连接了分子的化学和自然语言描述,通过整合分子知识和促进不同语言表示之间的交互,提高了准确率和效率,显著降低了训练成本,优于现有方法。这种方法预示着人工智能辅助分子设计的一个有希望的新方向。
参考文献
Zeng et al. ChatMol: Interactive Molecular Discovery with Natural Language. Bioinformatics. 2024