加州大学提出FS-CAP模型,通过基于配体的小样本学习预测化合物活性

2024-07-30 13:55:06 浏览数 (1)

基于一种或几种现有化合物的已知活性,预测新化合物对生物物理或表型分析的活性是早期药物发现的共同目标。这个问题可以看作是小样本学习的挑战,之前的研究已经开发了一些小样本学习方法来分类化合物的活性和非活性。然而,超越分类和根据预期亲和力对化合物排序的能力更有价值,而这一方面与小样本学习相结合的研究,目前还鲜有涉及。

2024年7月1日,美国加州大学圣地亚哥分校Peter Eckmann等人在Journal of Chemical Information and Modeling上发表文章Ligand-Based Compound Activity Prediction via Few-Shot Learning。

作者提出了一种结合小样本学习的化合物活性预测方法FS-CAP(Few-Shot learning for Compound Activity Prediction)。FS-CAP是一个基于大型生物活性数据集训练的新型神经网络结构,仅基于几种已知化合物对同一检测的活性,就可以预测化合物对训练集之外的化合物检测的活性。模型融合了已知化合物及其活性的特征编码来获取有效信息,并使用编码器来预测具有活性的新化合物。实验证明了FS-CAP相比于现有方法更优秀的性能,可实现准确的分子性质预测。

FS-CAP的架构如图1所示。模型试图在只给定一小组上下文化合物及其对相同靶标的活性的情况下,预测查询化合物对靶标的活性。考虑一个包含K个不同靶标的实验测量活动数据的数据集,对于每个靶标,有一组分子和它们各自的实值分析结果。模型的目的是预测新的分子(称为查询分子)对目标具有的活性。

图1 FS-CAP结构图

在FS-CAP中,分子由其Morgan指纹表示,这是一个二进制向量。与其他方法相比,Morgan指纹计算速度快、简单,而且之前报道过它在各种预测任务上的出色表现。作者还试验了预训练的、基于深度学习的连续和数据驱动描述符作为FS-CAP的分子表征,但发现其性能弱于Morgan指纹。因此,作者选择使用更简单的Morgan指纹。每个上下文分子用与Morgan指纹长度相同的实值向量表示,并由Morgan指纹与已知化合物的实验活度值π的乘积给出,因此指纹向量的每个非零元素都等于π而不是1。

FS-CAP为查询分子训练一个编码器fq,为上下文分子及其相关活动训练另一个编码器fc,即fq(mq)=xq, fc(mi,πi)=ri,其中xq和ri分别是查询和第i个上下文示例的编码表示。因此,fq将查询分子编码为对预测其活性有用的表示xq,而fc从上下文数据中捕获关于决定化合物在靶标中的活性的关键信息。作者使用平均将单个上下文编码ri聚合为单个实值向量xc,该向量可以表示整个上下文集。这保持了排列不变性,因为上下文分子的顺序不应该影响它们的编码。预测器网络g结合查询xq和上下文编码xc来生成查询分子的活动预测。

作者在BindingDB的1754个训练靶标上训练了FS-CAP方法,然后在41个测试目标上进行了评估。对于每种方法,针对不同数量的上下文化合物(1,2,4,8),也就是使用具有适度实验确定活性的少数化合物的知识,来预测其他候选化合物的活性。

作者将FS-CAP与一些具有代表性的方法进行了比较,将预测结果与实际结果的皮尔逊相似度作为对比指标(越高越好)。如表1所示,FS-CAP在针对不同数量的上下文化合物(1,2,4,8)的情况下均超过了其他方法。

表1 与其他方法对比

作者设计了消融实验来验证模型设计的有效性。消融实验在BindingDB中使用8种上下文化合物的所有测试目标的真实值和预测活性之间的相关性,测试了使用单独的查询编码器网络(“基本模型”,base model)或将查询特征直接提供给预测器网络(“无查询编码”,no query encoding)的重要性。使用查询编码器对查询进行独立于目标信息的编码有利于预测。“连接上下文”(concatenated context)意味着向上下文编码器提供一个与相关活动值连接的二进制复合指纹,而不是将两者相乘。这种变化表现出较差的性能,表明通过乘法将上下文复合指纹和活动值标量结合起来是活动预测任务的有用特征。“无上下文”(no context)表示根本没有向模型提供任何上下文,它仅根据查询组合进行活动预测,这种消融的性能进一步降低。

表2 消融实验

作者还进行了案例分析。在这里,作者探索了在BindingDB上训练的模型如何很好地推广到一个完全不同的挑战,也就是在给定一些背景化合物的细胞毒性数据的情况下,预测查询化合物对患者来源的癌细胞系的细胞毒性。本研究使用了Cancer Cell Line Encyclopedia (CCLE)数据集。上下文化合物从所有具有针对给定细胞系活性数据的化合物中随机取样,并用于预测不在上下文集中的查询化合物对同一细胞系的活性。作者测量了跨化合物的预测和实验IC50数据之间的平均相关性,而不是像本文之前几节的研究那样跨靶标预测。这意味着,对于CCLE中的每种药物化合物,使用针对该化合物的测量数据测量了每种细胞系的实际IC50和预测IC50之间的相关性,然后在所有化合物中,对这些相关性做平均。这是为了避免相关性受到化合物活性差异的影响,而能够衡量每种方法根据细胞系做出可变和准确预测的能力。

如表3所示,在这种情况下,FS-CAP在预测细胞毒性方面优于基线方法。虽然在CCLE中测试的化合物数量相对较少,但仅在BindingDB上训练的FS-CAP在预测该数据集中的活性值方面取得了成功,这表明它可以学习到化合物和活性之间的基本关系,这些关系可以在数据集中推广。为了排除观察到的性能是由于每个细胞系灵敏度的简单基线差异造成的可能性,作者测量了一种简单预测上下文活动平均值的方法的性能。该方法与8种上下文化合物的相关性为0.13,表明观察到的FS-CAP和其他小样本学习方法的性能是由于每个细胞系的基线灵敏度之外的因素。

表3 案例分析

作者还评估了FS-CAP和基线方法在新数据集PubChemHTS中预测活性化合物的能力。作者使用在BindingDB上训练的模型进行实验,而没有在PubChemHTS上进行进一步训练。因为PubChemHTS数据是二元的(测定给定浓度的化合物的活性与非活性)。因此,作者没有像BindingDB数据集那样报告Pearson相关系数,而是使用定量预测对每个PubChemHTS检测中的化合物进行排序,并使用其他两个指标评估预测的质量,一个是ROC-AUC,另一个是排名靠前的化合物中真活性的“富集”,作者观察了前0.5%、1%和2%的化合物的富集情况。如表4所示,FS-CAP在ROC-AUC和所有三种富集测量中都优于基线。这表明FS-CAP比基线方法更能预测筛选文库中的化合物活性,因此可以用于筛选化学文库中具有较高活性可能性的化合物,而这些化合物对已知活性较少的测定具有较高的活性。

表4 在PubChemHTS数据集上的结果

本文提出了小样本学习模型FS-CAP,融合了已知化合物及其活性的特征编码来获取有效信息,并使用编码器来预测具有活性的新化合物。实验表明FS-CAP可广泛用于药物发现,其性能超越了现有的方法。FS-CAP有望作为一种工具,利用有限的化合物活性数据,将注意力集中在候选化合物上,这些候选化合物比随机选择的化合物更有可能对感兴趣的目标有活性。因此,它提供了一种在药物发现的早期阶段加速药物发现和降低成本的新方法。探索FS-CAP在其他化合物性能上的应用可能会开辟更多的应用领域。例如,它可以应用于预测候选化合物的药代动力学参数,如生物利用度和半衰期、代谢敏感性和毒性等。

目前FS-CAP实现的局限性,首先是仅使用了简单的Morgan指纹表示和有限表达能力的上下文聚合技术。未来可探索更复杂的分子表示(例如,基于序列或基于图的表示)和应用更复杂的上下文聚合方法,以及进行结合靶标信息的研究,而不仅使用目标信息或上下文化合物,从而进一步提高小样本学习方法预测的准确性。其次,实验分析数据训练的固有局限性,如有限的测试剂量范围或化合物针对特定靶标进行测试的系统性偏差,可能会限制在这些数据集上训练的FS-CAP等小样本学习方法在现实世界药物发现项目中的适用性。

同时,用于训练的数据集的另一个限制是,针对一个靶标的结合数据实际上可能包含多个不同的蛋白口袋。虽然进行更仔细的数据集管理可以缓解这一问题,并且是未来改进的方向,但这并非一个主要的问题,因为实验人员在结合分析和实验测定中,通常会注意到只包括与配体相关的口袋。此外,这个问题只会降低性能,而不会使结果看起来比实际更强,因为预测针对多个口袋的目标的活动比预测单个口袋要困难得多。由于FS-CAP模型的性能已经相当强大,多个口袋的问题似乎不会造成重大影响。

参考文献

Eckmann et al. Ligand-Based Compound Activity Prediction via Few-Shot Learning. J Chem Inf Model. 2024

--------- End ---------

0 人点赞