编译 | 童永其 审稿 | 王成
本文介绍的是由中国科学院深圳先进技术研究所的Fan Hu、Dongqi Wang等人发表在arXiv上的预印文章《Bridging the gap between target-based and cell-based drug discovery with a graph generative multi-task model》。作者提出了一种基于图的多任务深度学习模型(MATIC)来识别同时具有靶标抑制和细胞活性的化合物。在SARS-CoV-2 数据集上,MATIC模型比传统方法在筛选体内有效化合物方面更具优势。作者探索了模型的可解释性,发现靶标抑制(体外)或细胞活性(体内)任务学习的特征与分子性质相关性和原子功能存在差异。基于这些发现,作者利用基于蒙特卡洛算法的强化学习模型生成具有体外和体内功效的新型多属性化合物。
研究背景
靶向筛选是开发新药的主流方法之一,该方法首先在体外筛选可以抑制靶蛋白的小分子(例如酶学实验),然后在体内验证它们的有效性(例如细胞实验)。理想情况下,体外抑制剂可以穿透细胞膜,在体内抑制靶蛋白,从而修复被疾病破坏的生物学功能。然而,该方法通常会因所选药物在体内的活性不足而失败。
靶向药物在体内的高损耗率可归因于药物暴露不足或体内外环境不同等原因。药物暴露不足通常是由药物分子性质差引起的。ADME(吸收、分布、代谢和排泄)分析用于选择具有所需特性的药物以增加细胞药物暴露,但这种方法可能无法确保药物在体内的疗效。另一个原因是体外纯化的靶酶与体内天然靶酶之间的差异,蛋白质结构可能因体外和体内环境而异,从而改变药物与靶蛋白之间的结合亲和力。另一方面,基于表型的筛选可以直接在细胞中选择有效的化合物,但受到目标反褶积和副作用的困扰。考虑到该过程的复杂性,需要开发一种计算方法来同时进行基于靶点和基于表型的筛选,从而确定在体外和体内均有效的化合物。
针对SARS-CoV-2的药物开发,作者提出一种框架来缩小基于靶标和基于细胞的药物发现之间的差异。如图 1 所示,框架包括两部分:预测器和生成器。预测器是一种基于图的多任务学习模型(MATIC),用于同时预测化合物的体外SARS-CoV-2 3CLpro抑制和体内抗病毒作用。生成模型建立于MATIC模型基础上,联合基于蒙特卡洛算法的强化学习模型生成具有靶点抑制和细胞活性特性的新型化合物。
图1.MATIC框架
结果与讨论
数据搜集与分析
SARS-CoV-2 3CLpro和抗病毒数据来自于发表的文献和公共数据集。作者删除重复项后,共获得7458种化合物。这些化合物中的大多数已经验证了 IC50 或 EC50 值,作者选择20 μM作为阈值来确定阳性和阴性样本(20 μM通常用于在生化筛选中对活性和非活性化合物进行分类的阈值 )。经计算,有 356 种化合物同时具有3CL抑制和抗病毒标签,有2729种化合物具有3CL抑制或抗病毒标签。其余4373种化合物对3CL抑制和抗病毒药物均呈阴性。
作者使用了SwissADME方法进一步分析了这些化合物的多种理化性质。ADME分析用于选择具有所需特性的药物以增加细胞药物暴露。为了评估这种方法的效率,作者模拟了一个筛选过程,通过传统的人工规则过滤器方法从具有3CL抑制(体外)的化合物中选择抗病毒化合物(体内)(图 2A)。具体来说,对于搜集到的数据,在体外能抑制3CL的化合物有269种,基于传统过滤器从 269种化合物中选择了167种:150≤分子量≤500,-0.7≤LogP≤5,-6≤LogS≤0,TPSA≤140。对于选择的167种化合物,只有38种在体内是阳性的,其余为阴性。此外,作者绘制了具有3CL抑制或抗病毒阳性标记化合物的4种性质的分布,以阐明这些化合物之间是否存在明显的差异。如图 2C 所示,3CL 抑制剂和抗病毒化合物的数量大致相等,而两种阳性化合物仅占很小的比例。对于所展示的四种分子特性,3CL抑制剂和抗病毒化合物的分布大多是重叠的。更具体地说,抗病毒化合物的 LogP 值和合成可及性分数略大,表明渗透性更高且更难合成。而 3CL 抑制剂的 LogS 值略大,表明在水中的溶解度较高。总体来说,基于分子特性的传统方法可能无法有效地筛选体内有效化合物。
图2.数据搜集和ADME性质分析
模型训练和性能
为了选择一个基于图的神经网络作为多任务模块的基础模型,作者选用GAT和GROVE在SARS-CoV-2数据集上进行单任务实验。在训练和评价中,选择至少有一个阳性标记的化合物,并按相同的比例选择双阴性化合物,以避免数据不平衡问题。经验证,GAT性能更好,且经GAT处理的原子易于进行可视化,进而更好的提供生物学解释。因此,GAT被用作多任务的基础模块。
在多任务模型方面,作者比较了多任务模型 MMOE和所提出的模型MATIC。MMOE 模型利用三个GAT网络、两个门控单元(Gate)和两个全连接层分别预测两个任务。对于提出的MATIC模型,作者也使用了两个门控单元。Gate1收集3CL的特定信息,共享信息和原始分子输入,得到3CL抑制任务的分子表示向量。Gate2类似地生成用于抗病毒任务的分子表示向量。对于两个门控单元产生的分子表示向量通过前馈神经网络得到体外3CL抑制和体内抗病毒的预测结果。
如表1所示,MATIC 在多数指标上都取得了最佳性能。高召回值表明 MATIC发现了更多的真阳性化合物,这归因于来自不同任务的相关信息可以更好地共享和使用。例如,许多化合物仅显示出3CL抑制作用,但实际上具有抗病毒活性。由于标签缺失而无法用于抗病毒单任务训练,但它们可能在多任务模型的两个任务中都有效且交叉。因此,MATIC 不仅可用于3CL抑制化合物和细胞活性化合物的识别,还可用于目标反褶积。此外,MATIC 取得了比 MMOE 更好的性能,这表明将特定信息和共享信息分开可以确保跨任务的知识转移并保证任务特定特征的完整性。
表1. 3CLpro 和抗病毒数据集的模型性能比较
靶点抑制化合物和细胞活性化合物之间的差异
有研究表明3CLpro抑制作用与抗病毒作用之间没有普遍的相关性,即化合物对3CLpro的高抑制活性不能保证其抗病毒作用。实际上,由于细胞通透性和代谢稳定性等多种原因,在药物开发过程中,化合物的靶点抑制作用和细胞活性之间仍存在差异,仅基于传统 ADME分析可能无法有效地挑选出体内有效的化合物。尽管MATIC模型在预测3CL和抗病毒化合物方面都取得了出色的性能,但黑盒模型的结果可能会增加跟踪错误线索的风险,并且很难优化那些具有高3CL或抗病毒活性的化合物。因此,针对3CL抑制和抗病毒任务,作者探索了通过MATIC将学习的特征映射到分子特性以及相应的重要位点。
用于3CL或抗病毒任务的分子的最终表示向量是来自门、特定信息和共享信息的加权组合。它反映出一个问题,即化合物的相同原子或官能团是否有助于 3CL 和抗病毒任务?由于分子表示是由原子和键的嵌入向量通过注意力机制得到,作者根据分子表示的注意力权重对不同任务的关键原子进行了可视化排序。为了评估模型在预测关键原子方面的性能,作者选择了几种靶向SARS-CoV-2 3CLpro的重要化合物,包括GC376和MI-23。作者进一步选择了另外两种化合物,来自独立测试集1的Z-VAD-FMK和paxlovid(最近报道的一种在COVID-19临床试验中有效的药物)来测试MATIC模型的泛化性。Z-VAD-FMK的C端弹头(氟甲基酮)可以通过亲核攻击稳定地与3CLpro的Cys145残基共价结合。在MATIC模型的预测中,Z-VAD-FMK的3CL抑制被预测为阳性,而抗病毒药物被预测为阴性,这与基本事实一致。3CL任务中弹头明显突出,缬氨酸和丙氨酸侧链被捕获用于抗病毒任务(图 3C)。这两种氨基酸缬氨酸和丙氨酸是疏水的,对应于细胞渗透性。真正的双阳性paxlovid被该模型准确地预测为双阳性。在 3CL任务中,模型对与Cys145及其周围原子形成共价键的腈碳进行了高度加权。paxlovid的最近邻boceprevir与Cys145形成关键共价键的关键区域虽然与 paxlovid大部分不同,但也被该模型捕获。这些结果表明,该模型不仅依赖于局部结构相似性,还可能依赖于全局消息传递,因此表现出良好的泛化性。
图3.重要原子及官能团的可视化
通过多属性分子优化缩小差异
MATIC 模型能够捕获一些有助于3CL和抗病毒任务的重要特征,但是不同的任务侧重于不同的功能组,且存在明显的差异。作者希望通过MATIC模型提取在 3CL 和抗病毒任务中重要的子结构,然后使用这些子结构生成新的多属性分子。为了缩小不同任务之间侧重不同的功能组的差异,作者使用了多种多目标分子优化的方法。作者发现强化学习中简单的添加多种奖励的方法效果不佳,尽管增加了分子多样性的惩罚,但生成的分子仍有相似的结构。如图4A所示,作者根据 MATIC的分布概率从3CL和抗病毒任务中分别提取1000个单一属性子结构,并通过这些子结构组成新的分子。从新的分子中根据MATIC预测的分数选择10000个,利用经过强化学习训练的基于图的变分自动编码器生成符合要求的分子。
图4.强化学习联合MATIC生成新化合物及结果分析图
生成分子的可视化
作者对生成的一些高预测分数的分子进行可视化。如图4C所示,对于分子1,与3CL任务相关的子结构来自GC376,它可以在3CLpro的活性位点与Cys145形成共价键,形成醛形式。分子2含有类似于MI-23的子结构,它可以通过弹头醛的碳与Cys145的硫原子形成共价键。另一方面,对应于分子1和2的抗病毒任务的子结构大大提高了细胞渗透性。化合物1和2的LogP值为2.37 和 3.05,而GC376和MI-23的LogP值为 -2.18和2.51。LogP值越高,化合物的细胞渗透性越好。因此,生成的化合物1和2可能具有较高的3CL 抑制活性,同时保持相当高的渗透性,这使它们能够靶向细胞内的3CL。
结论
基于靶点的药物发现失败率高的一个主要原因是所选的体外有效化合物可能在体内无效。为了应对这一挑战,作者提出了一个框架来解决这个问题,主要贡献如下:首先,作者构建了一个与 SARS-CoV-2 相关的数据集,包含体外和体内的有效化合物;其次,基于该数据集,作者证明了与ADME特性相关的传统方法可能无法准确地选择体内有效化合物;第三,作者提出了一个图多任务深度学习模型MATIC,来预测体外和体内都有效的化合物;最后,作者提出了一种基于强化学习的生成模型来生成新的多属性化合物,从而缩小了基于靶标和基于细胞的药物发现之间的差异。在未来的研究中,作者将进一步探索针对复杂疾病建模和化合物从体外有效到体内有效的理论基础。
参考资料
Hu F, Wang D, Huang H, et al. Bridging the gap between target-based and cell-based drug discovery with a graph generative multi-task model[J]. arXiv preprint arXiv:2208.04944, 2022.
https://doi.org/10.48550/arXiv.2208.04944