Chemical Science | 通过异构网络中的深度学习对已知药物进行靶标识别

2021-01-29 08:03:50 浏览数 (1)

作者 | 钟玥

单位 | 厦门大学

研究方向 | 生物序列分析


今天给大家介绍的是2020年1月在Chemical Science上发表的论文“Target identification among known drugs by deep learning from heterogeneous networks”。在不了解完整的药物靶标信息的情况下,开发有效的药物是一个巨大的挑战。本研究为药物靶标识别提供了一个功能强大的基于网络的深度学习方法:deepDTnet,以加速药物的重新利用,减少药物开发中的翻译鸿沟。

1

研究背景

研究表明:制药公司开发经美国食品药品监督管理局(FDA)批准的新药物,其平均成本从2003年8亿美元上升到2015年26亿美元。药物开发成本增加的主要因素之一是随机对照试验的高失败率,这是昂贵且费时的。药物发现范例中“一种基因,一种药物,一种疾病”的经典假设可能是造成药物开发成功率低原因。在没有事先了解完整的药物靶标信息(即药物的分子“杂泛性”)的情况下,由于存在非预期的治疗效果或多种药物靶标间的相互作用导致脱靶毒性和次优疗效,使得大量药物的临床试验面临失败。

鉴定已知药物分子的靶标对于提高疗效和最小化临床试验中的副作用至关重要。然而,实验确定药物与靶标的相互作用既昂贵又费时。在这篇文章中,作者开发了一种基于网络的深度学习方法,称为deepDTnet,用于计算识别已知药物分子的靶标。deepDTnet嵌入了15种类型的网络,包括化学、基因组、表型和细胞网络,通过学习药物和靶标的低维但信息量丰富的载体表示来生成生物学和药理学相关的特征。

2

方法

deepDTnet包含两个关键步骤:(1)将深度神经网络算法应用于网络嵌入,该算法将网络中的每个顶点嵌入到低维向量空间中;(2)由于缺乏公开可用的负样本,作者将PU矩阵补全算法作为用于预测新型药物与靶标相互作用的向量空间的投影方案。

图1说明了deepDTnet的详细流程。为了捕获丰富的语义信息,作者利用网络嵌入从网络中提取低维特征。从此过程获得的低维向量会编码异构药物-靶标-疾病网络中每种药物(或靶标)节点的相关生物学特性、关联信息和拓扑背景。

图1 deepDTnet的工作流程图

2.1构建异构网络

药物-靶标网络

药物-靶标关联信息来自数据库DrugBank(v4.3)、Therapeutic Target Database(TDD)和PharmGKB。仅使用满足以下三个标准的药物与靶标相互作用:(i)人体靶标由唯一的UniProt登录号表示;(ii)该靶标在UniProt数据库中被标记为“已审核”(2018年12月);(iii)结合亲和力小于10 。

在5680种药物-靶标相互作用中,文章使用了732种FDA批准的药物和1178种独特的人类靶标(蛋白质)。外部验证集来自数据库DrugCentral。

人类蛋白质-蛋白质相互作用组(PPI)

作者从15个生物信息学和系统生物学数据库中收集了具有多重实验证据的PPI数据。经过筛查,这项研究中使用的最终人类蛋白质相互作用蛋白质组16133个,这些PPI连接1915种独特的药物靶标编码基因产物。

药物相互作用(DDI)

每种药物的化学名称、通用名称或商业名称均通过医学主题词(MeSH)和统一医学语言系统(UMLS)词汇进行了标准化,然后从DrugBank数据库(v4.3)进一步转移至DrugBank ID。总共保留了132768例临床报告的DDI与732种FDA批准的独特药物连接。

药物-疾病网络

作者从多个公共数据库(repoDB、DrugBank(v4.3)和DrugCentral)中收集了已知的药物适应症(药物-疾病关联)。在这项研究中,共有1208种药物-疾病对,连接732种药物和440种疾病。

药物-副作用网络

作者通过汇总MetaADEDB、CTD、SIDER(v2)和OFFSIDES的数据来收集具有临床报告证据的药物副作用或药物不良事件(ADE)信息。这项研究总共使用了263805个药物-ADE关联,收集了732种已批准的药物和12904个ADE。

药物对的化学相似性分析

作者从DrugBank数据库下载了化学结构信息(SMILES格式),并使用Open Babel(v2.3.1.100)计算每种药物的MACCS指纹。

蛋白质序列相似性分析(药物靶标相似性网络和药物对相似性网络)

从Uniprot数据库中下载了人的药物靶标(蛋白质)的规范蛋白质序列。利用史密斯-沃特曼算法计算药物靶标相似性。药物对相似性计算与该药物对结合的所有药物靶标(蛋白质)相似性的均值。

药物靶标的基因共表达分析(药物靶标相似性网络和药物对相似性网络)

作者从GTEx(V6)下载了32个组织的RNA-seq数据(RPKM值)。在每个组织中,80%以上样本里RPKM1的那些基因被视为组织表达的基因。利用皮尔逊相关系数测量与药物治疗的疾病相关的药物靶标编码基因共表达的程度。药物对的共表达计算与该药物对结合的所有药物靶标(蛋白质)共表达的均值。

药物靶标的基因本体(GO)相似性分析(药物靶标相似性网络和药物对相似性网络)

从网站(http://www.geneontology.org/)下载所有药物靶标编码基因的基因本体论(GO)注释。作者使用了三种类型的经过实验验证或来自文献的证据:生物过程(BP),分子功能(MF)和细胞成分(CC)。利用GOSemSim相似性度量算法测量药物靶标相似性。药物对相似性计算与该药物对结合的所有药物靶标(蛋白质)对相似性的均值。

药物对的临床相似性分析

本研究中使用的所有FDA批准药物的药物解剖学化学(ATC)代码均从DrugBank数据库(v4)下载。药品A和B的第k级药品临床相似性(Sk)定义如下:

根据上述公式,药物对的临床相似性定义如下:

疾病-基因网络:作者整合了三个常用的生物信息学数据源中的疾病基因注释数据,包括OMIM、CTD和HuGE navigator。研究总共使用了230个疾病-基因对,将440个疾病和1915个药物靶标编码基因连接在一起。

2.2 网络嵌入

在这项研究中,作者使用DNGR嵌入模型来学习特征。DNGR模型包括以下三个主要步骤。首先,受用于排序任务的PageRank模型的启发,利用随机冲浪模型来捕获网络信息并生成一个概率共现矩阵;接下来,基于概率共生矩阵计算PPMI矩阵;最后,使用堆叠式去噪自动编码器学习低维顶点表示。

图2 网络嵌入的流程图

2.3 PU矩阵补全算法

IMC方法使用已知的药物-靶标相互作用作为正样本训练集,将未知的药物-靶标相互作用作为负样本训练集。但是,这种分类器实际上是从包含了噪声的负样本集中构建的,因为在负样本中可能存在未知的药物-靶标的关联。因此,本研究利用了正向-未标记(PU)学习算法框架,在该框架中,观察到的和未观察到的条目在目标上的处罚不同。PU矩阵补全算法优化函数定义如下:

2.4 构建相似性网络

对于同构相互作用网络(例如,药物-药物相互作用网络)和相似性网络(例如,药物化学相似性网络),作者通过直接在每个网络上运行DNGR模型来生成每种药物或靶标的特征表示。对于关联网络,即药物-疾病、药物副作用和蛋白质-疾病网络,作者首先根据Jaccard相似性系数构建相应的相似性网络,然后在这些相似性网络上运行DNGR模型。Jaccard相似度是用于表征两组样本之间相似度和多样性的常用统计量。

3

结果

3.1 评估deepDTnet模型性能

为了评估deepDTnet的性能,作者首先组合来自六个数据源的结合亲和力数据,建立了一个药物-靶标网络,包括5680个经过实验验证的药物-靶标相互作用,连接732种批准的药物和1176个人类靶标。在5折交叉验证中,测试集由随机选择20%的经过实验验证的药物-靶标对(正样本)和匹配数量的随机采样的非相互作用(未观察到的)对(负样本)组成。其余80%经过实验验证的药物-靶标对和匹配数量的随机采样的非相互作用对作为训练集。结果显示,deepDTnet优于之前的三种最新方法,如图3所示:

图3 deepDTnet与其他方法的性能比较

3.2 deepDTnet的药理学解释

作者采用t-SNE(t分布随机邻居嵌入算法)来进一步可视化deepDTnet学习的低维节点表示。

图3 deepDTnet的t-SNE可视化

作者将按解剖治疗化学分类系统(ATC)代码的第一级分组的药物投影到2D空间上。图3A显示deepDTnet能够区分按ATC代码分组的14种药物。作者进一步在二维空间中可视化四种类型的可药物化目标(GPCR,45种激酶,NR和IC)。图3B揭示了同一靶标家族中的靶标在地理位置上的分组,并且每个组之间的间隔清晰,这进一步证明了deepDTnet的高嵌入能力。此外,deepDTnet识别的低维矢量表示优于传统的基于网络或生物信息学的方法(包括基于蛋白质序列或基于基因本体论[细胞成分]相似性的测量方法)。

3.3 deepDTnet发现已知药物分子的新靶标

为了发现已知药物的新靶标,作者通过deepDTnet对四个靶标族(GPCR,激酶,NR和ICs)的前五个预测DTI进行了优先排序。图4A显示了涵盖了四个靶标家族的新型预测DTI的双向药物靶标网络。

图4通过deepDTnet发现的药物靶标网络。

3.4 deepDTnet预测结果的实验鉴定

作者通过实验测试了deepDTnet优先考虑的前25个新候选者。包括Topotecan作为视黄酸受体(RAR)相关孤儿素受体-t(ROR-t)拮抗剂的实验验证、Topotecan可逆转体内多发性硬化。并且通过deepDTnet,在整个蛋白质组学范围内探索批准药物的杂泛性情况。

4

讨论

本文介绍了deepDTnet,这是一种基于网络的新型深度学习方法。deepDTnet用于靶标识别和药物利用,系统地嵌入了15种类型的化学、基因组、表型和细胞网络,并在PU-学习框架下预测已知药物分子的新靶标。作者通过实验验证了deepDTnet预测的Topotecan对人的ROR-t具有高抑制活性。作者随后证明了Topotecan在多发性硬化症的小鼠模型中具有潜在的治疗作用。

这是一项系统性的深度学习研究,将最大的生物医学网络数据集集成在一起,用于靶标识别和药物再利用,并通过实验测试其发现。该方法能够最大程度地减少动物模型中临床前测试结果与人类临床结果之间的翻译鸿沟,解决当前药物开发中重要的问题。总而言之,该方法表明靶标识别和药物利用可以受益于基于网络的合理深度学习预测,并探索异构药物-基因-疾病网络中药物与靶标之间的关系。从翻译的角度来看,如果广泛应用,此处开发的基于网络的深度学习工具可以帮助开发针对多种复杂疾病的新颖有效的治疗策略。

Data availability

https://github.com/ ChengF-Lab/deepDTnet

Code availability

https://github.com/ ChengF-Lab/deepDTnet

参考资料

Xiangxiang Zeng, Siyi Zhu et al. Target identification among known drugs by deep learning from heterogeneous networks. Chemical Science 2020.

DOI: 10.1039/c9sc04336e

作者

钟玥

0 人点赞