作者 | 肖辉宇 编辑 | 庞超
今天给大家介绍密歇根大学Maryam Bagherian等人在Briefings in Bioinformatics2019上发表的文章“Machine learning approaches and databases forprediction of drug–target interaction: a survey paper”。预测药物与靶点之间的相互作用(DTI)的在药物发现过程中起着关键作用。有必要开发新颖而有效的预测方法,以避免仅通过昂贵且费力而又不确定的实验来确定DTI。在本文中,我们描述了DTI预测任务所需的数据,然后介绍了由机器学习方法和数据集组成的相关信息,还简要讨论了每种方法的优缺点。最后,强调了使用机器学习方法预测DTI时可能面临的挑战,并在总结了一些重要的未来研究方向。
简介
近年来,药物科学家一直高度关注依赖于现有药物知识的新型药物开发策略。事实上,药物发现任务的困难在于已知的药物与基因相互作用位点的了解不充分,而主要风险在于药物与靶点的即副作用。尽管这些副作用大多数有害的,但有时它们会引起有趣的治疗发现。例如,米诺地尔主要用于治疗溃疡,西地那非(伟哥)用于治疗心绞痛。但是,它们目前分别用于治疗脱发和勃起功能障碍。因此,新型药物开发策略目前是许多药理学家的主要研究重点。
药物发现过程中的主要步骤是确定药物与靶点(例如基因)之间的相互作用,为了降低时间和金钱成本,计算机方法越来越受到关注。通常,用于药物-靶点相互作用的计算机预测有两种主要方法:分子对接模拟和机器学习方法。在分子对接模拟中,考虑了药物分子和靶点的3D结构并确定潜在的结合位点。虽然生物学上已经很好地接受了,但是对接模拟过程却很耗时。此外,如果蛋白质的3D结构未知,则无法应用此方法。为解决此问题,引入了化学基因组学作为一种方法,旨在挖掘整个化学空间以与生物空间(也称为基因组空间)相互作用,而不是将每个蛋白质靶点独立于其他蛋白质。
化学基因组学研究的目的是将这种化学空间尽可能地与基因组空间相关联,以便识别潜在有用的化合物,例如成像探针和药物前导物。化学基因组学方法通常分为基于配体的,基于靶点的和同时基于靶点配体的。所有这些方法都是基于配体蛋白和靶点之间的相似性。实际上,基于显著相似性的化学基因组学观点使机器学习方法适用于DTI的预测。在机器学习方法中,有关药物、靶点和已确认的DTI的数据被转换为用于训练预测模型的特征,而这些特征又被用于预测新药物与/或新靶点之间的相互作用。
这些研究的主要假设是,如果Drug d与Protein p有相互作用,则(i)与d结构相似的药物化合物也可能与p有相互作用,(ii)与p相似的蛋白质可能与Drug d相互作用,以及(iii)与d类似的药物化合物可能与p相似的蛋白质相互作用。在实践中,基于有关相互作用的药物化合物和靶点这一理论基础,DTI预测问题可分为四类:(i)已知药物与已知靶点,(ii)已知药物与新的候选靶点,(iii)新的候选药物与已知靶点和(iv)新的候选药物与新的候选靶点。
在本文中,回顾了使用机器学习方法预测DTI的最新方法。
图一. 近期工作的概括
一、DTI预测中使用的机器学习方法
1.1 基于相似度/距离的方法
用于DTI预测的最流行的方法是通过用来进行预测的相似性或距离函数来合并药物-药物和靶点-靶点的相似性测量。
基于相似性的方法具有四个优点:(i)不需要特征提取和特征选择,(ii)关于药物和基因的相似性测量函数之前已经有过充分研究,(iii)可以很容易地使用基于函数的学习方法(例如支持向量机(SVM))将它们合并,(iv)它们可用于连接化学空间和基因组空间。
通常,这些方法包括基于已知的一对药物-药物和靶点-靶点相似性度量的药物-药物、靶点-靶点或药物-靶点关联的相似性评分方案。同样,可以通过距离函数获得相似性度量,该距离函数定义了新药相对于已知药物-靶点对的相似度。有几种方法可以通过不同的距离函数定义“附近”,其中欧几里得距离是较为著名的。例如,NN算法采用了以下定义:假设两个向量空间V1和V2具有相同的维度,则两个样本的距离用D(V1,V2)表示:
其中(·)和|| ·|| 分别表示内积和欧几里得范数。
除上述内容外,还可以基于药物的药理学相似性和蛋白质序列的基因组相似性以及现有药物和蛋白质靶点的多部分网络的拓扑特性来定义相似性/距离函数。表1提供了基于相似度/距离提出的方法的完整列表。
表1. 基于相似度/距离的方法
1.2 深度学习方法
深度学习由于其在语音识别,图像识别和自然语言处理等许多领域的出色表现而变得越来越受欢迎。 近年来,将深度学习方法应用于药物发现的研究一直在不断增加。
深度学习方法似乎通过减少预测DTI时特征信息的损失而克服了某些限制。使用深度学习方法的缺点之一在于,并不总是有足够的可用信息来执行深度学习方法。
大多数基于深度学习的DTI预测方法包括两个主要步骤:生成特征向量,然后将深度学习应用于已知的DTI。通常,可以将药物和靶点的三种类型的属性(即生物学,拓扑学和物理化学信息)用于生成基于深度学习的DTI方法的特征向量/矩阵。与最新的特征提取方法和SVM分类器相比,采用深度学习的方法的一个优势在于能够挖掘药物与靶点之间的隐藏相互作用。
尽管深度学习方法有良好的性能,但仍有几个方面需要改进。首先,为有监督的深度学习方法创建可靠的负样本数据集是一项艰巨的任务。之前发布的大多数基于深度学习的DTI预测程序都是有监督的机器学习方法,因此如何建立无偏见的负样本DTI数据集以进行模型拟合和测试是关键的一步。另外,DTI预测是为了发现新的DTI。如何选择真正的无相互作用的药物-靶点对是一项棘手的任务。其次,随着越来越多的不同类型的药物、靶点数据可用,如何将来自药物和/或靶点的异类数据纳入高维特征以用于深度学习方法也是一个挑战。最后,在测试数据集上表现出出色性能的深度学习方法并不意味着它们也可以在真正的药物发现中表现出色的性能。
表2. 深度学习方法
1.3 基于特征的方法
执行DTI预测的绝大多数机器学习方法都属于此类。它包含了大多数的方法,包括SVM,基于树的方法和基于核函数的方法。任何药物-靶点对都将以具有一定长度的特征向量表示,通常使用二进制标签将这些成对向量分为具有正负相互作用的两类。换句话说,假设特征空间为F:
其中d和t分别表示长度为n、m的目标、药物特征向量。
一旦定义了特征空间,就可以配合各种机器学习方法来执行DTI预测任务。
表3. 基于特征的方法(第一部分)
表4.基于特征的方法(第二部分)
1.4 矩阵分解法
在预测DTI方面,已证明矩阵分解方法优于其他机器学习方法。给定一个相互作用矩阵Xn×m,
对于i = 1:n和j = 1:m,可以定义
DTI预测的主要目标是将矩阵Xn×m分解为两个矩阵Yn×k和Zm×k,其中X 合同于YZT,k <n、m。
图3. 矩阵分解法
此处ZT表示Z的转置矩阵。这会将矩阵Xn×m分解为两个具有较低阶数的矩阵(即秩减小),这使得使用matrix completion技术以处理丢失的数据更加容易。
与大多数用于DTI预测的需要(2D)药物结构相似性的机器学习方法相比,一些矩阵分解方法并不依赖于化学相似性或药物相似性,而是利用协作过滤算法,其中一种可以称为概率矩阵分解(PMF)。此外,低秩嵌入(low-rank embedding,LRE)通过优化问题找到数据集X的低维表示矩阵R,然后固定R并最大程度地降低R中的重构误差,以保留点状线性重构(原始样本的局部结构)的方式保留嵌入式空间。
在这组方法中,假设药物和靶点位于相同的距离空间中,那么可以使用药物和靶点之间的距离来衡量其相互作用的强度。因此,药物和靶点都可以嵌入到具有某些约束条件的公共低维子空间中。
尽管已证明这组方法比其他方法更可靠,但与某种药物和/或靶点有关的数据数量和种类的快速增长远远超出了基于矩阵的数据表示和当前许多分析算法的能力。
表5. 矩阵分解方法以及提出和使用它们的论文
1.5 基于网络的方法
基于网络的方法是指利用基于图的技术来执行DTI预测任务的方法。
图4. 药物-靶点相互作用异质网络
这些方法中包括基于网络的推理(network-based inference,NBI)来预测DTI,这是最简单但最可靠的推理方法之一,它只使用药物靶点双向网络拓扑相似性(DT bipartite network topology similarity)。
此外,在某些方法中,蛋白质-蛋白质相似性,药物-药物相似性和已知DTI这三个网络被整合到一个异质网络中,并假设相似的药物通常作用于相似的蛋白质。除了执行DTI预测任务,两层无向图形表示法的网络也可以用来训练预测直接DTI(通常由蛋白质-配体结合引起),间接DTI和药物作用方式(结合相互作用,活化相互作用和抑制相互作用)。
表6. 基于网络的方法的列表
1.6 混合方法
混合方法是指利用基于特征的方法、矩阵分解、深度学习和基于网络的方法的任意组合的所有方法。通过集成不同的信息集可以扩展预测算法的功能。混合方法通常有两个目的:他们解决了DTI中未知相互作用的问题,并同时利用了机器学习方法的最大优势。混合方法的性能优于其他最新方法在于通过提取药物和靶点的复杂的隐藏的特征来优化特征提取过程。在DTI预测中,集成两种机器学习方法通常会在结果方面发挥作用,因为它们同时充分利用了两种方法的潜力。但是,这需要我们能够处理由于集成两组方法而导致的高复杂性(计算或操作)。
表7. 混合方法的简短说明
二、DTI预测中使用的数据集
为了支持上述方法,已经建立了许多与药物有关的数据集。 这些数据集包含不同类型的药物相关信息,并且是计算机DTI预测的关键资源。接下来,我们将回顾与此主题相关的所有流行使用过的数据集。根据这些数据集的内容,我们将它们分为四类:DTI数据集、以药物为中心或以靶点为中心的数据集、药物-靶点结合亲和力数据集和支持数据集。
2.1 DTI数据集
建立DTI数据集以收集DTI和其他相关信息。在这里,我们列出了该类别中的11个数据集。在这些数据集中,有些数据集没有直接提到“ DTI”数据集,但其中包含的数据可用于DTI研究。例如,KEGG是一个广泛的数据集,涵盖了从基因/蛋白质到生物学途径和人类疾病的多种生物学数据。在KEGG中,两个子数据集KEGGDRUG和KEGGBRITE包含可用于DTI预测的数据。ChEMBL也不是专门针对药物、靶点的数据集,它是基于收集生物活性化合物而建立的。但是,结合靶点和其他相关生物学信息,该数据集也可以用于药物、靶点的重新定位。与ChEMBL相似,IntAct是一个包含分子相互作用的数据集,可用于药物研究。LINCS与上述两个数据集不同。该数据门户网站包含旨在了解由不同干扰剂引起的基因表达和细胞过程变化的生物化学数据。LINCS中使用的许多干扰剂都是药物,因此这也是DTI研究的重要数据来源。此组中包括的其他数据集是SuperTarget,药理指南(GtoPdb),DrugBank,治疗目标数据集(TTD),STITCH,ChemProt 3.0和DGIdb 3.0。表8汇总了这些数据集的一般信息。
表8. DTI数据集
2.2 以药物为中心的数据集或以靶点为中心的数据集
在此类别中,包括六个数据集。 它们是BRENDA,PubChem,SuperDRUG2,DrugCentral,PDID,Pharos和ECOdrug。在这些数据集中,SuperDRUG2和DrugCentral被认为是“以药物为中心”的数据集。由于PubChem是建立在可收集数百万种化合物的数据集之上,因此在本文中,我们还将其列为“以药物为中心”的数据集。PDID和Pharos被归类为“以靶点为中心”数据集。我们还将BRENDA列为“以靶点为中心” 数据集。BRENDA中存储的大量酶和相关配体可用作DTI研究的目标。此外,我们还将ECOdrug列为“以靶点为中心”的数据集,与上述数据集不同的是,该数据集包含非人类模型物种的目标信息。
表9. 以药物为中心或以靶点为中心的数据集
2.3 绑定亲和力数据集
在此类别中,包括BindingDB,PDBBind和PDSP Ki。它们都包含化学-蛋白质结合亲和力的数据。BindingDB主要集中在药物(类药物分子)和靶蛋白之间的结合亲和力数据的收集上。基于来自PDB的生物分子复合物的结合亲和力测量建立PDBbind。PDSP Ki与BindingDB类似,后者也包含DTI上的大量绑定亲和力数据。
表10. 绑定亲和力数据集
三、DTI数据集挑战和未来工作
DTI预测的挑战可分为两大类:与数据集有关的挑战和与计算有关的挑战。通常,根据问题的性质,可以使用不同的预测方法来克服计算难题。在这里,我们提供了关于第一类挑战的一些建议。
3.1 数据集挑战和未来工作
几乎所有用于DTI预测的方法,特别是基于相似性的方法,都严重依赖有关相似药物和相似靶点的确定性,所以,用于预测的数据集类型起着重要作用。在数据集方面,缺乏统一的药物和靶点定义以及调用和识别化合物和生物分子的一致性,与数据集中的至少一个其他来源重叠,采用不同的标识符代表药物和目标是主要挑战。另外,将异构数据合并到数据集中是要指出的另一挑战。并非数据集中包含的所有药物和靶点都具有3D结构和GO / PPI序列,这会产生相似性评分。因此,即使使用相同的文献,所得数据也可能有所不同。
未来的预测应依靠更全面的内部数据集,这将需要付出巨大的努力来总结和整理跨来源的数据,并使用不同的方式来定义、命名和识别药物和靶点。从数据的角度来看,有一个关于数据集具有二进制性质的问题。即给定一个相互作用矩阵Xn×m,对于i = 1,... ,n和j = 1,…,m,可以定义
这导致了严重的问题。Xn×m中的一些0可能是尚未发现的相互作用,可能会打乱不同分类器的训练过程。另一点是,实际上在整个频谱上DT对具有不同的绑定亲和力(交互作用不是二进制开/关)克服这一挑战的一个建议是利用具有表示DT结合亲和力的连续值的数据集。我们的建议是用连续值参数替换每个xij。根据相互作用的可能性,可以定义xij =μ,其中μ∈[0,1]。0应该表示没有相互作用,1表全完全相互作用,(0,1)内的任何数字均表示药物与靶点相互作用的可能性。
使用这种连续值数据集的趋势最终会流行起来,因为它比其他在DTI预测中先前工作中使用过的二进制数据集更好地代表了实际情况。然而,主要的挑战在于以下事实:迄今为止,尚未使用许多小分子化合物作为药物,并且对于大多数小分子化合物而言,它们与蛋白质的相互作用过程仍是未知的。
DTI预测的未来工作可以分为两种主要方法。通常,对数据集的修改和建议似乎是不可避免的。一方面,数据集应合并在一起以收集最完整的已知药物-靶点相互作用数据集集。另一方面,应定期更新和分发资源,以改善和完整性,并集成大量的源数据集以派生内部数据集。
3.2 DTI预测方法的挑战和未来工作
未来的研究应集中在结合多样相似性的方法上。与使用一种相似性的方法相比,结合了多种相似性的基于集成的模型可能会提供更准确的结果。鉴于令人惊讶的成功案例(将米诺地尔从高血压转变为脱发,将西地那非从心绞痛转变为勃起功能障碍,从沙利度胺转变为晨吐到多发性骨髓瘤),现在的研究重点是如何最好地采用一种更全面,系统的方法。此外,投入了大量工作来确定疾病发展,进展和治疗抗性的分子驱动因素,从而为人类疾病谱中的药物提供了许多候选靶点。但是,这些分子驱动程序中的大多数都没有针对它们的已知药物。因此,用于预测DTI的全面,改进的方法将具有很大的益处。由于第3.1节中列出的挑战,目前尚不了解药物靶向哪些细胞分子的知识,并且该知识来自各种有时甚至是互补的来源。
根据问题的表述,数据集的适当表示对于获得DTI预测的见识和有效性似乎至关重要。在大数据应用程序中,数据稀疏(大多数为零)并且部分丢失是很常见的。因此,缺失数据填补,尤其是在稀疏,有噪音的数据的情况下,是一个关键问题。为了从已知信息中推断出丢失的数据,通常应基于观察到的数据结构问题做出合理的假设。在预测DTI时考虑矩阵分解方法,常见的情况是有缺失值的矩阵(例如著名的Netflix问题)。假设最终矩阵是低秩的,低秩矩阵的完成问题是NP hard问题且Non-Convex的,但是有各种算法可以在数据的某些假设下工作。低秩矩阵完成的一种方法是将核范数用作矩阵秩的凸松弛convex relaxation,并使用半定规划来找到使核范数最小的完成方法。尽管低秩矩阵完成问题不依赖于任何度量方法,但是大多数方法都使用某种度量方法(例如核范数,欧几里德度量或p范数)。这样的方法可以在完成某些矩阵类型时很好地执行,但是不能覆盖所有类型的矩阵。此外,数据的结构可能比维数为d=2的矩阵更复杂。为此,我们相信,耦合矩阵coupled matrices和张量是在保持结构信息的同时DT数据可视化的强大工具。对于d≥3,这样的数据集是d阶的张量(多维数组)。张量在大数据中无处不在。在大数据中使用张量的重要性体现在以下事实:它们可以保留数据的结构,并通过在整个过程中合并结构来进行更有效的数据分析。
图5. 矩阵耦合矩阵与张量矩阵耦合的完成情况
参考文献
Maryam B , Elyas S , Kai W , et al. Machine learning approaches and databases for prediction of drug-target interaction: a survey paper[J]. Briefings in Bioinformatics, 2020.DOI: 10.1093/bib/bbz157