癌症靶点识别中的人工智能

2022-06-08 14:51:21 浏览数 (1)

药物开发的成功很大程度上取决于对药物靶点的定义。

2022年5月10日,四川大学计算机学院的章乐等人在Signal Transduction and Targeted Therapy杂志发表文章,整理和分析了人工智能在癌症靶点识别和药物发现中的应用进展。本文重点介绍其中靶点识别相关的内容。

靶向治疗面临的困难

靶向药物治疗具有效率高、副作用小、患者耐药性低等优点。然而,现有的靶向治疗存在一些缺点,如可药用的靶点不多,对患者群体的覆盖率不高,缺乏对药物耐药性的应对措施等。因此,确定新的治疗靶点并评估其可药性成为目前癌症靶向药物治疗的研究重点。

然而由于疾病的复杂性,我们很难全面了解癌症的发病机制,目前大多数的靶向药物都是根据实验验证的假说来开发的,这些假说可以解释一个可能的致癌机制,但忽略了疾病的其他事实。因此,这些治疗方法可能会对正常组织产生不利影响,甚至会给患者带来严重的副作用。

多组学技术的快速发展和AI的机会

最近,与癌症相关的多组学技术的快速发展,给人工智能生物学分析探索新型抗癌靶点带来了重要机会。

这些技术分为五个方面:表观遗传学、基因组学、蛋白质组学、代谢组学和多组学整合分析。

图1 人工智能整合多组学数据用于癌症治疗靶点的识别

表观遗传学分析的是DNA或DNA相关蛋白的逆转修饰。这些修饰影响基因表达,而不改变DNA序列。人工智能分析表观遗传学数据,不仅对阐明癌症的基本机制很重要,而且对设计靶向治疗方法也很必要。

基因组学的目的是通过使用基因组规模的检测,如基因组测序,来描述生物体的每个基因组元素的功能。基因组学的应用包括寻找基因型和表型之间的联系,发现用于病人分层的生物标志物,预测基因的功能,以及绘制生化活性基因组区域。基于网络的生物学分析方法,从一开始就收集了表达和相互作用数据,然后将其转化为可解释的生物过程,推动了肿瘤亚型的确定和药物靶点的发现。

对于蛋白质组学来说,进行蛋白质组学实验是为了对基因组序列进行注释和关联,对蛋白质丰度进行定量,检测翻译后修饰,以及识别蛋白质与蛋白质的相互作用 (PPI)。通过在去除某蛋白时改变网络中的驱动节点的数量,可以将节点分为"不可或缺"、"中性"或"可有可无"。证据显示,不可或缺的蛋白质是致病突变、病毒和药物的主要靶点。

代谢组学通过对生物液体、细胞和组织中的代谢物进行分析,被常规地应用于生物标志物的发现。由于生物技术固有的敏感性,可以检测到代谢途径的细微变化,以提供对各种生理条件和癌症基础机制的洞察力。由于网络生物学的创新发展,研究人员采用生物网络进行代谢组学分析,使我们对代谢物在癌症中的作用有了系统层面的了解。

与单一的组学研究相比,多组学数据为研究人员提供了各种相互关联的分子图谱来研究致癌因素。因此,在网络结构中整合多组学数据集,进行人工智能生物学分析,已成为全面了解癌症进展中复杂的层间调节相互作用的有力工具。这种方法使我们能够从先前的信息中获益,这些信息可以在网络中进行总结和展示,从而使我们从整体的角度对致癌作用有了深入的了解。

人工智能生物学分析算法的原理和理论

本文将常用的人工智能生物学分析算法分为两类。一种是基于网络的生物学分析算法,包括最短路径 (shortest path)、模块检测 (module detection) 和网络中心度 (network centrality);另一种是基于ML的生物学分析算法,包括决策树 (decision tree) 和深度学习模型。

基于网络的生物学分析算法

生物网络在整合复杂的生物数据方面是有效的,因为它们可以捕捉到生物实体的性质及其关系。在数学上,一个网络可以表示为一个图G = (V,E),其中V和E分别是一组节点 (顶点) 和边。生物网络中的节点可以代表蛋白质、基因、疾病和药物,网络中的边代表节点之间的各种生物化学物理或功能相互作用。因此,基于网络的生物学分析算法侧重于从分子网络 (如蛋白质-蛋白质相互作用网络) 中识别治疗靶点和发现新的癌症药物、基因调控网络、代谢网络和药物-药物相互作用网络。

计算生物学家已经开发了几种基于网络的生物分析算法,以有效地处理和分析生物网络中的无序或非欧几里得数据,这些算法可以完成诸如链接预测 (link prediction)、节点排名 (node ranking)、网络传播 (network propagation)、网络模块化 (network modularization) 和网络控制 (network control) 等任务。在此,我们简要回顾和讨论最短路径算法、模块检测算法和利用节点中心度的节点优先化方法在识别癌症治疗靶点方面的作用。

最短路径算法

最短路径算法已被广泛用于确定癌症网络中的调节路径,然后发现路径上的关键靶点。

图3 最短路径算法流程图

最短路径算法可以帮助我们有效地识别网络中的调控路径,识别与已知癌症基因相近的潜在基因。然而,由于疾病的复杂性,潜在的癌症基因并不总是在确定的最短路径上,揭示了这种算法的局限性。为了解决这个问题,Lu等人提出了一种随机行走与重启算法的方法,更加有效和准确。

模块检测算法

癌症通常是由于关键调控基因与其伙伴的相互作用被破坏而导致的。模块检测算法是网络传播算法之一,通过分析其拓扑结构来识别复杂网络中的癌症基因群。

图4 模块检测算法流程图

目前,许多研究人员采用模块检测算法来智能地识别癌症的潜在治疗靶点。例如,Ghiassian等人使用DIAMOND方法来识别分子成分相互连接图中的局部模块。他们发现疾病相关基因在高度重叠的模块中明显富集,这表明预测的模块可能有助于识别新的抗癌靶点。

另外,由于潜在的药物靶点可能存在于不同的网络模块中,我们可以利用模块之间的相关性来确定可靠的癌症治疗靶点。

节点中心性

节点中心性衡量节点的重要性,适合于为网络生物学智能地定位具有重要生物功能的关键节点。

图5 生物网络的四种类型的节点中心性

例如,Taylor等人使用中心性分析来识别乳腺癌网络中的模间枢纽蛋白和模内枢纽蛋白,确定的蛋白质可以作为乳腺癌预后的指标。

基于机器学习的生物学分析算法

使用基于机器学习 (ML) 的生物学分析确定治疗靶点和发现药物的关键,是利用生物网络的网络特征。网络特征包括拓扑特征 (如节点中心度、相互作用、局部结构、子图、网络传播结果和基于网络的结构相似性) 和嵌入网络节点的生物信息 (如基因表达谱、基因突变频率和基因功能注释)。

在此,我们介绍两种经典的基于ML的算法:一种是决策树算法,它为癌症选择重要的拓扑特征;另一种是深度学习,它使用网络特征来识别癌症靶点并发现药物。

决策树算法

决策树是一种有监督的分类算法,有三个步骤:特征选择、决策树生成和决策树修剪。图6显示了如何使用决策树算法将一组样本分为两组。

图6 一个简单的决策树模型

在基于网络的生物学分析中,网络拓扑学特征通常被整合到决策树中,对癌症的基因-表型关联进行分类,以选择癌症的重要拓扑学特征。

例如,Ramadan等人从一个公开的基因共表达网络和乳腺癌的PPI网络中提取了13个网络拓扑特征。然后使用决策树Bagger对乳腺癌基因-表型关联进行分类。接下来用一个结合了乳腺癌分类准确性和基尼指数的分数来评估每个拓扑测量的重要性。确定的前五个特征 (即结构洞、节点度、节点核心度、k-Step Markov和子图) 被选为乳腺癌表型-基因关联分类的关键特征。

深度学习算法

深度学习的优势在于其检测数据中复杂模式的能力,使其适合审视由复杂的、相互依赖的基因关系组成的生物网络。

目前,有许多神经网络模型和复杂函数用于基于ML的生物学分析。受益于神经网络在挖掘链接或节点的复杂信息方面的强大能力,深度学习是一种合适的方法,可以在复杂的生物网络中识别潜在的癌症靶点并发现治疗癌症的药物。

图8 基于图的神经网络用于基于ML的生物学分析

深度学习可以综合探索生物网络中的节点度、边长、模块等特征,通过复杂生物网络中的多组学数据的人工智能,对癌症的药物靶点进行准确预测。

然而,仍有两个关键问题需要解决。一个是模型的可解释性,这对临床采用至关重要。另一个是如何证明该方法的通用性,并在多机构数据集的背景下验证这些方法。

癌症靶点的识别和评估

肿瘤学中的数据高通量、广泛且易于访问,这为开发新的人工智能方法和验证其识别治疗靶点的能力提供了基础。以下介绍人工智能识别新型抗癌靶点和评估潜在靶点可药性方面的应用。

新型抗癌靶点的识别

人工智能生物学分析应用通常使用组学数据来建立网络,并识别基因、蛋白质、代谢物、分子间的关键路径以及生物网络中的关键分子的共同表达模块。本研究将从两个角度介绍这些应用:一个是基于网络的生物学分析应用,另一个是基于ML的生物学分析应用。

基于网络的人工智能识别新型抗癌靶点

基于网络的生物学分析应用首先通过计算分子的差异表达及其相关关系来重建网络。然后,进行基因集富集分析,确定具有不同生物功能的网络模块。最后,确定的网络模块被用来发现作为癌症潜在治疗靶点 (或生物标志物) 的关键基因。在此,我们展示了基于网络的生物学分析应用的关键靶点识别程序,如下所示。

WGCNA是一个常用的基于网络的生物学分析应用程序,它使用各种基因表达矩阵作为输入。然后,WGCNA输出不同的基因网络模块和生物网络中的核心基因。例如,Zhou等人使用WGCNA分析了TCGA的结直肠癌数据 (图9),通过以下步骤证明了11个枢纽基因和5个枢纽miRNA对结直肠癌患者的预后具有预测能力。

图9 基于网络识别新型抗癌靶点的工作流程

在步骤1中,通过差异基因表达分析计算所有对基因和miRNA之间的相关性,并构建两个相似性矩阵。在步骤2中,利用TOM相似性将来自相似性矩阵的邻接矩阵转化为拓扑重叠矩阵 (TOM),然后利用动态树切割识别共表达的基因和miRNA模块。在步骤3中,经过模块保存分析,发现6个基因模块具有较强的稳定性,1个miRNA模块具有较低的稳定性。在第四步,他们进行了模块-性状关系分析,进一步验证了模块-临床性状的关系,发现了两个病理阶段相关的基因模块和一个病理阶段相关的miRNA模块。在步骤5中,通过计算模块成员和基因的重要性,确定了枢纽基因和枢纽miRNAs。

虽然基于网络的生物学分析方法在识别抗癌靶点方面很有用,但它们有一些局限性,如它们不能有效地处理多组学数据,导致识别的靶点的高假阳性率。开发全面的基于网络的生物学分析应用可以解决这些问题,并提高预测癌症生物标志物的精度。

基于ML识别新型抗癌靶点

基于ML的生物学网络分析应用被用来审视大量的、复杂的数据,从而确定可靠的潜在的新靶点。这些基于ML的生物分析应用于新型抗癌靶点的识别,包括分类、聚类、神经网络等。

基于ML的生物网络分析应用于分类,是通过确定分类的关键因素来确定关键靶点。它认为定义类别的特定生物标志物 (如基因或蛋白质节点) 是关键靶点。最近,有研究人员基于分类的应用和分子分析,使用全基因组的基因转录谱、蛋白质表达谱和/或突变情况来对肿瘤亚型进行更精确的分类,并确定特定肿瘤类型的生物标志物。

潜在靶点的可药性评估

可药性是一个概念,评估药物是否能与蛋白质结合以改变其活性。人类蛋白质组大约有6,000到8,000个潜在的药理靶点,但只有一小部分可以被药物锁定。因此,在找到新的抗癌靶点后,评估可药性对我们来说很重要。

本研究将从两个角度介绍这些应用:一个是基于网络的生物学分析应用,另一个是基于ML的生物学分析应用。

基于网络的人工智能评估潜在靶点的可药性

可药性评估方法需要较长的开发周期和较高的财务成本来进行蛋白质的三维结构分析,而基于网络的生物学分析应用提供了一种替代方法来加速潜在靶点的可药性评估程序。

图10所描述的PockDrug是一个新颖的网络服务器,它被用来预测蛋白质的口袋可药性,并对一个蛋白质或一组蛋白质进行查询。Yang等人构建了一个甲状腺癌的蛋白质-蛋白质相互作用网络,并确定了三个关键靶点,HEY2、TNIK和LRP4。然后,他们使用PockDrug预测HEY2、TNIK和LRP4是否有可用于药物的靶区,具体步骤如下。

图10 评估潜在靶点蛋白的可药性的工作流程

在第1步,他们输入了潜在的靶点和定位口袋估计方法。在第2步,他们通过计算靶点口袋的物理化学特性来预测口袋的可药性。在第三步,他们筛选了三个中心基因:HEY2、TNIK和LRP4。根据预测结果,538个残基中有8个残基的TNIK,其平均可药性概率大于0.5,因此被认为是甲状腺癌的可药性口袋。

随着对蛋白质口袋研究的深入,越来越多的基于网络的生物学分析应用被开发出来,以准确评估抗癌靶点的可药性,为癌症治疗提供可靠的可药性靶点。

基于ML评估潜在靶点的可药性

这些基于ML的生物分析应用于评估潜在靶点的可药性,包括蛋白质结构建模和药物-靶点亲和力分析。以前,传统的蛋白质结构建模分析需要相当长的时间和经济成本,这大大限制了PockDrug的传统应用,因为它在很大程度上依赖于准确的三维蛋白质结构。最近AlphaFold在蛋白质结构预测方面取得了很大的进展,这使得PockDrug的广泛应用成为可能。

用于药物-靶点亲和力 (DTA) 分析的ML,可以根据先前的研究估计新型药物-靶点对的相互作用强度,评估靶点的成药性。

与其他方法 (如分子对接和协同过滤) 相比,基于图的神经网络在DTA预测中更有效,因为基于图的模型通过考虑药物结构和药物-靶点相互作用信息促进学习,而不是将药物表示为字符串 (字符串序列可能失去分子的结构信息,并可能损害模型的预测能力)。

Nguyen等人是第一个使用GNN来预测DTA的人。作者提出了GraphDTA,一个用于回归任务的新的神经网络模型,它以药物-靶点对为输入,输出该对药物结合亲和力的连续测量值。

随着深度学习的发展,越来越多的基于ML的生物分析应用可以快速准确地评估抗癌靶点的可药性,为癌症治疗提供可靠的可药性靶点,减少实验的时间和经济成本。

讨论和结论

癌症基础细胞网络的建模为我们提供了一个量化的框架,通过人工智能生物学分析研究网络特性与疾病之间的联系,可以发现潜在的新型抗癌靶点。

尽管采用基于ML的算法大大有利于癌症治疗的靶点识别和药物发现,但我们仍有三大挑战需要克服。

第一个挑战是缺乏一致的数据进行验证。虽然最近生物技术的进步使大量的生物医学数据得以快速产生,但这些数据往往存在生产的不一致性和注释信息的缺失,导致缺乏可靠和一致的数据来验证深度学习模型。

第二个挑战是异质信息的整合。尽管深度学习模型有利于多模态生物数据的整合,但由于缺乏生物领域的知识,仍然很难建立起一个通用的深度学习模型。

第三个挑战是难以提供深度学习模型的可解释性。然而,最近的一项研究揭示了解决这一问题的曙光,即通过疾病网络与神经网络的结合来描述黑色素瘤的机制。此外,基于图形的神经网络可以提高深度学习模型的可解释性。

由于人工智能算法在探索新的抗癌靶点和发现药物方面是有效的,希望这篇综述能够为感兴趣的研究人员提供有价值的启迪。

参考资料

You, Y., Lai, X., Pan, Y. et al. Artificial intelligence in cancer target identification and drug discovery. Sig Transduct Target Ther 7, 156 (2022). https://doi.org/10.1038/s41392-022-00994-0

--------- End ---------

0 人点赞