利用单细胞技术和深度学习预测药物响应

2022-09-21 11:50:21 浏览数 (2)

今天分享的是由俄亥俄州立大学的研究人员于今年发表在Trends Pharmacol Sci上的一篇题为“Single-Cell Techniques and Deep Learning in Predicting Drug Response.”的综述。主要回顾了单细胞测序与深度学习在药物发现中对于研究药物响应的应用,以及两者结合未来对药物发现可能会起到的作用。

背景

除了一些对选择疗法具有固有抗性的肿瘤亚群,癌细胞还可以通过多种机制获得抗药性,例如药物激活,靶点交替和药物外排。现在,对治疗的不敏感性导致高达90%的癌症相关的病人死亡。因此,我们必须加深对耐药性传播机制的了解,并准确预测哪种联合药物治疗将最有效地对抗特异性癌症。对此,高通量测序技术,例如DNA测序,RNA测序,ATAC-seq(assay for transposase-accessible chromatin with high-throughput sequencing)和ChIP-seq等,都可以表征肿瘤的基因组,转录组和表观遗传学特征,并收集对耐药肿瘤的信息。例如,通过DNA-seq对卵巢癌进行全基因组表征直接导致了对肿瘤抑制因子的鉴定,这些抑制因子在失活时会产生耐药性。单细胞技术的发展,包括单细胞DNA测序(scDNA-seq)和单细胞RNA测序(scRNA-seq),使科学家能够分析单个细胞的基因组和转录组谱。这种创新使研究人员能够更好地研究癌症的异质性,并推论出耐药性的根源。此外,相关研究促进了对独立癌症亚群的药物敏感性预测。例如,已经通过scRNA-seq和大量ChIP-seq确定了乳腺癌亚群中治疗耐药性的关键调控因子(KDM5A/B)。

深度学习(DL)模型也已经成功预测了药物反应(图1)。但是,要产生有意义的和可推广的DL预测工具,需要大量的基因组和转录组数据。许多DL模型都受益于公共领域中许多疾病(亚型)的药物,蛋白质和基因相关数据的庞大库。具体来说,例如The Cancer Genome Atlas(TCGA),Genomics of Drug Sensitivity in Cancer(GDSC),The Cancer Cell Line Encyclopedia,CancerTarget Discovery and Development和the University of California, Santa Cruz TumorMap等数据库都被用于训练DL模型。

DL模型可以准确预测药物-靶标相互作用和药物敏感性

使用公开可用的数据,DL模型在预测新型细胞对药物治疗方案的敏感性方面取得了一定的成功。由于DL具有分析和从大量非结构化未标记数据中提取信息的能力,因此DL得到了普及。从这些网络中得出的信息可以用于各种任务的模型中,包括数据去噪,细胞聚类,表型预测和图像处理。DL模型已将高通量测序产生的非结构化多维数据集用于预测癌症和其他疾病的药物敏感性。为了做出这些预测,已经开发了许多DL模型。用于评估抗癌治疗方案的DL模型最常见的类别是深层神经网络(DNN),卷积神经网络(CNN),递归神经网络(RNN)和图卷积网络(GCN)(Box1)。具体而言,表1给出了DL方法的概述,这些方法已用于当前预测药物疗效的任务中。

如表1所示,DNN是使用现有分子和新型分子预测药物-靶标相互作用(DTI)的最受欢迎的DL体系结构之一。例如,DeepDTI使用深度信念网络(DBN)模型从DrugBank数据库中的药物目标数据中提取特征,并预测药物目标对之间的相互作用可能性。但是,DeepDTI使用的数据中具有较大噪声,这一点也降低了其性能。

此后,研究人员又建立了许多其他的DL模型并声称它们胜过DeepDTI;包括:

DeepCPI,另一个基于DNN的模型,对于大规模化合物亲和力数据显示出出众的预测性能和可扩展性;

DeepAffinity,一个预测化合物与蛋白质的相互作用的模型。利用RNN和GCN模型捕获蛋白质/化合物中残基/原子之间的长期非线性依赖性。DeepAffinity采用迁移学习,从DTL框架出发,来增强从有限的标记蛋白质-化合物相互作用数据预测DTI的DeepDTI的能力。

DeepConv-DTI可以捕获参与DTI的蛋白质的局部残基模式,并检测DTI的结合位点。DeepConv-DTI使用CNN模型,该模型在从稀疏交互中提取特征方面也取得了成功,使其成为预测DTI的理想模型。DeepConv-DTI优于DeepDTI的性能的原因之一,是其CNN体系结构不需要整个结构或序列数据即可学习DTI。

借用CNN结构的预测模型除了DeepConv-DTI外还有其他。AtomNet通过实现一个CNN模型来分析特征局部性和层次结构,以预测小分子DTI的生物活性。DEEPScreen利用CNN出色的图像分析功能,从化合物的简单2D图像预测DTI。

相对于CNN模型,DeepChem则是基于GCN模型构建,来预测DTI关系的。

DeepAMPEP30是另一种基于CNN的已发布模型。该模型没有从已知的药物和蛋白质中鉴定出DTI,而是提出了可能靶向特定细胞的新型药物。具体地说,DeepAMPEP30提出了短肽序列,这些肽序列具有最佳的抗菌性能,可用作针对多种疾病(包括细菌感染和癌症)的靶向治疗。在验证实验中,一些作者提出的的短肽与氨苄西林治疗多种细菌感染一样有效。

除了预测DTI,上述模型还具有推断新药适应症或现有药物的新颖用途的能力。这称为药物再利用。例如,DeepCPI强调了几种药物可以重新用于神经药理学。Oxazepam,传统上用于治疗戒酒。DeepCPI发现它也可能影响线粒体内胆固醇的转移,暗示其在治疗阿尔茨海默氏病中的潜在应用。为了通过预测DTI来扩展药物利用范围,Zenget等人提出了deepDTnet:一种用于图形表示的DNN。该模型创建了一个药物-基因-疾病网络,成功地预测了Topotecan(传统上用于治疗卵巢癌和肺癌)作为治疗多发性硬化的药物替代疗法。具体地说,DeepDTnet发现,人类维甲酸受体孤儿受体γt可以被Topotecan抑制,受体过度表达会导致多发性硬化的发展。与DeepDTnet相似,研究人员也提出了使用深度森林(Deep forest)模型对药物基因-疾病网络进行预测(arbitrary-order proximity embedded deep forest,AOPEDF)。尽管此模型不是明确的DL模型,但我们将其包括在讨论中,因为它提供了比deepDTnet更好的性能。此外,与DNN(例如deepDTnet)相比,AOPEDF要求对控制模型学习过程的参数进行的手动调整较少,实现了较高性能。

尽管DTI模型可用于药物再利用研究,针对药物重定位,目前已存在一些方法。例如,基于DNN的模型deepDR采用变分自动编码器(VAE)框架,从药物的低维表示中提取高维特征,并报告了药物-疾病对和推断的候选药物以对药物重新利用(Box1)。Aliperet等人还使用DNN模型,根据药物暴露对基因表达的影响,将已知药物分类为不同的类别。研究发现,“分类错误”的药物可能实际上不是被错误分类,而是代表了新药的适应症。两种这样的“分类错误”的药物Otenzepad和Pinacidil支持了这一假设。这两种药物被归类为中枢神经系统药物。然而,在此之前,两者均仅用于治疗心血管疾病。Pinacidil在心血管疾病的治疗中以K通道为靶标,但K通道在大脑中也非常普遍,是信号转导所必需的。大脑中K通道的广泛分布将使Pinacidil成为治疗某些神经传导障碍的极佳候选药物。

另外,我们需要评估和预测疾病对每种治疗的反应和敏感性。已经产生了包括RefDNN在内的多个DL模型来进行这些预测。RefDNN确定了能够提高肝癌(HCC)对索拉非尼的敏感性的药物,索拉非尼是唯一获批的HCC治疗药物。索拉非尼通常仅在HCC中引起适度的反应。而所预测药物已通过实验验证,可以与索拉非尼协同作用或靶向其他关键的HCC调节途径。Dcell是另一个DL模型,它通过可视化神经网络(VNN)预测药物反应。Dcell预测调节基因功能对细胞表型的影响,并通过易于解释的可视化结果来描绘潜在的机制和途径。Dcell在DL模型的透明性和可解释性方面是一个显着的改进。

尽管传统的DL模型使研究人员能够收集信息并预测药物反应,但这些模型并不透明。产生这些信息的潜在机制通常是一个黑箱,DL模型通过它们进行预测,直到最终通过体外或体内实验确定这些关键信息或特征为止。DL模型也受到药物突变率较高的疾病(包括HIV和癌症)中药物敏感性预测的准确性的限制。这部分是由于缺乏相关的数据,这些数据对于DL模型创建是必要的。对于这些高变异性疾病,异质性疾病状态也会影响DL模型的准确性。当前,许多DL模型是使用批量测序数据(非单细胞)进行训练的,但这些模型的细胞分辨率不足以有效分析复杂的异质性。诸如以DeepSynergy为代表的模型,尝试从药物组合中获得有最大收益的组合,而这些组合可以使所有肿瘤亚群的治疗敏感性最大化,同时将系统性副作用降至最低。

单细胞技术识别异质性对耐药性的影响

从单细胞数据推断出的细胞异质性可以极大地促进药物敏感性的准确预测,并有助于组合药物的设计。尽管这仍然是一种相对较新的技术,但研究人员正在越来越多地用单细胞技术来研究异质性疾病。这种趋势反映了单细胞测序能够捕获异质亚群的基因组和转录状态中的细微差异,而传统测序仅能产生总体细胞特征的总估算值。此外,单细胞技术提供的高分辨率数据使研究人员可以利用单细胞测序来分别描述肿瘤亚群内细胞的基因组和转录组异质性。从scRNA-seq谱图中鉴定出的基因子网与患者的存活率和对癌症的药物反应高度相关。表2列出了现有单细胞技术的最新应用清单。

传统上,单细胞技术主要用于表征不同的细胞类型。当试图辨别癌症之间的基因组异质性时,ScDNA-seq是有效的。例如,Yangand等人使用scDNA-seq分析基因的变异,包括MLL2,这是膀胱癌干细胞生长和存活的关键驱动因素。同样,通过scRNA-seq鉴定出的转录变异对于理解耐药性的机制至关重要。Kimet等人发现,scRNA-seq可以表征和预测肺腺癌中最具侵袭性的肿瘤亚群。值得注意的是,当他们将单细胞方法的结果与常规组织测序分析进行比较时,他们发现抗性亚群的转录谱通常被更突出的亚群所掩盖,从而掩盖了有意义的科学发现。在研究异质细胞时,这突出了从批量测序方法过渡到单细胞分析的必要性。对循环肿瘤细胞(CTC)的考虑加强了这一概念。有人建议临床医生使用scDNA-seq检测来分析外周血中的CTC,以对癌症分期并监测其进展。因为在患有晚期转移性癌症的患者中,1毫升全血的500万个总细胞中,CTC的存在量少于100个细胞。现在,单细胞技术具有在这种极低浓度下准确检测CTC的灵敏度,这是批量测序分析无法完成的。

因为它们可以成功地区分独特的细胞,所以单细胞研究的重点已经从仅表征细胞类型(Figure2A)转变为阐明在先前表征的耐药亚群中负责耐药性形成的生物学机制。耐药性可能是由遗传和非遗传因素引起的。当在细胞的DNA中发生可遗传的突变时,遗传抗性就会升高,从而使其及其后代对目前的药物治疗具有抵抗力。使用scDNA-seq,可以快速识别遗传变异,并可以调整治疗方法以靶向新的亚群。

以前使用单细胞测序的研究已经确定了两种非遗传抗药性的一般机制。第一个涉及瞬态抗性的产生,这种抗性起源于处于“persister”状态的肿瘤细胞。简而言之,“persister”细胞表现出非典型的生长和新陈代谢,从而对药物治疗具有更高的耐受性。有趣的是,在戒断药物后,持久性细胞失去了抵抗力,可以通过原始药物治疗根除。另一种机制则产生了进入转录稳定终态的细胞。此类药物在撤药后表现出持续的抵抗力。

不幸的是,驱动这种持续耐药性的机制还不清楚。然而,已经提出了两个假设来解释持续耐药性。第一个涉及未使用过药物的肿瘤中已经存在的耐药细胞的罕见亚群。在消除敏感细胞群的同时,药物治疗将耐药细胞留下。MRD(注:微小残留病变,MRD,是指白血病诱导化疗完全缓解后在体内残留少量白血病细胞的状态)在处理后的持续增殖导致肿瘤不可避免的复发(图2B)。实际上,单细胞RT-qPCR已经证实,在某些乳腺癌中,药物暴露前存在耐药性亚群。如果在初始治疗期间检测这些难治性亚群的生物标志物,则可以通过明确针对所有亚群的初始药物来改善预后。另一个涉及获得性抵抗的假设是获得持续耐药性的肿瘤亚群在药物暴露过程中表现出转录可塑性。使用单细胞数据的数学建模表明,时空异质性可能会在药物治疗过程中将转录可塑性转变到持久的抵抗状态。染色质结构的改变可以通过驱动细胞代谢来保持乙酸盐的增殖,乙酸盐是肿瘤细胞的重要营养来源。在某些急性髓细胞淋巴瘤中,耐药性是通过募集新型增强子来引发的,从而能够继续表达对疾病细胞生存至关重要的基因。当癌细胞通过使用替代的增强子来规避基因抑制时,则需要不同的转录因子来持续表达这些基因。这表明癌细胞可以切换导致肿瘤存活关键调节因子表达的途径。单细胞测序还提供了对肿瘤中耐药性的免疫学的评估。比如CD8 T细胞通过巨噬细胞募集到肿瘤中。单细胞T细胞受体测序(scTCR-seq)分析发现,肿瘤细胞中PD1等基因的表达会导致肿瘤浸润性T细胞的耗竭。这阻碍了效应T细胞的反应,包括细胞毒性等。

关于免疫系统的作用,已采用一种称为免疫检查点封锁(ICB)的新型治疗方法。ICB药物既刺激T细胞浸润,又阻止诱导T细胞衰竭的分子。ICB治疗已显示出显著的效果,可以使T细胞肿瘤浸润重新敏化。类似的研究,包括使用单细胞B细胞受体测序(scBCR-seq)研究与抗体疗法相关的抗原特异性,已经证明免疫肿瘤学是一种可行的治疗选择,值得广泛研究。药物发现方法也已经和单细胞技术相结合。例如,单细胞条形码技术与CRISPR / Cas9一起用于将基因扰动引入单个细胞,并以高通量的方式评估这些扰动的转录水平的变化。所以我们有可能将表型与单细胞水平的遗传和转录扰动相关联。将来,研究人员将利用这些技术做出关于药物反应的预测。

细胞技术识别异质性对耐药性的影响

鉴于单细胞测序仍是一个相对较新的领域,因此有进一步发展的潜力。对于scRNA-seq,信号缺失仍然是一个主要问题。在一个细胞中观察到基因处于低或中等表达水平,而在另一细胞中被检测为零。归因和归一化已被用来纠正该问题以及批量效应,取得了一定程度的成功。批次效应是由于非生物因素(例如实验室条件,试剂或仪器)变化而导致的测量差异,而遗漏和批处理效应都会将噪声引入真实值,从而导致药物反应读数失真或细胞类型错误。事实证明,DL模型是从测序数据中提取准确的高维特征并推断内在基因关系的一种出色方法,尤其是在单细胞水平的大型数据集中。恢复真值并消除批次效应可实现更准确的细胞类型注释。

单细胞水平的药物预测前景

迁移学习(DTL)和DL模型先前已用于单细胞聚类分析,批量效应校正和去噪,但尚未用于药物靶点相互作用(DTI)预测或药物反应预测。由于单细胞测序相对于批量测序仍处于起步阶段,因此到目前为止,尚无大型可用于药物相关的单细胞公共数据,从而限制了DL模型的训练能力。为了克服此限制,我们可以借用批量组织测序数据中的信息,然后迁移学习到单细胞水平。

DTL保留了模型的参数,可以将它们应用到具有类似任务的测试数据集中。已经证明迁移学习可以提高预测性能,尤其是当有限的数据用于新任务并且该模型最初是针对大量数据进行训练时。我们首先可以通过生成对抗网络中包含的判别器,从组织测序数据和单细胞测序数据中训练出相似的特征。然后可以将DTL框架应用于将已知的药物-特征关系,从整体水平迁移学习到单个细胞,从而得出每种细胞类型的预测药物敏感性(图3A)。这些思路有望在异质性疾病的治疗方面取得重大进展,并反过来改善受这些疾病困扰的患者的预后。另外,组织测序数据可用于规范化两个单细胞数据集(比如2种不同组织)之间迁移学习的过程,来提预测的准确性(图3B)。

集成单细胞多组学数据进行药物预测

单细胞多组学技术(scMulti-omics)可同时测量单个细胞内的多种模式,包括来自基因组学,表观基因组学,转录组和蛋白质组学的特征。这种方法比以前的单独方法更全面地描述了细胞特性。当将多组学数据结合使用时,某种组学数据可以包括特定细胞特性,例如DNA甲基化,基因表达,染色质可及性或蛋白质丰度,而另一种测序技术可能会没有这些性质。另外,多组学间的结论也可以互相验证。

基于DL的综合分析可以准确回答生物学问题,包括肿瘤类型分类和预后预测。因此,可以期望一个统一的学习框架将scMultiomic数据,蛋白质结构,药物结构和副作用的信息全部纳入。这种框架可以建立基因组变异与药物诱导的表型现象之间的映射关系,从而提高药物敏感性预测的准确性和效率。但是,必须解决和克服巨大的计算负担。

尽管有几种方法可以用来帮助集成和分析scMulti-omic数据,包括因子分解,贝叶斯建模和基于网络的建模,但是将来自两种或更多种技术的数据集成在一起会加剧分析过程中遇到的计算问题。另一个挑战与集成工具的分析能力有关。现有的计算方法不能同时执行诸如识别顺式调控基序,发现特定细胞类型的调控子以及推断基因调控网络等功能。整合scMulti-omic分析方法的强大基准测试流程将是必要的。此外,DL模型还有改进的空间。注意力机制可以嵌入到DL模型中以进行更准确的推断。

结束语

异种肿瘤亚群的基因组和转录组谱的变异性阻止了癌症患者有效药物方案的发展。大多数针对性的癌症疗法和药物,在患者中表现出了不同的反应,从而导致低治愈率和高复发率。但是,不可能在体内进行实验性测试和验证药物反应。因此,如何在计算机模拟中准确有效地评估药物反应对于药物开发至关重要。通过训练和应用DL模型,科学家可以迅速预测新疗法的潜在药物靶标,在数百万种条件下模拟药物反应,并发现现有药物的新用途。我们已经审查了六种DL模型类型,并总结了基于DL的工具在药物发现和预测药物反应中的应用。使用这些DL模型,研究人员成功地提高了他们的预测准确性。

但是,这种DL模型精度受到了常规批量测序方法生成的数据分辨率的限制。减轻这种局限性的一种方法是向单细胞测序技术过度。单细胞技术全面分析了癌细胞的异质性,从而确定了靶向治疗方案并评估了耐药性的风险。由于单细胞数据的高维度和大样本量,DL模型自然很适合单细胞分析。但是,目前,基准的,与药物相关的单细胞数据的有限数量极大地限制了DL模型的应用能力。我们建议,可以通过从批量测序数据中学习药物靶标信息,进一步通过迁移学习来实现单细胞信息相关的药物反应预测。我们认为,尽管还有很长的路要走,但DL和单细胞技术的结合最终将重塑药物开发和靶向疗法的实施方式。

参考资料

Wu Z, Lawrence PJ, Ma A, Zhu J, Xu D, Ma Q. Single-Cell Techniques and Deep Learning in Predicting Drug Response. Trends Pharmacol Sci. 2020 Dec;41(12):1050-1065. doi: 10.1016/j.tips.2020.10.004. Epub 2020 Nov 2. PMID: 33153777; PMCID: PMC7669610.

0 人点赞