编译 | 姜晶 审稿 | 任宣百
本文介绍由印度的德里印度理工学院Debarka Sengupta研究员团队和澳大利亚昆士兰州的前列腺癌研究中心的Colleen C. Nelson教授团队联合发表在Nature Communications的研究成果。肿瘤间和肿瘤内异质性是癌症治疗的主要障碍,会导致癌症患者出现不同的药物反应。高通量筛选数据集为基于机器学习的个性化治疗建议铺平了道路。本文作者介绍了Precily,这是一种使用基因表达数据推断癌症治疗反应的预测建模方法。作者展示了将通路活性估计与药物描述符结合作为特征的好处。作者将Precily应用于与数百个癌细胞系相关的单细胞和bulk RNA测序数据。然后,作者使用他们内部的前列腺癌细胞系和暴露于不同治疗条件的异种移植数据集来评估治疗结果的可预测性。此外,作者证明了本文方法对来自癌症基因组图谱的患者药物反应数据的适用性,以及描述三名黑色素瘤患者治疗过程的独立临床研究。研究结果强调了化学转录组学方法在癌症治疗选择中的重要性。
1
简介
癌症是一种高度复杂的疾病,在个体中表现出不同程度的遗传和表型异质性。尽管预后有明显的整体改善,但癌症治疗的反应通常是不可预测的,主要归因于肿瘤微环境中癌细胞和相关表型改变的非恶性细胞的克隆多样性,这些对疾病的治疗构成了重大障碍。目前治疗策略是使用毒性较低的癌症药物,专门针对异常表达或突变的蛋白质,但并非所有的癌症和抗癌药物都可靶向遗传生物标志物。此外,在不考虑耐药性的情况下进行靶向治疗可能会降低患者的存活率。因此,基于癌症预处理分子图像的药物反应早期推断已成为必要。
近年来,大规模药物基因组数据库的出现推动了预测性个性化肿瘤学研究,包括癌细胞系百科全书(CCLE)、癌症药物敏感性基因组学(GDSC)和癌症治疗反应门户v2(CTRPv2)。这些构成了一个广泛的知识库,涉及1000多个细胞系和数百种抗癌药物。同时,癌症基因组图谱(TCGA)可作为另一个丰富的数据库,具有跨多种癌症类型的原发性肿瘤的基因表达谱,以及相关的临床元数据和药物反应注释。这些丰富的数据使基于分子图谱的药物反应建模成为可能。各种机器学习方法被提出用于预测癌症中的药物反应。通过仔细调查这些方法,作者确定了两个关键的改进范围。首先,过去的大多数研究都没有将药物的结构特性视为特征(预测任务中的解释变量),因此,机器学习模型学习效果欠佳,无法对不属于训练数据的药物进行预测。其次,基因表达水平被视为自变量,忽略了其通路特异性组合含义。由于大多数靶向治疗通过通路起作用,因此忽视通路分辨率会导致对机器学习技术的过分强调。过去的研究已经证明了使用通路富集分数进行各种下游分析的效用,而不是基因表达值,且基于通路富集分数的数据集成减轻了批次效应。
本文作者开发了一个名为Precily的基于深度神经网络(DNN)的框架,用于预测体外和体内环境中的药物反应。对于模型训练,作者利用了基于细胞系的高通量筛选数据。由于细胞系模型在未见数据上的可重复性和整体性能令人信服,作者探索了在不同治疗条件下与内部前列腺癌(PCa)细胞系和动物模型相关的类似预测任务。作者首先在不同的PCa细胞系上评估Precily,预测揭示了药物和通路在治疗耐药性和敏感性方面的临床和生物学相关性。又评估Precily在预测药物反应方面的效用,这些药物在训练模型中从未见过。考虑二甲双胍和奥利司他,它们分别用于治疗2型糖尿病和肥胖症,但也被发现在PCa中具有治疗潜力。最后,作者使用来自TCGA的肿瘤RNA-seq数据和记录的临床治疗反应信息来验证在精准肿瘤学中外推该方法的可能性。作者对模型的效率进行了基准测试,对来自TCGA的患者样本进行了治疗前RNA-seq谱的训练,并对复发后耐药BRAF突变黑色素瘤患者进行了匹配。作者的研究将系统的药物反应预测流程与涉及细胞系、异种移植和患者数据的体外和体内分层比较联系起来,这是临床实施此类方法的最重要先决条件。
2
结果
Precily能够在癌细胞系中实现可重复的药物反应预测
本文提出的Precily利用来自CCLE的癌细胞系的bulk RNA-seq数据进行基于机器学习的预测。对于数据准备,首先,对于550种癌细胞系CCLE中的每一种,利用GDSC中可用的药物反应数据,计算了来自MSigDB的1329条典型通路的通路富集分数。其次,使用SMILESVec获得了173种抗癌化合物的数字分子描述符,通过提供简化分子线性输入规范(SMILES)符号,使用PubChemPy检索。作者发现两个数据库之间共有550个细胞系,针对173种可用SMILES符号的独特分子化合物进行筛选。SMILESVec描述符是大小为100的向量。将通路和药物特征视为解释变量(即自变量),而LN IC50估计作为回归框架下的决策变量(即因变量)。解释变量和决策变量本质上都是连续的。最好将样本理解为(细胞系、药物)元组及其反应。此处细胞系由上述通路富集分数编码(图1a)。使用开源软件Keras构建了一个包含2-6个隐藏层的DNN架构,可作为超参数进行调整(图1b)。对于模型构建,遵循交叉验证最佳实践,并在独立测试集上报告性能。作者意识到(细胞系、药物)元组的随机训练-验证-测试拆分引入了数据泄漏问题,这与实际应用不一致。通过这种方式,训练数据可以了解细胞系基因表达谱及其对某些药物的敏感性,从而可以很容易地预测其对新药的敏感性。在临床环境中不太可能出现类似的情况。不能根据过去的反应来推断患者的药物反应。在这种情况下,无法处理未经治疗的病例。为此,作者根据细胞系拆分数据集,以便在训练、验证和测试集中没有共同的细胞系。作者将Precily的框架与两种被广泛引用的方法进行了比较,这两种方法都利用基因表达谱进行药物反应预测。还考虑了传统的机器学习方法,随机森林(RF)和ElasticNet,都已被先前的研究用于药物反应预测。作为基线,作者使用基于平方变异系数(CV2)选择的500个基因的表达水平评估了RF、ElasticNet和Precily模型的性能。在保留的数据中,基于Precily的预测与ground truth的相关性最高,紧随其后的是CaDRReS-Sc。图1c显示了药物之间Pearson相关系数(ρ)的分布,表明不同方法的预测与ground truth LN IC50值之间的一致性。作者汇总了药物和细胞系的预测,Pearson相关系数值为0.88 (R2 = 0.77;P值 < 2.2e-16)(图1d)。虽然GDSC主要对抗癌药物进行分类,但CTRPv2数据库具有一组包含工具化合物、探针和药物的各种小分子,包括美国食品和药物管理局(FDA)批准的癌症治疗药物。对CCLE/CTRPv2组合进行了类似CCLE/GDSC分析。Precily的Pearson相关系数值为0 .84 (R2 = 0.70;P值 < 2.2e-16)(图1e)。总之,作者的分析表明,可以在癌细胞系中以合理的准确性和可重复性预测对抗癌治疗的敏感性。
图1 Precily预测分析工作流程示意图
利用单细胞表达谱进行药物反应预测
单细胞RNA测序(scRNA-seq)技术提高研究者对不同癌症类型肿瘤内和肿瘤间异质性的认识。虽然scRNA-seq已被大量临床研究的作为首选方法,但在通过考虑肿瘤内异质性预测亚克隆分辨率的治疗结果上尚未充分利用它。为了证明Precily在单细胞水平上预测药物反应方面的潜力,使用来自两项现有研究的单细胞数据集。首先,使用Kinker, G.S.等人为207个癌细胞系生成的scRNA-seq数据,其中116个细胞系与CCLE数据集重叠。重新训练了CCLE/GDSC模型,使得Kinker,G.S.等人的细胞系从未用于模型训练。将此模型应用于Kinker,G.S.等人的数据集并得到皮尔逊相关系数0.85(R2 = 0.73;P值<2.2e-16)(图2a)。此外,使用来自Lee等人先前发表的研究中的第二个scRNA-seq数据集对本文模型进行了基准测试。该数据集包括由未经治疗的转移性乳腺癌细胞(MDA-MB-231)和药物假期后对紫杉醇产生敏感性的细胞群。在这项研究中,转移性MDA-MB-231细胞暴露于紫杉醇药物。大多数细胞在暴露五天后死亡。然而,在停药后在无药物培养基中培养的一些残留细胞增殖并建立了克隆。值得注意的是,这些细胞在再次暴露时对紫杉醇变得更加敏感。Precily对CCLE/GDSC数据进行训练可以从紫杉醇敏感的MDA-MB-231细胞群的scRNA-seq数据正确预测体外治疗反应(图2b)。
图2 在scRNA-seq数据集上评估Precily
前列腺癌细胞系不同治疗策略的分析
PCa是男性最常见的恶性肿瘤,利用紫杉烷或附加的雄激素靶向治疗对生存率影响不大,最终会出现对这些药物的获得性耐药性。因此,适当的药物选择和组合在癌症动态演变的前景中至关重要,以便为患者带来最大的利益。因此,选择Pca治疗的最佳药物的需求尚未得到满足。作者在他们的PCa数据集上独立验证了CCLE/GDSC训练的Precily模型。Precily应用于五个未处理的PCa细胞系的bulk RNA-seq谱,每个细胞系有两个生物重复。作者预测了GDSC数据库中针对不同细胞通路的PCa细胞系测试的155种药物对这10个样本中的每一个的药物反应。与AR阴性细胞系(DU145和PC3)相比,雄激素受体(AR)阳性PCa细胞系(LNCaP、DUCAP和VCAP)对药物更敏感。LNCaP、DUCAP、VCAP、DU145和PC3与预测LNIC50值相关的中位数Z分数分别记录为-0.17、-0.03、0.02、0.17和0.06(图3a、b)。在这五种细胞系中,LNCaP细胞预计对这些药物最敏感(图3b)。作者从CCLE/GDSC训练数据中删除了相关测试细胞系。当将LNCaP细胞的两个生物重复的预测LN IC50值与相应的GDSC值进行跨药物比较时,Pearson相关性分别为0.86(双边t检验P值 < 2.2e - 16)(图.3c)。
进一步研究当LNCaP细胞在雄激素受体(AR)激动剂双氢睾酮(DHT)存在下培养时,与在缺乏雄激素培养基条件下的对照(VEH)相比,药物反应预测是如何改变的;此外,在这些条件下使用临床批准的AR拮抗剂比卡鲁胺(BIC)、恩杂鲁胺(ENZ)和阿帕鲁胺(APA)进行治疗如何影响预测的敏感性模式。在临床环境中,治疗后敏感性模式的评估对于确定配对疗法以对抗各种PCa耐药性至关重要。总体而言,与没有DHT和AR拮抗剂培养的细胞相比,预计用DHT培养的LNCaP细胞对治疗药物更敏感(图3d)。观察到在DHT存在下培养的细胞的增殖相关通路的GSVA评分升高,这可能是因为已知DHT会刺激PCa细胞增殖。这支持了活跃增殖的细胞对特定的抗癌药物更敏感的观点,而处于细胞抑制或静止状态的细胞更具抗性(图3e)。值得注意的是,在DHT存在的情况下添加AR拮抗剂并不能完全逆转预测的DHT引起的药物敏感性。事实上,作者的模型预测,即使存在ENZ,细胞仍然对顺铂、多西他赛和紫杉醇敏感,后者是目前临床用于晚期PCa患者的两种主要化疗药物(图3f)。这些发现表明Precily在识别潜在的组合疗法中的成功应用。一个令人兴奋的应用可能是预测对不属于训练数据的未见化合物的反应。为了证明这一点,考虑了二甲双胍和奥利司他,这两种药物分别用于治疗2型糖尿病和肥胖症。然而,越来越多的报告表明它们在某些癌症中具有治疗潜力。基于Precily的预测LNCaP细胞系对这些药物的敏感性在相对范围内是一致的(图3g,h)。
图3 前列腺癌(PCa)细胞系药物反应预测分析
异种移植中的Precily预测与广泛机制推理一致
异种移植可用于体内肿瘤模型,用于直接研究具有相似表型的癌症患者的治疗反应和预测抗癌药物反应。因此,评估作者预测细胞系衍生异种移植物药物反应的能力。使用来自LNCaP异种移植的bulk RNA-seq数据,LNCaP异种移植肿瘤的建立和初始生长依赖于雄性小鼠中的雄激素(PRE-CX)。去势后,AR活性和肿瘤生长受到抑制(POST-CX),然而,这种对去势的初始反应可重复地让位于去势抵抗(CRPC)。用ENZ进一步治疗CRPC最初会产生治疗反应(ENZ敏感;ENZS),然而,随着时间的推移会出现耐药性(ENZ抗性;ENZR)(图4a)。使用CCLE/GDSC训练的Precily模型,预测了54个样本中每个样本在连续治疗反应和耐药状态谱中的药物反应。根据分析中对155种药物的总体预测敏感性,LNCaP异种移植肿瘤样本分为三组(图4b)。Cluster1样本的肿瘤耐药性最强,这与其较低的增殖指数相关。Cluster1主要由ENZ处理的肿瘤样本组成。相比之下cluster3样本对155种药物的总体敏感性最高,这可能归因于其较高的增殖指数,细胞增殖相关基因组的GSVA通路得分较高(图4c,d)。ENZR肿瘤分布在所有三个clusters中,从而表明治疗的异质性结果。作者假设ENZ抗性是通过不同的潜在机制获得的,并且可能与肿瘤微环境中基质成分的贡献有关。与ENZS肿瘤的均匀分布相比,ENZR肿瘤的预测LNIC50的多峰分布加强了多种ENZ抗性机制的指示(图4e)。与ENZS相反,预计ENZR样本将对一部分药物产生某种程度的敏感性。相对于ENZS样本,ENZR样本的增殖相关通路的GSVA得分往往较高,但这没有达到统计学显著性(图4f)。预测ENZR肿瘤对EGFR靶向药物比研究中的任何其他肿瘤类型更敏感(图4g)。虽然作者在训练集中的药物上取得了令人鼓舞的结果,但还可以预测未包含在训练集中的药物的生物学相关反应。作者观察到PRE-CX、POST-CX和CRPC组对AR拮抗剂的敏感性。然而,对于ENZ治疗的ENZS和ENZR组,模型预测敏感性下降。分析表明,来自用ENZ积极治疗的小鼠的反应性ENZS肿瘤不太可能受益于额外的AR拮抗剂(图4h)。
图4 LNCaP衍生异种移植的药物反应预测分析
患者临床反应的可预测性
TCGA包含大量组学数据集,涵盖多种癌症类型,主要是患者原发性肿瘤的基因表达谱和临床反应信息。作者使用AutoML,根据TCGA的肿瘤bulk RNA-seq数据构建药物反应分类器。90%的完整数据用于5倍交叉验证和超参数优化,其余10%用于独立测试。训练-验证-测试拆分确保数据集中没有重叠的患者。XRT在测试数据上的AUC-PR为0.85 (图5a)。作者测试了癌症分期信息的结合是否可以改善药物反应预测。惊讶的是,它的加入不利于模型性能(AUC-PR = 0.79),表明癌症分期缺乏客观性。值得注意的是,在34个测试分类器中,深度神经网络的最佳变体排名第19。这可以通过缺乏患者数据来解释。正如预期的那样,Precily DNN架构的分类器变体产生了次优AUC-PR为0.77。独立评估药物反应概率是否可以用作生存风险分层的标准。在使用模型预测有效的药物的患者中观察到总体生存率显着改善(图5b)。使用反应概率的中位数作为临界值来创建两组进行生存分析。作为一项独立评估,在存在其他常见协变量的情况下,评估Precily预测与患者生存率的关系。多元cox回归分析得出似然比检验P值 =< 2.2e-16,协变量Precily预测的反应概率产生P值 为0.00135,表明其与生存率独立相关。
接下来,作者将TCGA数据模型应用于一个独立的数据集,该数据集提供了治疗前和治疗后的RNA-seq图谱和临床反应信息。在治疗前患者1和患者2中对达拉非尼和曲美替尼的反应概率高于治疗后(图5c,d)。能够正确地将这些患者预测为反应者,这与研究的原始注释一致,因为根据实体瘤反应评估标准(RECIST),这些患者被归类为部分反应。相反,对于治疗前和治疗后的样本,患者3被正确预测为对达拉非尼耐药(图5e)。这与根据RECIST标准将该患者归类为稳定疾病的原始研究一致。
图5 TCGA模型效率评估
3
总结与讨论
预测癌细胞的药物反应在个性化肿瘤学中至关重要。在这项研究中,作者开发了Precily,这是一个基于深度神经网络(DNN)的框架,以根据基因表达谱和药物描述符预测对癌症治疗的反应。该框架的主要优点是,由于使用了数字药物描述符,相关模型可用于推断几乎任何样本-药物对的药物敏感性。首先,这种方法能够跨癌症汇集细胞药物组合,从而提供提高模型性能的机会。其次,Precily成功预测了LNCaP对二甲双胍和奥利司他的敏感性,证实Precily可用于评估不属于建模任务的药物的疗效。最后,基于Precily的单药敏感性预测可以为临床上合理的联合疗法提供线索。因此,Precily可以用作第一道筛选工具来帮助临床决策。
Precily的一个局限性是,在单个药物的水平上,观察到的和预测的IC50值之间的相关性不是最理想的。然而,在药物之间,相对敏感性被很好地捕获。在测试患者肿瘤数据的方法时,作者获得了有希望的结果。然而,有记录的临床药物反应的人类癌症数据很少。利用TCGA有限的各种癌症类型的数据,作者开发并验证了一种用于药物反应预测的泛癌模型,作者相信该模型可以通过来自不同临床试验研究的额外数据得到进一步证实。
总而言之,作者目前的工作将药物反应的生物信息学预测与临床可解释的观察联系起来,无论是在体外还是体内。鉴于在Pca中已知的临床相关分子亚型数量有限,基于肿瘤bulk表达谱的药物反应推断可用于进一步的药物基因组研究。
参考资料
Chawla, S., Rockstroh, A., Lehman, M. et al. Gene expression based inference of cancer drug sensitivity. Nat Commun 13, 5680 (2022).
https://doi.org/10.1038/s41467-022-33291-z
数据
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE211721
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE211781
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE211856
https://singlecell.broadinstitute.org/single_cell/study/SCP542/pan-cancer-cell-line-heterogeneity#study-download
https://www.ncbi.nlm.nih.gov/sra/SRP040309
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE77940
https://sites.broadinstitute.org/ccle/
https://www.cancerrxgene.org/
https://gdac.broadinstitute.org/
https://portals.broadinstitute.org/ctrp.v2.1/
代码
https://github.com/SmritiChawla/Precily
https://zenodo.org/record/7024834#.YzViqy8Rp9c