多组学数据联合分析构建预后模型的8分+发文思路

2021-07-12 15:32:36 浏览数 (1)

大家好!今天跟大家分享的文献是2021年3月发表在Briefings in Bioinformatics(IF=8.990)杂志上的一篇文章。本文作者对多组学数据进行研究,构建缺氧-免疫相关的多组学预后模型。

题目:A new thinking: extended application of genomic selection to screen multiomics data for development of novel hypoxia-immune biomarkers and target therapy of clear cell renal cell carcinoma

一项新的研究:应用基因组学数据筛选肾透明细胞癌新的缺氧-免疫标志物和靶向治疗标志物

生信分析定制服务

也可直接添加小编微信:keyan-zhishi2沟通

摘要

越来越多的证据表明肾透明细胞癌(ccRCC)缺氧与免疫相互作用具有重要的临床意义。然而,还没有基于缺氧和免疫结合的预后模型。此外,大部分研究仅使用RNA-seq筛选ccRCC的预后特征,还没有多组学数据结合的分析。作者使用t-SNE和ssGSEA分析构建缺氧免疫相关的肿瘤亚型,并研究这三种亚型在遗传和表观特征的缺氧免疫差异。随后,基于LASSO和Cox构建预后模型,1年,3年和5年ROC曲线的AUC分别为0.806,0.776和0.837。作者与已有的9个预后生物标志物和临床预后特征进行比较,本研究的预后模型性能更好。作者使用两个外部数据进行基因表达差异(ICGC和SYSU)。此外,IPS和TIDE分析表明高风险组患者对免疫治疗效果更好。使用CDSC和cMAP数据库评估高风险组对化疗药物和药物的敏感性。总的来说,作者开发的预后模型可以准确预测ccRCC患者预后,并为ccRCC患者的缺氧免疫生物标志物开发和靶向治疗提供信息。

流程图

结果

1. 数据的获取和整理

从TCGA数据库下载RNA-seq数据包括530例ccRCC样本和72例正常样本,下载miRNA-seq数据包括516例ccRCC样本和71例正常样本,下载WES数据包括339例ccRCC样本和从https://portal.gdc.cancer.gov下载450k DNA甲基化数据包括479例ccRCC样本。从ICGC数据库下载RNA-seq数据。对SYSU队列进行RT-PCR验证。

2.ccRCC的缺氧状态和缺氧相关DEGs

TCGA数据库下载的527例ccRCC样本和72正常样本的临床信息见表1。

表1 患者临床信息

GSEA分析发现,肿瘤样本在缺氧通路的富集程度更高(图1B)。从MsigDB下载200个缺氧标志基因的表达矩阵,计算TCGA队列患者的欧氏距离,并进行t-SNE分析,患者聚为3个clusters(图1C)。每个cluster分别有210,179和138个患者(图1D)。生存分析表明,cluster1的OS最好,cluster2的OS最差(图1E)。表明,cluster1和cluster2代表是缺氧程度最低和缺氧程度最高。作者进一步研究高缺氧和低缺氧组HIF-1信号通路中靶基因表达水平的变化,分别有15个增加氧传递基因和13个减少氧消耗基因。在增加氧传递基因中,有11个在高缺氧组高表达。减少氧输送基因中有8个在高缺氧组中高表达(图1F)。以上结果表明,cluster1和cluster2分别为低缺氧组和高缺氧组。

图1 流程图和鉴定缺氧状态

对高缺氧组和低缺氧组鉴定缺氧相关DEG有1918个(图4A)。其中有1886个DEG在高缺氧组中过表达,这些DEG是与缺氧相关的危险基因。有21个DEG在低缺氧组中过表达,这些DEG是缺氧相关的保护性基因。

3. ccRCC的免疫状态和免疫相关DEGs

ssGSEA分析和聚类分析将患者分为免疫H组和免疫L组(图2G)。免疫H组和免疫L组进行差异分析,鉴定到2123个缺氧相关DEGs(图4A)。随后,作者研究肿瘤纯度和临床特征的关系。结果表明,肿瘤浸润性免疫细胞的临床相关性更强。因此,作者对肿瘤免疫微环境(TIME)和免疫相关基因进行分析。

4. ccRCC的TME

ESTIMATE算法评估肿瘤组织中基质细胞和免疫细胞打分,从而推断肿瘤纯度。结果表明,免疫H组的打分较低(图2A-2B)。免疫H组肿瘤纯度较低。HLA基因集的表达水平分析表明,大部分HLA基因在免疫L组的表达水平较高(图2C)。免疫L组患者的estimate打分较高,预后较差(图2F)。免疫和基质打分与临床因素相关性的研究发现,免疫打分较低与OS较长有关而基质打分与预后没有显著相关性。

图2 鉴定免疫状态和缺氧-免疫相关状态

5. ccRCC患者的浸润性免疫组分

免疫浸润水平和细胞组成与患者预后密切相关。ssGSEA分析将ccRCC样本分为高免疫组和低免疫组并使用CIBERSORT进一步分析。高免疫组中naïve B细胞、静息记忆CD4 T细胞、M1巨噬细胞、静息巢状细胞、静息肥大细胞、单核细胞、静息NK细胞、M2巨噬细胞和活化树突状细胞的比例显著增加。低免疫组中CD8 T细胞、浆细胞、激活记忆CD4 T细胞、辅助性T细胞、δ T细胞和调节性T细胞(Tregs)的比例较高。其中,记忆B细胞、CD8 T细胞、M0巨噬细胞、M2巨噬细胞和活化的树突状细胞在TNM分期、分期t或淋巴结中具有显著差异。

6. ccRCC中缺氧-免疫相关DEG的预后研究

基于上述研究,作者将患者分为低缺氧高免疫组,高缺氧低免疫组和混合组。生存分析表明低缺氧高免疫组生存情况最好而高缺氧低免疫组预后最差(图2H和2I)。结果表明,缺氧和免疫在ccRCC患者预后方面呈相反作用。

对低缺氧高免疫组和高缺氧低免疫组进行差异分析,鉴定到1070个DEG(图4A)。其中有894个基因在低缺氧高免疫组过表达,定义为缺氧-免疫相关保护性基因,有176个基因在高缺氧低免疫组过表达,定义为缺氧-免疫相关风险基因。

7. 不同免疫浸润水平下体细胞突变分析

随后,作者进一步研究低缺氧高免疫和高缺氧低免疫组患者的基因突变情况。使用R包maftools对TCGA的WES数据进行SNV,SNP,INS和DEL分析和可视化。如图3B所示,在低缺氧高免疫和高缺氧低免疫两组中,大部分突变都是错义突变。两组分别检测到4593和4487个snv,其中C>T是最常见的突变类型。高缺氧低免疫组突变数较高。此外,低缺氧高免疫组中SNP,ins和DELs数量较高。在高缺氧低免疫组中有4个基因在超过8%以上的样本中发生突变,而在低缺氧高免疫组中有9个基因,两组中共有基因分别为VHL,PBRM1,MTOR和TTN。两组中突变频率排名前10的基因如图3C所示。随后,作者使用CoMEt算法研究两组中突变频率排名前25基因的共有和特有的突变,两组中特有突变有CHL-STG2,CHL-BRCA2和VHL-AKAP9。有趣的是,在两组中有些基因的突变频率不同,Fisher检验检测到71个差异突变基因(图3C)。生存分析表明PTEN-wt组和PTEN-mut组具有OS差异(图3D),而PBRM1-wt组和PBRM1-mut组没有差异(图3E)。

图3 低缺氧高免疫和高缺氧低免疫的突变分析

8. 基于缺氧免疫状态研究ccRCC的DNA甲基化模型

作者使用TCGA数据库下载的450k DNA甲基化数据研究不同缺氧免疫组的DNA甲基化模式。共鉴定到9458个缺氧-免疫相关DMPs。低缺氧高免疫组中的1023个高甲基化基因中,有59个上调表达和31个下调表达DEGs。而低甲基化基因中仅有11个上调基因。对DMP相关基因进行GO分析,这些基因参与细胞分化和发育中的潜在作用,还富集在与神经元相关的生物过程。GSEA分析表明,高甲基化基因与肿瘤相关的神经生物学过程显著性更高。有趣的是,作者发现高甲基化相关的上调DEG参与免疫系统激活。

9. 多组学特征可以准确预测预后

以上结果主要是在基因表达情况,体细胞突变和DNA甲基化方面研究两组的差异。在低缺氧高免疫组中鉴定到611个上调基因和164个下调基因。分别在低缺氧高免疫组和高缺氧低免疫组中鉴定到101和77个突变频率较高的基因。对于DNA甲基化来说,在9458个DMP中,有5328个DMP位于注释基因的区域。

作者使用LASSO回归和Cox回归分析鉴定缺氧-免疫相关预后特征。此外,联合组学数据和单一组学数据构建预后模型,哪种模型性能最佳。将TCGA数据分为训练集(125例)和测试集(125例),对337个DEG,17个突变基因和217个DMP进行LASSO分析和多因素Cox回归分析构建预后模型,该预后模型包括21个变量(图4B)。基于预后模型计算患者风险打分,训练集ROC曲线的1年,3年和5年AUC分别为0.806,0.776和0.837。测试集ROC曲线的1年,3年和5年AUC分别为0.779,0.779和0.805。根据风险打分中位数将患者分为高风险组和低风险组,生存分析表明高风险组OS较差(图4C和4D)。同时,作者对TCGA整体数据集进行相同分析,结果与之类似(图4E)。

图4 缺氧-免疫相关预后模型

该预后模型的21个变量的总体贡献程度见表2。

表2 预后模型包含的21个变量

其中hsa-miR- 34c-3p, hsa-miR-3922-3p, hsa-miR-130b-3p, hsa-miR-671-5p, SEMA3A, CST2, PDIA2, NPY4R, PABPC1L, AC034213.1, KCNMB2- AS1, FIRRE, AL357992.1, AC005586.2 ,AC015909.1 cg01113811, cg11024506 和cg16084133 与预后较差有关,而ANK3和hsa-miR-139-3p与预后较好有关。对该预后模型和其他已知的预后生物标志物计算SSIGN打分和Leibovich打分,结果表明预后模型的效果更好(图5A和5B)。

10. 功能富集分析和TMB,TSI与预后模型的相关性

对缺氧-免疫相关基因进行GO,KEGG和GSEA分析,该模型富集与缺氧和免疫通路,例如T细胞凋亡过程,细胞溶解等(图5C-5E)。有趣的是,作者发现高风险组的TMB较高,EREG-mRNAsi TSIs较低,ENHsi TSIs较低且预后较差,但他对ICB治疗的效果却较好(图6A-6C)。

图5 高风险组和低风险组基因的功能分析

图6 风险打分与TMB,TSI和临床特征的相关性

11. 对该模型的8个核心基因进行验证

根据TCGA和ICGC数据库,作者发现ANK3, PABPC1L, AC005586.2, AC034213.1, miR-130b-3p, miR-139-3p, miR-671- 5p 和 AL357992.1 是重要的核心基因,根据这些基因计算风险打分可以预测患者预后。作者对这些基因进行qRT-PCR验证。结果表明,PABPC1L, AC005586.2, AC034213.1, miR-130b-3p, miR- 671-5p 和 AL357992.1 在肿瘤组织中高表达而ANK3 和miR-139-3p 低表达(图10C)。此外,根据SYSU队列的OS分析鉴定到PABPC1L, AC005586.2, AC034213.1, miR-130b-3p, miR-671-5p, miR-139-3p 和AL357992.1也可以作为ccRCC的预后基因(图10D)。

图10 预后基因验证

12. 列线图构建

使用R包rms构建列线图(图7A),构建列线图校准曲线用于列线图预测1年,3年和5年生存率与实际情况一致性(图7B)。基于列线图绘制ROC曲线的1年,3年和5年AUC分别为0.902,0.902和0.886(图7C)。

图7 列线图构建

13. 基于风险打分的治疗策略

在高风险组和低风险组研究9个免疫检查点的表达水平(图8A和8B)。结果表明,高风险组的免疫检查点表达水平更高。风险打分与其表达水平负相关(图8C)。对两组进行IPS分析,高风险组的IPS,IPS-CTLA4,IPS-PD1和IPS-PD1-CTLA4打分较高(图8D)。这些结果表明,高风险组患者与免疫治疗效果更好。

为了进一步评估风险打分作为预测患者ICB治疗反应的能力,作者对stage Ⅲ和Ⅳ期ccRCC患者进行TIDE分析。结果表明,高风险组的TIDE打分较低,表明其对ICB治疗反应较强(图8E)。随后,作者将风险打分与其他生物标志物进行比较,结果表明本研究基于多组学数据构建的预后模型预测准确性较高(图8F)。

图8 高风险组和低风险组的免疫治疗反应评估

此外,作者预测两组对10种常见化疗药物的反应。其中有五种药物在两组之间的IC50具有显著差异(图9A-9F)。使用Cmap数据库筛选对ccRCC具有治疗作用的小分子药物,筛选到6种小分子药物并进行3D结构扫描(图9G-9L)。

图9 评估两组的化疗反应和潜在的治疗药物

结论

本研究作者基于TCGA数据库的多组学数据鉴定缺氧-免疫相关基因并构建包含多组学信息的预后模型,该预后模型预测效果较好且可以预测患者对免疫治疗的反应。本研究的亮点在于作者不局限于单一组学数据,而是对RNA-seq,WES和甲基化数据均进行分析并构建包含多组学数据的预后模型,准确性较高。但本研究还存在一定局限性,本研究仅是依靠TCGA数据进行的分析没有覆盖其他数据来源,还需要使用其他数据对模型进行训练。

na

0 人点赞