大家好,今天和大家分享的是一月份发表在Cancer cell international (IF:4.175)杂志上的一篇文章,“Multi-dimensional omics characterization in glioblastoma identifies the purity-associated pattern and prognostic gene signatures”,作者通过对于TCGA,CGGA(中国人脑胶质瘤基因组图谱)和GEO数据库中胶质母细胞瘤的患者测序信息进行分析,研究了肿瘤纯度在GBM预后,基因组以及转录组改变和肿瘤免疫微环境中的作用,并构造了一个肿瘤纯度相关的五基因signature。
Multi-dimensional omics characterization in glioblastoma identifies the purity-associated pattern and prognostic gene signatures
胶质母细胞瘤的多维组学表征可用于鉴定纯度相关的模式和预后基因标志
一、研究背景
胶质母细胞瘤(GBM) ,IV 级胶质瘤,是一种无法治愈的成人中枢神经系统恶性肿瘤,具有很高的异质性。近年来,越来越多的证据表明,肿瘤微环境在肿瘤生物学中起着关键作用,包括肿瘤进展和耐药性。
肿瘤纯度是指肿瘤细胞在肿瘤中所占的比例,它与肿瘤的基因组和临床病理特征有关。过去肿瘤纯度的判定主要由病理学家的视觉观察决定,现在基于一项研究提出了一种计算纯度值的方法,即一致纯度估计(CPE) ,它是基于ABSOLUTE, ESTIMATE, LUMP 和 IHC 综合判定肿瘤纯度的一种方法。
关于胶质母细胞瘤的纯度和基因组或临床病理特征之间的联系还知之甚少。此外,纯度与胶质母细胞瘤微环境之间的关系尚不清楚。在这项研究中,作者使用CPE 方法来估计肿瘤的纯度,并试图确定肿瘤纯度与临床或分子特征之间潜在的混淆效应。因此,作者研究了肿瘤纯度与微环境中基因组改变、生物学途径以及免疫细胞组成之间的相关性。
二、研究思路
三、结果解析
1、肿瘤纯度与临床病例及分子特征
作者使用了CPE肿瘤纯度评分方法对样本数据进行了分析,并将CPE得分与ABSOLUTE, LUMP, ESTIMATE和免疫组化方法的纯度评分进行了相关性分析。
图1B:肿瘤纯度估算值的数据分布
图1C:通过不同方法推断的肿瘤纯度估计值之间的相关性
作者接下来在TCGA-GBM 队列中确定了肿瘤纯度和临床病理/分子特征之间的关系(图1b)。观察到IDH 突变样本和MGMT启动子甲基化样本中肿瘤的纯度显著增加,并与良好的预后相关。
图1B:TCGA-GBM队列中胶质母细胞瘤患者临床和分子特征热图
随后作者分析了GBM 分子的四个亚型,即原始亚型、经典亚型、间充质亚型和神经亚型的纯度分布
- 在神经或间充质亚型中,肿瘤纯度相对更低,而这些分子亚型通常与胶质瘤的恶性进展有关。
图2A:转录组分子亚型之间肿瘤纯度(CPE 评分)的比较
2、肿瘤纯度对胶质母细胞瘤预后的影响
作者为了说明纯度与总生存率之间的相关性,根据纯度评分的分位数将患者分为三组。根据肿瘤纯度,取前百分之25%和后百分之25%的患者数据绘制生存分析曲线图。
图2B:根据肿瘤纯度分组的总生存率Kaplan-Meier 曲线
3、利用转录组数据构建纯度相关gene signature
作者首先以TCGA RNA-seq 数据集作为训练集。将患者分为高纯度组(前25百分位)和低纯度组(后25百分位) ,并进行差异表达基因(DEGs)分析。
通过对低纯度样品和高纯度样品的比较,作者发现3307个差异表达基因,包括2465个上调基因(低纯度样品中高表达基因)和842个下调基因(高纯度样品中高表达基因)。
接下来,作者使用单变量Cox 回归分析来评估这些基因在训练组中对预后的影响。
- 作者使用最小绝对收缩选择算子(LASSO) Cox 回归算法鉴定了一个与纯度相关的5-gene signature 。
- 风险评分如下: 风险评分= 0.152 * SNCB 0.003 * KCNN4 0.012 * FCGR2C 0.348 * PLAUR 0.067 * LSP1。
- 通过z score基因表达数据和来自多变量Cox 回归分析的相应系数来计算风险评分。
图2D:根据TCGA-GBM 数据集风险评分偏离的Kaplan-Meier 曲线
结果: 训练组高危组与低危组的总生存率(HR = 2.24,95% CI 为1.48-3.38,p < 0.001)有显著性差异。
此外,作者还在TCGA-GBM 微阵列集、CGG-GBM RNA-seq 集和GSE4412集中验证了该5-gene signature的预后价值
最后,作者进行了多变量Cox 分析,包括肿瘤纯度、性别、年龄、IDH 突变状态、风险评分作为协变量。发现纯度相关基因标记是一个独立的预后指标(HR = 1.17,95% CI:1.01-1.36,p = 0.031)
图2E:对于风险因素的HR的多变量分析
4、转录组学和甲基化分析在肿瘤纯度中的功能诠释
作者在完成了临床病理特征与风险因素预测模型的构建后,转向了对于转录组以及甲基化改变与肿瘤纯度相关的细胞功能研究。
作者首先基于t-SNE 或PCA 对转录组数据进行无监督聚类,并根据纯度将患者分为不同的组。
为了进一步阐明转录组结构中确定纯度亚组的机制,作者在TCGA-GBM-RNA-seq 数据集中,利用GO 富集分析或基因集富集分析(GSEA)对DEGs 进行了注释。
对低纯度样品中上调基因的生物学过程进行GO 富集分析,发现“免疫反应” GO 项中有显著富集(图3a)。
图3A:低纯度样品的GO富集分析结果
GSEA 显示,低纯度样品在免疫相关途径中显著富集,包括b细胞受体信号通路、Fc gamma 介导的吞噬作用和IL-17信号通路(图3b)。
图3B:GSEA富集分析显示低纯度样品中特定KEGG途径富集
此外,为了说明所有样品中的活化反应、途径和生物过程,使用ReactomePA进行了通路富集。正如预期的那样,低纯度的样品在免疫相关信号通路和免疫调节相互作用方面显著富集,而高纯度的样品在细胞周期调节和DNA 修复通路方面显著富集(图3c)。
图3C:肿瘤纯度低(左)或肿瘤纯度高(右)的样品中差异富集的反应途径
随后,作者着手于鉴定两个纯度亚组之间的路径活性差异,进行了基因集变异分析(GSVA) 。
图3C:使用GSVA分析不同组的通路活性差异
- 观察到IL6-JAK-STAT3信号通路和IL2-STAT5信号通路等免疫调节通路在低纯度样本中表现出高活性,
- 而G2M 检查点信号通路、E2F 信号通路等细胞周期调节通路在高纯度时表现出高活性。
这些 结果提示免疫系统在低纯度样品中的调节作用至关重要。
在进行完组内GBM样本的关联分析后,作者将来自TCGA 队列的GBM 样本与来自GTEx 队列的正常大脑样本进行比较。
因为纯度是一个可能的混杂因素,作者控制纯度后进行DEGs 分析。作者观察到纯度调整前后基因表达水平有显著差异,
附图5A:Venn图显示纯度调整前后比较肿瘤和正常组织样品的上,下表达基因之间的重叠
- 经纯度调整后大量基因被鉴定为差异表达基因。肿瘤标本中上调的基因可能是肿瘤发生的标志。在这里,作者检测到7460个基因在纯度调整后上调,这可能是新的基因在肿瘤发生改变。
- 然而,当纯度受到控制时,作者在DEGs 分析中没有检测到统计学意义上的显著结果。
作者还比较了高纯度和低纯度的GBM 样品的DNA 甲基化谱。作者鉴定了差异甲基化探针(双侧t 检验FDR < 0.05) ,并选择了位于基因启动子中的探针,因为作者认为这些基因的DNA 甲基化调控可能与纯度有关。
附图6:差异甲基化基因中KEGG途径的富集
- KEGG 富集分析表明,这些差异甲基化基因涉及多种免疫相关途径,这可以部分解释转录组中差异表达的基因。
总之,作者认为这些观察表明了在转录组和甲基化组分析中将纯度作为混淆因子的重要性。
5、基因组学改变和肿瘤纯度
为了从病人间基因组异质性的角度揭示影响肿瘤纯度的可能机制,作者进一步分析TCGA-GBM 数据集中的基因组数据。
可以看到,肿瘤单核苷酸变异(SNVs)在肿瘤纯度两个亚组间存在明显差异。
图4A:反复改变的基因及其在TCGA-GBM高纯度样品(上)或低纯度样品(下)中的分布。
- 在高纯度亚组中,TP53、TTN、EGFR、PTEN 基因的突变频率最高,而在低纯度亚组中,PTEN、TTN、TP53、EGFR 基因的突变频率最高
作者进一步探索了基因组突变的途径。通过分析10条典型的致癌信号通路,作者发现低纯度组的细胞周期通路存在显著的高突变频率
另外,作者观察到突变丰度与纯度呈显著正相关(图4b)
图4C:纯度和突变计数或亚克隆数之间的关联图
接下来,作者探究了体细胞拷贝数变化与和纯度之间的联系,大量的cytoband被显著放大或被删除,且不受纯度的影响。
附图7A:GISTIC2.0分析确定了按纯度分层的不同TCGA-GBM子集中的复发性体细胞拷贝数变化
附图7B:维恩图显示基因组区域内的基因数量
作者对高纯度和低纯度亚组中特异改变的基因进行GO 富集分析,主要表现在免疫调节过程中的差异。
附图8:纯度亚组之间差异扩增基因或差异缺失基因的GO富集分析
经RNA-seq 鉴定的DEGs 重叠后,作者发现有606个基因位于不同的扩增区,其中35个(5.8%)基因在低纯度亚组中表达上调,提示这些基因的差异表达部分是由拷贝数变异引起的。
随后作者对于纯度对克隆构型的影响进行了探究。进行克隆性分析并计算MATH 值来推断肿瘤内异质性(ITH)。两组之间的MATH 值无显著性差异(Wilcoxon 秩和检验,p = 0.414)。但同时作者观察到亚克隆数量减少与低纯度样品相关(图4C)。
高纯度与高百分比的非整倍体相关,这表明高纯度样本中基因体不稳定。
附图9:肿瘤纯度与基因组不稳定性之间的相关性。
6、肿瘤浸润与肿瘤纯度
作者为了探讨GBM 的肿瘤微环境与肿瘤纯度的关系,先在TCGA 和CGGA 的RNA-seq 数据集中估计了组织浸润免疫细胞的细胞丰度。
图5A:按照肿瘤纯度排列的免疫细胞浸润热图
作者利用ssGSEA策略估计了24个免疫细胞亚群。由于免疫细胞构成了微环境中大部分非肿瘤成分,因此主要免疫细胞的比例与肿瘤纯度呈负相关。作者还调查了免疫细胞类型与患者预后之间的关系(图5b)。这种联系在不同的组群中是不同的。
图5B:TCGA-GBM或CGGA RNA-seq队列中免疫细胞浸润比例与存活率(上图)或纯度估计值(下图)之间的相关性。
图5C:显示TCGA-GBM中不同细胞类型之间的Spearman Rho关联图
- TCGA-GBM 队列中与预后较差相关的细胞类型为iDCs 和Tregs,而cga-gbm 队列中的adc、dc、巨噬细胞和中性粒细胞与预后较差相关。
- 有趣的是,作者发现在TCGA 和CGGA 队列中,高纯度样品中的gamma delta t 细胞(Tgd)富集,并且与良好的预后相关(图5b)(Log-Rank 检验,p < 0.05)。
- 此外,作者观察到多种细胞类型之间有显著的相关性(Spearman 的相关性,p < 0.05)。
同时,作者使用了一个简单的公式来估计免疫细胞溶解活性(CYT) ,它是通过几何平均的GZMA 和PRF1表达(TPM 值)来评估的。CYT 与肿瘤纯度呈显著正相关(rho =-0.63,p < 0.001)。
附图10:CYT与突变丰度的相关性
图5D:肿瘤纯度与CYT(GZMA和PRF1的几何平均值;y轴为log2比例)的相关性的散点图
最后,作者研究了肿瘤纯度对免疫检查点基因表达的影响。与预期一样,HAVCR2、CD40、SIGLEC7、CD86基因的表达水平与肿瘤纯度呈负相关。总之,这些发现表明纯度是肿瘤微环境的一个重要特征。
图5E:免疫检查点基因表达(TCGA RNA-seq数据集)与肿瘤纯度之间的相关性
小结
这篇文章通过肿瘤纯度这一指标,对于GBM这一癌种的临床病理,转录组、甲基化以及基因组学的改变进行关联分析,展示了高低纯度组别间多方面的差异,并构建了一个风险因素评分标准。文章的分组,分析思路是值得我们学习借鉴的,可以迁移到其他癌种中进行相关分析,只要有CPE评分需要的四个指标,就可以进行本文思路类似的数据挖掘。
文章因为是基于TCGA和CGGA的回顾性研究,在未来的前瞻性研究中依旧需要仔细评估和验证结果的准确性。其次,根据转录组数据进行的免疫浸润分析存在其有限性,进一步研究对于提高对胶质母细胞瘤免疫环境以及纯度的认知是有必要的。