Multi-omics analysis based on integrated genomics,epigenomics and transcriptomics in pancreatic cancer
IF:4.404
Published online:12 February 2020
沈阳医科大学附属盛京医院普外科谭晓东医生团队与慕尼黑大学附属医院妇产科、慕尼黑工业大学医学院儿童癌症研究中心小儿科合作完成。
背景
由于胰腺癌起病隐匿、临床症状不明确、诊断较晚、转移较早,多数患者确诊于癌症晚期,5年生存率远低于5%。现在越来越多的癌症多组学分析为研究癌症基因组学、表观基因组学和转录组学异常提供了新的视角。由CNV和SNV引起的基因变异在胰腺癌的发生发展过程中较为常见。CNV与人类种群多样性及神经母细胞瘤、2型糖尿病、肥胖等多种疾病有关。表观遗传异常(包括DNA甲基化(MET)、共价组蛋白修饰、RNA编辑和基因沉默)参与了癌症的发生和发展,MET异常发生于胰腺癌、乳腺癌、结直肠癌等癌症的早期。MET可作为癌症早期检测的新型生物标志物。但CNV和MET之间的相互作用仍不清楚,这种联系在癌症发展中的作用需要进一步分析。
数据
1. TCGA Genomic Data Commons Data Portal。
(1) CNV:将重叠度≧50%的区域定义为同一区域。移除低于五个探针覆盖的区域。参考(GENCODE)GRCh38 release 22将CNV定位到相应基因。将多个定位于同一基因的拷贝数区域合并,取平均值。
(2) MET:删除≧70%样本中缺失的MET位点。k近邻算法补缺失值。参考(GENCODE)GRCh38 release 22将转录起始位点区域上游2kb至下游200bp区间的探针保存并映射到相应的基因中。
(3) RNA-Seq:去除低表达基因(本研究中在超过50%的样本中FPKM=0的基因定义为低表达)。
(4) SNV (mutect type):去除沉默突变和内含子区域突变。
(5) 最新的临床随访信息(2019.3.24)。
保留CNV、MET和RNA-Seq数据集中161样本数据进行后续分析。
2. GEO:GSE21501(101样本)。GSE71729(123样本)。
方法结果
1.CNVcor和METcor基因数据集的比较
分别计算各基因和CNV或MET之间的Pearson相关系数(r),根据公式ln([1 r]/[1-r])转换为Z值。p<0.05的基因构成CNVcor(CNVs引起的转录组异常)和METcor(MET变异引起的转录组异常)基因数据集。CNVcor基因相关性向右移位,METcor基因相关性向左移位明显(Fig.1A,CNVcor偏度= 1.16,METcor偏度= -0.66;D’Agostino检验)。表明CNVcor基因与基因表达(RNA-Seq)呈正相关,METcor基因与基因表达呈负相关。另外使用R包‘survival’进行总体生存分析,每个数据集中与OS显著相关的(log rank p < 0.05)CNVcor基因和METcor基因用于进一步分析。CNVcor与METcor之间没有重叠(Fig.1B),且染色体分布不同(Fig.1C &D)。METcor基因的主要功能是蛋白编码(Fig.1E),主要位于CpG岛区域(Fig.1F)。
D’Agostino提出的正态性检验法计算检验统计量和p值。R包moments可以很方便地实现峰度和偏度的假设检验。
2.识别CNVcor & METcor数据集的子类
使用非负矩阵分解算法NMF对CNVcor和METcor数据集进行聚类,CNVcor和METcor(Fig.2A&B)数据集的最佳聚类数均为4个,在OS(Fig.2C&D;p<0.05)和PFS方面均存在显著差异。CNVcor子类与METcor子类之间存在明显重叠(Fig.2E & F;Chisq-p < 10-5)。
3.基于CNV、MET和EXP数据的整合,确定四个亚型
使用R包iCluster对CNVcor基因、METcor基因和mRNA表达(EXP)数据进行胰腺癌样本聚类,20次迭代得到各数据的最优值。由于CNVcor和METcor数据集都被聚成四个子类,K的值被设置为2到3。K = 3(四个亚型)与K = 2(三个亚型)相比,预后更显著。因此,将所有样本分为4组(Fig.3A&B)。4个亚型间OS差异显著(Fig.3C;p < 0.05),iC1与iC4的OS差异最显著(Fig.3D;p < 0.01)。四组间的PFS分析也有部分显著性差异(Fig.3E)。
4.CNV & MET变异之间的相关性
将CNV数据分为CNV增加(β> 0.3)和CNV缺失(β< -0.3)两组,MET数据也分为高甲基化MetHyper(β> 0.8)和低甲基化MetHypo(β< 0.2)。相关分析表明,CNV和MET异常之间存在联系。
(A)CNV增加与CNV缺失显著正相关。(B)CNV增加与高甲基化正相关,(C)但CNV增加与低甲基化的相关性不显著。(D)CNV缺失与高甲基化呈显著正相关,(E)但CNV缺失与低甲基化无显著相关。(F)MetHyper与MetHypo呈显著负相关。
5. 胰腺癌亚型的临床病理特征及免疫评分
利用TIMER(Tumor Immune estimate Resource,一个系统评估不同的免疫细胞对不同癌症类型的临床影响的资源。利用新建立的统计方法对肿瘤微环境中6种免疫细胞类型的丰度进行了估计。结果经病理评估验证。)分析四个胰腺癌亚型的免疫浸润情况。计算6种免疫细胞的免疫评分。以上结果显示,iC1亚群可能处于免疫增强状态,可能有助于对iC1亚群的预后。
(A&B)iC1在B细胞、CD4 T细胞、中性粒细胞、巨噬细胞和树突状细胞中的免疫评分均显著高于其他三个亚型。(C)iC1亚型在巨噬细胞调节,淋巴细胞浸润,IFN.gamma应答和TGF.beta应答分数更高。
6. 胰腺癌亚型的分子特征比较
分别计算iC1和iC2/iC3/iC4之间的差异表达基因(DEGs,三组比较中取交集)。GO富集分析显示817个DEGs显著富集多个免疫调节相关条目(Fig.6D)。然后将DEGs的CNV数据分为CNV增加、CNV缺失和CNV正常值三种,将DEGs的MET数据分为MetHyper、MetHypo和MET正常三组。iC2和iC4的CNV异常调控明显高于iC1和iC3,提示CNV可能对胰腺癌的预后有一定的影响(Fig.6A)。推测甲基化水平可能比CNV水平对DEGs基因表达的影响更大。
(A)DEGs在4个亚型中的CNV分布。(B)DEGs在iCluster亚型中的MET分布。
(C)DEGs在4个亚型中的分布(A-C)。(D)富集分析结果示意图。
7. CNV、MET与基因表达的关系
为了进一步分析CNV、MET和基因表达之间的关系,对817个DEGs和与预后显著相关的35个DEGs进行了单因素生存分析。利用GSE21501和GSE71729进行验证。最后,筛选出三个与胰腺癌预后相关的基因。
三个预后相关基因(GRAP2、ICAM3和A2ML1)及其与CNV和MET的相关性。
8. 胰腺癌亚型间突变谱的比较
进一步分析四个亚型的突变谱。确定iC1和iC2/iC3/iC4亚型间差异显著的一组基因,显示Fisher检验Top 50基因(Fig.8A)。总的来说,iC1的沉默突变、非沉默突变、SNV肿瘤抗原数量(Fig.8B)和CNV突变(Fig.8C)明显少于iC2/iC3/iC4。未观察到iC1与iC2/iC3/iC4之间MET的显著差异。以上结果提示,基因组不稳定对胰腺癌的预后有重要影响,高突变率和CNV异常可能导致预后差。
小编总结
本研究整合胰腺癌CNV、MET和mRNA表达数据进行了系统分析,发现CNV和MET可能会单独或同时影响基因表达。建立4个临床相关胰腺癌分子亚型,并识别出3个新的生物标志物。文中对各组学数据的详细处理和丰富的图形展示也是一个亮点。使用了无监督聚类算法NFM和评估免疫细胞对不同癌症类型的临床影响工具TIMER,感兴趣的可以了解一下