大家好,今天茶叶蛋和大家分享的是一篇4 分的学习笔记;文末点击阅读原文可获得原文笔记。
题目:无幽门螺杆菌感染胃癌患者新基因signature的构建;
参考文献:https://doi.org/10.1002/jcb.29419
一、研究背景
胃癌(GC)是世界范围内第四大常见肿瘤,而幽门螺杆菌被公认在胃癌中扮演着重要角色,但目前发现存在一类幽门螺杆菌阴性的胃癌,而对其的研究尚不够透彻,本篇学习笔记希望通过寻找与幽门螺杆菌阴性的胃癌相关的分子signature来对其进行深入的研究,以期对胃癌的临床治疗提供一定的帮助。
二、研究思路
三、结果解析
1.利用基因集富集分析初步筛选基因
从TCGA数据库获得了196个包含幽门螺杆菌阳性及阴性GC组织和正常组织的样本,其中包含基因表达和相应临床病理数据信息。采用基因集富集分析(GSEA)探索幽门螺杆菌阴性和阳性GC与正常组织之间存在富集差异的基因集,但在幽门螺杆菌阳性GC组织与正常组织之间没有得到显著的结果,推测这是幽门螺杆菌阳性GC样本较少所致,但发现在幽门螺杆菌阴性GC组织中,有15个Hallmark基因集相对于正常组织上调,其中包括G2/M检查点、E2F靶点和MYC靶点V2的基因集(表1,图1A),在热图中可以明显看出基因集中的基因在幽门螺杆菌阴性GC组织和正常组织中的表达差异(图1B)。考虑到G2/M检查点相关基因在肿瘤发生发展中起到的重要作用,将其中包含的196个基因纳入后续分析。
图1A.在幽门螺杆菌阴性GC组织中上调的Hallmark基因集;图1B.Hallmark基因集中的基因在幽门螺杆菌阴性GC组织和正常组织中的表达情况
表1.G2/M检查点、E2F靶点和MYC靶点V2的Hallmark基因集富集情况
2.与G2/M检查点相关的mRNA的进一步筛选
通过对上述196个基因进行单因素Cox回归分析来探究患者基因表达水平和总生存期(OS)之间的关联,依据分析结果筛选出了与患者预后密切相关的20个mRNA。为了优化模型,采用逐步多变量Cox回归方法进一步精选了与患者预后密切相关的7个mRNA——TGFB1、EGF、MKI67、ILF3、INCENP、TNPO2和CHAF1A(表2)。
表2.筛选得到的7个预后相关mRNA
3.7-mRNA signature的构建和性能评估
通过多变量Cox回归分析,得到了这7个mRNA的权重并依此建立了线性预后风险评分模型,公式如下,其中基因名称代表该基因mRNA的表达量:
risk score=0.526×TGFB1 0.209×EGF 0.620×MKI67 1.479×ILF3−1.068×INCENP−1.077×TNPO2−0.559×CHAF1A
在上述mRNA中,TGFB1、EGF、MKI67和ILF3的系数大于零,可认为它们可能为肿瘤的驱动基因,而INCENP、TNPO2和CHAF1A的系数小于零,则说明它们的表达可能对患者有保护作用。根据公式,可计算每位患者的风险评分并以中位数为临界值将他们分为高风险组和低风险组(图2A)。患者生存时间和生存状况(生存/死亡)的分布如图2B所示,可以看出高风险评分的患者往往具有较短的生存期和较差的预后,低风险评分患者则相反。KM分析结果表明,高风险组的生存率显著低于低风险组(图2C)。采用时间依赖的ROC曲线来评估上述预后signature的预测敏感性和特异性,结果提示其在预测患者生存中表现良好——对1年、3年和5年生存预测的AUC分别为0.707、0.759和0.797(图2D)。此外,还分析了这7个mRNA在低风险和高风险评分患者中的表达差异(图2E),结果与公式一致,有4个mRNA(TGFB1、EGF、MKI67和ILF3)在高风险组患者中表达水平较高,而其余3个mRNA(INCENP、TNPO2和CHAF1A)在低风险组患者中表达水平较高。
图2A.依据风险评分将患者分为高风险和低风险组;图2B.患者的生存时间和状况;图2C.基于高/低风险组的KM生存分析;图2D.使用模型预测患者1年、3年和5年生存情况的时间依赖的ROC曲线
图2E.7个预后相关mRNA在高/低风险组中的表达情况
4.7-mRNA signature的输出值独立于其他临床病理特征
为了进一步探讨7-mRNA signature的风险评分是否与其他临床特征相关,可对患者的性别、年龄、种族、TNM分期、T分期、N分期、M分期和肿瘤状况等临床病理参数和风险评分进行了单因素和多因素Cox回归分析。结果表明部分临床特征(TNM、肿瘤状态、T分期、N分期、原发肿瘤治疗效果和残留肿瘤)与幽门螺杆菌阴性GC的存活有明显的相关性(表3)。此外,多因素Cox回归分析提示在幽门螺杆菌阴性GC中,风险评分、肿瘤分级、原发肿瘤治疗结果和放射治疗可作为各自独立的预后指标(表3)。上述结果说明在对各个临床特征进行调整后,患者的7-mRNA signature的风险评分仍与OS显著相关。
接下来进行分层分析来对模型进行进一步评估。分层后的KM分析提示:7-mRNA signature在被分期、分级、肿瘤状态和N分期分层后仍有对幽门螺杆菌阴性GC患者的预后预测能力(图3)。但被其他与患者OS显著相关的临床特征分层后,依据风险评分划分的高低风险组预后无显著差异。相关分析的结果显示风险评分与性别、肿瘤状况、种族、原发治疗结果和残留肿瘤显著相关,而其他临床信息与风险评分无显著关联。
从上述结果中可以看出,7-mRNA signature具有一定的独立性,但不能独立于所有的临床特征,仍存在一定的限制性。
表3.基于各个临床特点的单因素和多因素Cox回归分析结果
图3.基于各个临床特点的单因素和多因素Cox回归分析结果
5.通过cBioPortal数据库进行signature基因突变分析
随后,分析了393个临床样本的上述7个基因在cBioPortal数据库中的突变情况。结果表明,在86例(22%)患者/样本中,7个mRNA全部发生突变(图4A)。有6个样本出现TGFB1基因的扩增、2个出现TGFB1缺失突变,2个出现TGFB1错义突变。EGF在3%的样本中发生突变,主要为错义突变。对MKI67来说,有6个样本发生扩增,21个出现MKI67错义突变。ILF3,INCENP,TNPO2和CHAF1A基因分别在2.3%,4%,4%和5%的样本中存在突变。
图4A.7个预后相关基因的突变情况一览
图4B.7个预后相关基因在不同类型胃癌中的突变情况一览
图4C.7个预后相关基因在肿瘤和正常组织中的表达情况
上述7个基因在不同胃癌中也表现出不同的改变情况,在乳头状胃腺癌中,只有一种类型的改变——33.33%的deep deletion;胃印戒细胞癌中也只有11.11%的突变;而在管状胃腺癌,最大比例的改变为突变(13.11%);在粘液性胃腺癌中,扩增占10%,突变占10%;在弥漫性胃腺癌中,有4.29%的突变和扩增,1.43%的deep deletion(图4B,表4)。还分析了相邻正常组织和GC组织之间7个mRNA的差异表达(图4C)。结果表明,这7个mRNA中有6个在肿瘤组织中表达显著较高,但EGF的表达未见显著差异。
表4.7个预后相关基因在不同类型胃癌中的改变占比情况
6.验证7-mRNA signature的预后价值
为了进一步验证GC患者7-mRNA signature的预后预测性能,分别计算了两个测试集队列(GSE15460和整个TCGA队列)中患者的风险评分并以中位数为临界值划分高风险和低风险组。与上文中结果一致,KM分析表明,在GSE15460数据集中高风险组患者的生存率远低于低风险组患者(图5A)。在GSE15460数据中根据模型对1,3和5年OS的预测的时间依赖性ROC曲线的AUC分别为0.705,0.744和0.731(图5B)。对整个TCGA数据集的分析也展现出类似的结果(图5C,5D),证明了模型稳健的预后预测性能。
另外,还分析了7个mRNA在GSE13911GC数据集中的31例配对GC患者的表达情况(图6)。结果表明,除INCENP基因外,这6个mRNA在肿瘤组织中的表达明显高于正常组织。推测INCENP可能是一个保护因素,而多变量COX回归分析的结果进一步证实了上述推测。
图5A.在GSE15460数据集中应用风险评估模型区分的高/低风险组的预后差异;图5B.在GSE15460数据集中根据模型对患者1,3和5年OS预测的时间依赖性ROC曲线
图5C.在全部TCGA数据中应用风险评估模型区分的高/低风险组的预后差异;图5D.在全部TCGA数据中根据模型对患者1,3和5年OS预测的时间依赖性ROC曲线
图6.7个mRNA在GSE13911GC数据集31例配对GC患者的表达情况
小结
这篇学习笔记的主线是比较经典的预后模型套路——筛选基因,构建模型,模型评估,但最初的筛选并非基于所有差异表达基因而是GSEA的结果,这里有值得借鉴的地方。其中存在的不足则是本篇笔记属于纯生信分析,若能配合湿实验,说服力可能会更强。