纯生信公共数据分析怎样才能发到11分+?

2022-03-29 12:19:45 浏览数 (1)

导语

GUIDE ╲

癌旁组织在肝细胞癌(HCC)患者中的预后作用仍不清楚。癌旁与癌症组织发挥作用的基因集可能存在差异。

背景介绍

小编今天为大家带来一篇癌症与癌旁组织基因集影响肝癌的纯生信文章,角度新颖,发表在BIB上,投稿到接收不到两个月。

数据介绍

从GEO下载配对肿瘤和相邻非肿瘤组织的表达谱数据(GSE14520和GSE76427)。只保留肝细胞癌(HCC)组织和癌旁组织的样本量≥50的数据。 从基因集富集分析 (GSEA) (https://www.gsea-msigdb.org/gsea/msigdb/index.jsp)下载了共4922个免疫学和标志基因集。

结果解析

01

肝癌与癌旁的基因集的活性差异

研究流程图如下图所示。

基因集变异分析 (GSVA) 可以估计感兴趣的基因集在样本群体中的相对富集度,用于观察与特定生物条件相对应的一组基因(例如通路)的活性变化。基于GSE14520的表达数据,作者通过GSVA计算了4922个基因集的富集分数(ES)(图 2)。在HCC和癌旁组织中,许多基因集将样本分为几类。

图2

基于ES分数(肿瘤组织中的基因集=4922;非肿瘤组织中的基因集=4922),作者将HCC患者分为不同的亚型。使用CancerSubtypes包构建Cox回归模型用于特征选择,并保留999个特征用于进一步分析。使用factoextra包生成最佳簇数 (K)(K=3,图3A和B)。通过NMF方法对癌症亚型进行有效降维,HCC患者被分为三个不同的亚型(图3C)。亚型 1的HCC患者显示出良好的总生存率,而亚型2和亚型3的预后较差(图 3E)。

图3

02

HCC亚型与临床特征之间的关系

与亚型2和3的患者相比,亚型1的HC 患者往往生存时间更长,复发率更低(图4A)。为了确定每个亚型的代表性基因集,作者计算了两个亚组中每个亚组之间基因集的差异ES分数并取交集(FC>1.2或<0.83,FDR<0.05)。如图4B 所示,亚型1有12个不同的基因集,亚型2有59个,亚型3有22个。代表性基因集与临床特征之间的相关性如图5所示:亚型1在非肿瘤样本中的9个基因集的ES分数高于在其他亚型,亚型2在非肿瘤样本中也有一些基因集的ES分数较高。与这两种亚型相反,亚型3在肿瘤组织中增加了18个基因集的ES分数,例如T_HALLMARK_MITOTIC_SPINDLE。

图4

作者选择另一套基因表达谱数据(GSE76427,N=50,T=50)来验证分类。这些代表性基因集也产生了类似的亚组:GSE14520非肿瘤样本中亚型1的九个基因集也在验证组中聚集在一起。GSE14520中亚型2和3之间的患者死亡比例没有很大差异,Kaplan-Meier分析也显示亚型2和3的预后较差(图 3E)。

最后,作者使用LASSO回归确定HCC的7个预后基因集(图6A和B)。

图5

图6

03

功能和通路富集

为了探究上述7个预后基因集在预后中的作用机制,作者提取了每个基因集中包含的基因,并在肿瘤和非肿瘤组织中进行了功能富集和Reactome通路分析。非肿瘤组织中的这些术语可能通过促进肿瘤细胞的定植和存活来影响预后。肿瘤组织的术语与细胞周期密切相关,这可能会促进肿瘤的发展。

图7

作者进一步构建了蛋白质-蛋白质相互作用网络,并将结果导入Cytoscape进行进一步的模块分析。前三个cluster通过MCODE(Molecular Complex Detection)插件计算,每个cluster中的hub基因通过度值获得。对于癌旁基因集,cluster1的前三个hub基因是CXCL8、CXCL9和CCR5,主要与免疫反应相关,cluster2是ICAM1、ITGAM和IL1B,与细胞粘附密切相关,cluster3是FBXO7、UBA6和SH3RF1 ,主要与泛素激活有关(图8A)。对于肿瘤基因集,cluster1的前三个hub基因是 MELK、CCNB1和CDCA8,主要与细胞周期有关,cluster2是PWP2、NLE1和KIAA0020,与前核糖体和核糖体生物发生和cluster3是EFTUD2、SRSF1和HNRNPM,主要与mRNA剪接有关(图 8B)。

图8

小编总结

这篇BIB的新颖之处在于,分析了癌症和癌旁组织发挥作用的基因集的差异,为我们做单个肿瘤的基因集生信分析提供了很好的思路。

es

0 人点赞