大家好, 今天和大家分享的是 2020 年 2 月发表在 Cancer Med(IF:3.491)上的一篇文章,“Identification of aberrantly methylated differentially expressed genes and associated pathways in endometrial cancer using integrated bioinformatic analysis ”。作者使用GEO以及TCGA数据库筛选和验证了异常甲基化的DEGs,对它们进行功能富集分析和PPI网络分析。最终确定了EC相关的枢纽基因和富集途径,并探究了枢纽基因的预后特征。
Identification of aberrantly methylated differentially expressed genes and associated pathways in endometrial cancer using integrated bioinformatic analysis综合生物信息学分析鉴定子宫内膜癌异常甲基化的差异表达基因以及相关途径
一、研究背景
过去20年,子宫内膜癌(EC)的死亡率几乎翻倍。EC最可能发生在绝经后的妇女,其中90%超过50岁。以绝经后不规则阴道出血为代表的EC临床症状往往被忽视,使得EC的早期诊断成为一个棘手的问题。为了解决这一问题,基于数据库的生物信息学分析正被越来越多的用于筛选具有诊断价值的目标分子。
大量研究表明DNA甲基化影响EC的发生和进展,EC的甲基化基因可能成为EC靶向治疗的标志物。在本研究中,作者先从GSE17025筛选DEGs,并从GSE40032筛选高甲基化和低甲基化的基因。通过综合分析、富集分析和PPI网络分析,最终决定了EC有关的枢纽基因和途径,以及EC的潜在治疗药物。
二、分析流程
三、结果解读
1、EC中DEGs和DMGs的筛选
图1 GSE17025中的DEGs以及GSE40032中的DMGs
作者在GSE17025数据集中将样本分为两组(91例EC患者样本和12例绝经后萎缩性子宫内膜的浆液样本),使用limma包筛选了DEGs,共发现1737个DEGs,其中690个上调,1047个下调。热图展示了 top 200的DEGs。(图1A&B)。作者还在GSE40032数据集使用limma包获得了4097个DMGs,其中1761个为高甲基化的基因,2336个为低甲基化的基因,热图展示了top 200的DMGs(图1C)。
2、筛选异常甲基化的DEGs
图2 异常甲基化的DEGs,以及相关的癌基因和抑癌基因(TSGs)
作者使用Venn分析,鉴定了上调DEGs和低甲基化基因之间的重叠基因;也鉴定了下调DEGs和高甲基化基因之间的重叠基因。随后,作者为了定位异常甲基化的DEGs,鉴定了上调低甲基化基因和癌基因之间的重叠基因;也鉴定了下调高甲基化基因和抑癌基因(TSG)的之间的重叠基因。结果表明,作者筛选出了84个上调低甲基化基因,其中7个为癌基因(图2A);筛选出了121个下调高甲基化基因,其中12个为TSG(图2B)。这表明,低甲基化可能下调这些TSGs在肿瘤中的表达。
3、DEGs的功能富集分析和PPI网络的构建
图3 异常甲基化DEGs的GO功能注释和KEGG通路富集分析
作者进一步使用FunRich工具进行GO和KEGG富集分析。p<0.05被认为显著富集。结果如下:
- 上调的低甲基化基因的GO和KEGG功能富集:显著富集的生物学过程有免疫应答、Th细胞分化的正调控和脂多糖介导途径(图3A)。这些基因主要富集于有丝分裂的纺锤体、纺锤体两极和染色体着丝粒(图3B)。分子功能主要富集于内肽酶抑制剂活性、神经生长因子结合和5‘-3’脱氧核糖核酸酶(图3C)。根据GO分析,上调的低甲基化基因大多在“免疫反应”中富集。这些基因的KEGG富集分析结果显示,它们主要参与胃癌网络1,肿瘤中-晚期姐妹染色单体分离调控及视网膜母细胞瘤基因调控途径(图3D)。
- 下调的高甲基化基因的GO和KEGG功能富集:显著富集的生物学过程有芳香化合物分解过程,血管平滑肌收缩,造血干细胞分化(图3E)。这些基因主要富集于 L型电压门控钙通道复合物,细胞质膜的整合成分和细胞质囊泡(图3F)。分子功能主要富集于二肽酶活性、血小板衍生生长因子受体结合和蛋白质同聚活性(图3G)。这些基因的KEGG富集结果显示,它们主要参与Wnt 信号通路(图3H)。
图4 异常甲基化DEGS的PPI网络
作者通过STRING平台,构建了如下PPI网络:
- 根据下调的高甲基化基因构建PPI网络:将121个基因过滤到包含120个节点和60个边缘的下调的高甲基化PPI网络中。共有120个节点和60个edges数(p=3.88e-05 。图4A)。由FunRich软件创建11个下调的高甲基化TSGs及其相关基因的PPI网络(图4C),补充表说明这些TSGs和相关基因在”癌症相关途径“最显著富集。
- 根据上调的低甲基化基因构建PPI网络:将84个基因过滤到包含84个节点和164个边缘的上调低甲基化PPI网络中。共有84个节点和164个edges数(p= 1.0e-16。图4B)。由FunRich软件创建的7个上调的低甲基化癌基因及其相关基因的PPI网络(图4D),补充表说明这些癌基因和相关基因在“细胞周期”中最显著富集。
4、筛选基因的验证
图5 基于GEPIA验证15个基因的表达水平(红:肿瘤组织)
首先,为了验证19个筛选基因在EC癌变过程中的表达水平,作者使用GEPIA平台分析了来自TCGA的数据。结果证实了5个上调的低甲基化癌基因和10个下调的高甲基化TSGs,它们在癌组织的表达水平与正常组织相比有显著差异(图5),反映基于TCGA数据库的箱线图结果与GEO数据库鉴定的结果一致。
图6 小提琴图示基因的甲基化状态
其次,为了验证这些基因的甲基化水平,基于TCGA-USEC,作者进一步观察到8个DMGs(8个枢纽基因):EDNRB, CDO1, NDN, PLCD1, ROR2, ESPL1, PRAME, PTTG1(图6),它们的甲基化状态与前文所述一致。
图7 七个基因的IHC(基于HPA)
随后,为了在翻译水平验证所选的枢纽基因,作者从HPA数据库下载了正常和子宫内膜癌的IHC样本。EC组织中EDNRB、ROR2和PLCD1的表达水平低于正常组织,而ESPL1、PRAME和PTTG1的表达水平则高于正常组织,CDO1的表达水平在癌组织和正常组织中无明显差别(图7),即IHC表明在验证的7个枢纽基因中,有6个基因在EC中表达失调。
图8A ROC曲线分析和AUC分析,评价8个基因区分EC组织和正常组织的能力
最后,作者还使用“pROC”包进行ROC曲线分析,以计算8个枢纽基因区分EC组织和正常组织的能力。AUC用于评估诊断模型的效率,AUC越接近于1表明模型越准确。EDNRB, CDO1, NDN, ESPRL1, PRAME, 和PTTG1 展现了较优秀的诊断能力(AUC>0.9)(图8A),当8个基因联合时模型诊断的效率更高(AUC=0.987)。
此外,为了评估6个DEGs的预后意义(IHC验证出的6个表达失调的基因),作者从HPA数据库中加载了生存时间和基因表达水平。补充图2表明,PLCD1和ROR2的低表达以及ESPL1和PTTG1的高表达与患者生存时间缩短有关。
5、基因富集分析(GSEA)
图8B&C 基于TCGA-USEC的GSEA
作者在TCGA中,将546份EC样本根据8个基因的中位表达水平分为两组,通过GSEA寻找富集的KEGG通路,以筛选出8个基因在EC中的潜在功能。基因集(n=546)在10个通路中富集:hedgehog信号通路、 基底细胞癌,脂肪细胞因子信号通路,结直肠癌,氧化磷酸化,通过细胞色素P450的异种物质代谢、 核糖体,抗原加工和递呈,系统性红斑狼疮和嗅觉转导。
6、探究预后特征
表1 单变量Cox比例风险回归分析鉴定与预后有关的基因
作者使用单变量Cox比例风险回归分析筛选了上文8个DMGs中与预后有关的基因,包括ESPL1, NDN, ROR2,和PLCD1 (表1),并通过多变量Cox比例风险回归分析筛选出与预后显著相关的基因,包括ROR2和ESPL1。ESPL1与患者预后不良有关(HR>1,P=0.001),ROR2是患者预后良好的因素(HR<1,P=0.047)。
图9 预后特征分析
作者建立回归模型来评估每个患者的基因表达风险评分。风险评分 = 0.336* ESPL1-0.101*ROR2. 。根据中位风险评分,将EC患者分为低风险组(n=267)和高风险组(n=267)。作者在TCGA队列中对两组患者进行生存分析,发现低风险患者的OS要长于高风险患者(图9A)。
在ROC曲线分析中,作者发现当风险评分为0.633时,5年生存率的AUC值表现出最高的特异性和敏感性。然而只结合基因表达而不结合临床因素的AUC值(0.633)不高(图9B),整合了临床参数(年龄、分期、分级以及组织学类型)与风险评分后,AUC值可上升至0.792。
作者展示了生存时间、风险评分在两组患者的分布(图9C&D)。作者在TCGA数据库中将患者分为高低风险两组,探究了ESPL1和ROR2在不同风险患者中的表达水平(图9E)。与低风险组患者相比,ESPL1在高风险组中表达上调,ROR2在高风险组中表达下调。
7、筛选相关小分子药物
表2 CMAP分析结果
图10 四大分子药物的结构
作者通过CMap分析了上调基因和低甲基化基因,以及下调基因和高甲基化基因。CMap是一个用于预测药物的软件,这些预测的药物可能诱导由特定基因编码的生物学过程。前10位EC相关小分子如表2所示。
正连接性得分表明药物可以诱导人类细胞系中的生物现象。相反,负连接性评分表明药物逆转了所要求的生物学特性,具有潜在的治疗价值。在这些小分子中,氨基谷氨酰胺(aminoglutethimide)和木犀草素(luteolin)与EC呈高度负相关。磺胺二甲氧嘧啶、马普替林、异氟醚、万古霉素、3-乙酰氨基脲、氯法齐明、阿迪芬、红霉素与EC呈高度正相关。图10A-D显示了Pubchem研究的前4种潜在分子药物的结构图。(A、氨基谷氨酰胺 B、异氟醚 C、磺胺二甲氧嘧啶 D、马普替林)。以上结果反映,氨基谷氨酰胺和木犀草素可用于对抗EC。
小结
首先,作者在GSE17025和GSE40032数据集中筛选出异常甲基化的DEGs(上调的低甲基化基因和下调的高甲基化基因),并对它们进行功能富集分析以及构建PPI网络。随后作者得到了上调的低甲基化癌基因和下调的高甲基化TSGs,并对它们构建PPI网络。其次作者通过TCGA-USEC验证了8个枢纽基因,对它们进行GSEA以获得富集途径,还使用IHC和ROC曲线验证了这8个基因在癌组织中的表达水平,评估它们的诊断能力。作者进一步鉴定了预后特征,通过单因素和多因素Cox比例风险回归分析鉴定出2个与预后显著相关的基因,构建了风险评分公式,并对该公式进行评估。最后作者筛选了小分子药物,氨基谷氨酰胺和木犀草素可用于对抗EC。
局限性:虽然对潜在的异常甲基化DEGS和失调途径进行了内部验证,但需要进行多中心和前瞻性研究来评估8个枢纽基因的重要性。还需要进一步的体内和体外实验验证来阐明分子机制。由于缺乏临床信息 ,枢纽基因的预后价值应该进一步得到验证。