小编今天解读的这篇文章是2020年发表在杂志frontiers in Oncology(影响因子4.848)上,题目为Development and Validation of a 12-Gene Immune Relevant Prognostic Signature for Lung Adenocarcinoma Through Machine Learning Strategies。作者开发了12个特征基因以及风险评分公式可作为预测LUAD患者生存的强大而准确的工具,并可帮助临床医生更准确地选择最佳治疗方案。
摘要
背景:尽管使用检查点抑制剂的免疫疗法正在改变肺腺癌(LUAD)治疗的面貌,但只有有限的患者可以从中受益。因此,作者旨在开发一种基于免疫相关基因的特征来预测LUAD患者的预后并表征其肿瘤微环境,从而指导治疗策略的方法。
材料与方法:作者分析了来自Gene Expression Omnibus(GEO)和The Cancer Genome Atlas(TCGA)的LUAD患者的基因表达数据。分别进行了Cox回归和随机森林算法,从而识别具有潜在预后价值的免疫相关基因。然后通过整合这些选定的基因建立风险评分公式,并将患者分为高风险评分组和低风险评分组。在两组之间进一步比较了差异表达的基因,免疫细胞的浸润水平和几种免疫相关分子。
结果:研究纳入了594位LUAD患者。在实施了两步机器学习筛选方法之后,最终选择了12个与免疫相关的基因作为风险评分公式,高风险组的患者的总生存期明显变差。作者还发现两组中独特的免疫浸润模式,即高风险组患者的几种免疫细胞明显富集和上调。这些发现在两个独立的LUAD队列中得到了进一步验证。
结论:作者的风险评分公式可作为预测LUAD患者生存的强大而准确的工具,并可帮助临床医生更准确地选择最佳治疗方案。
流程图
流程图很细致,大家可以很清晰的理解文章分析过程。
结果简述
1. LUAD患者的数据准备和描述
本研究共纳入了来自四个独立LUAD队列的954例患者,将GSE31210中的204例患者作为发现组,将GSE41271中的309例患者作为GEO外部验证组,将其余441例的患者作为TCGA外部验证组。发现组,GEO外部验证组和TCGA验证组的患者中位总生存时间分别为60.5个月,45.1个月和20.85个月。
2. 预后基因的识别和风险评分系统的构建
作者采用了多种算法,包括多变量Cox和随机森林,从发现数据集中的1811个免疫相关基因中识别预后相关基因。首先,使用GSE31210数据进行多变量Cox回归比例风险回归分析,与年龄,性别,TNM分期和吸烟的调整一一对应,通过使用“ Survminer”软件包分别确定每个基因表达水平的最佳临界值,并计算出相应的HR和p值。根据Cox分析的结果,作者识别了336个显著性基因。然后通过随机生存森林(RSF-VH)算法分析了336个基因,以进行进一步筛选。最后,选择了重要性大于0.01的12个基因。
为了建立针对LUAD患者不同人群的临床风险评估模型,基于这12个基因的表达以及单变量Cox回归分析产生的相应系数,构建了风险评分系统。风险打分如下:
Risk score = (1.009∗ expression level of S100A7) (1.482∗ expression level of R3HDML) (1.312∗ expression level of IL19) (2.409∗ expression level of NRAS) (1.764∗expression level of BMP1) (0.887∗expression level of S100A11) (1.494∗expression level of HMOX1) (1.969∗ expression level of PAK1) (2.292∗ expression level of S100A16) (1.563∗expression level of VEGFA) (1.088∗ expression level of NDRG1) (1.115∗ expression level of CSF1)。如下图所示,Kaplan–Meier生存曲线表明,发现数据集中高风险组患者的OS显著低于低风险组患者。
下图显示了这12个基因在患者中的表达水平分布以及相应的风险评分,风险组,生存状态和TNM分期,显示了这些基因在高风险组中表达相对高。表明这12个免疫相关基因均与较差的存活率有关。
此外,在单变量Cox回归分析中,风险组是一个强变量,与预后较差相关。如下图A所示。在通过其他临床因素(包括年龄,性别,吸烟和TNM分期)进行多变量调整后,风险组在发现组中仍是重要且独立的预后指标,如下图B所示。
接下来,作者进行了ROC分析,以评估风险评分系统,年龄,性别,吸烟和TNM分期的敏感性和特异性。计算5年OS的ROC,以全面描述这些因素和组合公式的预后准确性。12基因风险评分(蓝色)(AUC = 0.854,95%CI = 0.79–0.92)的AUC显著优于其他变量。此外,将所有这些因素结合在一起,就可以获得具有最强预测能力的模型。如下图所示:
3. 在GEO和TCGA验证队列中评估12基因模型的性能
为了进一步评估12个免疫相关基因的风险评分系统的稳健性,作者在GEO和TCGA外部验证队列进行了类似的分析。与上述发现一致,在两个验证队列中,高风险评分组与较差的生存结果显著相关。如下图所示:
在多变量cox回归模型中,结合年龄,性别,吸烟和分期对风险组进行了分析,可以观察到相似的相关性,这表明基于12个基因的风险组是不同人群中有力且独立的预后因素,如下图所示:
在GEO验证队列和TCGA队列的患者中分别显示了这12个基因的表达水平分布和相应的临床因素。其与发现队列中的结论相似。如下图所示:
这12个免疫相关基因的表达与风险评分呈正相关。同时,在两个验证组中的ROC分析还表明,在考虑模型的敏感性和特异性时,尤其是将风险评分与其他因素结合在一起时,风险评分作为预后因素的优越性。如下图所示。
4. 差异表达基因和基于12个基因的风险评分相关的相关生物学通路
作者在高低风险打分组间进行差异表达分析,并进行了功能富集分析。如下图A、B所示。功能富集分析表明,这些基因的表达改变不仅可以激活与肿瘤进展相关的通路,例如细胞外结构组织和核分裂,而且可以激活免疫相关的过程,例如补体激活和单核细胞外渗调节等。此外,作者在每个患者的表达谱中使用基因特征进行了ssGSEA。如下图C所示,红色区域表示相应通路的激活,可以观察到几种与癌症相关的过程的上调,如缺氧,上皮间质转化血管生成或PI3K-AKT-MTOR信号传导,以及免疫相关途径,包括干扰素(IFN)γ反应等。ssGSEA的结果是GO功能富集分析结果的补充。作者推断12种免疫相关基因与上述通路之间存在复杂的相互作用。同时,在两个外部验证队列中发现了相似的结果。如下图D、E所示。
5.不同的免疫浸润模式
考虑到这12个基因在肿瘤微环境中的免疫浸润中发挥的重要作用,作者采用了包括代表28个免疫细胞亚群的597个基因的参考微环境矩阵,系统地表征了来自不同风险组的患者的免疫浸润模式。然后,我们使用ssGSEA算法估算了每个样本中28个免疫细胞群的相对丰度,并比较了它们在高风险和低风险评分组中的分布。如下图所示:
高风险组患者更经常观察到这些免疫细胞的激活,尤其是Th1,Th2,Th17,MDSC,巨噬细胞,它们主要来自先天免疫应答。还发现更高的肿瘤突变负荷,如下图所示:
因此,作者发现高风险评分患者具有独特的免疫浸润模式,并可能从免疫检查点抑制剂中获益更多。
小结
本文基于LUAD中的12个免疫相关基因标记建立了风险评分系统,其中高评分独立地与预后显著恶化相关。评分模型可以作为预测LUAD患者生存率的强大而准确的工具。同时,高评分组的肿瘤倾向于表现出上调的免疫浸润水平,从而为浸润的免疫细胞与肿瘤细胞之间的相互作用提供了新的见解。这些发现均在两个独立的外部队列中得到了验证,并可能有助于临床医生更准确地为LUAD患者选择最佳治疗方案。