新文速递:泛癌识别免疫相关的lncRNAs并分型分析(整合公共大数据,高分文章)

2022-03-29 14:52:34 浏览数 (2)

导语

GUIDE ╲

这篇文章是哈尔滨医科大学生物信息科学与技术学院的李霞教授、李永生教授团队研究完成的,今年2月21日发表于Nature Communications杂志。其中,李永生教授、江天彤飞硕士和周伟伟本科生为共同第一作者,李霞教授和徐娟教授为通讯作者。李霞教授,“龙江学者”特聘教授、哈医大生物信息科学与技术学院院长,主要研究方向为基于生物医学大数据的重大疾病的分子分型与生物标志物识别、非编码RNA与复杂疾病调控机制研究。李永生教授,主要研究方向为复杂疾病生物分子标志物识别及功能刻画,致力于应用生物信息学方法识别复杂疾病的遗传变异及ncRNA生物标志物,在Nature Reviews Genetics、Trends in Biochemical Sciences、Hepatology和Nucleic Acids Research等著名国际期刊发表重要文章。

背景介绍

基因表达程序的错误调控会引起广泛的人类疾病。人类基因表达由上千个调控因子,如转录因子、染色质调控因子和非编码RNA (ncRNAs)等调控。癌症转录组分析已经识别出数千种与不同类型癌症相关的lncRNA。

越来越多的研究报道肿瘤微环境在肿瘤的发生发展中起重要作用。免疫系统失调可能是癌症发生的主要原因之一,免疫治疗已成为一种很有前途的癌症治疗策略。因此,免疫基因表达的精确调控对于产生强健的免疫至关重要。

目前为止,大多数的研究都集中在编码基因,特别是细胞表面受体、细胞因子和转录因子的功能。最近,越来越多的证据表明,lncRNA可以在免疫系统的调节中发挥基础性作用。进一步研究lncRNA及其在免疫调节中的作用,对于识别肿瘤免疫治疗靶点具有重要意义。

为了系统地识别与免疫相关的、与癌症相关的lncRNA,本工作整合了33种癌型的多组学数据,并提出了ImmLnc方法。发现了几个与免疫通路相关的lncRNA,并通过独立的数据集进一步验证。这些免疫lncRNA可能在免疫细胞群中高度表达,在癌症中表达紊乱,并且与免疫细胞浸润显著相关。通过与癌症相关的lncRNA优先排序和癌症分型的例子,证明了ImmLnc是研究lncRNA在癌症中的功能的宝贵资源。

数据介绍

1. ImmPort project下载1811个涉及17个免疫相关通路的人类免疫相关基因。

2. 各癌型表达数据:

(1)TCGA 的33个癌型的lncRNA表达数据,涉及15,513 个lncRNAs。根据GENCODE的分类将lncRNAs分成不同亚型。

(2)TCGA 的33个癌型的mRNA表达数据,涉及 19,663个编码基因。

3. TCGA样本的临床信息。

4. 六套ICGC和GEO下载的基因及lncRNA表达谱。

5. Lnc2Cancer v2.0和lncRNADisease 2.0数据库下载的癌相关 lncRNAs,这部分工作主要看lincRNAs。

ImmLnc方法

1. 计算lncRNA与编码基因的相关系数

对某lncRNA(lncRNA i)的表达值和编码基因的表达值逐一计算偏相关系数(Partial correlation coefficient)。

RLG:lncRNA i 表达值与编码gene j的表达值相关系数

RLP:lncRNA i 表达值与样本肿瘤纯度的相关系数

RGP:gene j的表达值与样本肿瘤纯度的相关系数

2. 对于每个 lncRNA-gene对,计算排序得分rank score (RS),然后对lncRNA i的所有相关基因根据RS值进行排序。

P(ij):PCC的P值

3. 根据GSEA计算富集分数enrichment score (ES)

首先评估lncRNA i的相关基因映射到免疫通路 H的情况(P hit),未映射到免疫通的为P miss。

N:排序列表中的基因总数,

Rj:gene j的RS值。

ES分数:P hit−P miss与0的最大偏差

4. 计算lncRES得分

(1)计算包括NI个基因的通路的p值

ES ik:lncRNA i与免疫通路k之间的ES评分

N:排序列表中的基因数量

NI为映射到某免疫通路中的基因数量

(2)p值使用FDR进行校正,将p值和ES分数合并为lncRES分数

lncRES得分范围为-1到1。本工作认为对于lncRNA-pathway对,控制|lncRES|>0.995和FDR <0.05为显著。

结果解析

1.识别各癌型的免疫相关的lncRNA

识别与免疫相关通路相关的候选lncRNAs,构建ImmLnc方法(Fig. 1a),使用TCGA的33个癌型超过11000个样本(Fig. 1b),集中来源于ImmPort(最大的开放免疫数据库)的17个免疫相关通路,这些通路涉及3至516个基因(Fig. 1c)。

在33种癌型中使用ImmLnc,筛选产生了一系列lncRNA-通路,平均每种癌型产生约2000个与免疫通路相关的lncRNA(Fig. 1d)。在lncRNA表达较多的癌型中,免疫相关的lncRNA数量较多,这些免疫相关的lncRNA约占所有lncRNA的25%,大量的lncRNA与癌症类型间的“细胞因子”和“细胞因子受体”通路相关。细胞因子和趋化因子系统是一个新兴的免疫治疗的潜在靶点,这些lncRNA调节因子将成为研究癌症免疫调节机制的资源。

将ImmLnc方法用于另两套据集,发现lncRNA-pathway对与组织数据集中发现的lncRNA-pathway对存在明显重叠,结果都表明,ImmLnc能够识别免疫学中涉及的关键lncRNA,为精准医疗的发展提供了宝贵的资源。

2.癌症中lncRNA调控因子的表达扰动情况

为了深入了解与免疫相关的lncRNAs的功能,接下来进一步研究了在多种癌型中发现的500 top-ranked 的lncRNA-pathway对(Fig. 2a),形成了lncRNA-pathway网络,涉及241个lncRNA和13条免疫通路。这些lncRNA大部分与“细胞因子”相关,并且在癌症中这些lncRNA大部分表达上调(Fig. 2a)。此外,在文献中也发现这些与细胞因子相关的lncRNA很可能与“细胞因子”同时出现,这些结果说明它们可能在细胞因子相关通路中发挥关键作用

为了在相同癌症类型的不同数据集上验证ImmLnc的结果,使用另外六套ICGC和GEO下载的基因及lncRNA表达谱,发现在相同的癌症类型中,lncRNA-通路存在显著的重叠(Fig. 2b,P < 0.001,双侧超几何)。这些结果表明,该算法对免疫相关lncRNA的复现是有效的。

进一步分析lncRNA调节因子是否在癌症中发挥重要作用。首先确定了所有在17种癌症类型中表现出表达扰动的lncRNA,它们需具有5个以上的正常样本。与其他lncRNA相比,免疫相关的lncRNA在不同癌症类型中更容易出现表达紊乱(Fig. 2c,P < 0.001,双侧Fisher’s精确检验),特别是在如肾癌、肺癌等适合免疫治疗的癌症类型中。这些结果表明,ImmLnc可识别表达紊乱的免疫调控因子。

3.lncRNA与免疫细胞浸润相关

推断若ImmLnc识别的lncRNA在免疫调节中发挥重要作用,那么它们更有可能在免疫细胞中高度表达,并与肿瘤中的免疫细胞浸润相关。首先分析了从PanglaoDB26下载的10个免疫细胞的单细胞测序数据,免疫相关的lncRNA在免疫细胞中表达比例显著升高。同时发现在肺癌中发现的免疫相关的lncRNA在肺癌患者的B细胞和T细胞中均有明显的高表达,说明免疫相关的lncRNA在免疫细胞群中有较高的表达。

接下来通过TIEMER方法,基于基因表达对每个患者的免疫细胞浸润水平进行评估。评估6个肿瘤浸润免疫细胞,包括B细胞、CD4 T细胞、CD8 T细胞、巨噬细胞、中性粒细胞和树突状细胞。使用斯皮尔曼相关系数(Spearman’s ,|R| > 0.3 , P < 0.05)评估肿瘤浸润与lncRNAs表达的相关性,发现大量与免疫细胞浸润相关的lncRNA是免疫学相关的(Fig. 3a),与免疫细胞浸润相关的lncRNA在免疫细胞中也有较高的表达。

使用Fisher’s 检验发现在大多数癌症类型中, ImmLnc识别的免疫相关lncRNAs与免疫细胞浸润显著升高的相关性(Fig. 3b±g), ImmLnc识别的免疫相关lncRNAs倾向富集到与免疫浸润相关的lncRNAs。

最近的研究表明,表达与肿瘤纯度呈负相关,与免疫细胞浸润呈正相关的基因,可能在免疫学中发挥重要作用。本工作发现的lncRNA在不同的癌症类型中与免疫相关的lncRNA有明显的重叠。此外发现与其他lncRNA相比,免疫相关的lncRNA更可能与黑素瘤中CD8 T细胞浸润相关(Fig. 3d, OR = 4.52, P = 2.51E−57,双侧Fisher’s精确检验),CD8 T细胞浸润已被证明是预测预后和治疗反应的一个有用的生物标志物。

免疫lncRNA的鉴定为深入了解调节肿瘤T细胞浸润和活性的分子机制提供了依据,接下来关注与黑素瘤中CD8 T细胞浸润显著相关(R > 0.6,P < 0.05)的 70个lncRNA,一些lncRNA已被证实在免疫调节中发挥重要作用。此外通过CIBERSORT识别了与免疫细胞相关的lncRNA,与TIMER的结果有明显的重叠。以上结果表明,这些与免疫相关的lncRNA调节因子在免疫细胞中表现出更高的表达。它们可能与免疫细胞浸润有关。

4.ImmLnc 优选癌相关lncRNAs

在证明了ImmLnc可以有效识别免疫相关的lncRNA之后,接下来扩展了ImmLnc在优化癌症相关lncRNA中的应用。如果lncRNA-pathway关系可以在更多的癌症类型中观察到,那么它们更有可能参与到癌症中

为了评估对癌症相关的lncRNA进行优先排序的能力,首先对每个lncRNA-pathway进行了排序,根据其在涉及的癌型数目。发现75%的免疫相关lncRNA是反义和基因间的。接下来对5050个长基因间ncRNA(lincRNA)和各免疫相关通路分别进行分析。根据出现转录组紊乱的癌症数量对lncRNA进行了排序(Fig. 4a),发现已知的与癌症/疾病相关的lincRNA的排序级别明显高于其他的lincRNA(Fig. 4b,单侧Wilcoxon’s ranksum检验)。

此外还发现,与基于差异表达的方法相比,这种免疫调节信息的整合在ROC曲线下的面积更大,这些结果提示ImmLnc可以优先识别与癌症/疾病相关的lncRNA

根据lincRNAs的相对排秩,发现了几种与癌症相关的lincRNAs,如LINC00944和SMIM25(Fig. 4c)。LINC00944已被证实参与了大肠癌肝转移的过程,发现该lincRNA在乳腺癌、肾癌、肺癌和结肠直肠癌等6种癌症类型中表现出显著的表达扰动(Fig. 4d),基于ImmLnc方法,发现它与16种癌症类型的TCR信号通路相关(Fig. 4e)。此外还发现了几个可能在癌症中发挥关键作用的新候选者(Fig. 4c),例如RP11-325F22.2排在第5个lincRNA,发现该lincRNA在8种癌症类型中的表达始终较低(Fig. 4f),ImmLnc发现该lincRNA与18种癌症类型的TCR信号通路相关,这些结果提示RP11-325F22.2可能是一种新的癌症相关lincRNA。

识别癌症中差异表达的lncRNA是一种常用的方法。然而,整合lncRNA -免疫通路调控可以优先考虑几种无法通过表达扰动分析识别的lincRNA(如MIR3142HG和CTB-61M7.2;Fig. 4c)。总之,这些结果表明,整合ImmLnc结果可以帮助区分癌症相关的lincRNAs的优先级,提高我们对其在癌症中的调节功能的理解。

5.免疫 lncRNAs 对肿瘤分型

接下来分析什么范围ImmLnc识别的lncRNA可应用于分子癌分型。首先在两种肺癌(LUAD和LUSC)中发现了可以调节免疫相关通路的lncRNA,这些lncRNA与六种免疫细胞浸润相关的lncRNA重叠。识别了28种常见的泛肺癌lncRNA,它们在B细胞和T细胞中表达更高。

接下来,根据这28个lncRNA的表达,将肺癌患者分为3个亚型(Fig. 5a)。这些lncRNA大部分在C2和C3患者中高表达,虽然C1亚型男性患者较多(Fig. 5b)。比较这三种亚型的分子特征,发现C1患者的肿瘤分化程度最高,C2患者的分化评分也高于C3患者(Fig. 5c;P < 0.001,双侧Wilcoxon秩和检验)。此外,C1组hippo通路活性、细胞周期通路活性及干细胞特征评分均显著升高(Fig. 5d)。C2与C3组hippo通路活性无差异,但C2组细胞周期通路活性明显高于C3组(Fig. 5d;P < 0.001,双侧Wilcoxon秩和检验)。这些结果说明C1患者有较高的细胞增殖率。比较三种亚型的生存率,发现C1患者预后较差(Fig. 5d, log-rank检验P = 0.02)。C1和C2之间的差异很大。

接下来,研究了这三种亚型之间的突变。发现几个众所周知的癌症基因在亚型之间表现出不同的突变频率,包括TP53、KRAS、CDKN2A和B2M。通过对hippo和细胞周期通路基因表达的研究,发现这些基因在C1患者中有较高的表达。此外,将lncRNA的亚型与其他已发表的亚型进行了比较,发现C1患者可能表现出更高水平的基于DNA拷贝数的S1亚型、基于蛋白质的S6亚型和AD1亚型的富集(Fig. 5f)。这些结果说明C1患者具有更高的细胞增殖和分化率。

6.免疫分析证明免疫亚型

肿瘤突变负担(TMB)正在成为免疫治疗的潜在生物标志物,发现C2型患者的TMB高于其他亚型患者(Fig. 6a)。同源重组缺失(HRD)仍然是一种重要的生物标志物,是增强肿瘤免疫原性的潜在有效的辅助手段,发现C1和C2患者的HDR评分明显高于C3患者(Fig. 6b, P < 0.001,单侧Wilcoxon秩和检验)。

在样本中分析160免疫相关基因特征,发现不同亚型之间存在明显差异(Fig. 6c,d),在这些特征基因中,86.88%(139/160)的在癌症亚型之间存在显著差异(Fig. 6d, P < 0.05,方差分析)。具体来说,发现C2和C3患者的B细胞和T细胞评分明显高于C1患者。此外,发现C2和C3患者的免疫细胞浸润水平更高。C2患者T细胞浸润水平明显高于C3患者。这些结果提示C2患者更可能对免疫治疗产生反应。

接下来分析了免疫、免疫细胞溶解活性(CYT)和主要组织相容性复合体 主要组织相容性复合体在肺癌患者中评分。这些分数都被证明是预测免疫反应的有用的生物标志物。发现C2患者的免疫、CYT和MHC评分明显高于其他患者(Fig. 6e,P < 0.001;K-S检验)。为了检测这些C2患者是否可能对治疗产生反应,从TCGA获得了所有肺癌患者的化疗信息,发现C2患者对化疗有反应的比例更高(Fig. 6f),发现接受化疗的C2患者的预后明显好于接受化疗的C1患者。

此外还检测了T细胞信号通路的基因表达谱。发现一些代表免疫治疗潜在靶点的基因(包括PDCD1(PD1)、CD274 (PDL1)、PDCD1LG2 (PDL2)、CTLA4),在C2患者相较于C1患者有较高的表达(Fig. 6g)。表明ImmLnc具有显著的分子和免疫学多样性(Fig. 6h),可以识别不同的癌症亚型(如C1(增殖型)和C2(免疫学型),这有助于提高个性化癌症管理。

7.ImmLnc: 一个免疫lncRNAs的网络资源

本工作还开发了一个全面的交互式ImmLnc web资源

(http://bio-bigdata.hrbmu.edu.cn/ImmLnc)。

主要有以下几方面内容:

(1)用户可以查询lncRNA或特定癌症环境下与免疫相关的通路(Fig. 7a)

(2)提供了lncRNAs表达与肿瘤免疫细胞浸润的相关性(Fig. 7b)

(3)用户可以很容易地研究所关注的lncRNA在癌症中是否表现出表达扰动(Fig. 7c)

(4)提供了基于患者lncRNA和基因表达的lncRNA - pathway相关性的R包(Fig. 7d)

(5)本工作生成的所有数据均可下载进行进一步分析(Fig. 7e),查询结果可方式显示。该数据资源将不断更新。

小编总结

本工作基于的思路是首先通过lncRNA与编码基因的相关性,以及编码基因所属免疫通路,将lncRNA与免疫通路联系起来,并同时以打分评估相关性程度,开发了ImmLnc方法。接下来在表达和功能等方面对lncRNA进行分析验证,发现免疫相关lncRNA可能在免疫细胞群中高度表达,并且与免疫细胞浸润显著相关。然后根据lncRNA进行分型分析,发现更可能对免疫治疗产生反应的C2型患者。同时还提供开放数据资源。

引用文献:

Li Y, Jiang T, Zhou W, et al. Pan-cancer characterization of immune-related lncRNAs identifies potential oncogenic biomarkers. Nat Commun. 2020;11(1):1000. Published 2020 Feb 21. doi:10.1038/s41467-020-14802-2

END

0 人点赞