新思路!27分Nature子刊教你分析肿瘤线粒体基因组

2020-11-19 15:48:15 浏览数 (1)

今天和大家分享的是2020年3月发表在Nature genetics(IF:27.603)上的一篇文章Comprehensive molecular characterization of mitochondrial genomes in human cancers,作者使用pan-cancer研究的WGS和RNA-seq数据,对癌症线粒体基因组进行了全面的分子表征。

Comprehensive molecular characterization of mitochondrial genomes in human cancers
人类癌症线粒体基因组的全面分子表征

(分享者:科研菌-冻鸳鸯)

一、研究背景

线粒体作为“细胞的动力源”,在通过氧化磷酸化产生大部分细胞能量的生物过程中起着至关重要的作用。环状的线粒体基因仅有16.6 kb,但仍编码13种蛋白质,与其他核来源的蛋白质形成呼吸链复合体。由于能量代谢的改变是癌症的共同特征,线粒体可能参与癌变过程。此外线粒体也在与肿瘤发生有内在联系的其他生物过程中起重要作用,例如生物合成、信号传导、细胞分化、细胞凋亡、维持对细胞周期和细胞生长的控制等。

目前关于线粒体基因组的研究多为基于小样本队列的单一维度研究,并且大多使用全外显子测序数据,因此尚未获得跨癌症类型的线粒体全面、多维分子景观。此外,过往研究仅集中于线粒体改变的模式,而没有充分探索线粒体基因组和核基因组之间的相互作用以及线粒体改变的生物医学意义。本文使用PCAWG生成的38种癌症的全基因组测序数据,对癌症线粒体基因组进行了全面的表征。

二、分析流程

三、结果解读

1.癌症线粒体基因组的突变景观

数据获取与体细胞突变检测:

本研究从PCAWG的WGS数据中提取了2658例癌症和配对正常样本的线粒体DNA(mtDNA)谱,研究的样本涵盖了21种癌症组织和38种癌症类型,全基因组测序(WGS)数据的线粒体基因组平均测序深度为9,959X,远高于全外显子测序数据的测序深度,可以保证在非常低的mtDNA异质性水平上(变异等位基因分数VAF>1%)检测体细胞突变的可靠性。

作者使用VarScan2软件检测线粒体基因组体细胞突变,对假阳性结果进行了仔细的过滤,考虑到包括样本交叉污染、核mtDNA样序列的错误比对,以及文库制备过程中DNA氧化损伤造成的人为突变等各种潜在的混杂因素,排除了122个样本,最终在2536个高质量的癌症样本中鉴定出7611个体细胞substitutions(置换)和930个small indels(插入或缺失)。

作者比较了在KICH(肾嫌色细胞癌)中,使用上述方法鉴定的高VAF mtDNA突变(VAF >50%)与先前使用远程PCR(LT-PCR)法鉴定的mtDNA突变,结果显示WGS数据鉴定的全部突变在LT-PCR法中均得到了验证。

此外,作者还比较了各VAF水平的突变谱,证实低VAF(1%-3%)候选突变的可靠性(补充图1)。mtDNA突变特征在低VAF突变中也可以观察到(如果为污染导致的假阳性结果,这些特征将不会出现):

  1. 低VAF突变谱与高VAF突变(3-10%,10-100%)一致;
  2. 观察到C>T和T>C在预期三核苷酸背景下的绝对优势(C>T为NpCpG, T>C为NpTpC,红框对比);
  3. 观察到了极端的复制链偏差(蓝框对比)。

补充图1:VAF1%-3% mtDNA置换突变谱的一致性 癌症样本的mtDNA突变景观

在7611个置换中,>85%的突变VAFs<0.6(均值0.2,中位数0.045),具有明显的异质性。总体上,转录区的mtDNA突变在RNA-seq数据中也具有相似的VAFs(除了一部分tRNA突变由于多顺反子线粒体转录过程中未加工tRNA前体的积累,在转录组数据中具有更高的VAFs)。

补充图2:mtDNA错义突变与其mtRNA的VAFs比较

在所有癌症样本中,调控D-loop的区域和ND4基因中有较多的突变热点(图1b,蓝色外圈展示所有VAF>1%的突变的密度,红色内圈展示VAF>3%的突变)。而在13个蛋白编码基因中,ND5在大多数癌症类型中突变最频繁,而ND4在前列腺癌和肺癌中最频繁,COX1在乳腺癌、宫颈癌和膀胱癌中最频繁。

图1a,b:多维度整合分析方法概述和mtDNA置换突变的概况

此外,为评估13个编码基因突变频率的影响因素,作者使用log-linear模型进行样本水平的分析:指定每个样本的二进制突变indicator(1:突变;0:无突变),将它作为响应变量加入logistic回归模型(包括癌症类型、gene identity和它们的交互作为解释变量),然后使用方差分析对解释变量进行summarize。

结果发现,癌症类型和gene identity与13个编码基因的突变状态有关(Ptype< 2.2 × 10−16; Pgene< 2.2 × 10−16),但二者交互作用的影响不显著(Ptype×gene = 0.12)。

癌症样本的mtDNA突变过程:

作者比较了核基因组体细胞突变和mtDNA体细胞突变的特征,还使用Spearman秩相关系数评估了其不同类型突变的数量之间的关系,以及它们各自与病人年龄之间的关系。

与核基因组的体细胞突变不同(已观察到癌症类型特异性突变特征),mtDNA突变特征在不同癌症类型中非常相似:C:G > T:A(58.3%)和T:A > C:G(34.2%)置换为最频繁及第二频繁的突变类型(图1c)。并且常见致癌物的影响在mtDNA突变中也非常小,比如吸烟(C:G >A:T占主导地位)、紫外光(C:G>T:A在双嘧啶环境中主导)和活性氧(G:C>T:A主导)即使在肺癌和皮肤癌中的影响都非常小。

取而代之的是,绝大多数mtDNA突变表现出极端复制性的链偏倚:尽管L链上鸟嘌呤和胸腺嘧啶相对缺失,mtDNA基因组的轻(L)链仍表现出G>A和T>C置换占主导地位,而C>T和>G置换很少(补充图1a)。由于每个细胞有大量拷贝,线粒体可以简单地通过自噬和其他动力学机制清除外部突变刺激损伤的mtDNA,而不像细胞核中需要复杂的修复蛋白。这些突变特征表明线粒体特异、复制相关的突变过程中,mtDNA聚合酶γ出错或其他复制相关的DNA损伤机制,是癌症中mtDNA体细胞突变的主要原因。

与突变的内源性起源一致,观察到mtDNA突变具有核基因组突变的clock-like特性。mtDNA突变的数量很大程度上与患者在组织取样时的年龄成正比,此外,肿瘤组织中体细胞突变的最大VAF与年龄呈正相关(图1d,P < 2.2×10−16)。

这些结果表明绝大多数mtDNA体细胞突变是:

  • 在细胞谱系表型尚正常的早期就获得的;
  • 肿瘤细胞的细胞系中,突变随着年龄增长,整体上逐渐转向同质性。从理论上讲,向同质性的转移可能是由生理优势 (selection)或不对称分裂(drift)引起的。

为了进一步评估mtDNA突变的潜在影响,作者同时对线粒体和核基因组的改变进行了综合分析。

  • 在多种癌症类型中,线粒体和核基因组的突变负荷之间存在显著的正相关,其中相关性最高的是肾癌和甲状腺癌(图1e,洋红色条)。其中一些相关性可以用年龄效应来解释:在这些癌症类型中,线粒体和核基因组中的突变数与患者年龄显著相关(图1e中带星号的条)。
  • 图1f展示了不同核基因组驱动改变背景的比例。核驱动改变存在于大多数癌症类型的多数病人中,但值得注意的是肾嫌色细胞癌和甲状腺癌中有相当比例的病人(22.2%,18.8%)存在mtDNA突变(VAF>10%的突变),却没有已知的核驱动改变,提示在这些癌症类型中可能存在与核驱动改变无关的的mtDNA突变功能贡献(图1f)。

图1c-f:mtDNA的突变特征:置换类型、年龄和核驱动改变背景

2.线粒体基因组的超突变过程

超突变过程在一小部分癌症核基因组(例如微卫星不稳定性)中已经被充分证实,但对于线粒体基因组还没有报道。作者比较了研究数据中置换突变的数量分布特征,在2,536例癌症样本中,有7例显示mtDNA体细胞置换突变数量异常增多(>13),较背景分布的预期值大(平均每个样本有3个置换,标准差2.6,图2a)。这些高突变样本的突变谱有些与背景中L链G>A和T>C置换的特征明显不同(图2b),表明这种大量突变并非普通mtDNA置换逐渐积累的结果。

图2a,b:mtDNA突变数量分布和超突变样本的突变谱

其中最显著的是乳腺癌样本SP6730,有33个突变,其中30个位于一个2kb的区域,导致局部突变率比背景突变率高75倍。独立的外显子组和RNA-seq分析证实,这些突变有70%是新发现的,并非胚系突变和测序错误造成的突变。其中绝大部分的局部突变(n = 28)为L链的T>C置换,并且互相co-clonal,有高度相似的VAFs(~7%)。

这些特征支持28个局部突变(19个错义,4个沉默和5个tRNA突变)是通过一次“single-hit”的灾难性突变机制获得的,类似造成链特异性T>C置换主导的突变谱的机制。这与核基因组的kataegis现象(在癌症基因组中发现的局部超突变模式)以及一种已报道的mtDNA复杂体细胞突变相似,图2d介绍了可能的机制:mtDNA在一次“single-hit”中获得了这些突变,并且突变拷贝通过细胞系的一系列复制,具有了较明显的VAF(~7%),但导致缺陷表型的概率很低。

图2c,d:乳腺癌超突变样本的突变分布及可能的机制

3.mtDNA突变中癌症类型特异性的选择压力

为了研究mtDNA突变对其功能的影响,解释mtDNA的特异性突变特征,作者以一种对错义突变选择压力的常见测量:dN/dS比率(同义/非同义置换比率),进行了初步分析。结果发现不同类型癌症、不同VAFs上错义突变的dN/dS总体上接近1,表明对mtDNA错义突变的总体选择接近中性。

作者进一步分析了不同的突变类型的VAF分布,发现并非所有突变都是乘客突变。13个mtDNA基因的截短突变(导致蛋白质产物截短的突变(即无义突变和移码indels))在大多数癌症类型中表现为阴性选择,VAFs明显比错义突变或沉默突变的VAFs受到更大程度的抑制,表明完整的线粒体功能在癌细胞中的重要性。

而在肾癌、结直肠癌和甲状腺癌中却呈现相反的趋势,截短突变的VAFs明显高于背景值(F检验,P < 2.2×10−16)。图3a展示三种癌症和其他类型癌症截短突变的不同VAF样本积累曲线。截短突变的曲线偏离中性选择的曲线,其他类型癌症的截短突变(红色曲线)较作为对比的沉默突变和错义突变更少,而肾癌、结直肠癌和甲状腺癌(蓝色曲线)则积累了更多的高VAF突变。

图3b进一步展示了近同质突变(VAF>0.6)的曲线下面积,显示VAF>0.6的截短突变在肾癌中显著富集,尤其是在肾嫌色细胞癌和肾乳头状癌中,表明正常线粒体功能的失活是这两种癌症发生过程中的重要一步。

图3a,b:不同VAF截短突变在不同癌症类型中的积累

接着分析这些截短突变在13个编码基因中的分布模式,结果显示在ND5中富集,并且相较于肾嫌色细胞癌和结肠癌,肾乳头状癌的ND5截短突变富集在蛋白的氨基末端区域(图3c)。

在肾嫌色细胞癌和肾乳头状癌中进行进一步分析,选择反复出现体细胞突变cancer census gene,分析核基因组与mtDNA突变的互斥性。结果如图3d,两种肾癌的高VAF截短突变与已知的癌基因突变是相互排斥的(Fisher确切概率检验,P = 0.01)。

此外,根据是否具有至少一个VAF>0.6的mtDNA截短突变将样本分为截短组和非截短组,对肾乳头状、结直肠和甲状腺癌及其组合的样本组间的差异表达基因进行GSEA分析,在FDR = 0.05的水平上鉴定显著富集的通路。结果显示在截短组样本中,肿瘤相关通路(如雷帕霉素靶点、肿瘤坏死因子-凋亡信号、氧化磷酸化和蛋白分泌等)中基因表达上调(图3e)。

以上这些结果表明在特定癌症类型的起始和克隆进化中,线粒体截短突变具有功能性的致癌影响。

图3c-e:mtDNA截短突变的模式

4.mtDNA到核基因组的体细胞转移(somatic transfer)

目前已有多种技术可以对mtDNA进入核基因组的迁移进行评估,在乳腺癌中,体细胞mtDNA核转移(somatic mtDNA nuclear transfers,SMNTs)在核苷酸水平上有更系统的研究。作者使用一种在先前研究中特异性100%的方法分析来自癌症和匹配对照组织样本的WGS数据,通过提取并聚类来自癌症基因组的不一致reads(其中一端与核DNA对齐,另一端与mtDNA对齐),在本研究纳入的样本中发现了55例阳性样本(总阳性率2.1%)。

对不同癌症类型SMNT发生率的比较显示,SMNT阳性率与癌症类型有关(Fisher确切概率检验,P<1×10−5,图4a),肺癌、皮肤癌、乳腺癌和子宫癌的阳性率高于5%,人表皮生长因子受体2阳性(HER2 )乳腺癌和鳞状细胞肺癌的阳性率分别为16.0%(4/25)和14.6%(7/48),显著高于平均值(Fisher确切概率检验,P < 0.003,P < 0.001)。而在血液、肾脏、食管、胃、肝脏、前列腺和结肠直肠癌中没有发现任何阳性病例。

图4a:不同癌症类型中SMNTs的发生频率

以t检验比较有无SMNTs的样本中SMNTs与核基因组结构变异的关系,结果显示与对照组相比,有SMNTs的样本在核基因组中具有更多的总体和局部结构变异(P = 1×10−4,图4b)。进一步通过搜索假定断点连接处附近的不一致读值(上下游1000对碱基对)来确定SMNT整合位点(断点,breakpoints),从每个样本中随机选取相同数量的结构变异断点100次来估计SMNT断点位置的随机期望。比较不同类型结构变异中,SMNT断点与最近的结构变异断点的距离和随机期望之间的差异,结果显示SMNT断点在空间上比预期更接近倒置和易位断点(图4c)。综合以上结果,mtDNA片段与核DNA的整合机制,往往与以核基因组结构变异为基础的特定过程有关。

图4b:有无SMNTs样本中核基因组结构变异的发生频率

图4c:不同类型结构变异中SMNT断点到最近的结构变异断点的距离

尽管总体上SMNT发生频率较低(约2%),但一些癌症样本显示了超过3个独立的SMNT事件(图4d),并且一些mtDNA片段会大量重排,这表明SMNT事件发生时基因组极不稳定。

图4d展示了一例膀胱癌样本基因组中三个独立SMNT事件的Circos图,灰色曲线表示染色体重排,红色曲线表示SMNT。补充图3b展示了一例肺癌样本基因组中的两次mtDNA核转移,其中一个mtDNA核转移片段有三个逆序重排。

图4d:一例膀胱癌样本基因组的Circos图

补充图3b:一例肺癌样本基因组的Circos图

在来自35例样本的42件整合在基因中的SMNT事件中,主要发生在内含子(n = 37),部分在蛋白质编码区域(n = 3)和非翻译区(n = 2)。至少23个基因的开放阅读框(23/42 = 55%,包括癌基因ERBB2,FOLH1,ULK2)被预测会被这些SMNTs及其附近组合的结构变异事件所改变,其中一个SMNT参与了HER2 乳腺癌基因组中ERBB2基因的局部扩增,导致ERBB2外显子10-23的串联重复过程及其随后的表达(图4e)。

图4e:一例HER2 乳腺癌样本中的SMNT事件

5.mtDNA的拷贝数和结构变异

使用WGS数据,作者对2157个癌症样本队列中每个细胞的mtDNA拷贝数进行了系统准确的分析。考虑到组织中肿瘤细胞被正常细胞污染以及肿瘤细胞基因组倍性等混杂因素,作者通过PCAWG联盟提供的肿瘤等位基因特异性拷贝数分析得到f(0-1,肿瘤纯度)和ploidy(染色体组在肿瘤细胞的数量),并采用以下公式估计癌症样本的mtDNA拷贝数:

排除低纯度的样本后,选择至少有10个样本来自邻近正常组织的癌症类型,以便比较成对癌症和正常样本的mtDNA拷贝数。结果观察到不同癌症类型之间mtDNA拷贝数具有巨大差异:在卵巢癌样本中mtDNA最丰富(中位数:每个细胞644个拷贝),而在骨髓癌样本中最不丰富(中位数:每个细胞90个拷贝)。

图5a:不同癌症类型的mtDNA拷贝数

进一步使用方差分析或t检验比较来自同一组织器官的不同癌症亚型的mtDNA拷贝数,结果显示有些癌症类型表现出不同的mtDNA拷贝数分布(图5b),比如肾嫌色细胞癌显著高于肾透明细胞癌和肾乳头状癌(P < 7.8×10−6),可能与线粒体质量控制的普遍不足,导致稳态时mtDNA拷贝数增加有关(一种已在嗜酸细胞瘤中观察到的特征,经常出现核染色体非整倍体以及缺陷线粒体大量聚集)。

接着作者评估mtDNA拷贝数与截短突变的相关性,结果发现在高VAF截短突变的样本中mtDNA 拷贝数显著更高(图5c),表明mtDNAs的剂量效应可能被选择来补偿截短突变的有害影响。

图5b,c:不同癌症类型和截短组样本的mtDNA拷贝数分析

在有配对正常组织的癌症样本中比较mtDNA拷贝数的变化(n = 507),结果显示在慢性淋巴细胞白血病、肺鳞状细胞癌和胰腺癌,中癌症样本的mtDNA拷贝数增加,但肾透明细胞癌、肝细胞癌和骨髓增殖性肿瘤中减少(图5d)。这种不同的模式可能是由于癌症特有的致癌刺激、代谢活动和线粒体功能失常所致,比如最近一项研究显示肾透明细胞癌中mtDNA拷贝数的显著降低与HIF1α高度激活导致过氧化物酶体增殖激活受体γ共活化剂1α(线粒体生物生成的关键调节子)下调有关,而HIF1α是肾透明细胞癌中最常见和活跃的突变。

为了评估mtDNA拷贝数的潜在生物医学意义,作者研究了与一些关键临床变量的相关性:

  • 结果发现发现在前列腺癌(图5e)、结肠直肠癌和皮肤癌中mtDNA拷贝数和诊断时的年龄之间存在显著正相关。而大多数病例中正常血液的mtDNA拷贝数与年龄呈负相关。
  • 观察了在多种癌症类型中mtDNA拷贝数与肿瘤分期之间的相关性,结果显示慢性淋巴细胞白血病中mtDNA拷贝数的增加与癌症的高分期有关(图5f)。

图5d-f:癌症样本与配对样本的mtDNA拷贝数比较及与临床变量的相关性

由于前列腺癌和衰老组织中已知存在线粒体基因组的focal copy的获得和丢失,作者最后还使用WGS数据分析了样本中mtDNA基因组的结构变异。通过以正常mtDNA序列为参考,计算归一化的测序深度,进而寻找癌症mtDNA序列的读取深度变化来鉴定结构变异区域。结果在2658例癌症样本中,3例样本(0.11%)的mtDNA出现了显著的结构变异(图5g)。例如,一个胰腺癌病例存在约3.4 kb的mtDNA缺失,VAF估计为63%,导致核糖体RNA和ND1基因截短。一个黑素瘤病例显示了约4 kb的串联重复,VAF估计为100%。

图5g:线粒体基因组结构变异分析

6.线粒体基因的共表达网络分析

为了研究13个mtDNA基因在癌症中的功能影响,作者使用TCGA的来自13种癌症类型的4,689例肿瘤样本的RNA-seq数据对基因表达水平进行定量。

  • 结果显示基因表达水平与mtDNA拷贝数之间的相关性在不同癌症中不同。
  • 如图6a所示,mtDNA基因在三种肾癌(嫌色细胞癌、乳头状细胞癌和透明细胞癌)中高表达,而在三种鳞状细胞癌(宫颈、肺和头颈部癌)中低表达,这是mtDNA拷贝数在不同癌症类型中的相对丰度不同所导致的,并且与正常组织中的研究一致。

作者进一步构建了包括线粒体基因和核基因的共表达网络,研究mtDNA基因及其相关的核基因和通路,然后测量网络中核基因到一个线粒体基因的边缘强度,基于所有核基因的排名进行GSEA富集分析。

  • 结果显示氧化磷酸化是最显著的富集通路,并且在13种被检测的癌症类型中有8种显著富集(FDR < 0.05),突出线粒体基因在能量生成中的重要作用(图6b)。
  • 其他癌症发生中起重要作用的通路也在多种癌症中富集,包括与细胞周期相关的通路(MYC靶点、有丝分裂纺锤体、G2/M检查点和E2F靶点)和DNA修复,已有研究认为mtDNA在这些通路中扮演重要角色。

最后作者检测了以mtDNA为中心的共表达网络(图6c)。结果显示mtDNA几乎在所有癌症类型中都强共表达,作者认为是由于mtDNA基因被转录为长的多顺反子前体(long polycistronic precursor transcripts)。此外,多个临床应用的基因与mtDNA基因呈强共表达模式,例如在前列腺癌中,AR、EGFR、DDR2、MAP2K2与mtDNA基因共表达,而TMPRSS2、NF1、PIK3CA、BRCA1和TOP1是mtDNA基因在多种癌症中最邻近的基因。

图6:不同癌症类型中mtDNA共表达模式

7.开放获取的癌症线粒体谱数据门户网站

作者开发了一个开放访问、用户友好的数据门户网站The Cancer Mitochondrial Atlas (TCMA),可以探索本研究中各种类型分子数据的特征,通过http://bioinformatics.mdanderson.org/main/tcma:Overview访问,包括体细胞突变、核转移、拷贝数和基因表达四个模块,前三个模块以ICGC WGS数据为基础,对每个癌症样本的相应特征进行了详细的注释,最后一个模块基于TCGA RNA-seq数据,提供了共同表达网络可视化交互界面。

本研究使用pan-cancer的WGS数据和RNA-seq数据,通过体细胞突变检测、超突变分析、dN/dS计算、SMNTs分析、拷贝数对癌症线粒体基因组进行了全面的描述,并且开发了开放获取的数据网站,提供癌症中体细胞mtDNA改变的完整目录。研究报告了线粒体基因组中跨癌症类型的突变特征,超突变案例,富含高VAF截短突变的几种癌症类型,突出线粒体基因组的动态突变过程。

作者还进行了mtDNA改变与核基因组改变的综合分析,发现在肾癌中mtDNA高VAF截短突变与突变核基因相互排斥,mtDNA核转移与核基因组结构变异的增加有关,并且mtDNA共表达的核基因在肿瘤发展的多个关键过程中富集。这些结果表明,线粒体基因组在癌症的复杂分子模式和研究潜在的癌症驱动事件方面是必不可少的部分。研究结果中包含mtDNA到治疗靶基因的核转移、拷贝数与临床变量的相关性,以及mtDNA与临床可应用基因的共表达,表现出线粒体的临床重要性。但以上这些以相关为基础的分析仍需要进一步研究阐明其具体机制。

我们一起期待下一篇精彩的文献吧!

编辑:冻鸳鸯

校审:虾饺皇、糯米饭

友情推荐:

na

0 人点赞