Nature:分析2658例癌症样本的全基因组中非编码体细胞的driver

2022-03-29 10:05:56 浏览数 (2)

导语

GUIDE ╲

以往的大规模测序项目已经确定了许多公认的癌症基因,但大部分工作都集中在蛋白质编码基因的突变和拷贝数改变上,主要使用全外显子组测序和单核苷酸多态性阵列数据。全基因组测序使系统地调查非编码区域的潜在driver事件成为可能,包括单核苷酸变异(SNVs),小的插入和缺失(indels)和更大的结构变异。全基因组测序能够精确定位结构变异断点(breakpoints)和不同基因组位点之间的连接( juxtapositions并置)。虽然以前的小规模样本的全基因组测序分析已经揭示了候选的非编码调控driver事件,但这些事件的频率和功能含义仍然缺乏研究。

背景介绍

与编码基因相比,非编码区域的driver识别仍然是一个更大的挑战,主要由于测序和匹配的人工性,对局部超突变过程的不了解,调控区域的不完整注释,不准确的背景突变率估计和未知的非编码突变的功能影响。由于结构变异的其稀疏性、缺乏明显的中性事件来建立背景模型以及它们复杂的功能效应,识别结构变异drivers而变得更加复杂。为了可靠地识别非编码drivers,需要有足够的统计方法来解决这些问题。

ICGC和TCGA的PCAWG项目收集并系统分析了38种癌症类型的2658名患者的癌症基因组序列,可以用来识别全外显子组测序或单核苷酸多态性阵列不能识别到的非编码drivers。本工作进行了对非编码体细胞driver的全面的检索。对于点突变(SNVs和indels),结合了来自多个driver识别算法的结果,并通过仔细评估显著hits,揭示了反复出现的人为技术(artefacts)和对突变过程理解不足导致了在以前报告的非编码 drivers中常见的误报。对于结构变异,引入了两种新方法来识别具有显著反复性断点(significantly recurrent breakpoints ,SRBs)和显著反复性并置(significantly recurrent juxtapositions,SRJs)的区域,考虑到DNA断裂和修复率的基因组异质性以及基因组的三维结构。最后,为了评估未来非编码drivers识别的潜力,量化了在PCAWG数据集的统计能力,并估计了已知癌症基因周围非编码调控区域的全部多余的点突变。

数据介绍

1. 样本

International Cancer Genome Consortium (ICGC)和The Cancer Genome Atlas (TCGA)的Pan-Cancer Analysis of Whole Genomes (PCAWG) Consortium的2658个肿瘤样本。

2. 基因表达数据

由PCAWG Transcriptome Core Group提供基因表达数据,也使用相同的方法生成了一组扩展的非编码转录本。

方法介绍

1. Hotspot SNV 分析

选择了50个最常见的SNV热点,以确定已知的driver事件

2. 突变特征

使用SignatureAnalyzer’s Bayesian 非负矩阵分解方法对全局特征进行了重新发现和特征属性的确定。

3. 基因组元件的定义

使用GENCODE v.19 (ref.53) 和其他基因组资源来定义功能基因组原件,包括蛋白质编码基因(CDS、剪接位点、5’UTR、3’UTR和启动子)、长非编码RNAs(基因体、剪接位点和启动子)、短RNAs、miRNAs和增强子。

4. 候选-driver-突变识别方法及结果组合

获取以下13种driver是识别方法的P值:ActiveDriverWGS、CompositeDriver、DriverPower、dndscv、ExInAtor、 LARVA、MutSig tools、NBR、ncdDetect、ncDriver、OncodriveFML和regDriver。使用一个先前发布的用于组合P值的方法(引文62)将结果P值整合。Cohort–element组合中Q值< 0.1为显著hits,0.1≤Q < 0.25为“接近显著”。

5. 候选driver结构变异分析

应用单独的分析来检测反复的结构变异断点和反复的并置。对于每次分析,首先对断点进行拣选(binned)处理,每个样本每个容器(bin)只接受一个断点。然后,确定哪些容器具有比预期更多的断点(SRB分析),以及哪些容器对(或“tiles”)有比预期更多的重排(SRJ分析)。

6. 候选driver断点

基于一个Gamma–Poisson模型来计算每个容器的断点背景率。

7. 候选driver并置

开发了一个背景模型来表示两个位点加入的概率,考虑到在每个位点经历DNA断裂(从断点分析)观察的比率,他们之间的距离和这些重排的倾向,以反映一个断裂随后的入侵和两个断裂,然后结合。

结果解析

01

癌症类型的热点突变

许多蛋白质编码driver突变发生在single-site的“hotspots”。在PCAWG数据集中,>1%的患者中只有12个单核苷酸位点发生突变,而>0.5%的患者中有106个单核苷酸位点发生突变。尽管蛋白质编码区仅占基因组的1%,但50个最频繁突变位点中的15个(KRAS、BRAF、PIK3CA、TP53和IDH1),以及两个典型TERT启动子热点,是癌症基因中得到充分研究的热点(图1a)。

其余的非编码热点可归因于以下与passenger事件相关的局部突变过程:(1)在黑素瘤中在转录因子所占位置的紫外(UV)线损伤并由核苷酸切除修复损伤;(2)B细胞非霍奇金淋巴瘤(Lymph–BNHL)和慢性淋巴细胞白血病(Lymph–CLL)中激活诱导胞嘧啶脱氨酶(AID)引起体细胞超突变;(3)认为回文序列(回文序列指的是双链DNA或RNA分子中的特定的核苷酸片段,该片段在其中一条链上按5'到3'读取的序列与其互补链上按相同的5'到3'读取的序列一致)背景是APOBEC酶(在GPR126内含子和PLEKHS1启动子中)靶向的发夹DNA结构;(4)推测的技术的人工性(图1a)。这些发现表明,除了TERT启动子事件之外,非编码单位点热点drivers是不常见的,或者在检测突变的低敏感性区域下降。

02

发现点突变drivers

为了识别反复突变的基因组元件(elements),首先分析了蛋白质编码区的的体细胞SNVs和indels、RNA基因(长、短非编码RNA和microRNAs )和调控区(启动子、5 ' 非编码区(UTRs)、3 ' UTRs和增强子)总共约占基因组的4%。分析了27种肿瘤类型的2583个肿瘤,以及15个元组,这些元组根据肿瘤的组织来源或器官系统进行分组。通过整合13种识别算法,规避任何一种方法带来的偏差,确定了候选drivers——即Q < 0.1(10�R)的cohort-element组合。通过评估该方法检测603个已知癌症基因的能力(来自Cancer Gene Census),对该方法进行了基准测试,发现与单一算法相比,合并方法提高了性能。最后识别了1294个显著的hits,涉及520个唯一的候选

03

过滤显著hits

即使在保守的FDR控制之后,由于不准确的背景模型、测序和匹配的人工性,或由于未解释的突变过程导致的局部突变增加,假阳性的“driver”基因位点仍可能存在。因此,接下来在技术和生物学标准的基础上系统地筛选了候选driver元件,并进行了仔细的审查。过滤元件的例子包括PIM1(淋巴肿瘤)和RPL13A(黑色素瘤)的启动子,因为它们分别与局部AID和UV-light突变过程有关;APOBEC回文靶序列中的PLEKHS1、GPR126、TBC1D12和LEPROTL1 9;以及WDR74 5 ' UTR和启动子,这是由于在下游手工审查中发现的映射问题。在组合中,过滤和再应用FDR控制删除了1294个原始 cohort–element中的589(46%)和520(66%)个唯一元件的341个。

04

候选的编码和非编码突变

使用严格的组合和过滤策略在179个基因组元件中得到705个 hits:602个hits在蛋白编码基因上,103个hits在非编码元件。在不同类型的癌症中观察到广泛的变异(图1b)。虽然大多数候选drivers在较大的群体中具有显著性,但一些基因,如DAXX(胰腺内分泌肿瘤)、NRAS(黑色素瘤)、SPOP(前列腺腺癌)、FGFR1(毛细胞星形细胞瘤)和MIR142(Lymph–BNHL)在个体肿瘤类型中得分更高。这些结果强调了限制对特定类型肿瘤的driver发现分析和最大化样本数量之间的权衡。在这个数据集14中,TERT启动子是最常见的非编码driver突变(图1b),如之前报道的,这些突变与较高的TERT表达密切相关。在TOB1(癌和泛癌meta-cohorts)、NFKBIZ(淋巴瘤)和ALB(肝癌)的3′UTRs中发现了反复的体细胞事件(图1b)。TOB1编码一种与ERBB2相关的抗增殖调节因子,也影响胃癌的迁移和侵袭,TOB1通过与其他mRNAs的3 ' UTR结合并促进其脱腺苷化来调节mRNAs。TOB1中有3 ' UTR突变的肿瘤表现出表达下降的趋势,突变没有集中在已知的miRNA结合位点,然而该区域非常保守,因此可能具有功能(图2a)。TOB1及其邻近基因WFIKKN2在乳腺癌和泛癌中局部扩增,提示其在癌症中具有复杂的作用。NFKBIZ是一种在弥漫性大B细胞淋巴瘤中突变并在原发淋巴瘤中扩增的转录因子,3 ' UTR的突变聚集在靠近终止密码子的热点和保守的miRNA结合位点的上游。在多种癌症中,非编码RNA RMRP的外显子和启动子均发生显著突变(图1b),生殖系RMRP突变导致软骨毛发发育不全,此前的体外研究表明一些体细胞启动子突变具有功能,RMRP位点在几种类型的肿瘤中也有局部扩增。miR-142前体miRNA在Lymph–BNHL和淋巴和造血样本中显著(图1b),该位点是淋巴细胞中已知的辅助脱靶区,但是成熟miRNA mir-142-p3的8个突变中有7个没有被认定为辅助突变,这表明这些突变处于选择中。

05

无偏倚的全基因组driver筛选

为了检验本工作是否因关注功能注释区域而遗漏了drivers,接下来对所有额外的点突变的不重叠的2- kb窗口(windows)应进行了一种无偏倚的全基因组调查。在67个显著窗口中,有22个与已知的蛋白编码drivers重叠,28个重叠的高转录区域有超过2 - 5 bp的indels。其余的17个窗口与癌症没有明显的联系,而且有几个似乎是受人工操作的影响。对4351个超保守非编码区域的单独分析没有产生新的候选drivers。两种筛选结果均表明,本研究中发现的非编码点突变drivers的缺失并非由于功能元件的注释。

06

增加已知癌基因的power

最后,通过执行限制的假设检验来提高统计能力,识别邻近癌症基因(癌基因来源CGC)的顺式调控基因driver突变。限制假设检验在癌症基因启动子,显示TP53启动子突变的一个显著反复,主要包括影响第一个非编码外显子的转录起始位点或供体剪接位点的SNVs和缺失。11例样本中的10例突变与杂合性缺失同时发生,所有有表达数据的样本显示mRNA水平下降(图2b)。这些患者中没有一个含有可能导致TP53下调的额外编码突变。这是第一次报道相对少见但有影响的TP53非编码突变失活。癌症中的局部扩增或缺失被选择来调节其靶基因的表达水平。将假设检验局限于这些基因的非编码元件,只产生了一个新的hit,即前列腺癌中癌基因FOXA1的3 ' UTR。

07

转录相关的indel特征

几个重要的非编码元件(ALB3 ' UTR、NEAT1、MALAT1和MIR122)被多个indels hit;所有这些都曾被报道在癌症中发生突变(图1b、2c)。为了探究ALB3 ' UTR事件是否处于选择状态,计算了该基因各功能区域的indel率。在UTRs、内含子和外显子,甚至在聚腺苷酸化下游位点,indel率都非常高——这种模式与选择不一致(图2c, d)。同样地,FOXA1在其整个位点都有高的indel率,而NFKBIZ和TOB1的indel在3’UTRs中,表明这些是driver 事件(图2d)。ALB、NEAT1和MALAT1突变与基因表达变化无关,也与高肿瘤细胞比例或双等位基因损失无关。同样,MIR122中的indel位于成熟miRNA的下游,与miRNA靶点表达的改变无关。:如果这些基因中的indels是由于突变过程而不是选择,它们可能会表现出不同的特征。事实上,NEAT1、MALAT1、MIR122和ALB中的indel强烈富集在在2 - 5 bp长的事件(图2e)。对编码基因和非编码基因的系统搜索显示,在不同类型的肿瘤中,这种突变过程影响至少18个额外的基因,其中大多数是高表达和组织特异性的。尽管SNVs的较少富集,但在这些区域也出现高频率的SNVs(图2f)。总的来说,本工作发现表明MALAT1、NEAT1、ALB和MIR122中的indels不是driver 事件,而是转录相关突变过程的结果。因此,先前报道的改变MALAT1和NEAT1表达的致癌作用可能与这些突变无关。虽然FOXA1蛋白编码的indel是drivers,但3 ' UTR的indel可能是passengers。

08

在driver和脆弱位点上的断点

Driver结构变异可能通过破坏一个或两个断点位点(如使一个肿瘤抑制基因失效),或者通过在位点之间产生新的并置而起作用。因此,既搜索了带有SRBs的基因组区域,也搜索了带有SRJs的成对区域。

对于SRBs,首先定义了一个背景模型来预测断点密度,使用了8个解释变量并解释了无法解释的变异源。确定了53个具有SRBs的不相交区域(图3a),根据重排另一侧断点的可变性将其明确地分为两组。8个SRBs有紧密聚集的伙伴断点,代表已知的致癌融合。其余45个SRBs具有分散的伙伴断点,并且与先前识别的的体细胞拷贝数变异(SCNAs)密切相关(图3b)。很难区分反复出现的driver SCNAs和脆弱位点的passenger事件。在全基因组测序所提供的分辨率下,晚期复制时间比现有的脆弱位点注释更好地预测了脆弱性相关的SRBs,识别出12个脆弱性(fragile-like)SRBs(图3b)。剩下的33个 SCNA-like SRBs包括14个扩增,8个缺失和11个拷贝中性事件。不同类型的SRB对邻近基因有不同的影响,8个缺失相关的SRBs中有5个与附近已知肿瘤抑制子的双等位基因失活有关,而12个脆弱性 SRBs没有相关。脆弱性 SRBs离组织匹配的增强子最远,其表达变化最弱,这与它们是passenger事件是一致的。相比之下,融合型(fusion-like)SRBs比其他SRBs更接近组织匹配增强子,且除了扩增外,与其他SRBs相比,其表达变化更大。本工作分析表明,SRB driver事件可以通过重排分散分数、复制时间和基因表达进行分类。值得注意的是,无论是重排分散分数还是与复制时间的关联都不能从微阵列或全外显子组测序中准确地确定,说明了全基因组测序的重要性。总的来说,在34个已知的致癌融合位点和反复的SCNAs中发现了SRBs,另外5个位点可能是由于DNA脆性和14个新的候选driver因子。

09

新的结构变异driver候选

尽管大多数SCNA-like SRBs通过改变基因拷贝数来发挥作用,但有几个似乎以调控元件为目标。在控制拷贝数后,发现了三种与附近基因表达变化显著相关的基因,在这里讨论其中两种。第一个包含10p15的结构变异,在7例肺鳞状细胞癌和2例肝细胞癌中与AKR1C1、AKR1C2和AKR1C3的上调超过2倍关联。AKR1C蛋白是参与类固醇稳态的醛酮还原酶。异位表达改变了细胞系,而生殖系突变在之前被认为与肺癌风险增加有关。四分之三的断点接近(<10 kb) lineage-specific增强子,可能改变启动子和增强子的相互作用(从而改变基因表达)。但是,由于断点密度最高的位置位于两个长反向重复之间,结构变异可能是由DNA二级结构引起的。

第二个SRB包含反复性微缺失(<50 kb),涉及8例卵巢和6例乳腺肿瘤的BRD4 5 '端(图3c)。这些缺失在BRD4和NOTCH3扩增的肿瘤中高度富集(图3d),但不是这些扩增的直接结果。BRD4是一种染色质调控因子,也是包括卵巢癌和三阴性乳腺癌的几种癌症的治疗靶点。而微缺失与BRD4在乳腺和卵巢肿瘤中的低表达相关,但与邻近基因NOTCH3无关(图3 e)。BRD4的局灶性缺失与HMEC(正常乳腺)和MCF-7(乳腺肿瘤)细胞中一个突出的exon-1 H3K4me3峰和intron-1增强元件重叠,这表明这些缺失破坏了调节元件。

10

反复融合靶基因调控

在检测fusion-like SRBs的时候,在控制了每个位点的断点率和它们之间的距离之后,识别了比预期的更经常的并置的基因位点。确定了90个这样的SRJs(图3),包括13个已知的致癌融合和77个新的hits,其中18个与至少一个已知的癌症基因有关。先前报道的致瘤性SRJs比新的SRJs更常见。由于并置不太可能是偶然发生的,因此观察到甚至是两个并列的情况就变得非常重要。然而,有可能一些SRJs反映的是背景模型的不准确性,而不是真正的drivers。因此在以下几点的基础上进一步的评估SRJs:(1)“稳健性因素”,表明在SRJ变得不显著之前,背景比率可以增加多少。(2)在当前背景模型下观察到的事件数量和预期事件数量之间的比率(“效应大小”)。26个SRJs,包括13个已知的drivers中的11个和15个新识别的SRJs,能够稳健地将预期的背景比率提高两倍,另外22个仍然具有显著性,并且增长率是两倍。

大多数典型的driver重排已经在单个肿瘤类型中发现,通常与组织特异性表达相关。尽管对30种不同类型的肿瘤进行了搜索,但发现10种SRJs中有9种是组织特异性的。SRJs的组织特异性表明,它们受到表观遗传状态的强烈影响,或者是由于机制原因(如两个DNA断点的组织特异性三维邻近),或者是由于将组织特异性调控元件与癌基因连接的选择。后者似乎更有可能是因为:(1)相对于随机选择的重排,SRJs只与一个重排伙伴(“主位点”)的显著过表达相关(图3 g,左)。(2)与其他组织类型相比,位于次级基因座的重排伙伴在该组织类型中倾向于高表达(图3g,右)。(3)SRJs到最近的组织特异性增强子的距离比整体重排要小。这些观察结果表明,SRJs通常通过将调控元件带入低水平表达的癌基因而起作用

在许多情况下,SRJs产生截断或嵌合蛋白质,并且在内含子或外显子内的断点确实过多。然而,在所有样本中,30个最显著的SRJs中只有11个(37%)产生了新蛋白,其他6个有时产生新蛋白;其余的要么是无破坏的,要么是在被破坏基因的前两个内含子中含有断点,使大部分蛋白质保持完整(图3f)。此外,产生新蛋白的SRJs的表达变化与不产生新蛋白的SRJs的表达变化相似。本工作认为,改变基因表达是这两类SRJs的关键功能,SRJs类似于作用于调控元件的非编码driver点突变

发现一些SRJs涉及癌基因扩增,包括MDM2、EGFR和TERT(图3f,h,i)。四个黑色素瘤的TERT启动子区域与BASP1基因的一个区域并置,以及两个黑色素瘤和一个成神经管细胞瘤的TERT启动子区域与NDUFC2附近区域并置。两个并列的区域都标记有黑素细胞增强子,表明它们可以驱动TERT的表达。在黑色素瘤中,这些重排与TERT启动子的C228T和C250T突变相互排斥(图3h)。因为并置总是复杂事件的一部分,而这些复杂事件也有TERT扩增,TERT表达增加可能是由于扩增,并置或两者都有。

11

癌症中缺乏非编码drivers

对基因组热点、功能元件、基因组窗口和SRJs的分析均表明,与蛋白质编码drivers 相比,非编码drivers 较为少见。这在一定程度上可能是由于缺少discovery power。因此,评估了肿瘤样本中不同类型元件的反复事件的突变负荷检测的discovery power,首先集中在点突变。发现,一个driver 要达到90%的发现能力所需要的突变患者的比例范围从低背景突变密度的大样本中的<1%到高背景突变密度的小样本中的25%(图4a)。不同类型的元件具有类似的power,这表明非编码元件与编码元件相比,drivers的缺乏并不是因为power不足。同样,检测SRJs的能力在重排率低的大样本群中更高,对于长染色体重排和染色体间重排,由于它们的整体率较低:在大多数类型的癌症中,只能检测在5-20%的样本中反复的事件(图4b)。此外,从大约2500个肿瘤开始,希望每增加25个基因组就能找到一个新的SRJ(图4c)。

为了确定到目前为止发现的非编码drivers的缺乏是否可能是由于当前数据集的统计能力有限,估计了603个癌症基因中编码和顺式调控非编码序列中高于背景的点突变总量。总的来说,该方法预测了这些癌症基因蛋白编码序列中超过1475个driver突变(图4d),相比之下,启动子中只有96个driver突变,5 ' UTRs中有22个,3 ' UTRs中有68个。癌症基因启动子的非编码突变通常也不与杂合性缺失或表达改变有关。这些结果表明,在不考虑统计效力的情况下,已知癌症基因中除TERT外的非编码顺式调控driver突变要比蛋白质编码driver突变少得多

小编总结

本工作分析了2658个基因组的非编码区域的driver点突变和结构变异。对于点突变,本工作开发了一种统计上严格的策略,用于结合多种driver识别方法的显著性水平,克服了单个方法的局限性。对于结构变异,本工作提出了两种driver识别方法,并确定了受反复性断点和反复性体细胞并置显著影响的区域。证实了先前报道的drivers,并对其他的drivers提出了质疑,并确定了新的候选基因,包括TP53 5 '区域的点突变,NFKBIZ和TOB1的3 '未翻译区域的点突变,BRD4的局部缺失和AKR1C基因位点的重排。虽然导致癌症的点突变和结构变异在非编码基因和调控序列中比在蛋白质编码基因中更少发生,但是随着更多的癌症基因组的出现,研究人员将发现更多的这类drivers。

引用:

Rheinbay E, Nielsen MM, Abascal F, et al. Analyses of non-coding somatic drivers in 2,658 cancer whole genomes. Nature. 2020;578(7793):102-111. doi:10.1038/s41586-020-1965-x

0 人点赞