Pan-cancer whole-genome analyses of metastatic solid tumours
Published online: 23 October 2019
背景简述:
癌症发生转移是患者死亡的主要原因,并且与不良的治疗效果有关,所以需要更好地了解晚期癌症的特征,以帮助适应个性化治疗,减少过度治疗并且改善预后。近年来,一些大规模的全基因组测序(WGS)分析工作已对驱动不同类型的成人和儿科癌症的分子过程的多样性产生了宝贵的见解,并推动了基因组驱动的肿瘤学护理的前景。但是,大多数分析都是针对原发性肿瘤进行的,而转移性癌症(发生远端转移的癌症),在全基因组水平上的研究较少,以前的研究重点是tumor-specific(只有原发无转移)的人群或目标基因组或外显子组水平。随着癌症基因组随着时间的推移而发展,无论是在高度异质的原发肿瘤块中,还是在扩散的转移细胞中,对转移性癌基因组的更好了解对于改进适应晚期癌症的治疗方法都将具有重要的价值。
该研究工作基于对2,399个患者的2,520对配对肿瘤和正常组织基因组进行了转移癌的全基因组测序,确定了总共59,472,629个单核苷酸变异(SNVs),839,126个多核苷酸变异(MNVs),9,598,205个插入和缺失(indels)和653,452个结构变异(SVs)。数据需申请获得许可后方可下载 https://www.hartwigmedicalfoundation.nl/en/appyling-for-data/
样本处理流程:
最初样本是4018个患者,每个患者取4块新鲜冷冻的活查样本。经过一系列的筛选(是否能得到肿瘤和血液配对样本、肿瘤活检细胞性>30%,测序质量控制是否合格,肿瘤纯度>20%等)最终得到2520个患者的高质量的肿瘤-正常配对样本的全基因组测序数据
肿瘤细胞性(Tumour cellularity):样本中肿瘤细胞和正常细胞的相对比例
肿瘤纯度(Tumor purity (TP)):肿瘤样本中癌细胞的比例
一、转移癌的突变情况
分析每种癌型的每种变异类型的突变负荷,发现在一个癌型之内和多个癌型之间,突变负荷的变异范围高达三个数量级。每个癌型的样本中的SNV中值在皮肤癌中最高。
a图:展示每个癌型中患者在不同年龄段的分布情况(0-25岁,25-55岁,55-75岁,75-100岁)。将每个癌型的SNVs映射到cosmic的突变特征(Mutation Signature),发现和之前(Alexandrov, L. B. et al.Nature2013)的研究是一致的。b,c图:本工作数据(HMF,转移癌)和另一全基因组泛癌分析的工作(PCAWG,n=2583,未治疗的原发肿瘤)的各癌型中SNVs, MNVs ,indels 和 SVs 突变负荷的累积分布。SNVs在比较两套样本大多数癌型中的差别不大,说明它与疾病进展似乎没有显著的关系。
肺癌和皮肤癌的 MNVs中值是其他癌型人群的5倍。这个可以用一些已知的突变特征影响来解释,比如:紫外线辐射 (CC>TT) 和吸烟(CC>AA)。Indel通常比SNVs低十倍,而皮肤癌和肺癌的相对发生率较低。各癌型中SVs的中位率为193/癌型,在卵巢(412)和食道癌(372)肿瘤中观察到最高中值,而在肾肿瘤(71)和NETs(56)中观察到最低。SVs中33%是简单缺失,是除胃癌和食管癌以外的癌型中最普遍的变异方式,而胃癌和食管癌中更多发生易位结构改变。
相比之下,在几乎所有分析的癌症类型中,插入缺失,MNVs和SVs的突变负荷显著更高, 这在前列腺癌最显著。在前列腺癌中,观察到MNVs,indels和SVs的发生率增加了四倍以上。尽管这些观察结果可能代表转移性癌症中疾病的进展和某些突变过程的发生率较高,但它们也部分是由于测序深度和生物信息学分析流程的差异。
二、转移癌的拷贝数变异情况
在转移癌人群中最高度扩增的区域包含一些原癌基因,如EGFR, CCNE1, CCND1和MDM2 。每个肿瘤中平均23%的常染色体DNA具有杂合性缺失(LOH)。TP53在67%的样品中具有最高的LOH复发率,而且许多其他LOH peak也可以由众所周知的肿瘤抑制基因(TSG)解释,但是也能观察到少数很难用已知的TSG选择来解释的LOH peak。癌症类型之间的LOH有显著差异。TP53中LOH的机制与肿瘤类型高度相关,在卵巢癌75%的样本中表现出17号全染色体的LOH,而在前列腺癌中(TP53的LOH也是70%),这几乎总是由高度病灶性缺失引起的。
与LOH不同,纯合缺失总是限于较小的染色体区域。基因的纯合缺失也非常罕见:发现每个肿瘤样本平均只有2.0个区域发生一个或几个连续基因被完全或部分纯合缺失。Y染色体的丢失是一种特殊情况,在所有男性肿瘤基因组中有36%缺失,但在肿瘤类型之间差异很大,CNS肿瘤中5%缺失,胆管肿瘤中68%缺失。
全基因组复制(WGD)可能是导致拷贝数变化的一种极端形式。在所有样本的56%中发现了WGD,范围从15%的中枢神经系统到80%食道肿瘤。这比先前报道的原发肿瘤(25-37%)和晚期肿瘤的(30%)要高得多。
三、显著突变基因
本工作识别了一些与转移性癌症潜在相关的显著突变基因。在泛癌分析中识别了MLK4,它是一种可调节JNK,P38和ERK信号通路的混合谱系激酶,并有抑制了大肠癌的肿瘤发生的功能。此外,在肿瘤类型特异突变分析中,识别了转移性乳腺癌特异性显著突变基因ZFPM1,它与锌指转录因子蛋白与癌症无明显关联。本研究小组还支持先前发现的26个显著突变的基因(目前未被COSMIC Cancer Gene Census 收录)。还发现了先前在独立数据集中发现的八个显著突变的推定TSG,包括GPS2(泛癌,乳腺癌),SOX9(泛癌,结肠直肠),TGIF1(泛癌,结肠直肠),ZFP36L1 (泛癌,尿路)和ZFP36L2(泛癌,结直肠),HLA-B(淋巴),MGA(泛癌),KMT2B(皮肤)和RARG(尿路)。
本工作还搜索了显著扩增或缺失的基因。 CDKN2A和PTEN是总体上最显著缺失的基因,但是许多最显著基因涉及常见的易改变位点,尤其是FHIT和DMD,它们分别在5%和4%的样品中缺失。尚不清楚常见易改变位点在肿瘤发生中的作用,影响这些基因的变异常被视为反映局部基因组不稳定性的passenger突变。CTNNB1基因中,该研究发现在12个样本中存在整个3号外显子的框内缺失,其中9个是大肠癌。虽然这些缺失是纯合的,但被认为是激活了CTNNB1基因的功能,因为CTNNB1通常在WNT和β-catenin途径中充当致癌基因,并且这9个结直肠样品均没有任何APC driver突变。该工作还识别了一些以前没有报道的明显缺失的基因,包括MLLT4(n = 13)和PARD3(n = 9)。与纯合缺失不同,扩增峰往往较宽,通常包含大量基因,因此难以鉴定扩增目标。但是,SOX4(6p22.3)是一个显著扩增的单基因峰(26个扩增),在泌尿道癌中高度富集(19%的样品高度扩增)。已知SOX4在前列腺癌,肝细胞癌,肺癌,膀胱癌和髓母细胞瘤癌症中过表达,具有较差的预后特征和疾病进展状态,并且是PI3K和Akt信号通路的调节剂。同样值得注意的是,ZMIZ1周围的10个基因在10q22.3处有一个宽泛的扩增峰(n = 32)。ZMIZ1是激活的STAT(PIAS)样家族蛋白抑制剂的转录共激活因子,并且是T细胞和白血病发展过程中NOTCH1的直接和选择性辅因子。CDX2以前被认为是大肠癌中一种扩增的谱系生存癌基因30,在该研究的队列中,CDX2在大肠癌中发现的22个扩增样本中也有20个被高度扩增,占所有大肠样本的5.4%。
四、Driver突变目录catelogue
该研究创建了一个大范围的突变目录包括已知的(COSMIC)和新发现的(Martincorena, I. et al和本工作)癌基因。通过对每一个突变给定一个可能性分数,衡量其是潜在driver的可能性。
(1)建立候选基因集:
a. Martincorena, I. et 工作中显著突变基因(q < 0.01)
b. HMF(本文识别)显著突变基因 (q < 0.01)
c. COSMIC基因集
(2)logistic回归分类模型,来确定上述基因的状态,原癌基因还是抑癌基因
(3)当满足以下任何条件时,将这些突变类别添加到目录中
a.原癌基因的所有错义和框内插入/缺失
b.抑癌基因的所有非同义和基本剪接点突变
c.显著扩增的靶基因和癌基因的所有高水平扩增
d.靶基因和TSG明显缺失的所有纯合缺失
e.所有已知或混杂的框内基因融合
f. TERT启动子复发突变
(4)计算每个样本的每个潜在driver突变的可能性打分
一个突变的指数指它在所有样本中的得分加和
通过以上方法识别了13,384个体细胞候选driver,包括7,400编码突变, 615 非编码突变, 2,700纯合子缺失, 2,392扩增 和276 融合。在5个已知的高频变异热点上共发现257个变异,并在候选driver目录中。55% 的候选点突变被预测是真正的driver突变。在98.6%的样本中,至少发现了一种体细胞driver突变或生殖系易感变异。在不同癌症类型之间,扩增的driver基因数量明显不同。
在29个癌症易感基因中发现的189个生殖系改变(占样本的7.9%)由8个缺失和181个点突变组成(图3c)。影响最高的五个基因(包含近80%的变异)是众所周知的生殖系driver基因CHEK2,BRCA2,MUTYH,BRCA1和ATM。在一半以上的病例中,通过LOH或体细胞点突变,发现相应的野生型等位基因在肿瘤样本中丢失,这表明这些改变的高外显率。 其中有146个以前未在CGI,OncoKb,COSMIC或CIViC数据库中记录的融合基因对。
该研究发现原癌基因体细胞driver点突变的71%发生在已知的致病性突变热点的五个核苷酸处或五个核苷酸内。在六个最普遍的致癌基因(KRAS,PIK3CA,BRAF,NRAS,TERT和ESR1)中,检出率为97%。
对于TSG,该研究的结果有力地支持了Knudson two-hit猜想,发现80%的TSG drivers由于遗传改变而双等位基因失活(图3),纯合缺失(32%),多个体细胞点突变(7%),点突变结合LOH(41%)。该比例是所有大型WGS癌症研究中观察到的最高比率。对于许多关键的TSG,双等位基因失活率几乎为100%-TP53(93%),CDKN2A(97%),RB1(94%),PTEN(92%)和SMAD4(96%),这表明这些基因的双等位基因失活是转移癌的一个强烈需求。然而,其他知名的TSG的双等位基因失活率较低,包括ARID1A(55%),KMT2C(49%)和ATM(49%)。对于这些情况,其他等位基因也可以通过非突变表观遗传机制失活,或者可以通过单倍剂量不足机制driver肿瘤发生。
该研究检查了每种癌症类型的driver基因突变的成对共存情况,发现了十种相互排斥的基因组合和十种同时显著突变的基因组合。尽管这些关系中的大多数已经建立,但在乳腺癌中,该研究发现GATA3–VMP1和FOXA1–PIK3CA有新的正相关,而ESR1有负相关 – TP53和GATA3–TP53。
下图展示一些高频的原癌基因突变(a),抑癌基因突变(b),生殖系易感变异(c),左图是各癌型有该突变的样本比例,右图紫色条形表示具有该基因突变的样本的全癌百分率和按照变异类型显示明细。
下图左侧小提琴图显示按肿瘤类型分组的每个样本中driver基因的分布,黑点表示每种肿瘤类型的平均值。右图相对条形图显示每种癌症中不同变异类型的分布
五.基因组改变的克隆性
该研究还从基因组改变的克隆性来探究肿瘤进化的动态性。
(1)将每个样品的体细胞倍性拟合到一组克隆峰和亚克隆峰中,并计算每个个体变异属于每个峰的概率。亚克隆计数被计算为每个样品的亚克隆峰的总密度。(2)亚克隆driver计数的计算公式为:driver分类中亚克隆概率的总和×driver可能性
每个变异的倍数性的计算:通过用纯度调整观察到的VAF,乘以局部拷贝数来计算出包含该变异的染色单体的绝对数。如果变异体倍性>局部拷贝数-0.5,将突变标记为双等位基因(没有即野生型残留)
值得注意的是,只有6.6%的SNV,MNV和插入缺失,以及仅3.7%的点突变driver是属于亚克隆群体的。具有亚克隆改变的样品比例低可能部分是由于测序方法的检测极限,特别是对于低纯度样品而言。但是,即使对于纯度超过80%的样品,亚克隆变异体的总比例也仅达到10.6%。
肿瘤内异质性低可能部分归因于以下事实:几乎所有活检都是通过芯针活检获得的,这导致高度局部化的采样,但仍远低于先前在原发癌中的观察结果。在从同一患者中独立收集的重复活检样本的117位患者中,该研究发现所有SNV中有11%是亚克隆的。尽管活检之间共同检出了71%的克隆水平的改变,但只有29%的亚克隆改变是共同检出的。该研究认为不能据此排除大量较低频率的亚克隆变异体的存在,而是提出了一个模型:任何一个时间点癌症的转移病灶都是由单个克隆决定的,而在发生癌细胞的远端转移后,相比原发灶肿瘤进化和亚克隆选择发生是更有限的。其他近期研究也支持表明转移灶中driver基因的异质性最小。
六.临床关联
该研究通过将driver事件注释到临床注释数据库(CGI41,CIViC39和OncoKB40)来分析所有患者基于生物标记物治疗的机会。在1,480例患者中(62%),与原发肿瘤的结果一致,至少鉴定出了一个预期的候选基因组改变。其中一半患者(占总数的31%)包含对A级药物(经批准的抗癌药物)具有预测敏感性的生物标志物,并且对该药物缺乏任何已知的抗药性生物标志物。在18%的患者中,所建议的治疗方法是已注册的适应症,而在13%的病例中,该治疗方法不在标记适应症范围内。在一项对215名接受治疗的患者实施的相关试点研究中表明,在其批准的治疗标签之外使用抗癌药物进行此类治疗可带来总体临床获益。在另外31%的患者中,鉴定出B级(实验疗法)生物标志物。预计可采取的行动涵盖了所有变异类型,包括1,815个SNV,48个MNV,190个插入缺失,745个拷贝数变化,69个融合基因和60例微卫星不稳定性患者。
肿瘤突变负荷(TMB)是对免疫检查点抑制剂治疗反应的重要新兴生物标志物,因为它可以替代肿瘤细胞中新抗原的数量。在两项针对非小细胞肺癌患者的大型3期试验中,与TMB大于每兆碱基10个突变的患者化疗相比,一线免疫治疗与无进展生存期和总体生存期均得到了显著改善。尽管目前涌现出许多探究TMB阈值的各种临床研究,但TMB尚未被包括进临床可操作性分析。但是,当将此截止值应用于该研究队列中的所有样本时,将有18%的患者符合条件,从间皮瘤,肝癌和卵巢癌患者的0%到肺癌和皮肤癌患者的50%以上。
图示:左图根据CGI,CIViC和OncoKB数据库中的数据,每种癌症类型中具有可能的候选可靶向突变的样本百分比。A级代表具有批准的疗法或指南的生物标志物的存在,B级代表具有强大生物学证据或表明其可操作的临床试验的生物标志物。on-label指示联邦当局针对该肿瘤类型进行的治疗,off-label指示对其他肿瘤类型进行的治疗。右图按变体类型细分可行的变体。
让我们一起回顾一下这个研究~ 该工作对两千多例转移性肿瘤从基因组角度进行分析,首先全局的分析各癌型转移肿瘤的突变特征和拷贝数变异情况,然后识别显著突变基因集,driver基因集,划分原癌和抑癌基因,研究突变driver的克隆性,并且联系临床用药指南,证实本工作识别的转移癌makers有临床价值。