导语
GUIDE ╲
癌症基因组的体细胞突变是由在受精卵和癌细胞之间的细胞谱系中起作用的外源性和内源性突变过程引起的。每一个突变过程都可能涉及DNA损伤或修饰、DNA修复和DNA复制(正常或不正常)的组成部分,并产生一种特征性的突变特征,可能包括碱基替换、小的插入和缺失(indels)、基因组重排和染色体拷贝数变化。
背景介绍
单个癌症基因组的突变可能是由多个突变过程产生的,因此包含了多个叠加的突变特征。因此,为了系统地描述导致癌症的突变过程,曾使用数学方法从体细胞突变目录中解释突变特征,并用每个特征产生的概率注释每个肿瘤中的每个突变类。
以前对多种癌症的研究已经发现了30多个单碱基替代(SBS)特征,其中一些已知,但许多未知病因,一些普遍存在而另一些罕见,一些是正常细胞生物学的一部分,另一些与异常暴露或肿瘤进展有关。之前也有对基因组重排特征的相关描述。然而,对其他种类突变的分析相对有限。
突变特征的分析主要使用癌症外显子组序列数据。然而,全基因组中多褶多数量的体细胞突变为特征分解提供了充分的增强的能力,使部分相关的特征能够更好地分离,并提取出造成相对较小数量突变的特征。此外,技术上的人工方法(technical artefacts)和不同的排序技术和mutation-calling算法本身可以产生突变特征。因此,本工作在Pan-Cancer Analysis of Whole Genomes(PCAWG) project的2780个癌症基因组中,将所有类型的体细胞突变进行了统一处理和高度管理,并与大多数其他合适的癌症基因组相结合,为建立突变特征库并确定其在不同类型癌症中的活动提供了一个显著的机会。在其他的PCAWG相关分析中已经探索了这些特征在个体癌症进化过程中的时间和结构变异的特征库。
数据介绍
ICGC和TCGA的PCAWG Consortium:体细胞和种系变异数据,突变特征,亚克隆重构,转录丰度,剪接calls和其他核心数据。根据ICGC和TCGA项目的数据访问政策,大部分分子数据、临床数据和标本数据处于开放层,不需要访问审批。
一共使用23829个样本(包括大多数癌型),包括2780个PCAWG全基因组,1865个additional全基因组和19184个外显子组,得到了79793266个体细胞SBSs, 814191个双碱基置换(DBSs)和4122233个小indels,这些用于突变特征分析,大约比我们所知的任何之前的研究多10倍的突变。
方法介绍
1. SigProfiler分析突变特征
SigProfiler包含了两个不同的步骤来识别突变特征,第一步(SigProfilerExtraction)包含一个层次重新提取基于体细胞突变的突变特征和他们的直接序列的context,第二步(SigProfilerAttribution)关注准确估算体细胞突变的数量与每个样本中的每个提取的突变特征的关联。
2. SignatureAnalyzer分析突变特征
SignatureAnalyzer使用一种NMF的贝叶斯转换,通过自动相关性确定技术来推断特征的数量,并为特征配置文件和属性提供高度可解释性和稀疏表示,在数据拟合和模型复杂性之间取得平衡。SignatureAnalyzer采用两步特征提取策略,分别使用SBSs的1536个五核苷酸context、83个indels特征和78个DBS特征。除了单独提取SBS、indel和DBS特征外,本工作还基于所有1697个特性(1536 SBS 78 DBS 83 indels)执行了一个“复合”特征提取。
3. 使用合成数据对两方法进行评估
SignatureAnalyzer和SigProfiler测试了11套合成数据,包括总共64,400个合成样本,其中已知的特征谱用来生成合成突变谱目录。
4. 分析聚类突变特征
如果突变距离小于1000 bp,认为体细胞SBSs是聚集的。对于每个示例,将为来自另一个替换的小于1000 bp的替换生成SBS突变目录。随后,包含聚类突变的SBS突变目录集进行了突变特征的从头提取。任何新的突变特征(以前在完整的SBS目录中没有看到的)都认为识聚集突变特征。
5. 评估突变特征与年龄相关性
在评估年龄和突变特征之间的联系之前,将年龄和突变数量归因于癌症类型的特征的所有离群值从数据中移除。离群值定义为离均值三个标准差以外的任何值。使用MATLAB function robustfit 来实现稳健线性回归模型以估计该线的斜率以及该线斜率是否与零显著不同。
结果解析
01
突变特征分析
本工作开发了对每种突变类型的分类。对于SBSs,主要分类由96类组成 (available at https://cancer.sanger.ac.uk/cosmic/signatures/SBS),6种碱基替代(C>A, C>G, C>T, T>A, T>C 和 T>G)加上lanking 5′和 3′ bases。在一些分析中,考虑突变碱基的flanking bases 5′ 和3’(产生1536类),或者选择转录基因组区域内的突变,根据突变的嘧啶是否落在转录或未转录的链上(产生192个类别)进行分类。本工作对DBSs分类成78类(available at https://cancer.sanger.ac.uk/cosmic/signatures/DBS)。Indels被划分为缺失或插入,如果是一个碱基,则被划分为C或T,根据它们发生的单核核苷酸重复道的长度。根据indel、repeat和micro同源性的大小,将较长的indel分为出现在重复位点或在缺失边界有重叠的微同源性。
分别对PCAWG全基因组序列、additional全基因组序列和外显子组序列进行分析。分别从每种癌症中提取特征,以及从所有癌症类型中提取,作为单独的SBS、DBS和indel特征,以及作为所有三种突变类型的复合特征。本工作使用了两种基于非负矩阵分解的方法(NMF): SigProfiler,是以前的COSMIC突变特征纲要框架的精进版本,以及SignatureAnalyzer,是基于NMF的贝叶斯转换。NMF作为突变谱输入矩阵的因数分解的一部分,确定了特征的轮廓和每个特征对每个癌症基因组的贡献。然而,由于样本中有许多特征和/或异质突变负荷,在一个特定样本中观察到的突变可以以多种方式重新构建——通常从许多特征中得到小的和/或生物学上难以置信的贡献。因此,本工作对每种方法都开发了一个单独的程序来评估特征对每个样本的贡献。
对SignatureAnalyzer和SigProfiler用11组合成数据进行了测试,这些数据来源已知的特征谱。这两种方法在从实际复杂数据中重新提取已知特征方面都表现良好。结果证实使用NMF-based方法提取突变特征并不是一个纯粹的算法过程,还需要考虑实验确定突变特征的证据和DNA损伤和修复相关文献说明,之前的生物学合理性和人类引导的敏感性分析证据证实了从不同的肿瘤组中提取的结果是一致的。SigProfiler和SignatureAnalyzer对癌症数据的分析结果显示出许多相似之处,将相同的标识符分配给使用这两种方法提取的相似特征。然而,也有显著的差异。在突变负荷较低的PCAWG肿瘤(包含47%突变的94.4%的病例)中发现的SBS特征数相似:使用SigProfiler的有31个,使用SignatureAnalyzer的有35个。但是,从超突变的PCAWG样本(5.6%的病例,包含53%的突变)中提取的additional SBS特征的数量是不同的:使用SigProfiler的有13个,使用SignatureAnalyzer的有25个PCAWG样本。SBS特征谱中也存在差异,包括在突变负荷较低的情况下发现的特征之间的差异。特征差异归因于个体样本差异。
最终的参考突变特征由PCAWG样本集确定,并由其他数据集的附加特征补充(COSMIC, available at https://cancer.sanger.ac.uk/cosmic/signatures)。每个特征都被分配了一个与 COSMIC v.2 annotation一致并扩展的标识符。以前的一些特征分为多个组成特征。SignatureAnalyzer和SigProfiler的结果在整个研究中使用。
02
单碱基替换特征
在样本之间(从数百到数百万)和38型癌症之间SBSs的数量存在实质性差异(图1)。总共提取了67个SBS突变特征,其中49个被认为可能具有生物起源(图2)。除了特征SBS25,所有特征都在COSMIC v.2中有报道确认。SBS25之前有在经过化疗的霍奇金淋巴瘤的细胞系中发现,目前还没有这种类型的原发性癌症。与COSMIC v.2特征相比,新获得的特征显示出了更好的彼此分离和更清晰的特征profiles。
图1
图2
本工作提取的特征中的13个代表新识别的可能是真实的特征,没有出现在COSMIC v.2。一些特征是比较罕见的(SBS31、SBS32、SBS35、SBS36、SBS42和SBS44)。一些特征比较常见,但是贡献了相对较少的突变和/或与先前发现的特征相似(SBS38、SBS39和SBS40)。值得注意的是,SBS40是一个与SBS5类似的扁平(flat)特征。它促成了多种类型的癌症,但它与SBS5的相似性使这种影响的程度无法确定。对于一些新发现的特征,有可能存在潜在的病因(图3)。对于SBS31 和 SBS35,是铂化合物化疗;SBS32是硫唑嘌呤治疗;SBS36,MUTYH的失活生殖系或体细胞突变(编码碱基切除修复机制的一个组成部分);SBS38,暴露于紫外线(UV)光的额外影响;SBS42,卤代烷的职业性暴露;SBS44,DNA错配修复缺陷。
图3
三种先前分类成碱基替代特征(SBS7、SBS10和SBS17)的可分解为多个组成特征(图2)。特征分裂可能反映了由相同的暴露引发的多个不同的突变过程的存在,这些活动是密切的但不是完全相关的。几个碱基替代特征显示了转录链偏倚,这可能是由于转录偶联核苷酸切除修复作用于DNA损伤和/或基因的未转录链上的过量DNA损伤。这两种机制导致未转录基因链上的受损碱基突变多于转录基因链上的受损碱基突变。
使用包含1536个突变类型的SBS分类(它对每个突变的碱基使用序列context两个碱基5 '和两个碱基3 '),生成的特征基本上与三核苷酸context中基于替换的特征一致。值得注意的是,SBS2和SBS13的两种形式都被提取出来了,一种主要是嘧啶,另一种主要是在- 2碱基上的嘌呤(第二个碱基是突变胞嘧啶的5 ')。这些可能分别代表胞苷脱氨酶APOBEC3A和APOBEC3B的活性。如果是这样的话,在APOBEC活性高的癌症中,APOBEC3A比APOBEC3B有更多的突变。其他特征显示在 2和−2位置的非随机序列context,但序列context效应通常对立刻突变的碱基5 '和3 '更强。
SBS特征在发现它们的癌症类型和癌症样本的数量以及每个癌症样本归因的突变中显示了显著的变化(图3)。几乎所有个体癌症样本都显示了多个特征,在PCAWG集合中模式为3 。所分配的特征很好地重建了肿瘤样本的突变谱(图4)。一些突变过程产生的碱基置换在小基因组区域聚集。这些有限数量的突变可能导致无法用标准方法检测到它们的特征。因此,在每个基因组中识别出了聚集突变,并分别进行分析,识别到四个主要的聚类突变特征(图2),与之前有过的报道一致。在多种癌症中发现的两个与SBS2和SBS13相似(被认为与APOBEC酶活性有关),代表kataegis的病灶。
图4
03
双碱基替换特征
双串联、三联体、四联体、五联体和六联体的碱基置换约占SBSs患病率的1%。在大多数癌症基因组中,DBSs的数量远远高于SBSs的随机邻接,这表明存在导致相邻碱基替换的常见单突变事件。DBSs的数量有很大的变化,在一个样本中从0到20818不等。DBSs的数量一般与SBSs的数量成正比(图1),尽管结直肠腺癌的发病率低于预期,肺癌和黑色素瘤的发病率高于预期。本工作提取了11个DBS特征(图2)。
特征DBS1以CC>TT突变为特征(图2),为SBS7a和SBS7b的恶性黑色素瘤贡献了数百到数万个突变(图3),表现出的转录链偏倚与胞嘧啶的损伤一致,以及紫外线导致DNA损伤。排除与暴露于紫外光相关的癌症后,也产生了主要以CC>TT突变为特征的特征(DBS11),但在来自多种癌症的许多样本中只产生了数十个突变(图2,3)。DBS11与SBS2相关联,由于 APOBEC活动,因此,APOBEC活动可能也可以生成DBS11。
DBS2主要由CC>AA突变组成,CC>AG和CC>AT突变较少,在经常由吸烟引起的肺腺癌、肺鳞癌和头颈部鳞癌中,DBS2导致了成百上千个突变(图2,3)。DBS2表现出鸟嘌呤损伤的转录链偏位,并与烟草烟雾暴露引起的SBS4相关。因此,DBS2可能是烟草-烟雾诱变剂破坏DNA的结果。
一个与DBS2相似的特征导致了数百个肝癌突变和数十个其他类型的癌症突变,而没有证据表明暴露于烟草烟雾中。在健康小鼠细胞中,类似DBS2的模式也在DBSs中占主导地位。在与吸烟无关的人类癌症和健康小鼠中,构成这些特征的突变过程的性质尚不清楚。然而,在实验系统中,乙醛暴露可产生突变特征,主要表现为CC>AA突变,以及CC>AG和CC>AT突变低负荷,以及C> A SBSs48。乙醛是酒精的氧化产物,也是香烟烟雾的组成部分。乙醛和其他醛在DBS2生成中的作用值得进一步研究。
DBS3、DBS7、DBS8和DBS10显示,在有成千上万的突变的罕见的结直肠、胃和食管的癌症中,其中一些显示DNA错配修复缺陷的证据(DBS7和DBS10)或聚合酶外切酶结构域突变(DBS3)生成hypermutator表型(图2,3)。在接受铂化疗的癌症中发现了DBS5,并与SBS31和SBS35相关。
04
小的插入和删除特征
Indels的出现频率通常约为碱基替换的10%(图1)。癌症基因组之间的indels数量存在显著差异,即使排除存在DNA错配修复缺陷的癌症。总的来说,缺失和插入的数量是相似的,但是癌症类型之间存在差异,一些癌症显示了更多的缺失和更多的不同亚型的插入(图1)。本工作提取了17个indel突变特征(图2)。
Indels特征1 (ID1)主要由胸腺嘧啶的插入和删除组成,ID2主要由胸腺嘧啶缺失组成,均在长(≥5)胸腺嘧啶单核核苷酸重复序列(图2)。在大多数大多数类型的癌症的样本中发现成百上千的涵盖所有突变特征的突变,但在结直肠、胃癌、子宫内膜癌和食管的癌症和弥漫性大B细胞淋巴瘤尤为常见(图3)。在高突变和非高突变的癌症基因组中,ID1和ID2分别占了97%和45%的indel。它们可能是由于长单核苷束DNA复制过程中新生链(ID1)或模板链(ID2)的滑移引起的。ID3的主要特征是短(≤5 bp长)单核细胞胞嘧啶重复缺失,并在与吸烟有关的肺癌、头颈部癌症中显示出数百种突变(图2,3)。ID3突变的数量与SBS4和DBS2突变的数量正相关,已经表明这与吸烟有关,因此,烟草烟雾成分造成的DNA损伤可能是ID3的基础。ID13的主要特征是胸腺嘧啶-胸腺嘧啶二核苷酸的胸腺嘧啶缺失,并在皮肤的恶性黑色素瘤中表现出大量突变(图2,3)。ID13突变的数量与SBS7a, SBS7b和DBS1突变相关,将其归因于紫外光诱导的DNA损伤。然而,胞嘧啶-胞嘧啶二核苷酸的胞嘧啶缺失在ID13中并不明显,这可能反映了胸腺嘧啶相对于紫外光诱导的胞嘧啶二聚体的优势。ID6和ID8特征主要是≥5-bp删除(图2)。ID6展现出在缺失边界的重叠微同源,与SBS3(归因于基于同源重组的缺陷修复)相关。相比之下,ID8缺失在缺失边界处表现出较短或无微同源性,与SBS3没有强相关性。这两种缺失模式可能是DNA双链断裂修复的特征,这种修复是基于非同源重组的末端连接机制,如果是这样,这表明至少有两种不同的形式在人类癌症中起作用。
一小部分癌症表现出大量的ID1和ID2突变(> 10000)(图3)。这些通常伴随着SBS6、SBS14、SBS15、SBS20、SBS21、SBS26和/或SBS44,它们与DNA错配修复缺陷有关,有时与POLE 或POLD1校对缺陷(SBS14和SBS20)结合。
05
与年龄相关
癌症诊断年龄和突变数量之间的正相关因于一个特征,这表明,从受精卵到癌细胞的整个细胞系中,潜在的突变过程一直在起作用(或多或少以恒定的速率),因此在发生这种癌症的正常细胞中也是如此。SBS1和SBS5突变的数量与年龄有关,并且在不同类型的组织中表现出不同的比率,这证实了之前的报告。SBS40在多种癌症中也与年龄有关,不过,鉴于它与SBS5的相似性,不能排除错误归因。DBS2、DBS4与年龄相关,与正常细胞中的活性一致,当结合它们的图谱时,它们的谱与在正常小鼠细胞中发现的DBS突变谱非常相似。ID1、ID2、ID5、ID8在多种组织中均与年龄相关。ID1和ID2 indels可能是由于在DNA复制过程中poly T重复的滑移,并与SBS1替换的数量相关。因此,SBS1、ID1和ID2可能都是在有丝分裂的DNA复制过程中产生的。ID5突变的数量与SBS40突变的数量相关,因此,这两种年龄相关特征的突变过程可能包含共同的成分。ID8主要由≥5 bp缺失组成,其边界处没有或有1 bp的微同源性,可能是由于由非同源端连接机制修复的DNA双链断裂。结果表明,多个突变过程在正常细胞中运行。
小编总结
癌症基因组中的体细胞突变是由多个突变过程引起的,每一个突变过程都产生一种特征性的突变特征。今天我们介绍的是PCAWG的一部分工作,使用来源于4645个全基因组和19184个外显子组序列的84729690个体细胞突变,确定了49个单基替换,11个双基替换,4个聚类碱基替换和17个小的插入和删除特征。本工作使用的数据集十分庞大,能够发现新的特征,分离重叠的特征,并将特征分解成可能代表关联(但独特)的DNA损伤、修复和/或复制机制的组件。通过估计每个特征对单个癌症基因组突变目录的贡献,揭示了特征与外源性或内源性暴露以及缺陷DNA维护过程的关联。
引用:Alexandrov LB, Kim J, Haradhvala NJ, et al. The repertoire of mutational signatures in human cancer. Nature. 2020;578(7793):94-101. doi:10.1038/s41586-020-1943-3