大家好,今天跟大家分享的是2020年发表在Nature(IF:43.07)杂志上的一篇文章:The repertoire of mutational signatures in human cancer.内外因素一直驱动着肿瘤基因组发生体细胞突变,在这一过程中形成了具有特征性的突变标签集。
PCAWG联盟在Nature杂志上连发6篇文章,涵盖肿瘤驱动突变、非编码区域、突变特征、结构变异、肿瘤进化和RNA改变6个方面,提出了目前为止最为全面的癌症基因组分析。前面两期已经对关于泛癌驱动突变和结构变异的文章作了详尽的介绍,这一期呢,我们将为大家接着介绍——泛癌突变特征。
体细胞突变可由多种原因造成,包括外源因素和内源因素。 那么这些突变特征是什么呢?研究者从4645个全基因组测序和19184个外显子测序获得的84,729,690个体细胞突变中分析得到了81个突变特征:49个单碱基替换特征、11个双碱基替换特征、4个多碱基替换特征和17个小插入/缺失特征。 这些突变特征既有以往报道的,也有这次新发现的。通过估计每个突变特征对癌症基因组突变的影响,该研究发现了突变特征与外源或内源性暴露以及有缺陷的DNA维持过程的关联,为了解人类癌症发展的突变过程提供了系统性的分析观点。
The repertoire of mutational signatures in human cancer
人类癌症突变特征全貌
(分享者:科研菌-碎碎冰Chan)
一.研究背景
自2001年科学家对人类基因组测序后,肿瘤的全面基因组表征就成为癌症研究人员的主要目标之一,测序技术和分析工具的不断进步,也促使这一研究领域蓬勃发展。日前,“全基因组泛癌分析”联盟(PCAWG)进行了迄今覆盖面最广泛的癌症全基因组分析,完成了对38种不同肿瘤的全基因组分析,发布了迄今最完整癌症基因图谱。
癌症基因组中体细胞突变的突变过程都可能涉及DNA损伤或修饰,DNA修复和DNA复制(可能是正常的或异常的),并产生特征性的突变特征,可能包括碱基取代,小的插入和缺失,基因组重排和染色体拷贝数改变。
二.分析流程
三.结果解读
1.突变特征分析
作者首先在包括大多数类型癌症的23,829个样品中(其中包含PCAWG的2780个基因组、1,865个其他来源的基因组和19,184个外显子组)分析突变,得到79,793,266个SBSs(单碱基置换),814,191个DBSs( 双碱基置换)和4,122,233个small indels(小插入和缺失),这远比任何先前的研究多大约10倍的突变。
作者在此基础上为突变建立分类,共96个类别;并使用了基于非负矩阵分解(NMF)的两种方法:SigProfiler和SignatureAnalyzer。其中SignatureAnalyzer使用了更多的签名来重建突变图谱(图S1)。两种方法之间的DBSs和indels签名通常相似(图S2,图S3)。
首先展示出本次分析的结果图~
图1:展示了PCAWG肿瘤类型中SBSs、DBSs和indels的突变负荷。
肿瘤突变负荷(TMB):每百万碱基中被检测出的,体细胞基因编码错误、碱基替换、基因插入或缺失错误的总数。
图1:PCAWG肿瘤类型中SBSs、DBSs和小插入缺失的突变负荷
图2:展示了SBSs,DBSs和indels等突变特征的概况,对正文中描述的每种突变类型进行了分类(SBSs为96类;DBSs为78类;indels为83类)。然后展示了签名SBS4,DBS2和ID3的详细概况。
图2:SBSs,DBSs和indels等突变特征的概况
图3展示的是,肿瘤每个突变特征的突变数量,其中每个点的大小代表显示出某个突变特征的肿瘤类型的比例。每个点的颜色代表肿瘤显示某个突变特征的中位突变负荷。
图3:PCAWG肿瘤每个突变特征的突变数量
图4:示例两种不同肿瘤中的SBSs、DBSs、indels突变特征。
图4.单个癌症样品突变谱的说明性例子
图S1:SigProfiler和SignatureAnalyzer分析在2780个PCAWG样本中每个样本中归属签名数量的直方图
图S2:使用SigProfiler和SignatureAnalyzer分析突变特征后得到的结果之间的比较
图S3:SignatureAnalyzer分析得到的签名
2.单碱基置换突变特征
不同癌症类型之间,以及相同类型但不同样本之间的SBSs的数量存在显著差异。
- 本研究总共提取了67个SBSs突变特征,其中49个被认为可能是生物学起源;另外有13个可能是新识别的签名。
- 作者也发现对于一些新鉴定的签名,也有其合理的潜在病因(图3、图S4、图S5):如SBS31和SBS35可能为铂化合物化疗引起;SBS38可能为暴露于紫外线引起等等。
- 此外三个先前已发现的碱基取代签名(SBS7,SBS10和SBS17)分为了多个组成的签名。例如:SBS7→SBS7a、SBS7b、SBS7c(图2)。
- 签名分裂可能反映了由同一诱因下,突变过程的不同阶段,这些过程具有紧密但不完全相关的活动。
- 另外发现,某些碱基置换的签名显示出了转录链偏向( transcriptional strand bias,),DNA损伤后修复或DNA过量损伤均可导致这种情况。
- SBSs显示出较大的负荷异质性(在不同癌症的类型和癌症不同样本中的突变数量存在显著差异)(图3)。几乎所有个体癌症样本均表现出了多重的突变特征,在PCAWG组中表现为三个突变特征(图4:给出了示例两个不同肿瘤中的SBSs、DBSs、indels突变特征)。
图3:PCAWG肿瘤每个突变特征的突变数量
图S4:SignatureAnalyzer将PCAWG肿瘤上每种癌症类型的每种突变特征的SBSs突变数量进行统计
图S5:在SigProfiler分析的整套PCAWG和非PCAWG癌症样本中,每种癌症类型的每种突变特征的SBSs突变数
3.双碱基置换特征
不同癌症类型之间,以及相同肿瘤类型但不同样本之间的DBSs的数量也存在显著差异。
- 作者发现在大多数癌症基因组中,DBSs的数量远高于所预期的SBSs随机邻接的数量。
- 这表明存在普遍发生的单个诱变事件,这些事件会导致相邻碱基的取代。
- 在样本中,DBSs的数量存在很大差异,范围从0到20,818。DBSs的数量通常与SBSs的数量成正比(图1)。
本研究中作者提取了11个双碱基替换签名(图2)。
- 签名DBS1的特征在于CC> TT突变,在具有SBS7a和SBS7b的恶性黑色素瘤中显示了数百至数万个突变,且表现出与胞嘧啶损坏一致的转录链偏向。
- DBS2主要由CC> AA突变组成,其中CC> AG和CC> AT突变的数量较少,并且在肺腺癌,肺鳞癌和头颈鳞癌中通常由吸烟引起,突变数为数百至数千,DBS2显示鸟嘌呤损伤的转录链偏向,并与SBS4有关,后者是由暴露于烟草烟雾引起的。
- 因此,DBS2可能是烟草烟雾诱变剂破坏DNA的结果。
图2:SBSs,DBSs和indels等突变特征的概况
4.小插入和缺失特征
插入缺失通常占碱基取代频率的10%左右(图1)。即使排除具有缺陷DNA错配修复证据的癌症,癌症基因组之间插入缺失的数量也存在很大差异。
- 总体而言,缺失和插入的数目相似,但是癌症类型之间存在差异:一些癌症显示出更多的缺失,而其他癌症则显示出更多的各种亚型插入。
本研究中作者提取了17个indels的突变特征。
- 在(≥5bp)的胸腺嘧啶单核苷酸重复序列中,indels签名1(ID1)主要由胸腺嘧啶的插入组成,而ID2的主要是胸腺嘧啶的缺失(图2)。
- 在大多数类型的癌症的大多数样本中都发现了数十种特征的突变,在结直肠癌,胃癌,子宫内膜癌和食道癌以及弥漫大B细胞性淋巴瘤中尤为常见(图3)。
- ID3主要特征在于胞嘧啶的缺失。
- 而且存在突变的转录链偏向,在未转录的基因链上鸟嘌呤的缺失比胞嘧啶的缺失更多。
- ID3突变与SBS4和DBS2突变相关,后者之前已经发现与吸烟有关。因此,烟草烟雾成分对DNA的破坏可能是ID3突变的基础。
- 一小部分癌症表现出大量的ID1和ID2突变,这些通常伴有SBS6,SBS14,SBS15,SBS20,SBS21,SBS26和SBS44(图3)。
图3:PCAWG肿瘤每个突变特征的突变数量
图S6:SigProfiler和SignatureAnalyzer的SBSs,DBSs和indels签名之间的关联
图S7:从COMPOSITE功能集中提取的突变签名,由五核苷酸范围内的SBSs,DBSs和indels组成
5.与年龄的关系
癌症诊断年龄大致与突变签名的数量之间呈正相关关系,表明从受精卵到癌细胞的整个细胞谱系中,潜在的突变过程均已起作用。
- 例如,SBSs1和SBSs5突变的数目与年龄正相关,且在不同类型的组织表现出不同的比率。
- 此外,DBSs2和DBSs4也与年龄正相关;ID1,ID2,ID5和ID8也在多个组织中表现出与年龄正相关。
小结
在文章中作者联合ICGC和TCGA数据库进行了泛癌全基因分析(PCAWG),使用了涵盖大多数癌症类型的4,645个全基因组和19,184个外显子序列。作者的研究鉴定了49个SBSs(单碱基取代),11个DBSs(双碱基取代),4个CBS(多碱基取代)和17个indels(小插入和删除)签名。与以前的分析相比,这项研究数据集的规模巨大空前,研究者也因此发现了新的特征。分离重叠的特征以及将特征分解可能和独特的DNA损伤,修复和复制机制的特征相关。
该分析包括大多数公开的外显子组和全基因组癌症序列。尽管一些罕见的或地理上受限制的特征可能没有被捕获,造成有限突变负担的特征可能被遗漏,治疗性诱变暴露的特征也没有被彻底地探索。但是这项研究通过估计每个签名对单个癌症基因组突变目录的贡献,揭示了签名与外源或内源性暴露以及有缺陷的DNA维持过程的关联,为了解人类癌症发展的突变过程提供了系统性的分析观点。