以前看过一个泛癌研究,发表在 PLoS Genet. 2018 Sep 的文章,标题是:《Pan-cancer inference of intra-tumor heterogeneity reveals associations with different forms of genomic instability》,研究者们 系统性的探索了32种癌症的接近6000个肿瘤病人数据的肿瘤内部异质性情况。
值得注意的是作者这里使用PhyloWGS算法的结果来代表肿瘤内部异质性,所有的生物学意义的结论都是基于这个假设。而且根据突变数量和CNV情况对样本进行分类,通过两个阈值可以把肿瘤病人分成4组:
- low numbers of mutations (<300) and CNA (<80) (gray),
- high number ofmutations (>300) and low number of CNA (<80) (M class, green)
- high number of CNA(>80) and low number of mutations (<300) (C class,red),
- high numbers of both mutations (>300) and CNA (>80) (MC class, orange).
它们这4类的肿瘤内部异质性显著差异,但是没有对表达量矩阵或者其它组学数据进行探索。
其中突变数量很容易理解,就是大名鼎鼎的TMB概念,TMB (Tumor mutation burden)的定义:癌症样本全基因组中去除胚系DNA变异后体细胞突变数目。比如Lawrence, MS团队在Nature上发表的研究中,将超过100个突变/Mb称之为高TMB。Tumor mutation burden 涉及到两个重要概念germline mutation(种系突变或胚系突变)和somatic mutation(体细胞突变),
然后 CNV情况,可以参考 cBioPortal上的Fraction Genome Altered的算法 ,详细方法是:
- any segment with a log2 ratio exceeding ±0.1 was defined as a segmental alteration.
- calculated the fraction of each cancer genome encompassed by segmental alterations to determine the proportion of the genome altered (PGA)
并不是说CNV事件的数量越多,其proportion of the genome altered (PGA) 就越大,因为不同CNV事件跨越的基因组片段区间长度不一样。详见2013 May 1. doi: 10.1007/s10555-013-9429-5 的文章。
也就是说,起码得从SNV和CNV两个角度来量化基因组不稳定性。实际上,基因组不稳定性是指各种 DNA 改变,包括从单个核苷酸的突变到整个染色体的变化,并通常细分为三个级别的遗传破坏水平:
- 核苷酸不稳定(NIN),是由于一个或几个核苷酸的碱基替换、缺失和插入拥有属性增加而引起的;
- 微卫星不稳定性(MIN 或 MSI),是由于错配修复基因的缺陷而导致称为微卫星的短核苷酸重复序列的扩展和收缩;
- 染色体不稳定(CIN),是最普遍的基因组不稳定形式,并导致染色体数目和结构的改变。
但是最近看到了于September 2020发表在《Briefings in Bioinformatics》期刊 的文章:《Computational identification of mutator-derived lncRNA signatures of genome instability for improving the clinical outcome of cancers: a case study in breast cancer》,定义了 a genome instability-derived two lncRNA-based gene signature (GILncSig) 的概念,而且这个概念深受数据挖掘者的喜爱,至少我看到了肝癌的3个类似的文章,还有膀胱癌,肾癌等等。
我下载原文简单看了看, 只需要对一个肿瘤病人队列量化肿瘤样品的基因组不稳定性,就可以取突变数量最多的25%病人,再取突变数量最少的25%病人,这两个分组, 进行差异分析,而且仅仅是挑选统计学显著的lncRNAs即可,这就是定义好的GILncSig:
- (i) the cumulative number of somatic mutations for each patient was computed
- (ii) patients were ranked in decreasing order of the cumulative number of somatic mutations
- (iii) the top 25% of patients were defined as genomic unstable (GU)-like group, and the last 25% were defined genomically stable (GS)-like group
- (iv) expression profiles of lncRNAs between the GU group and GS group were compared using significance analysis of microarrays (SAM) method
- (v) differentially expressed lncRNAs (fold change > 1.5 or <0.67 and false discovery rate (FDR) adjusted P < 0.05) were defined as genome instability-associated lncRNAs.
流程图如下所示:
定义好的GILncSig流程图
可以看到,就是简单的靠somatic的SNV的数量,就量化肿瘤样品的基因组不稳定性,并且高低分组,差异分析。
其实这个somatic的SNV的数量,毕竟是TMB的概念了吗,使用这个指标分组,应该是 Mutational Burden-Associated LncRNA Signature 而不是mutator-derived lncRNA signatures of genome instability。
让我们看看somatic的SNV的数量如何高低分组吧
这里借助一个还在GitHub的包,TCGAmutations,很容易就可以下载任意TCGA的癌症队列的somatic的SNV结果:
代码语言:javascript复制# remotes::install_github("PoisonAlien/TCGAmutations")
# remotes::install_local('PoisonAlien-TCGAmutations-0.1-10-g55e74d2.tar.gz')
library(TCGAmutations)
tcga_available() #查看可用的数据
tcga_mc3 = tcga_load(study = "LGG") # 默认加载经过校正后的MC3 maf文件
ls()
phe=as.data.frame(tcga_mc3@clinical.data)
plotmafSummary(tcga_mc3)
mafbarplot(tcga_mc3,n=5) #也可以改变显示的基因的数目
oncoplot(maf = tcga_mc3, top = 10)
ss = as.data.frame(getSampleSummary(tcga_mc3))
fivenum(ss$total)
可以很清晰的看到这个LGG癌症排名靠前的突变基因,主要是:IDH1和TP53
LGG癌症排名靠前的突变基因
而且如果是取突变数量最多的25%病人,再取突变数量最少的25%病人,就根据fivenum函数就可以了。
代码语言:javascript复制> fivenum(ss$total)
[1] 0 20 28 37 10772
突变数量最少的25%病人,就是这个somatic的SNV的数量少于20的。
突变数量最多的25%病人,就是这个somatic的SNV的数量多余37的。
看突变数量还不如看突变特征进行分组
突变特征,也就是肿瘤基因组上的指纹信息,首先需要理解突变上下文分类:
- 【直播】我的基因组 45:SNV突变(6种)频谱的制作
- 【直播】我的基因组46:SNV突变(96种)频谱的制作
肿瘤突变频谱针对点突变进行定义,A,T,C,G四种碱基两两突变,共有4X3=12种排列,考虑到正负链碱基配对原则,正链上的A->C突变,对应负链上为T->G, 所以进一步转换成了一个组合的问题,所以某个位点的突变可以划分为 6种模式,如果进一步考虑突变位点所处的序列上下文环境,即上下游各取一个碱基再加上突变位点的碱基,组成了3个碱基的motif, 可以有4X4X6=96种模式,每种模式的频率分布就是突变频谱。突变频谱可以当做一个肿瘤样本的特征,进行样本间的比较。参考 ;https://en.wikipedia.org/wiki/Mutational_signatures,他们的生物学函数,这里有一个中文翻译:https://mp.weixin.qq.com/s/ljfUTpHGUOtFLhCvdpXxNw
可以直接使用sanger研究所科学家【1】提出来了肿瘤somatic突变的signature概念 ,把96突变频谱的非负矩阵分解后的30个特征,在cosmic数据库可可以查询到的30个特征。不同的特征有不同的生物学含义【2】,比如文章【3】 就是使用了 这些signature区分生存!主要是R包deconstructSigs可以把自己的96突变频谱对应到cosmic数据库的30个突变特征。