为了分析不同类型、组织起源肿瘤的共性、差异以及新课题。TCGA于2012年10月26日-27日在圣克鲁兹,加州举行的会议中发起了泛癌计划。参考:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6000284/ 为此我也录制了系列视频教程在:TCGA知识图谱视频教程(B站和YouTube直达)
本文发表于 Nature. 2013 Oct , 引用已经超2000了,题目是:Mutational landscape and significance across 12 major cancer types. 这可能是第一个pan-cancer研究发了CNS正刊,样本量是 3,281 tumours across 12 tumour types ,针对他们的突变信息,使用 MuSiC 来计算 significantlymutated genes (SMGs),主要是 20 cellular processes的127个基因的特征。
文献解读属于100篇泛癌研究文献系列,首发于:http://www.bio-info-trainee.com/4132.html
涉及到的癌症和样本量
数据可以下载 12 cancer types and tracked on Synapse with documentation (http://dx.doi.org/10.7303/syn1729383.2). 基于HG19参考基因组。
TMB
既然是对突变信息的pan-cancer研究,那么TMB,突变上下文就是最常规的了。
SMGs的重要突变
前面提到了作者的研究是确定了 20 cellular processes的127个基因,可以看到这些基因的非同义突变数量分布是具有异质性的。
而且这些SMGs很明显VAF要高,如下:
突变与否信息进行聚类
这里只考虑那127个基因的突变情况,画简单的oncoplot就可以展示,可以看到BRCA就被分成了5个类。
展现vaf分布情况
这里研究者挑选 Variant allele fraction (VAF) distribution of mutations in SMGs across tumours from AML, BRCA and UCEC for mutations ( 至少203 coverage) in copy neutral segments.
走sciclone流程
针对具体的样本进行分析:sciClone algorithm (http://github.com/genome/sciclone)
突变互斥或者突变共发生的探索以及生存分析
都是有成熟的R包可以完成的分析,我在系列视频教程在:TCGA知识图谱视频教程(B站和YouTube直达) 有讲解,这里就不赘述了。
后记
本研究毕竟发表于nature正刊,工作量不小,而且提出来很多肿瘤数据处理的方法,很多软件就得学十天半个月,更别说里面的算法了。
当然了,如果你想超脱于他们的泛癌计划已经发表的研究,那么就非常有必要跟着我读完这100篇泛癌文献!
详见我的100篇泛癌研究文献解读目录:http://www.bio-info-trainee.com/4132.html