众所周知,肿瘤外显子是TCGA计划的6大数据之一,而TCGA数据库是目前最综合最全面的癌症病人相关组学数据库,包括:
- DNA Sequencing(主要是肿瘤外显子)
- miRNA Sequencing(很小众)
- Protein Expression array (基本上不用)
- mRNA Sequencing(数据挖掘玩烂了的)
- Array-based Expression (基本上淘汰了)
- DNA Methylation (也是有点小众)
- Copy Number array(会跟肿瘤外显子重叠的生物学意义)
知名的肿瘤研究机构都有着自己的TCGA数据库探索工具,比如:
- Broad Institute FireBrowse portal, The Broad Institute
- cBioPortal for Cancer Genomics, Memorial Sloan-Kettering Cancer Center
tcga数据库的部分病人有转录组测序信息同时也有对应的somatic突变信息,只需要结合两者理论上是可以完成任意癌症的任意基因突变与否分组后的转录组测序的差异分析。
比如,让我们看看2023的文章《STK11/LKB1-Deficient Phenotype Rather Than Mutation Diminishes Immunotherapy Efficacy and Represents STING/Type I Interferon/CD8þ T-Cell Dysfunction in NSCLC》,是如何做这个分析的。研究者们首先定义好 selected functional events (SFE) 事件:
- (1) global minor allele frequency less than 0.05%;
- (2) classified as frameshift deletion and insertion, in-frame deletions and insertions, missense, nonsense, and splice site modifications;
- (3) missense mutations were assessed for the presence of recurrently mutated amino acids
根据上面的selected functional events (SFE) 事件在不同基因的发生情况,比如STK11基因就可以成功的把病人分组:
- 27 STK11-MUT tumors (with SFE) were compared with the 203 STK11-WT tumors (without SFE)
这个时候两个分组的样品数量是不平衡的,但是研究者们仍然是使用了limma的voom算法做转录组测序的差异分析,如下所示的差异基因火山图:
使用了limma的voom算法做转录组测序的差异分析
学徒作业
- 从UCSC的XENA浏览器里面选择NSCLC的里面的LUAD数据集
- 然后下载LUAD的somatic的突变信息的maf文件
- 以及下载LUAD的表达量矩阵的counts文件
- 接着针对STK11基因把LUAD区分成为突变与否
- 最后根据STK11基因与否的分组信息进行差异分析,火山图和热图展示,富集分析等等