一.背景知识
肿瘤突变负荷(tumor mutational burden,TMB)是指在一个特定的肿瘤组织当中相对的基因突变数量,即检测的肿瘤样本中,所评估基因的外显子编码区每兆碱基序列中发生突变的总数.计算公式: tmb(mut/mb)= 总突变数量(包括同义、非同义点突变、置换、插入及缺失突变) / 目标区域编码区大小。tmb是一个数值,具有高低之分,目前高低tmb的分界值没有统一的标准。
等位基因突变的肿瘤异质性(mutant-allele tumor heterogeneity,MATH)是基于肿瘤内所有等位基因突变频率(mutant-allele frequencies)来对肿瘤样本的基因异质性进行量化的一种算法,通过计算,每一个样本可以获得一个MATH 值,MATH值的高低反映了肿瘤异质性的高低。
二.TCGA数据库Simple Nucleotide Variation数据下载
以COAD为例
代码语言:javascript复制library(TCGAbiolinks)
query_SNV <- GDCquery(project = "TCGA-COAD",
data.category = "Simple Nucleotide Variation",
data.type = "Masked Somatic Mutation",
workflow.type = "MuTect2 Variant Aggregation and Masking")
GDCdownload(query_SNV)
三.读入数据
代码语言:javascript复制FilePath = dir("./GDCdata",".somatic.maf.gz$",recursive=T,full.names = T)
maf <- read.maf(FilePath,isTCGA=TRUE)
四.计算TMB
代码语言:javascript复制##计算TMB
tmb <- tmb(maf = maf,
captureSize = 50,
logScale = T)
head(tmb)
代码语言:javascript复制> head(tmb)
Tumor_Sample_Barcode total total_perMB total_perMB_log
1: TCGA-CA-5255 39 0.78 -0.10790540
2: TCGA-AZ-4323 40 0.80 -0.09691001
3: TCGA-A6-2685 42 0.84 -0.07572071
4: TCGA-AA-3488 42 0.84 -0.07572071
5: TCGA-AA-3869 42 0.84 -0.07572071
6: TCGA-AZ-4684 42 0.84 -0.07572071
五.计算MATH分数
代码语言:javascript复制#计算mutant-allele tumor heterogeneity
barcode <- unique(maf@data$Tumor_Sample_Barcode)
head(barcode)
MATH <- data.frame()
for (i in barcode){
out.math = inferHeterogeneity(maf = maf, tsb = i)
Tumor_Sample_Barcode=unique(out.math$clusterData$Tumor_Sample_Barcode)
m = unique(out.math$clusterData$MATH)
out = data.frame(Tumor_Sample_Barcode, m)
MATH = rbind(MATH, out)
}
head(MATH)
代码语言:javascript复制> head(MATH)
Tumor_Sample_Barcode m
1 TCGA-AA-3966 41.51257
2 TCGA-AD-6901 51.32077
3 TCGA-AA-3673 32.15131
4 TCGA-A6-2679 42.79428
5 TCGA-AD-6895 29.01535
6 TCGA-AA-3975 66.23341