今天的主要内容是讲TCGA特有的数据分析内容
肿瘤专属的知识
笔记:
1、TCGA的tumor和normal是表达数据里自带的,因此不需要特地下载临床信息,但是如果需要筛选样本,如特定的癌症亚类或相关的信息就需要临床信息
2、TCGA差异分析的方法和图片与常规的相同
3、生存分析,KM-plot之外的两个是批量处理的方法
4、生存模型:有多种机器学习算法,实际就是形成由基因表达量和系数构成的公式,作用是选出关键基因,Lasso回归通过自己的算法分配系数,Lasso回归认为重要的就有系数,Lasso认为不重要的系数就是0,模型选中的基因就是关键基因,和前面的目的实际是一样的,是缩小关键基因范围的方法,可以给模型几十个或者几个基因再次进行筛选,都可以;第二个作用是风险分数的计算,每个病人都有自己的分数,得到病人的计算结果,就是预测值或风险评分,风险高还是风险低,用一个值来量化它
5、模型预测和评估:ROC曲线,C-index,评估模型的质量
6、突变数据的处理:其实是外显子组的下游分析,每一个基因在每个病人的哪个位点上发生了变化,突变频谱图
泛癌比较复杂,一般的电脑不能使用
xena(尚未更新)是2019年的基因版本,与现在有一定的出入,但也能用
没有正常样本怎么做差异分析
1.不做T-N差异分析,只做亚型,或根据某基因的表达量高低来做分析
2.和Gtex联合分析,原因是在xena上已经做好了从下机开始的分析
gtex tcga数据
链接:https://pan.baidu.com/s/1I_Y7ARl4REWwyh1Ssei-_w?pwd=xjls
提取码:xjls
3.从GEO数据库找T-N的数据做差异分析,差异基因在TCGA里面继续分析(因为TCGA数据量大且齐全,适合做生存分析)
combat_seq函数可以处理转录组批次效应
代码语言:R复制#一个按条件筛选的小技巧
library(dplyr)
#创造一个数据,这是我自己搞的
data = data.frame(gene1 = rep(c('Negative','Positive'),each=3),
gene2 = rep(c('Negative','Positive'),times=3))
#写上条件
k1 = data$gene1=='Negative'&data$gene2=='Negative'
k2 = data$gene1=='Negative'&data$gene2=='Positive'
case_when(k1~'Type1',
k2~'Type2',
T~'Type3')