生信马拉松 Day22 TCGA实践

2024-02-08 19:20:00 浏览数 (1)

今天的主要内容是讲TCGA特有的数据分析内容

肿瘤专属的知识

笔记:

1、TCGA的tumor和normal是表达数据里自带的,因此不需要特地下载临床信息,但是如果需要筛选样本,如特定的癌症亚类或相关的信息就需要临床信息

2、TCGA差异分析的方法和图片与常规的相同

3、生存分析,KM-plot之外的两个是批量处理的方法

4、生存模型:有多种机器学习算法,实际就是形成由基因表达量和系数构成的公式,作用是选出关键基因,Lasso回归通过自己的算法分配系数,Lasso回归认为重要的就有系数,Lasso认为不重要的系数就是0,模型选中的基因就是关键基因,和前面的目的实际是一样的,是缩小关键基因范围的方法,可以给模型几十个或者几个基因再次进行筛选,都可以;第二个作用是风险分数的计算,每个病人都有自己的分数,得到病人的计算结果,就是预测值或风险评分,风险高还是风险低,用一个值来量化它

5、模型预测和评估:ROC曲线,C-index,评估模型的质量

6、突变数据的处理:其实是外显子组的下游分析,每一个基因在每个病人的哪个位点上发生了变化,突变频谱图

泛癌比较复杂,一般的电脑不能使用

xena(尚未更新)是2019年的基因版本,与现在有一定的出入,但也能用


没有正常样本怎么做差异分析

1.不做T-N差异分析,只做亚型,或根据某基因的表达量高低来做分析

2.和Gtex联合分析,原因是在xena上已经做好了从下机开始的分析

gtex tcga数据

链接:https://pan.baidu.com/s/1I_Y7ARl4REWwyh1Ssei-_w?pwd=xjls

提取码:xjls

3.从GEO数据库找T-N的数据做差异分析,差异基因在TCGA里面继续分析(因为TCGA数据量大且齐全,适合做生存分析)


combat_seq函数可以处理转录组批次效应


代码语言:R复制
#一个按条件筛选的小技巧

library(dplyr)

#创造一个数据,这是我自己搞的

data = data.frame(gene1 = rep(c('Negative','Positive'),each=3),

                  gene2 = rep(c('Negative','Positive'),times=3))

#写上条件

k1 = data$gene1=='Negative'&data$gene2=='Negative'

k2 = data$gene1=='Negative'&data$gene2=='Positive'



case_when(k1~'Type1',

          k2~'Type2',

          T~'Type3')

0 人点赞