R基础:生信分析的R语言基础教程都在这里了,包括语法,绘图和数据分析。
生物信息数据分析教程视频——01-TCGA数据库RNAseq数据下载与整理
生物信息数据分析教程视频——02-TCGA数据库miRNA数据下载与整理
生物信息数据分析教程视频——03-有关TCGA数据库临床数据的问题
生物信息数据分析教程视频——04-TCGA数据库中SNV和CNV数据的下载
生物信息数据分析教程视频——05-TCGA数据库中甲基化数据的下载和整理
生物信息数据分析教程视频——06-GEO数据库中芯片数据的下载和整理
生物信息数据分析教程视频——07-TCGA数据库:基因的表达探索
生物信息数据分析教程视频——08-TCGA GTEx数据库的数据整理
生物信息数据分析教程视频——09-TCGA GTEx数据库联合表达分析
生物信息数据分析教程视频——10-TCGA数据库:miRNA的表达探索
生物信息数据分析教程视频——11-筛选相关性基因
生物信息数据分析教程视频——12-基因之间的相关性分析及可视化
生物信息数据分析教程视频——13-3种R包(DESeq2、edgeR和limma)进行RNAseq的差异表达分析与比较
生物信息数据分析教程视频——14-芯片数据的表达差异分析
生物信息数据分析教程视频——15-clusterProfiler包 ClueGO做富集分析
http://mpvideo.qpic.cn/0bc3pmacoaaaduaeldb56frva66de55qajya.f10002.mp4?dis_k=b1b46d5ac890ebc474c82c14693543bb&dis_t=1671187659&vid=wxv_2606759925549268992&format_id=10002&support_redirect=0&mmversion=false
代码:
代码语言:javascript复制# setwd("H:/MedBioInfoCloud/analysis/TCGA/new/conventionalAnalysis")
options(stringsAsFactors = F)
library(TCGAbiolinks)
library(GSVA)
library(GSEABase)
FilePath <- dir("H:/MedBioInfoCloud/analysis/TCGA/new/processedTCGAdata/TCGA-STAR_Exp/",
"STARdata.Rdata$",full.names = T)
opt <- "output/009-CellFractions/ssGSEA/"
ifelse(dir.exists(opt),FALSE,dir.create(opt,recursive = T))
source("H:/MedBioInfoCloud/analysis/TCGA/new/00-fun/filterGeneTypeExpr.R")
source("H:/MedBioInfoCloud/analysis/TCGA/new/00-fun/del_dup_sample.R")
###TCGA数据库中33中癌症类型
project <- getGDCprojects()$project_id
project <- project[grep("TCGA-",project)]
# proj = "TCGA-LUAD"
immune_cell_geneSet = getGmt("H:/MedBioInfoCloud/analysis/base_files/immue_BG_GeneSet/ssGSEA_immue_BG_GeneSet.gmt",
geneIdType=SymbolIdentifier())
# devtools::install_github("BioInfoCloud/csGeneset")
# library(csGeneset)
# gsImmCell <- gsGSVA[["ImmCell"]][["geneSet"]]
# proj = "TCGA-LUAD"
for(proj in project){
message("===============================")
message(proj)
load(FilePath[grep(proj,FilePath)])#STARdata
tpm <- STARdata[["tpm"]]
tpm <- filterGeneTypeExpr(expr = tpm,
fil_col = "gene_type",
filter = FALSE)
##过滤不表达的基因
tpm <- tpm[apply(tpm,1,var) !=0,]
##正常组织样本ID
SamN <- TCGAquery_SampleTypes(barcode = colnames(tpm),
typesample = c("NT","NB","NBC","NEBV","NBM"))
##肿瘤组织样本ID
SamT <- setdiff(colnames(tpm),SamN)
###去除重复样本
tur_exp <- del_dup_sample(tpm[,SamT],col_rename = T)
# ###long2转换
# tur_exp <- log2(tur_exp 1)
ssGSEA_Score = gsva(as.matrix(tur_exp),
immune_cell_geneSet,
method='ssgsea',
kcdf='Gaussian',
abs.ranking=TRUE)#ssGSEA计算
normalize=function(x){
return((x-min(x))/(max(x)-min(x)))}#定义ssGSEA_Score矫正函数
norm_ssGSEA_Score <- normalize(ssGSEA_Score)#对ssGSEA_Score进行矫正
file <- paste0(opt,proj,"-normalize_turmor_ssGSEA_Score.txt")
write.table(norm_ssGSEA_Score,file = file,sep="t",quote=F,col.names=F)#此处的输出文件即为ssGSEA富集得分文件
}