一堂文章复现课 单细胞基础
比较关键的技巧:
1.如何利用管道符提取矩阵(matrix)的特定列
str_split之后得到的是matrix,之前用管道符是无法直接取列的,加个.就可以了
代码语言:R复制geneset$gs_name = geneset$gs_name %>%
str_split("_",simplify = T,n = 2)%>%
.[,2]%>%
2.GSEA的要求
GSEA只要有一列基因以及从大到小的排序就能做,因此在转录组、芯片、单细胞中都能用
需要全部的基因,不能先经过筛选,所以标准图最底下的部分应该是连续排列的,且不同通路最底下的部分是不变的(有些文章的最底层灰色部分不是从正到负连续,其实都是错的,自己复现的时候注意甄别),同一个数据的不同通路的条形码部分是不同的
3.单细胞公共数据库
各个数据库的给的格式可能都不相同
单细胞超过2万个细胞,普通的16个G内存的电脑就无法完成,8个G内存的电脑一般跑1万个细胞就很困难了
4.Seurat标准流程
5.如果出现make not found报错,代表RTools软件没有安装(仅限windows系统)
出现permission denied则是需要用管理员权限打开
6.CreateSeuratObject中的min.cells(一个基因至少在多少个细胞中表达)和min.features(一个细胞中多少有多少个基因表达)是管过滤的,默认的过滤标准3/200不算严格
7.细胞线粒体基因过滤
线粒体基因量一般是少的,多了代表细胞有问题
计算后存放在meta.data里,nCount和nFeature在创建Seurat的时候就帮你计算好了
代码语言:R复制pbmc[["percent.mt"]] <- PercentageFeatureSet(pbmc, pattern = "^MT-")
VlnPlot(pbmc,
features = c("nFeature_RNA",
"nCount_RNA",
"percent.mt"),
ncol = 3,pt.size = 0)
这里的^MT-是正则表达式,代表检索MT-开头的基因,人类中是这个,小鼠中为mt-,其他物种需要自己查,注意修改
根据VlnPlot的结果确定过滤标准。不同细胞类型是不同的,例如骨骼肌肉细胞的线粒体基因比例可能就很高
8.怎么本地安装一个R包
首先搜索这个包,在archive中右键复制链接,获得链接后复制到代码中的url中
代码语言:R复制packageurl <- "https://mirrors.ustc.edu.cn/CRAN/src/contrib/Archive/SeuratObject/SeuratObject_4.1.4.tar.gz"
install.packages(packageurl, repos=NULL, type="source")
就可以成功啦~
生信技能树,生信马拉松,小洁老师~