生信马拉松 Day23 TCGA实践-2

2024-03-05 15:41:49 浏览数 (1)

一堂文章复现课 单细胞基础

比较关键的技巧:

1.如何利用管道符提取矩阵(matrix)的特定列

str_split之后得到的是matrix,之前用管道符是无法直接取列的,加个.就可以了

代码语言:R复制
geneset$gs_name = geneset$gs_name %>%
  str_split("_",simplify = T,n = 2)%>%
  .[,2]%>%

2.GSEA的要求

GSEA只要有一列基因以及从大到小的排序就能做,因此在转录组、芯片、单细胞中都能用

需要全部的基因,不能先经过筛选,所以标准图最底下的部分应该是连续排列的,且不同通路最底下的部分是不变的(有些文章的最底层灰色部分不是从正到负连续,其实都是错的,自己复现的时候注意甄别),同一个数据的不同通路的条形码部分是不同的

3.单细胞公共数据库

各个数据库的给的格式可能都不相同

单细胞超过2万个细胞,普通的16个G内存的电脑就无法完成,8个G内存的电脑一般跑1万个细胞就很困难了

4.Seurat标准流程

Seurat分析的框架,不是正式代码Seurat分析的框架,不是正式代码

5.如果出现make not found报错,代表RTools软件没有安装(仅限windows系统)

出现permission denied则是需要用管理员权限打开

6.CreateSeuratObject中的min.cells(一个基因至少在多少个细胞中表达)和min.features(一个细胞中多少有多少个基因表达)是管过滤的,默认的过滤标准3/200不算严格

7.细胞线粒体基因过滤

线粒体基因量一般是少的,多了代表细胞有问题

计算后存放在meta.data里,nCount和nFeature在创建Seurat的时候就帮你计算好了

代码语言:R复制
pbmc[["percent.mt"]] <- PercentageFeatureSet(pbmc, pattern = "^MT-")
VlnPlot(pbmc, 
        features = c("nFeature_RNA",
                     "nCount_RNA", 
                     "percent.mt"), 
        ncol = 3,pt.size = 0)

这里的^MT-是正则表达式,代表检索MT-开头的基因,人类中是这个,小鼠中为mt-,其他物种需要自己查,注意修改

根据VlnPlot的结果确定过滤标准。不同细胞类型是不同的,例如骨骼肌肉细胞的线粒体基因比例可能就很高

8.怎么本地安装一个R包

首先搜索这个包,在archive中右键复制链接,获得链接后复制到代码中的url中

代码语言:R复制
packageurl <- "https://mirrors.ustc.edu.cn/CRAN/src/contrib/Archive/SeuratObject/SeuratObject_4.1.4.tar.gz" 
install.packages(packageurl, repos=NULL, type="source")

就可以成功啦~

生信技能树,生信马拉松,小洁老师~

0 人点赞