10x的单细胞转录组fastq文件的R1和R2不能弄混哦

2022-06-27 21:11:45 浏览数 (1)

正常走cellranger的定量流程即可,代码我已经是多次分享了。参考:

  • 10X单细胞转录组原始测序数据的Cell Ranger流程(仅需800元)
  • 一个10x单细胞转录组项目从fastq到细胞亚群
  • 一文打通单细胞上游:从软件部署到上游分析
  • PRJNA713302这个10x单细胞fastq实战
  • 一次曲折且昂贵的单细胞公共数据获取与上游处理

差不多几个小时就可以完成全部的样品的cellranger的定量流程,但是如果初次接触这个 基于10x的单细胞转录组fastq文件的cellranger的定量流程,仅仅是看上面的推文,会漏掉一些基础知识,仅仅是安装cellranger和跑它的标准代码而已。

这些基础知识非常重要,我们在单细胞天地多次分享过cellranger流程的笔记,大家可以自行前往学习,如下:

  • 单细胞实战(一)数据下载
  • 单细胞实战(二) cell ranger使用前注意事项
  • 单细胞实战(三) Cell Ranger使用初探
  • 单细胞实战(四) Cell Ranger流程概览
  • 单细胞实战(五) 理解cellranger count的结果

单细胞转录组数据和普通的bulk转录组还是不太一样,bulk结果一般就是R1、R2,很容易区分;10X单细胞数据比较特殊,它的测序文库中包括index、barcode、UMI和测序reads。

这里我们在解压sra文件变成fastq文件的时候,使用了参数--split-files输出3个fastq文件,但是它的文件名字并不是 R1和R2这样的格式,而前面的公众号推文给出来了一个示例是:

公众号的示例

然后一个初次接触单细胞原始测序数据的实习生接到项目后也是做了如下所示的转换:

错误的转换

会让人误以为都是这样的规律,实际上文件大小就会告诉你这样的命名是错误的。而且也可以看文件里面的内容:

文件内容

首先,1-26个cycle就是测序得到了26个碱基,先是16个Barcode碱基,然后是10个UMI碱基;通常是R1文件

然后,27-34这8个cycle得到了8个碱基,就是i7的sample index;通常是I1文件

最后35-132个cycle得到了98个碱基,就是转录本reads(目前很多测序仪都是150bp了),通常是R2文件

也就是说R2 文件是真正的测序reads,肯定是文件最大。如果文件名字弄错了,走cellranger的定量流程就会得到如下所示报错:

cellranger的定量流程报错

走完cellranger的定量流程,每个样品就会得到3个表达量矩阵文件(barcodes.tsv.gz,matrix.mtx.gz,genes.tsv.gz或者features.tsv.gz),然后就可以走seurat流程进行单细胞降维聚类分群。这样的基础分析,也可以看基础10讲:

  • 01. 上游分析流程
  • 02.课题多少个样品,测序数据量如何
  • 03. 过滤不合格细胞和基因(数据质控很重要)
  • 04. 过滤线粒体核糖体基因
  • 05. 去除细胞效应和基因效应
  • 06.单细胞转录组数据的降维聚类分群
  • 07.单细胞转录组数据处理之细胞亚群注释
  • 08.把拿到的亚群进行更细致的分群
  • 09.单细胞转录组数据处理之细胞亚群比例比较

0 人点赞