单细胞转录组已经是非常标准化的科研技术,得益于10X的商业化的成功,以至于大家提到单细胞基本就是讨论10X的单细胞转录组。而且绝大部分小伙伴初次接触或者说看到的已经发表的成千上万篇单细胞文章都是10X技术的单细胞,而又以人类和小鼠的数据居多,如果是人类和小鼠的10X技术的单细胞转录组测序数据,处理起来非常的便捷。正常走cellranger的定量流程即可,代码我已经是多次分享了。参考:
- 10X单细胞转录组原始测序数据的Cell Ranger流程(仅需800元)
- 10X的单细胞转录组原始数据也可以在EBI下载
- 一个10x单细胞转录组项目从fastq到细胞亚群
- 一文打通单细胞上游:从软件部署到上游分析
- PRJNA713302这个10x单细胞fastq实战
- 一次曲折且昂贵的单细胞公共数据获取与上游处理
- 只能下载bam文件的10x单细胞转录组项目数据处理
- 不知道10x单细胞转录组样品和fastq文件的对应关系
- 10X单细胞转录组测序数据的 SRA转fastq踩坑那些事
- 10x的单细胞转录组fastq文件的R1和R2不能弄混哦
差不多几个小时就可以完成全部的样品的cellranger的定量流程,拿到表达量矩阵文件,常规的降维聚类分群,参考前面的例子:人人都能学会的单细胞聚类分群注释 ,走seurat流程进行单细胞降维聚类分群,这样的基础分析,有基础10讲:
- 01. 上游分析流程
- 02.课题多少个样品,测序数据量如何
- 03. 过滤不合格细胞和基因(数据质控很重要)
- 04. 过滤线粒体核糖体基因
- 05. 去除细胞效应和基因效应
- 06.单细胞转录组数据的降维聚类分群
- 07.单细胞转录组数据处理之细胞亚群注释
- 08.把拿到的亚群进行更细致的分群
- 09.单细胞转录组数据处理之细胞亚群比例比较
但是这样的标准定量流程并不适用于每个人的课题,比如部分小伙伴研究的是病毒感染的肿瘤,包括但不限于鼻咽癌,肝癌,宫颈癌等等,那么定量的时候就会有修改参考基因组的必要性,把特定的病毒序列加入到参考基因组一起定量。
又或者说基因工程小鼠模型,那肯定是对小鼠的基因组进行了干扰,敲除或者插入DNA片段是家常便饭。我们以2022年9月发表在science杂志的文章:《Lineage plasticity in prostate cancer depends on JAK/STAT inflammatory signaling》为例,这个文章关于这个基因工程小鼠模型的10X单细胞数据处理只有轻飘飘的一句话:
Samples from the prostate organoid time-course were mapped to the mm38 mouse genome reference, whereas GEMM samples were mapped to same reference with an additional custom Gfp sequence.
但是,实际操作起来并不容易哦,考验大家的基本功啦。
但是我在思考一个问题,为了定量部分特殊DNA序列的表达量,而大费周章的重新改变参考基因组及其配套的基因组注释文件是否有必要,我们是否可以开发一个简单的定量单个或者少了DNA序列的独立软件呢?
值得注意的是本文并没有采用seurat包进行常规单细胞转录组数据处理,而是走Python流程,降维聚类分群后如下所示:
- Epcam or Chga/Chgb (epithelial and neuroendocrine, 29,380 cells),
- Ptprc and Cd2/Cd3e or Cd79a (lymphoid, 6,441 cells),
- Ptprc and Cd14 and/or Csfr1 or Csfr3 (myeloid, 13,491 cells),
- Col1a1 and/or Cldn5 (mesenchymal and endothelial, 6441 cells).
如下所示:
降维聚类分群