单细胞专题 | 5.单细胞转录组的上游分析-从FASTQ到count矩阵

2022-06-13 12:54:49 浏览数 (2)

cellranger count 管道将FASTQ文件中的测序结果与参考转录组进行比对,并生成一个.cloupe文件,用于在Loupe Browser中进行可视化和分析,同时还生成了一些与其他公开工具兼容的输出,用于进一步分析。

接下来,需要一个参考基因组数据。从FASTQ文件的下载页面可以看到这些是人类细胞。在10x Genomics支持网站上有几个预构建的人类参考转录组包。下载最新的包并解压缩它。

代码语言:javascript复制
#人
curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-cellranger-GRCh38-3.0.0.tar.gz
#小鼠
curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-mm10-2020-A.tar.gz

解压下载的基因组文件:

代码语言:javascript复制
  tar zxvf refdata-gex-GRCh38-2020-A.tar.gz

接下来使用来自人类外周血单个核细胞(PBMC)的1000个 PBMC 数据集,包括淋巴细胞(T 细胞、 B细胞和 NK 杀伤细胞)和单核细胞。

代码语言:javascript复制
curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-mm10-2020-A.tar.gz

这个数据集的大小是5.17G,下载需要几分钟。

因为这是一个 tar 文件而不是 tar.gz 文件,所以您不需要使用前面的教程中使用的 -z 参数来提取它。

代码语言:javascript复制
tar -xvf pbmc_1k_v3_fastqs.tar
代码语言:javascript复制
pbmc_1k_v3_fastqs/
pbmc_1k_v3_fastqs/pbmc_1k_v3_S1_L001_R2_001.fastq.gz
pbmc_1k_v3_fastqs/pbmc_1k_v3_S1_L002_I1_001.fastq.gz
pbmc_1k_v3_fastqs/pbmc_1k_v3_S1_L001_R1_001.fastq.gz
pbmc_1k_v3_fastqs/pbmc_1k_v3_S1_L002_R1_001.fastq.gz
pbmc_1k_v3_fastqs/pbmc_1k_v3_S1_L002_R2_001.fastq.gz
pbmc_1k_v3_fastqs/pbmc_1k_v3_S1_L001_I1_001.fastq.gz

现在你有了一个包含两组 FASTQ 文件的目录,可以看到它们是根据 bcl2fastq 变数命名原则命名的: Sample_S1_L00X_R1_001.fastq.gz。这些文件的名称表明它们都来自同一个名为 pbmc _ 1k _ v3的样本,并且这个库在两个lanes上运行,Lane 1: L001 和 lane 2: L002.。

一旦你有了 FASTQ 文件和参考转录组,你就可以运行cellranger count了。

代码语言:javascript复制
cellranger count --id=run_count_1kpbmcs 
--fastqs= /mnt/f/Linux/run_cellranger_count/pbmc_1k_v3_fastqs 
--sample=pbmc_1k_v3 
--transcriptome= /mnt/f/Linux/genomeAnno/hsa/refdata-gex-GRCh38-2020-A 
--expect-cells=1000 
--localcores=16 
--localmem=128 
--nosecondary

• --id:输出文件夹名

• --transcriptome:参考基因组所在文件夹

• --fastqs:fastq文件所在文件夹名,如下图所示

• --sample:用于分析的文件名

• --expect-cells:预计的细胞数,软件会根据实际情况进行估算

• --localcores:使用的线程数

• --localmem:使用的内存数

• --nosecondary:不进行下游聚类分析


下面是前面数据集的案例

单细胞专题 | 3.单细胞转录组的上游分析-从BCL到FASTQ

代码语言:javascript复制
cellranger count --id=cellranger_count 
--transcriptome=/mnt/f/Linux/genomeAnno/hsa/refdata-gex-GRCh38-2020-A 
--fastqs=fastq_path/H35KCBCXY/test_sample 
--sample=test_sample 
--expect-cells=1000 
--localcores=16 
--localmem=128 
--nosecondary

单细胞专题 | 4.单细胞转录组的上游分析-从SRA到FASTQ

代码语言:javascript复制
cellranger count --id=cellranger_count 
--transcriptome=/mnt/f/Linux/genomeAnno/hsa/refdata-gex-GRCh38-2020-A 
--fastqs=/mnt/f/Linux/sradata/sra_data/fastqs_path 
--sample=SRR7722937 
--expect-cells=1000 
--localcores=168 
--localmem=128 
--nosecondary

参考:

https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/using/tutorial_ct

0 人点赞