分享是一种态度
免疫系统
免疫系统中主要包含两类淋巴细胞:B lymphocytes (B cells) 和 T lymphocytes (T cells)。B cells 和 T cells 的区别在于表达的 antigen receptor 的结构(structure),分别是B-cell receptor (BCR) 和 T-cell receptor (TCR)。
BCR:由两条重链(IgH)和两条轻链(Igκ,Igλ)组成。
TCR:由α、β两条肽链组成。BCR的重链包含1个可变区域(VH)和3个恒定区域(CH1/CH2/CH3),轻链包含1个可变区域(VL)和1个恒定区域(CL)。TCR的α、β两条肽链也包含可变区V和恒定区C。
可变区域(VH/VL)由三个互补决定区(complementarities determining region, CDR) CDR1、CDR2、 CDR3 和间隔的 4 个骨架区(framework region, FR)构成 。CDR1、 CDR2 和 FR 区域相对保守, CDR3 变异最大,并直接决定了 BCR/TCR 的抗原结合特异性。BCR/TCR 的 CDR3 由 V、 D、 J 三个基因编码,淋巴细胞的成熟过程中,通过 V、 D、 J 基因的重排形成了各种重组序列片段,由于 V、 D、 J 基因片段本身具有多样性,再加上体细胞突变、 V(D) J 区之间碱基的插入删除(Indel)等形成了 T/B 细胞的多样性。因此对于淋巴细胞多样性的研究便集中在了 CDR3 区多样性的研究。
基础知识理解
免疫组库:V(D)J序列多样性的集合即为免疫组库(Immune Repertoire, IR)
免疫组库测序目标:5‘转录组 V(D)J片段分析,可同时获得单细胞转录组以及免疫组库数据。(V(D)J区段在mRNA的5‘端)
V(D)J的区段的长度:通常是650bp左右。PE-150测序最多能测300bp。
V(D)J 基因的 Reads 比对:Reads 富集前,先使用 cutadapt 对 Read-pairs 去接头和引物序列。随后将 Read-pairs 比对到 V(D)J 基因片段上,只有比对上的 read 用于后续的组装。其中 read 比对要求:比对得分超过 20;至少有 15bp 能够精确匹配到参考序列。
Contig:一致性序列组装得到的contigs序列。组装的过程中,每个 barcode 是独立进行分析的。对过滤后的 read 按照 barcode 分组,其中每个 barcode 至多有 100k 的 reads 用于组装,避免人为因素影响导致的极高覆盖度情况。且仅使用有多于 10 个 reads 的 UMI 的 read 用于组装,最后获得 contigs 序列。
组装后的有效细胞数:有效的细胞数的估计与表达靶向 V(D)J 转录本相关,要求 barcode 有一个 contig 能够有至少 2 个具有足够 reads 支持的 UMI。
contigs注释:使用 Smith-Waterman 将每个细胞中每个组装的 congtigs 与所有的参考序列(V , D, J, C 和 5'UTR )逐一进行比对。
contigs有效性评价:
- 完全跨越 V 和 J 部分,否则为无效 “None”;
- 在预定的 V 位置包含可识别的起始密码子。如果没有找到起始密码子,则认为是无效的 “False”;
- 在 V 起始密码子框内包含一个 CDR3 区域。如果没有发现 CDR3,则被认为是无效的;
- 在 V - J 跨越区不含终止密码子。如果发现终止密码子,则被认为是无效的。理想情况下,每个 Barcode 包含两个匹配的有效的 contigs,由 1 个 TRA 和 1 个 TRB 或 1 个重链( IGH)和 1 个轻链( IGK 或 IGL)构成。
Clonotypes克隆型:通过精确的核苷酸匹配,把拥有完全相同的有效 CDR3 核酸序列的 Cell barcodes 组合在一起, 成为克隆型。
clonotype的丰度:细胞支持数(barcode个数)即为clonotype丰度。
consensus 序列:所有细胞中拥有相同的有效 CDR3 核酸序列的 contig 组装在一起的最终序列,被称为共有序列。即把某个 clonotype 的所有 contig 组装在一起得到的序列成为 consensus 序列
克隆型的多样性:克隆型中的 V-J 基因组合方式的多样性就是克隆型的多样性。
cellranger mkvdjref
VDJ的参考基因组需要使用 cellranger mkvdjref重新构建。
代码语言:javascript复制$ tree /opt/genome/refdata-gex-GRCh38-2020-A/
/opt/genome/refdata-gex-GRCh38-2020-A/
├── fasta
│ ├── genome.fa
│ └── genome.fa.fai
├── genes
│ └── genes.gtf
├── pickle
│ └── genes.pickle
├── reference.json
└── star
├── chrLength.txt
├── chrNameLength.txt
├── chrName.txt
├── chrStart.txt
├── exonGeTrInfo.tab
├── exonInfo.tab
├── geneInfo.tab
├── Genome
├── genomeParameters.txt
├── SA
├── SAindex
├── sjdbInfo.txt
├── sjdbList.fromGTF.out.tab
├── sjdbList.out.tab
└── transcriptInfo.tab
代码语言:javascript复制$ cellranger mkvdjref --genome GRCh38_release95 --fasta /path/genome/Homo_sapiens/GRCh38_release95/Homo_sapiens.GRCh38_release95.genome.fa --genes Homo_sapiens.GRCh38.95.gtf
$ tree
.
└── GRCh38_release95
├── fasta
│ └── regions.fa
└── reference.json
$head GRCh38_release95/fasta/regions.fa
>1|IGHE ENST00000390541|IGHE|C-REGION|IG|IGH|E|00
GCCTCCACACAGAGCCCATCCGTCTTCCCCTTGACCCGCTGCTGCAAAAACATTCCCTCCAATGCCACCTCCGTGACTCTGGGCTGCCTGGCCACGGGCTACTTCCCGGAGCCGGTGATGGTGACCTGGGACACAGGCTCCCTCAACGGGACAACTATGACCTTACCAGCCACCACCCTCACGCTCTCTGGTCACTATGCCACCATCAGCTTGCTGACCGTCTCGGGTGCGTGGGCCAAGCAGATGTTCACCTGCCGTGTGGCACACACTCCATCGTCCACAGACTGGGTCGACAACAAAACCTTCAGCGTCTGCTCCAGGGACTTCACCCCGCCCACCGTGAAGATCTTACAGTCGTCCTGCGACGGCGGCGGGCACTTCCCCCCGACCATCCAGCTCCTGTGCCTCGTCTCTGGGTACACCCCAGGGACTATCAACATCACCTGGCTGGAGGACGGGCAGGTCATGGACGTGGACTTGTCCACCGCCTCTACCACGCAGGAGGGTGAGCTGGCCTCCACACAAAGCGAGCTCACCCTCAGCCAGAAGCACTGGCTGTCAGACCGCACCTACACCTGCCAGGTCACCTATCAAGGTCACACCTTTGAGGACAGCACCAAGAAGTGTGCAGATTCCAACCCGAGAGGGGTGAGCGCCTACCTAAGCCGGCCCAGCCCGTTCGACCTGTTCATCCGCAAGTCGCCCACGATCACCTGTCTGGTGGTGGACCTGGCACCCAGCAAGGGGACCGTGAACCTGACCTGGTCCCGGGCCAGTGGGAAGCCTGTGAACCACTCCACCAGAAAGGAGGAGAAGCAGCGCAATGGCACGTTAACCGTCACGTCCACCCTGCCGGTGGGCACCCGAGACTGGATCGAGGGGGAGACCTACCAGTGCAGGGTGACCCACCCCCACCTGCCCAGGGCCCTCATGCGGTCCACGACCAAGACCAGCGGCCCGCGTGCTGCCCCGGAAGTCTATGCGTTTGCGACGCCGGAGTGGCCGGGGAGCCGGGACAAGCGCACCCTCGCCTGCCTGATCCAGAACTTCATGCCTGAGGACATCTCGGTGCAGTGGCTGCACAACGAGGTGCAGCTCCCGGACGCCCGGCACAGCACGACGCAGCCCCGCAAGACCAAGGGCTCCGGCTTCTTCGTCTTCAGCCGCCTGGAGGTGACCAGGGCCGAATGGGAGCAGAAAGATGAGTTCATCTGCCGTGCAGTCCATGAGGCAGCAAGCCCCTCACAGACCGTCCAGCGAGCGGTGTCTGTAAATCCCGGTAAA
>2|TRBV28 ENST00000390400|TRBV28|L-REGION V-REGION|TR|TRB|None|00
ATGGGAATCAGGCTCCTCTGTCGTGTGGCCTTTTGTTTCCTGGCTGTAGGCCTCGTAGATGTGAAAGTAACCCAGAGCTCGAGATATCTAGTCAAAAGGACGGGAGAGAAAGTTTTTCTGGAATGTGTCCAGGATATGGACCATGAAAATATGTTCTGGTATCGACAAGACCCAGGTCTGGGGCTACGGCTGATCTATTTCTCATATGATGTTAAAATGAAAGAAAAAGGAGATATTCCTGAGGGGTACAGTGTCTCTAGAGAGAAGAAGGAGCGCTTCTCCCTGATTCTGGAGTCCGCCAGCACCAACCAGACATCTATGTACCTCTGTGCCAGCAGTTTATG
>3|IGHD4-4 ENST00000414852|IGHD4-4|D-REGION|IG|IGH|None|00
TGACTACAGTAACTAC
>4|IGHV4-39 ENST00000390619|IGHV4-39|L-REGION V-REGION|IG|IGH|None|00
ATGGATCTCATGTGCAAGAAAATGAAGCACCTGTGGTTCTTCCTCCTGCTGGTGGCGGCTCCCAGATGGGTCCTGTCCCAGCTGCAGCTGCAGGAGTCGGGCCCAGGACTGGTGAAGCCTTCGGAGACCCTGTCCCTCACCTGCACTGTCTCTGGTGGCTCCATCAGCAGTAGTAGTTACTACTGGGGCTGGATCCGCCAGCCCCCAGGGAAGGGGCTGGAGTGGATTGGGAGTATCTATTATAGTGGGAGCACCTACTACAACCCGTCCCTCAAGAGTCGAGTCACCATATCCGTAGACACGTCCAAGAACCAGTTCTCCCTGAAGCTGAGCTCTGTGACCGCCGCAGACACGGCTGTGTATTACTGTGCGAGA
>5|TRAV1-1 ENST00000542354|TRAV1-1|L-REGION V-REGION|TR|TRA|None|00
ATGTGGGGAGCTTTCCTTCTCTATGTTTCCATGAAGATGGGAGGCACTGCAGGACAAAGCCTTGAGCAGCCCTCTGAAGTGACAGCTGTGGAAGGAGCCATTGTCCAGATAAACTGCACGTACCAGACATCTGGGTTTTATGGGCTGTCCTGGTACCAGCAACATGATGGCGGAGCACCCACATTTCTTTCTTACAATGCTCTGGATGGTTTGGAGGAGACAGGTCGTTTTTCTTCATTCCTTAGTCGCTCTGATAGTTATGGTTACCTCCTTCTACAGGAGCTCCAGATGAAAGACTCTGCCTCTTACTTCTGCGCTGTGAGAGA
cellranger vdj
BCR的fastq数据格式如下。包含I1,I2,R1,R2四个文件。
代码语言:javascript复制$ ll data/sc5p_v2_hs_PBMC_10k_b_fastqs/
total 4355360
-rw-r--r-- 1 156607322 Jul 11 00:34 sc5p_v2_hs_PBMC_10k_b_S1_L001_I1_001.fastq.gz
-rw-r--r-- 1 182936492 Jul 11 00:34 sc5p_v2_hs_PBMC_10k_b_S1_L001_I2_001.fastq.gz
-rw-r--r-- 1 386947795 Jul 11 00:34 sc5p_v2_hs_PBMC_10k_b_S1_L001_R1_001.fastq.gz
-rw-r--r-- 1 944440175 Jul 11 00:34 sc5p_v2_hs_PBMC_10k_b_S1_L001_R2_001.fastq.gz
-rw-r--r-- 1 157303860 Jul 11 00:34 sc5p_v2_hs_PBMC_10k_b_S1_L002_I1_001.fastq.gz
-rw-r--r-- 1 182417776 Jul 11 00:34 sc5p_v2_hs_PBMC_10k_b_S1_L002_I2_001.fastq.gz
-rw-r--r-- 1 386954157 Jul 11 00:34 sc5p_v2_hs_PBMC_10k_b_S1_L002_R1_001.fastq.gz
-rw-r--r-- 1 939676846 Jul 11 00:34 sc5p_v2_hs_PBMC_10k_b_S1_L002_R2_001.fastq.gz
代码语言:javascript复制$ cellranger vdj --id=sc5p_v2_hs_PBMC_10k_b_fastqs --fastqs=/path/VDJ/data/sc5p_v2_hs_PBMC_10k_b_fastqs/ --reference=/path/vdjref/GRCh38_release95/
结果目录
all_contig* :所有contig相关的文件
consensus*:一致性序列相关的文件
filtered_contig *:过滤后的contig相关的文件
clonotypes.csv:克隆型相关信息