转录组数据分析一般流程
转录组测序原理
SBS(Sequencing-By-Synthesis):
通过单分子阵列实现在小型芯片(Flowcell)上进行 桥式PCR反应。通过可逆阻断技术实现每次只合成一个碱基,再利用四种带有不同荧光标记的碱基,通过荧光激发/捕获,读取碱
基信息
基于 可逆终止的、荧光标记dNTP,边合成边测序
转录组:组织或所有细胞中包含所有类型的RNA转录集合
mRNA: RNA-Seq,普通转录组测序
lncRNA:lncRNA-Seq,一般采用链特异性测序
miRNA: miRNA-Seq,小RNA测序
circRNA: cirRNA-seq,一般有两种,消化性线性RNA
建库或者去rRNA建库
转录组测序实验流程
1. 样本检测:
高质量的RNA是整个项目成功的基础。我们使用以下方法对样品进行检测,检测结果达到要求后方可进行建库:
(1) Nanodrop检测RNA的纯度(OD260/280)、浓度、核酸吸收峰是否正常;
(2) Agilent 2100精确检测RNA的完整性,检测指标包括:RIN值、28S/18S、图谱基线有无上抬、5S峰。
2. 文库构建
(1) 磁珠富集真核生物mRNA(此步骤对RNA的完整性要求比
较高, 一般RIN值要大于8);
(2) mRNA进行随机打断;
(3) 以mRNA为模板,合成第一条cDNA链和第二条cDNA链
(4) 进行末端修复、加A尾并连接测序接头,然后进行片段大小
选择;
(5) 最后通过PCR富集得到cDNA文库。
文库构建完成后,对文库质量进行检测,检测结果达到要求后方可进行上机测序,
检测方法如下:
(1) 使用Qubit进行初步定量,使用Agilent 2100对文库的插入片段(insert size)进行检测,insert size符合预期后才可进行下一步实验。
(2) Q-PCR方法对文库的有效浓度进行准确定量( 文库有效浓度>2nM),完成库检。
桥式PCR扩增
把文库种到芯片上去,然后扩增,文库两头的DNA序列与芯片上的引物互补,互补杂交杂交完后,加入dNTP和聚合酶,合成双链,加入NaOH碱溶液,双链解开,加入中性液体,环境变成中性。
上机测序完成之后得到的 测序数据:FASTQ文件
FASTQ数据格式
fastq数据:高通量测序(如Illumina NovaSeq等测序平台)得到的原始图像数据文件,经碱基识别(Base Calling)分析转化为原始测序序列(Sequenced Reads),我们称之为Raw Data或Raw Reads,结果以FASTQ(简称为fq)文件格式存储。
FASTQ格式文件中每个Read由四行描述
• 第一行以“@”开头,随后为Illumina测序识别(Sequence Identifiers)和描述文字(选择性部分);
• 第二行是碱基序列;
• 第三行以“ ”开头,随后为Illumina测序识别符(选择性部分);
• 第四行是对应序列的测序质量的ASCII码。