一、不同平台 RNAseq 研究的比较
在前面介绍过不同测序平台的优势,目前市场上主流测序平台主要包括短读长测序的 illumina 测序平台,华大基因的 MGI 测序平台,长度长测序的 Pacbio 测序以及牛津纳米孔 nanopore 测序。在 ncbi 的 sra 数据库中,目前超过 95%的的数据均来自于 illumina 测序,这一方面是由于 illumina 发布较早,从 2007 年就开始,另一方面是由于短读长测序价格更低,更适合定量研究。目前基因表达差异分析主要还是应用短读长测序。
长读长测序在可变剪切,基因融合,RNA 甲基化等方面有这绝对的优势。
二、短读长测序平台用于差异基因分析
短读长测序平台主要是 illumina 与华大基因 MGI 测序平台。由于 mRNA 片段化和基于 beads 的文库纯化过程中偏好 150-200 bp 的片段,导致这个方案最后获得的 cDNA 片段都在 200 bp 以下。
短读长的测序平台优势是价格便宜,测序数据量大,每个样本平均测 20-30 million reads,对每个基因或转录本进行定量,再统计分析差异基因。可以测序到很多低表达丰度的基因。目前单细胞测序由于数据量大,也主要采用短读长测序。
但是缺点也非常明显,在样本准备和计算分析阶段有一些步骤也会引入偏好性。例如 GC 偏向性的影响,PCR 扩增偏向性等,都会带来偏向性。
同时,由于读长短,无法正确地识别和定量一个基因的多个转录异构体。这一局限与研究特别长或特别多变的转录异构体尤其相关。如人的转录组中,50%的转录本长度大于 2500 bp,转录本长度范围在 186 bp 到 109 kb。
三、pacbio 全长转录组测序
尽管 Illumina 是目前主流的 RNA-seq 平台,但 Pacific Biosciences(PacBio)和 Oxford Nanopore(ONT)能在完整的 RNA 分子反转录为 cDNA 后
进行单分子长读长测序。
全长转录组(Iso-Seq)是指利用三代单分子实时测序技术(SMRT),无需对RNA 进行打断和拼接,即可直接获得完整的全长转录本。由于该方法可以获得全长转录本,因此与二代短序列测序技术的 RNA-seq 对比,侧重于转录本结构的分析,能够准确识别转录本同源异构体(isoform)、可变剪切、可变polyA、融合基因、等位基因等,因此在转录本结构分析方面具有无可比拟的优势。今天我们就来探讨全长转录组在分析可变 polyA 方面的优势。
目前全长转录组主要应用在以下三个方面:
1、可变 polyA 检测
三代长读长技术的 Iso-Seq 技术,由于利用 OligodT 引物合成 cDNA,poly(A)会出现在测序结果中,并且可以得到从 5’到 3’的完整全长转录本,因此可以直接准确检测到 APA,在分析可变多聚腺苷酸化位点方面具有非常大的优势。
APA 的四种类型
2、可变剪切分析
基于单分子实时测序技术(SMRT)的三代全长转录组,具有读长超长的优势,可以直接获取 mRNA 全长,因此可轻松判断 TSS 和 TTS 的位置、剪接位点的位置,轻松获取各个 spliced isoforms 的全长序列,在可变剪切研究方面具有独特的优势。
可变剪切类型
注:ES:外显子跳跃、A3SS:3’端可变剪切、A5SS:5’端可变剪切、MEX:外显子选择性跳跃,IR:内含子保留
3、融合基因检测
三代全长转录组技术无需对 RNA 进行打断拼接,可以直接获得融合基因全长,轻松判断融合位点,在融合基因分析方面的优势非常突出。
三代测序检测到的融合基因示意图
不过,由于 pacbio 测序数据量第,目前 Iso-seq 只能用于定性研究,还不适合用于大规模定量研究。
4、Oxford Nanopore 转录组测序
Oxford Nanopore 可以用于转录组测序,目前 ONT 对于转录组测序提供三种方案,分别是直接 RNA 测序(Direct RNA),全长 cDNA(Direct cDNA)以及 扩增 cDNA(PCR-cDNA)三种方案。Dircet RNA 和 Direct cDNA 都可以得到全长转录本信息。而 Direct RNA 无需反转录可以直接对 RNA 进行测序,可以用于 RNA甲基化的检测。
写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。
代码语言:javascript复制bioinfoer.com
有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。