一、RNAseq简介
1.1 RNAseq 定义
转录组,也叫做 RNAseq,是指特定类型细胞中全体转录本的集合。在转录组中,既包括编码蛋白的信使 RNA(mRNA),也包括不编码蛋白的 rRNA,tRNA,小RNA,lncRNA 等非编码 RNA。这些 RNA 转录本彼此协同作用,共同来调控细胞的生长,发育,凋亡等一系列重要的生理过程。对于转录本的研究通常包括定性和定量两个方面。
转录组是细胞特定时刻基因表达谱的一个快照,它其实是一个动态的过程,DNA是静态的过程,我们测序只是捕获某一状态下的情况。对于转录组的测序就称为 RNAseq。
1.2 mRNAseq
我们目前的 RNAseq 测序主要就是研究转录出来的 mRNA。关于转录我们都了解中心法则,中心法则的主要内容是,DNA 转录成信使 RNA,然后以这个 mRNA 作为模板,翻译成氨基酸,mRNA 也能反转录成 cDNA。
通过高通量测序,我们验证了中心法则是正确的。但细胞内真实的转录情况要比这个复杂的多。也就是一次转录过程,除了有信使 RNA,核糖体 RNA,转运RNA 之外,还有很多其他的 RNA。种类远远不止 mRNA,tRNA 和 rRNA。我们把mRNA 称为 coding RNA,编码 RNA,也就是和最终的氨基酸相关,而其余所有转录出来的 RNA 都称为 ncRNA,就是非编码 RNA。这就拓宽了我们之前的认识,这么多非编码 RNA,很多都是基因组上非基因组转录出来的。
1.3 非编码 RNAseq
当前转录组研究包括,mRNA,长链非编码RNA,小RNA,环状RNA 等。
一次转录过程中,不同 RNA 含量(https://www.frontiersin.org/arti ... ene.2015.00002/full)
上表中列出了细胞一次转录过程中,各种 RNA 的含量。每一次转录过程中各种 RNA 的比例也是不同的,因为转录是一个动态的过程,这里列出了各种 RNA 含量的大致分布,核糖体 rRNA 占据了 80%以上,tRNA 占了 14%——15%左右,而 mRNA 占据 4-5%,其余其他的RNA 占了不到 1%。而原核生物与之类似,rRNA 占据 80%左右,tRNA 占据 15 左右,而 mRNA和其余各种非编码 RNA 占据约 5%。
所以,我们看到在一次转录过程中,rRNA 和 tRNA 就占据了 95%左右,占据了很大的比重,而 mRNA 只占据不到 5%。在 RNAseq 测序中,我们需要的恰恰就是这 5%的区域。
除了传统的 mRNAseq 测序,目前又逐渐开发除了其他非编码 RNA 的测序,包括长链非编码RNA(LncRNA) 测序,小 RNA (Small RNA),环状 RNA(circRNA)以及全转录组测序,单细胞转录组测序,转录调控因子测序,蛋白质组学测序,代谢组学测序等。
二、RNAseq 研究 10 年
地址:https://www.nature.com/articles/s41576-019-0150-2
三、分析内容
3.1 差异表达基因
差异表达基因(DGE, differential gene expression)是通过比较处理组与对照组之间相同基因在不同条件下的表达情况。差异表达基因 DGE 是目前 RNAseq的主要分析内容。
3.2 差异表达基因注释
得到差异表达基因之后,将差异表达基因集进行功能注释以及富集,例如 GO 功能注释,KEGG 功能注释等。
3.3 可变剪切
可变剪切是指 mRNA 前体通过不同的剪接方式产生不同的 mRNA 剪接异构体,从而使一个基因产生多个不同的 mRNA 转录本,进而能够翻译成多种不同的蛋白。可变剪切是调节基因表达和产生蛋白质多样性的重要原因,是真核生物转录组复杂性和多样性的重要原因。
可变剪切的发生是通过剪接体(spliceosome)识别 mRNA 前体中内含子与外显子连接边界的剪接位点,通常是保守的二碱基序列 GT-AG。一个 mRNA 前体通常含有多个剪接位点,从而产生多条可变剪切异构体,编码多个具有不同功能的蛋白。
根据剪接位点位置的不同,可变剪切可以分为以下 5 种类型:
可变剪切示意图
ES:外显子跳跃
A3SS:3’端可变剪切
A5SS:5’端可变剪切
MEX:外显子选择性跳跃
IR:内含子保留
还有一些软件将可变剪切事件分为 7 种类型,加上可变的起始或末端外显子(Alternative first/last exon),这两种形式更有可能是可变启动子、可变polyA 位点形成的。
3.4 新转录本识别
新转录本是相对于原有的转录本来说的, 原有的转录本就是参考序列中列出的已知的转录本,也就是我们下载参考序列的 GTF 或者 BED 文件,这些文件中存储了转录本的信息。与这些已有的信息相比,GTF 中不包含的转录本就是新转录本。那么为什么会有新转录本呢。主要有以下几个原因。
第一,是原有的基因预测不准确,在对全基因组 DNA 进行基因预测的时候有误差,比如一些区域被当成了非转录取,而在进行 RNAseq 的时候,发现这些区域可以转录出来,就形成了新的转录本;
还有可能是因为可变剪切的原因。比如一个基因中包含 10 个外显子,那么这么多的外显子可以组合成非常多的形式,但是并不是每一种组合都能够真实转录出来。所以,参考序列的 GTF 中并不能包含所有的外显子组合。而在一些特殊状态下,比如发生了肿瘤的样品中,发生了一些之前没有的可变剪切,就形成了新转录本。
另外,还有一种情况是新发现的一些非基因区转录,这个和基因预测存在误差不同,这些非基因区域本来认为是不转录的,但是事实上却发生了转录,有转录本产生,但是这些转录本并不编码蛋白质,也不属于 rRNA 或者 tRNA 等,比如 lncRNA 就是这种情况。所以,寻找新转录本是 lncRNA 分析的一个基础步骤。
3.5 基因融合
融合基因是指两个或多个基因的编码区首尾相连,置于同一套调控序列(包括启动子、增强子、核糖体结合序列、终止子等)控制之下,构成的嵌合基因。
融合基因是由染色体重排产生的,包括染色体的易位,插入,颠倒,缺失等。
融合基因的产生改变了基因的蛋白编码序列或调控序列,使得基因功能发生变化,对机体的影响较大。
基因融合示意图
3.6 转录因子测序
转录因子(Transcription Factors, TFs)指能够以序列特异性方式结合 DNA 并且调节转录的蛋白质。转录因子通过识别特定的 DNA 序列来控制染色质和转录,以形成指导基因组表达的复杂系统。转录因子的调控决定着基因的调控网络以及表达水平。
综述文章:
https://www.sciencedirect.com/science/article/pii/S0092867418301065
转录因子测序方法
3.7 RNA 甲基化检测
RNA 甲基化属于表观遗传学范畴,表观遗传(Epigenetics)是指在核酸序列不发生改变的情况下,遗传物质出现了可遗传的变化,从而导致可遗传的表型改变。目前,表观遗传学已从一个少有人关注的领域变成如今的研究热点。表观遗传的现象很多,已知的有 DNA 甲基化(DNA methylation)、基因组印记(genomic imprinting)、母体效应(maternal effects)、基因沉默(gene silencing)、核仁显性、休眠转座子激活和 RNA 编辑(RNA editing)等,表明表观遗传学确实在癌症、进化、发育等方向发挥着重要作用。
四、RNAseq分类
根据研究的物种不同,可以分为原核转录组和真核转录组,因为原核生物和真核生物基因结构存在很大的差异,在建库测序以及数据分析上有很大的不同,所以要严格区分。还有就是宏转录组,也就是环境样品的转录组测序,由于里面既混合有真核生物,又有原核生物,病毒等,因此非常复杂。
根据建库测序不同可以分为常规转录组与链特异性转录组,转录的基因可以来自于 DNA 的任何一条链,常规转录组无法确认到底来自于哪一条链,而链特异性转录组就是为了解决这个问题,可以区分转录本来自于哪一条链。
根据有无参考序列,又可以分为有参考序列的 RNAseq 和没有参考序列的RNAseq denovo 分析。
根据测序平台可以分为常规转录组,全长转录组,单细胞转录组等。
根据所需要测序目标的不同,可以分为外显子测序,lncRNA,小RNA 测序等。
4.1 有参与无参转录组
所谓有参 RNAseq,主要是指有参考序列的 RNAseq 分析,如图所示,对于有参RNAseq 不需要对转录本进行拼接,而是将测序数据与参考基因组序列进行短序列比对,所有分析内容基于比对结果进行计算,包括差异表达基因筛选,可变剪切,预测新转录本等分析。
RNAseq denovo 分析中, 需要先进行拼接,拼接出一个基因集,然后将这个基因集来作为参考序列,进行短序列比对,在来计算每个拼接出来的基因的表达量。但是很显然,这个拼接出来基因集并不一定完整,因为并不是一次转录过程中,所有的基因都表达了,另外,拼接出来的基因序列都是成熟的转录本,已经没有内含子的信息了,所以无法用来寻找新转录本,也无法用来鉴定可变剪切事件。而且,也没有具体哪条染色体的信息。所以,无法用来鉴定基因融合事件,因为基因融合是通过不同染色体的外显子组合成转录本的事件,没有参考序列,也就没有了染色体的信息。除此之外,SNP、InDel 等需要与参考序列进行比对的分析也很难完成。因此,对于 RNAseq denovo 的分析方法来说,很多分析都无法完成。
4.2 原核转录组与真核转录组
原核生物一般基因组比较小,小于 10M,也比较简单,重复序列比例较小,因此,容易拼接出完整的基因组,所以,对于原核生物,通常可以找到近源参考序列用于 RNAseq 分析,如果没有也可以进行 DNA 测序,拼接出全基因组,用于RNAseq 分析。
原核生物通常只有 1 条染色体,而且是单倍体,因此,不用考虑杂合位点的问题。遗传信息是连续的,不存在内含子。所以,原核不存在可变剪切的情况。也不会有不同染色体上的外显子重新组合,也就是不存在基因融合的情况。
另外,由于原核生物转录出来的 mRNA 加工成熟之后 3‘端没有 polyA 尾巴,因此,在对 mRNA 进行富集的时候,不能采用磁珠富集的方法,原核生物只能选择去除核糖体的方法来富集 mRNA。
虽然原核生物的 RNAseq 很容易获得已发表的参考序列,但是由于原核生物的特点,例如同一物种之间基因组之间差别很大,比如,基因组大小有很大差别,有的具有质粒,有的没有质粒等,这就给选择参考序列造成了很大问题。
原核生物注释信息较少,无法做go和kegg之类的通路富集。
4.3 bulk 转录组与单细胞转录组
bulk RNAseq 是相对于 Single Cell RNAseq 来说的。Single Cell RNAseq(scRNA-seq)是是一项由汤富酬等人在 2009 年首次发表的新技术。文章发表于 Nature Method,测序了 7 个单细胞,两个卵裂球,两个野生型卵子,两个Dicer 敲除的卵 子,一个 Ago2 敲除的卵子。
传统的 bulk RNAseq 进行转录组测序时,样品采样的是多细胞组织,由于细胞之间存在异质性,例如同一个组织同一时间可能有不同的表达状态。这样常规bulk 转录组检测的是样本中所有细胞的均值,而研究的目标可能至于其中某些细胞相关。例如肿瘤组织,传统 bulk 取样测序的样本中即包含了癌组织也包含了癌旁组织,这样肿瘤组织的特性可能就被“平均”掉了,这个时候就采用单细胞测序可以得到更高的分辨率。
4.4 全长转录组
全长转录组(Iso-Seq)是指利用三代测序技术,无需对 RNA 进行打断和拼接,即可直接获得完整的全长转录本。由于该方法可以获得全长转录本,因此与二代短序列测序技术的 RNA-seq 对比,侧重于转录本结构的分析,能够准确识别转录本同源异构体(isoform)、可变剪切、可变 polyA、融合基因、等位基因等,因此在转录本结构分析方面具有无可比拟的优势。
4.5 链特异性转录组
链特异性转录组测序(strand-specific RNA-seq)是指转录组测序过程中文库构建采用的链特异性建库方式。此建库方式可以保留转录组测序时转录本的方向信息,即可以确定转录本是来源于基因组上面的正义链还是反义链。
写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。
代码语言:javascript复制bioinfoer.com
有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。