基因表达调控概述

2022-10-25 20:00:36 浏览数 (2)

一、什么是基因表达调控?

生物体不同细胞内一般情况下具有相同的 DNA 序列,但是最终会分化为不同的细胞。例如人体内不同的组织细胞具有相同的 DNA 序列,但是分化为不同的细胞,例如血细胞,神经细胞,肌细胞等。这些都是由于基因表达调控的差别。

一棵植物有一粒种子开始,开始发芽生长,开花结果,整个生命过程发生了重大的变化,这些也是以为基因表达调控的不同。

因此基因表达调控在生命过程中扮演着非常重要的作用,如果说 DNA 是一部天书,那么 RNA 就是这部天书动态演绎出来的电影。

我们都知道中心法则,由 DNA 转录出 mRNA,RNA 翻译成氨基酸,基因表达调控研究是对“中心法则”的一个拓展。目前基因表达和调控已经是两个方向研究的,基因表达主要研究 mRNA 表达的差异,而调控则更加复杂,研究影响 mRNA表达差异的各种其他因素。

二、基因表达调控发展历史

其实在很早之前,研究人员就开始研究基因表达调控了。只不过受限于当时技术条件,无法完整的获取一次转录的全景图。下面我们简单介绍一些基因表达调控的历史。

1、最早的时候是使用杂交的方法,例如通过 Real-Timeq PCR 与 mRNA 模板进行杂交,Real-Time qRT-PCR 通过对经典 PCR 扩增反应中每一个循环产物荧光信号的实时检测,我们可以实现对其实模板的定量分析。通过正确设定引物(primer)和探针(probe),qRT-PCR 技术可以很大范围内定量的检测目标转

录本的拷贝数,即表达水平。因此常被作为转录组分析中的金标准(GoldStandard)。目前新冠病毒检测也采用该方法。

但是我们也看到,通过杂交的方法,一次只能测定一个转录本的表达水平,同时也需要知道待检测转录本的序列,所以,该技术难以用来发现未知的转录本。

2、后来有了 EST 测序的方法,EST 全称是 expressed sequence tags 表达序列标签,是指从不同组织来源的 cDNA 序列,通过对一个随机选择的 cDNA 克隆进行单次测序来获得 cDNA 的部分序列,只要测序到一个基因的一个 EST 片段,就能证明这个基因有表达,EST 是基于测序的,并不需要事先知道待检测转录本的序列。可以被用来发现新的转录本。早在 1991 年,当时还在 NIH 的CraigVenter 等就开始利用 EST 来寻找人类的新基因。然而,由于当时测序技术通量的限制,一次 EST 通常只能得到几千个转录本的序列,远远无法进行全转录本水平的定量,只能用来定性。

3、1995 年有人提出了基因表达的连续分析技术(Serial Analysis of Gene Expression,SAGE),能同时对上千个转录物进行研究。

SAGE 技术的主要依据有两个。第一,一个 9~10 碱基的短核苷酸序列标签包含有足够的信息,足以特异性地确定某一种转录本。例如,一个 9 碱基的序列能有四的 9 次方,即 262144 种不同的排列组合,而人类基因组估计仅能编码80000 种转录本,所以理论上每一个 9 碱基标签能够代表一种转录本的特征序列。第二,如果将短片段标签相互连接、集中形成长的 DNA 分子,则对该克隆进行测序将得到大量连续的单个标签,并能以连续的数据形式输入计算机中进行处理,这样就可以对数以千计的 mRNA 转录本进行分析,这个与 DGE 测序有些类似。

4、后来有了芯片技术,Microarray,在高通量测序之前是主要的大规模转录本表达分析技术。微阵列(microarray),也称基因芯片(genechip),通过将几十万个不等的探针(probe)分子固定在约 1 厘米见方的固体片基上制成的。利用核苷酸分子在形成双链时碱基互补配对原理,microarray 可以一次性检测出样本中所有与探针互补的核苷酸片段,从而快速得到样本中基因的表达谱(expression profile),因此,microarray 从上世纪 90 年代问世以来,在生物,医学,农学等领域快速获得了广泛应用。相比对杂交技术,EST 测序和sage 技术,芯片技术有了明显的提升,一次可以检测到更多的基因,而且芯片价格便宜,现在依然有很广泛的应用。但是,我们看到,芯片有一个天然的缺陷,就是芯片只能检测已知物种的转录表达情况,无法检测芯片中不包含的序列,并且不容易定量。

5、后来又有了 DGE 测序技术,数字基因表达谱,Digital Gene Expression Profiling,DGE 利用新一代高通量测序技术和高性能计算分析技术,能够全

面、经济、快速地检测某一物种特定组织在特定状态下的基因表达情况。数字基因表达谱已被广泛应用于基础科学研究、医学研究和药物研发等领域。不过DGE 也是通过捕获转录本固定的标签来进行测序的,但是原核生物基因不具备这个固定的标签,所以 DGE 测序只能用于真核生物,还是具有一定得限制。

我们看到,以上种种技术每一种都存在一定的缺陷,主要有四个方面,

第一:需要依赖已知参考序列,如果没有已知参考序列,就无法捕获;

第二:通量低,一次不能捕获全部转录情况;

第三:只能定性,不能定量,只能确定有无,不能确定多少。也就是只能看一个基因是否表达了,而不能知道具体表达的高和低;

第四:不适用于所有物种;

6、随着高通量测序的来临,从 2007 年开始,逐渐发展出了 RNAseq。RNAseq 一次测序,就能够捕获到细胞一次转录的所有情况,包括各种含量较低的非编码RNA,并且不需要已知的基因序列。由于是高通量测序,因此非常适合用来定量研究。比如,一次转录过程中,两个基因表达差异在 500 倍,如果不是高通量测序,那么低丰度表达的部分可能就捕获不到了。RNAseq 测序技术是当前做基因表达研究最佳的技术方法。

7、单细胞转录组,RNAseq 虽然有众多的有点,但是由于对多细胞进行测序,取平均值的方法(简称 bulk RNAseq),这样就会忽略单个细胞的表达情况,而很多情况下不同细胞之间表达差别会很大,例如从肿瘤组织取样,这些细胞中既包含肿瘤细胞也包含正常细胞,这样“平均”下来就可能平均掉肿瘤细胞真实的表达情况,于是从 2009 开启了单细胞转录组研究。单细胞转录组可以精确到单个细胞的表达情况,具有更好的分辨率。

8、由于基因表达有时空特异性,取样测序会丢失掉样品的空间信息,于是又发展出了空间转录组,空间转录组(Spatial Transcriptomics)是测量完整组织切片的总 mRNA,将总 mRNA 的空间信息与形态学内容相结合,并绘制所有基因表达发生的位置,获得生物过程复杂而完整的基因表达图谱。在确定不同细胞群的同时保留空间位置,为细胞功能、表型和组织微环境中位置的关系提供了重要信息。可揭示精细生理区域中激活的信号通路,完成分子特征驱动生物特征的机制解析。

三、为什么要做基因表达调控研究?

要想了解为什么要研究基因表达调控研究,首先要了解 DNA 研究与 RNA 研究的不同。

第一:DNA 研究主要是基因组结构和功能一比较基因组,例如获取一个物种的全基因组序列,基因组上包含那些功能区域,多少基因,多少非编码 RNA,多少重复序列等,以及不同样品基因组上有哪些结构突变。这些都属于“静态”的过程,因为基因组上的任何特征并不一定最终就能反应到表型上,例如包含某个基因组,包含某个突变不一定就代表着一定发生。举个简单的案例,某人具有很高的绘画天赋,但是不学无术,毫无作为,最终一事无成也是毫无价值。再举一个案例,DNA 只是有作案能力和动机,但是一直没有“作案”,也不能对其定罪。

即使 DNA 上的功能区域或者突变发生了作用,也需要通过基因表达调控研究具体的执行过程,弄清楚整个“作案”过程,包括动机手段。

了解基因表达调控的整个过程,就可以更好的了解整个生命过程。例如在药物研究中,药物条件刺激肿瘤增强或者抑制表达,阻止肿瘤细胞的生长;

在农业生产中,改变基因表达,提高产量,培育更有价值的农产品等;

第二:与 DNA 相比,基因表达具有很强的时空特异性,有些研究只与基因表达调控相关。例如细胞分化的研究,具有相同基因组的细胞如何分化为不同的细胞类型;例如药物试验研究,比较吃药前后基因表达的差别,该过程不涉及基因组的变化,只有表达的差异;

第三:与测序 DNA 相比,表达调控更加经济快速,DNA 测序需要非常大的数据量,成本较高,例如人基因组有超过 3G 大小,测序数据量最少要 30G,而对整个转录组进行测序,也只需要 6G 数据足够,如果只测序目标基因,成本就更低了。

第四:表达调控更加复杂,从 DNA 开始转录到最终表型,这中间要经历一份复杂的过程,因此可以阐述的内容更多,也更复杂。

四、DNA 测序还是 RNA 测序?

那么自己的研究到底应该做 DNA 测序还是 RNA 测序呢?主要从以下几个方面考虑:

第一:DNA 测序是基础,有全基因组序列才可以更好的开展 RNA 测序的研究;

第二:根据研究目的,如果要做基因组结构,功能,突变检测,物种分类鉴定等,则 DNA 测序较好;而表达差异,可变剪切,基因融合则需要通过 RNA 测序;

第三:根据经费情况,一般数据量越大,费用越大,DNA 全基因组测序需要更高的费用,而表达基因只占基因组很小的区域,不需要测序较大的数据量,费用更低;

第四:DNA 全基因组分析往往需要拼接基因组难度更大,RNAseq 测序找差异表达,难度更小。

五、当前基因表达研究的局限性

5.1 参考序列的影响?

基因表达一般都需要参考序列,虽然 rnaseq 也可以通过拼接基因的方式,但这种方式分析有很大的局限性,因此参考序列的有无、参考序列的质量以及与参考序列的亲缘关系远近直接影响到最终的分析结果好坏。

例如很多 RNAseq 由于物种还没有进行全基因组测序,因此,很多分析无法完成。人基因组有多个版本,选择不同的版本对最终结果也有所差异。

5.2 基因表达受取样影响较大?

基因表达调控具有时空特异性,是基因组表达的一个瞬时“快照”,不同的取样时间,取样地点都会直接影响到最终结果。

5.3 实验条件的影响?

1、相比于 DNA,RNA 更容易降解,对建库测序有很大的影响;

2、目前 RNAseq 序列捕获主要有根据 polyA 尾巴捕获和消化 rRNA 两种方法,但是两种都有一定的缺陷项,前者会遗漏掉不具有 polyA 尾巴的表达序列,后者无法全部消除核糖体 RNA 的影响,而且由于原核生物不具有 polyA 尾巴,只能使用消化核糖体的方法富集 mRNA。

5.4 不同测序平台的影响?

不同的测序技术也会带来直接的影响,二代测序成本低数据量大,可以很好的进行差异表达鉴定,但是由于读长短,对于可变剪切的检测能力不足;三代测序读长长,可以很好的处理可变剪切问题,但是测序量不足,对于差异表达,只能定性不能定量。

写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。

代码语言:javascript复制
bioinfoer.com

有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。

0 人点赞