背景
在我们生物信息学分析中会涉及到非常多的概念,这些概念对于理解分析非常重要,在阅读文献中也常常会涉及到这些概念,这些概念常常让人迷
惑,但区分这些概念又非常重要。这些概念包括基因、开放阅读框 ORF、mRNA,转录本、外显子、内含子,cds,isoform 等。
一、基因
基因有广义和狭义之分,广义的基因是控制生物体性状的基本单位,正是基因的差异造成了生物世界的千变万化。狭义的基因一般指基因组上完成固定功能的一段区域,随着测序技术的发展,我们对基因概念的了解更加深入,那么现在对于基因这个概念也逐渐改变。以前一般认为编码一段氨基酸的序列则为一个基因,也就是一个基因一个蛋白质,但是这个现在显然是不正确的。因为基因存在可变剪切,不同的外显子组成不同的氨基酸,比如人大概有 4 万多个基因,但是却可以编码 10 万以上的蛋白质序列。这也是同一个细胞能够分化成不同形态的物质基础。而且现在常常将转录出来的非编码蛋白区域也算作基因,甚至包含编码区上下游的调控区域也算作基因里面。
典型基因结构
二、开放阅读框
一个 ORF,它的全称是 open reading fram,开放阅读框。在很多文献中会介绍我们要搜索开放阅读框,所谓开放阅读框 ORF,是指包含起始密码子到终止密码子的一段序列。也就是说并不是 ATCG 四种碱基随意组合就是基因,就具有生物学功能,而是需要具有一定的规律。具有可读性。
开放阅读框
三、mRNA
mRNA 是由转录起始位点开始转录,到转录终止位点截止,转录起始位点位于启动区和 5‘UTR 之间,我们看到转录出来的 mRNA 不是直接就能翻译成氨基酸的,它还包括上下的 5‘和 3’非编码区 UTR,所以我们看到,转录起始位点和翻译起始位点是不一样的。这个 mRNA 还需要经过加工,去掉两侧的 UTR 区域,切掉内含子,不同的外显子可能还会发生可变剪切,真核还要在 3‘端尾部加上一堆 A 碱基,我们称为 PolyA 尾巴。原核没有这个过程,所以,原核的 mRNA不具有 polyA 尾巴,原核与真核的这个差别在后期 mRNA 富集中会用到。
DNA转录mRNA
四、外显子与内含子
外显子(exon)是基因中在 mRNA 剪切后保留的片段,绝大部分的外显子为编码序列。剪切后拼接在一起的外显子序列形成为肽链编码的成熟mRNA。基因组所含的所有外显子的总和又称外显子组(exome)。内含子(intron)为基因中在mRNA 剪切时切除的部分。现知大部分内含子是无功能的,但也有的基因的内含子中含调节序列,或为小核仁RNA,miRNA编码的序列。
外显子和内含子结构
五、转录本
transcript,转录本是由一条基因通过转录形成的一种或多种可供编码蛋白质的成熟的 mRNA。由于可变剪切的存在,一个基因可以转录出多个转录本。
可变剪切产生多个转录本
六、isoform
由于可变剪切的存在,一个基因对应多个转录本,那么这些转录本有相同区域,也有差异,所以,每个转录本我们也称为一个 isoform,一个亚型。
isoform
七、CDS
CDS(Coding sequence)是指成熟 mRNA 中可以被翻译为蛋白质的编码序列区域,自起始密码子开始至终止密码子结束。
cds 序列
八、UTR
UTR(untranslated region)即非翻译区域,位于成熟 mRNA 的 5'端和 3'端,不编码蛋白质,但具有翻译调控功能,并参与调节 mRNA 的稳定性和细胞内定位。(注:成熟 mRNA 上无内含子编码序列)
非翻译区出现在原核生物和真核生物的 mRNA 链上。RNA 病毒中也存在非翻译区。
基因上下游非翻译区
写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。
代码语言:javascript复制bioinfoer.com
有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。