序列比对和序列特征分析总目录
定义:
多序列比对是对3条以上(包括3条)DNA,RNA或蛋白序列进行比对。基础仍然是双序列比对。
具体就是对多条序列插入空位,是的插入空位后的全局比对结果有相同的长度,并且结果中不能出现一列全部是空位(也就是每条序列的同一个位置都没用字母)。
目的:
是发现 多条序列的共性,通常是为了发现构成同一基因家族的成组序列之间的共性,而发现这些共性对研究分子结构,功能及进化关系都有着非常重要的作用,有助于阐明一组相关序列的重要生物学模式。
应用:
- 1 获得多条序列之间的共性序列:多序列比对得到的所有序列距离最近的序列成这些序列的共性序列(consensus sequence),理论上最为接近实际。这些序列可以用来数据库搜索,芯片探针设计等。
- 序列测序: 不同的测序机构测出的DNA 或蛋白质组序列在某些碱基或氨基酸上可能会有差异,而对这些测序的结果进行全局比对可以发现这些差异之处。对包含重叠区的多个测序序列进行局部比对可以发现这些重叠区,进而进行序列拼装。
- 突变分析:同种不同个体的基因组存在基因突变,最常见的是单核苷酸多态性分析。可以用来分析同一种系不同个体基因组中单个核苷酸的变异,包括置换,缺失和插入。多序列比对可以对其进行鉴定。
- 种系分析 多序列比对可以根据某个基因或基因组序列的差异判断物种之间的种系关系,是构造物种树的第一步。
- 保守区段分析:进化过程中的有的基因对生物功能的维持非常重要,那这些基因趋向保守,在任何基因组中都有大量不同的在选择压力下保持进化稳定的保守区段。 首先,编码重要功能的蛋白质高度保守,尤其外显子部分 其次,基因调节unit,比如启动子和增强子 另外,发现很多非编码RNA也很保守 而多序列比对可以找出这些保守区段。
- 发现新基因和蛋白质 更多基因和蛋白测序后,与功能已知的同源gene和蛋白质进行多序列比对推断新基因和蛋白的功能
- RNA和蛋白质结构分析 通过多序列比对考察种系相近的RNA和蛋白质家族,通过结构已知的RNA和蛋白质推断未知的。 注意:核苷酸序列和氨基酸序列的进化速度跨域RNA和蛋白质结构的进化。就会发生序列不一样,但结构仍然相似的情况。
- 基因组结构分析 多序列比对可以用于整个基因组,进行基因组结构分析,,最典型的是UCSC基因组浏览器和Ensebl基因组浏览器
- 可以发现与结构域或功能相关的保守序列片段
- 可以发现蛋白质序列之间的系统发育关系,更好理解这些蛋白质之间的进化关系