全局比对

2022-10-25 19:03:55 浏览数 (3)

一、全局比对

全局比对是用来衡量两条序列整体的相似性,满足整体相似性最大化。若两条序列长度不同,则必须插入一些空位使所有位点都能对应起来。而局部比对则不同,两条亲缘关系较远的DNA 或氨基酸可能只在一些片段上相似,这就需要找到这些相似性的片段,和其相应的匹配方式。通常这样的分析就需要进行局部比对,而不是全局比对。

全局比对与局部比对有什么不同呢。全局序列比对尝试找到两个完整的序列之间的最佳比对。而局部序列比对不必对两个完整的序列进行比对;可以在每个序列中使用某些部分来获得最大得分。两种比对采取不同的比对算法和策略,因此,同样的一段序列,采用全局比对和局部比对不同的比对方法结果也会有很大的不同。

例如我们现在有两条序列 S1 和 S2,如果采用全局比对,会得到这种比对效果,而采用局部比对,序列中间的 GCG 满足了最优比对。大家可以理解为,全局比对需要从全局出发,是需要全局达到最佳效果,而局部比对则不需要考虑全局,只要局部达到最佳效果即可。

全局比对主要用来比较比较两个基因组之间的同源性,绘制共线性图等,另外,全局比对也常常用于基因组结构变异的检测。因为,局部比对的话,遇到大的空位往往就断开了,例如上面的例子,采用局部比对的算法中,只追求局部的最优比对,而不会考虑整体的空位等。所以,基因组的大片段的插入或者缺失检测,可以使用全局比对软件。而局部比对软件主要搜索同源序列,例如判断那两个基因是否同源,寻找一段序列的同源序列等,就可以使用局部比对。

二、mummer 比对

2.1 软件介绍

MUMmer 是 TRIG 在 1999 年开发的,经历了多个版本的更新,现在最新的版本是 3.0,Mummer 的一个最大特点就是比对速度非常快,对资源的消耗比较少,官方的给出的数据是两个 5M 左右的基因组,只用 20 秒左右的时间就可以比对完成,消耗的内存大约是 90M,它是使用一种后缀树的算法。适合台式机水平的计算机来做大型基因组之间的比对。那么在实际使用过程中,Mummer 确实比对的比较快,对资源消耗也比较小。

Mummer 官网介绍该软件是一个多才多艺的软件包,因为它可以完成生物数据分析中很多的功能。Mummer 其实是一个软件包,里面包含了很多工具,这些工具搭配起来使用,可以完成非常多的工作。例如基因组比对,共线性分析,同源序列搜索,重复序列查找,SNP和 Indel 检测等。

官网:http://mummer.sourceforge.net/

案例:http://mummer.sourceforge.net/examples/

手册:http://mummer.sourceforge.net/manual/

2.2 软件使用:

mumer 这个软件不常用,而使用最多的是 nucmer 这个程序,根据命名我们可以看出,(NUCleotide MUMmer) ,是在核酸水平进行比对的工具,其实 nucmer 是一个 perl 脚本,它是调用了 mummer 程序,首先找到两条序列之间准确匹配区域,然后进行延伸,在使用mgaps 进行 cluter 程序,最终保留那些满足设定阈值的比对结果。找出全局比对的同源序列。

首先介绍一下软件包中的mummer软件,mummer的名字来源于Maximal Unique Matcher ,最大唯一性比对。mummer 这个程序主要是找到参考序列和 query 序列之间准确匹配的区域。query 最大可以有 32 个。mummer 是不容错配的,适合用来画共线性图,但是我们通常的比对都是必须容许一定的错配和 gap 的,mummer 比对完了之后可以使用 mummerplot这个程序绘制出共线性图。

代码语言:javascript复制
#nucmer比对
nucmer --mum --maxgap=500 --mincluster=100 --prefix=nucmer ../data/ref.fna ../data/mgh78578.fasta
delta-filter -1 -q -r nucmer.delta > nucmer.filter

#显示比对结果
grep ">" nucmer.delta
show-aligns nucmer.filter NC_016846.1 contig_1_pilon

#显示差别
show-diff nucmer.filter -q
show-diff nucmer.filter -r

#显示突变位点
show-snps -C -H -I -T -r -l nucmer.filter >nucmer.snp

#显示坐标
show-coords nucmer.filter -r >nucmer.coords

#show-tiling 轨迹
cp ../../05.assembly/35.illumina/4.soapdenovo/kmer45/kmer45.scafSeq .
nucmer --mum --maxgap=500 --mincluster=100 --prefix=kmer45 ../data/ref.fna kmer45.scafSeq
delta-filter -1 -q -r kmer45.delta > kmer45.filter
show-tiling kmer45.filter -a
show-tiling  kmer45.filter -l 10000 >kmer45.tiling

#mummerplot绘图
mummerplot -p p1 nucmer.filter --png 
mummerplot -p p2 nucmer.filter --png --medium
mummerplot -p kmer45 kmer45.tiling --png --medium

#promer比对
promer --mum --maxgap=500 --mincluster=100 --prefix=promer ../data/ref.fna ../data/mgh78578.fasta

#dnadiff比对
dnadiff ../data/ref.fna ../data/mgh78578.fasta

写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。原地址暂未启用(bioinfoer.com)。

代码语言:javascript复制
sx.voiceclouds.cn

有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。

0 人点赞