quast评估

2022-05-23 11:32:43 浏览数 (2)

背景

不同软件拼接的基因组序列,或者同一软件,不同选项参数拼接的结果进行比较,我们要从中挑选出最好的拼接结果。这时候要借助不同的软件。

一、组装结果评估

1、准确性

基因组大小接近真实大小,拼出来的一般小于真实大小;

GC含量接近真实GC含量,一个物种含量固定,可以判断污染;

基因组框架没有问题;

单碱基准确性,首先保证框架不错,单碱基位点可以纠错。

2、完整性

拼接序列条数接近染色体数据;

片段长度长;

N50,N90长;

基因完整性高;

一般是互斥的,准确性高完整性低,准确性低完整性高。

1、首先保证准确性;

2、在保证准确性前提下,追求完整性。

二、N50与N90

N50:N50是基因组拼接之后一个评价指标,将拼接得到的所有的序列,根据序列大小从大到小进行排序,然后逐步开始累加,当加和长度超过总长一半时,加入的序列长度即为N50长度。N50越长,拼接得到的更长的序列越多,类似的还有N90等

一般软件都有统计的结果可以找下日志。

三、quast评估

今天给大家介绍一款,quast

QUAST: Quality Assessment Tool for Genome Assemblies,可以对不同软件拼接的基因组序列,或者同一软件,不同选项参数拼接的结果进行比较,然后将结果进行可视化,我们可以从中挑选出最好的拼接结果。如果有近源参考序列,加入近源参考序列,可以比较基因组结构连接信息,与参考序列最近源的则为最佳结果。如果没有参考序列,软件会将两两序列进行比较。

软件官网:QUAST:http://bioinf.spbau.ru/quast

代码语言:javascript复制
#quast 评估案例:
quast.py -r MGH78578.fasta spades.fa soapdenovo.fa -o quast

-o --output-dir 输出结果目录。

-r 参考序列文件,不带的话,结果就没有和参考序列比较,只是spade和soapdenovo比较。

-G --genes 参考序列基因坐标,一般 BED 或者 GFF 格式文件,ncbi下载genome即可。

-m --min-contig 最小 contig 长度,也就是小于这个阈值的不参与计算。

-t --threads 使用线程数目,默认使用四分之一的 cpu。

--help 列出全部选项参数,大部分情况下,默认这些选项即可。

结果report.html,可以去浏览器打开。

代码语言:javascript复制
#quast
conda activate quast
quast -o quast -r GCF_000240185.1_ASM24018v2_genomic.fna -t 12 -g GCF_000240185.1_ASM24018v2_genomic.gff soapdenovo.fa spades.fa  --glimmer

写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。

代码语言:javascript复制
bioinfoer.com

有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。

0 人点赞