长读长测序技术有利于基因组组装,但其序列错误率较高。虽然已开发了具有不同视角的各种组装程序,但尚未对具有不同杂合性的二倍体基因组的长读长组装程序进行系统评估。2023年10月,《Briefings in Bioinformatics》发表研究论文,评估了从PacBio长读长和Illumina短读长构建haplotype representation的组装程序,并提出了适合杂合性程度的组装指南。
研究团队使用六个具有不同杂合性水平的基因组,根据计算机资源使用情况(执行时间和内存使用情况)、连续性和完整性来评估组装程序(5个长读长组装程序Canu、Flye、miniasm、NextDenovo、Redbean和5个长短读长混合组装程序HASLR、MaSuRCA、Platanus-allee、SPAdes、WENGAN),并根据杂合性程度提出了构建haplotype representation的实用指导原则。
输入数据集概要
具有不同杂合性水平基因组的实用组装指南
首先,为了了解样本的特性,如基因组大小,使用GenomeScope等工具评估杂合性和重复率。对于从头组装流程的评估,建议只使用组装后的polished contigs。
对于任何杂合性的基因组,首先推荐的组装程序是Redbean,这是一个轻量级工具,无论杂合性如何,它在连续性和BUSCO完整性方面都具有稳定的性能。当使用其他额外的组装程序时,Redbean可以提供计算资源使用、连续性和BUSCO完整性的粗略指示。
对于杂合度<1的基因组,Flye可以用作第二个试验组装器,因为当杂合度<1时,它是一个中等量级的工具,在连续性和BUSCO完整性方面都被归类为“高”。如果内存和执行时间比Flye的使用率更多,则应该使用MaSuRCA_C,因为当杂合度<1时,MaSuRCA_C是一个重量级工具,在连续性和BUSCO完整性方面都被归类为“高”。
基因组的杂合性≥1,MaSuRCA_C应该作为第二个试验组装器的备选方案,因为它是一个重量级的工具,在连续性和BUSCO完整性方面都被归类为“高”,并且在任何杂合性的基因组中都具有稳定的性能。如果MaSuRCA_C不成功或终止执行时间太长,即使对于杂合性≥1的基因组,也最好使用Flye作为中等量级的工具。Flye在连续性和BUSCO完备性方面都不如MaSuRCA_C,但在计算资源较MaSuRCA_C更少的情况下提供了更稳定的结果。如果使用两个或两个以上的组装程序,则必须比较它们的连续性和BUSCO完整性。
最后,使用诸如Purge Haplotigs之类的工具来去除haploid duplication。这一过程对于杂合性较高的基因组来说更为重要。清除后,需要对结果进行验证,并需要手动处理。
对从头组装器的综合评估:A. 连续性和BUSCO完整性(杂合度<1)B. 连续性和BUSCO完整性(杂合度≥1)C. 计算资源使用情况
最佳组合受杂合度、重复率、基因组大小以及研究目的的影响。因此,上述指南旨在帮助用户选择并进一步修改最佳方法,以适应其基因组特征和研究目的。
//
建议对技术细节感兴趣的小伙伴请参考文献原文~
对于文献整理过程中有翻译不当或错误也欢迎大家在评论区留言指出,互相交流学习!
参考文献
Takako Mochizuki, Mika Sakamoto, Yasuhiro Tanizawa, Takuro Nakayama, Goro Tanifuji, Ryoma Kamikawa, Yasukazu Nakamura, A practical assembly guideline for genomes with various levels of heterozygosity, Briefings in Bioinformatics, Volume 24, Issue 6, November 2023, bbad337, https://doi.org/10.1093/bib/bbad337