对基因组相关研究而言,单倍型基因组组装是研究结构,进化与变异的最理想方式。随着长读长测序技术的进步,高质量单倍型组装已经成为了可能。然而,大部分组装算法的结果仍是混合多个单倍型的压缩序列,而不是完整的单倍型。对二倍体基因组而言,这种做法不可避免的损失了至少一半的单倍型信息。目前有一些组装算法对此进行了尝试,但是这类算法要么依赖难以获取的亲本信息进行分型 (trio-binning),要么无法生成高质量的单倍型组装结果。因此,如何在不依赖亲本信息的情况下,自动进行高质量的单倍型组装,是一个亟待解决的问题。
2022年3月24日,哈佛大学医学院/Dana-Farber癌症研究所李恒课题组(第一作者为程昊宇博士)在Nature Biotechnology杂志发表论文 Haplotype-resolved assembly of diploid genomes without parental data【1】。该研究提出一种全新的基因组组装算法hifiasm (Hi-C),能够在不依赖亲本的情况下简单高效的生成高质量的单倍型组装结果。通过和Vertebrate Genomes Project (脊椎动物基因组计划) 研究者的合作,李恒课题组证明了hifiasm (Hi-C) 能够广泛的在人类和各种不同的非人物种上取得良好的结果。
Hifiasm (Hi-C) 针对PacBio HiFi (High-Fidelity) 长读长测序技术和Hi-C (High-Throughput Chromatin Confirmation Capture) 测序技术进行了全新的设计。该算法结合了HiFi数据中精确的局部单倍型信息和Hi-C数据中的长距离互作用信息以达到全局定相 (phasing),从而获得不依赖亲本信息的染色体级别的单倍型组装结果。为了进一步提高组装质量,作者充分利用了组装图中的结构信息,以及其前期研究中的Graph-binning等策略【2】。实验结果表明,hifiasm (Hi-C) 在各种不同物种和不同复杂程度的基因组上,均显著优于现有的组装算法 (表1)。
表1. Hifiasm (Hi-C)与其他组装算法在人类基因组HG002上的结果
同时,hifiasm (Hi-C) 也为基于组装的复杂结构变异检测设计了专门的模块。目前已有大量研究表明,高质量的单倍型组装序列在基因组复杂区域上的结构变异和疾病相关的基因检测中,有着无可比拟的优势【3,4】。Hifiasm (Hi-C) 支持一种无需Hi-C数据的dual组装模式,能够在只有HiFi数据的基础上,生成高质量的连续的组装结果。尽管dual组装模式只能保证局部定相的正确,但其在复杂结构变异检测上和传统的全局单倍型组装有着几乎相同的优势。作者通过实验证明。hifiasm (Hi-C) 的dual组装模式和传统的全局单倍型组装均能有效的解析与Williams–Beuren综合征相关的致病基因GTF2IRD2,而基于序列比对 (read mapping) 的方法无法解决(图1)。
图1. 不同策略在复杂致病基因GTF2IRD2检测中的结果
由于hifiasm (Hi-C) 算法的能够在生成高质量的单倍型组装结果的同时达到计算高效性和易用性,其已经在诸如Human Pangenome Project (人类泛基因组计划) 和Vertebrate Genomes Project (脊椎动物基因组计划) 等大规模测序计划中被广泛测试和使用。作者同时期望在不久的将来,hifiasm (Hi-C) 也能够在与临床相关的个性化基因组研究和应用中被普遍使用。
原文链接:
https://www.nature.com/articles/s41587-022-01261-x
制版人:十一 来源:Bioart
参考文献
[1. Cheng H, Jarvis ED, Fedrigo O, Koepfli KP, Urban L, Gemmell NJ, Li H. Haplotype-resolved assembly of diploid genomes without parental data. Nat Biotechnol. 2022.
2. Cheng H, Concepcion GT, Feng X, Zhang H, Li H. Haplotype-resolved de novo assembly using phased assembly graphs with hifiasm. Nat Methods. 2021.
3. Wagner J, Olson ND, Harris L, McDaniel J, Cheng H, Fungtammasan A, et al. Curated variation benchmarks for challenging medically relevant autosomal genes. Nat Biotechnol. 2022.
4. Noyes MD, Harvey WT, Porubsky D, Sulovari A, Li R, Rose NR, et al. Familial long-read sequencing increases yield of de novo mutations. Am J Hum Genet. 2022.