基因组表现出具有片段拷贝数变异的大区域,其中许多包括整个基因并且是多等位基因。2023年10月,《Scientific Reports》发表了一种新的alignment-free计算方法GeneToCN,该方法计算FASTQ文件中基因特异性k-mer的频率,并使用这些信息推断基因的拷贝数。
GeneToCN是什么?
GeneToCN是一种新的alignment-free方法,用于对拷贝变异基因进行目标拷贝数估计。开发团队特别注意在基因区域中选择稳健可靠的k-mers。GeneToCN可以在不需要队列数据的情况下估计单个样本的拷贝数。
GeneToCN方法概述
GeneToCN需要创建一个定制数据库,该数据库由精心挑选的k-mers组成:a) 来自基因区域的 k-mers;b) 来自同一基因侧翼区域的k-mers。为每个基因选择有代表性的k-mers是GeneToCN的关键步骤。在估算每个研究个体的拷贝数时,首先是直接从该个体的原始测序读数中计算所选基因特异性k-mer的频率。每个基因的拷贝数是用基因区域k-mers频率中位数除以侧翼区域k-mers频率中位数,再乘以 2(人类基因组倍性)计算得出的。得出的拷贝数是十进制的,但如果希望/需要用整数拷贝数来解释,可以四舍五入到最接近的整数。
GeneToCN的性能测试
开发团队证明了GeneToCN在淀粉酶基因家族和FCGR3基因上的准确性,以及在其他三个基因区域(NPY4R、SMN和LPA-Kringle IV 2型结构域)上的通用性。
使用来自39个个体ddPCR的实验数据验证了淀粉酶基因(AMY1、AMY2A、AMY2B)的拷贝数预测,并观察到强相关性(R = 0.99)。
GeneToCN和ddPCR的拷贝数估计值之间的相关性
对FCGR3基因的进一步验证表明,与其他两种方法相比,GeneToCN的一致性更高,但准确性降低。同时,开发团队还在三个不同的基因组区域(SMN, NPY4R和LPA Kringle IV-2结构域)上测试了该方法。
使用 GeneToCN估算500人(EstBB)的拷贝数分布
通过比较同一样本中来自Illumina、PacBio和Oxford Nanopore数据的拷贝数预测结果,研究了在不同技术生成的测序数据上使用GeneToCN的可能性。尽管k-mer频率的变异性不同,但所有三种测序技术在使用GeneToCN时都给出了相似的预测结果。
根据Illumina、Oxford Nanopore和PacBio技术生成的测序数据,对AMY1、AMY2A和AMY2B区域中的k-mers频率进行归一化
未来,开发团队计划编译并发布所有拷贝可变或包含感兴趣的较小拷贝可变区的基因的k-mer数据库,为用户提供一个易于访问的工具箱,用于alignment-free拷贝数预测。
GeneToCN基因分析的源代码可和k-mer数据库可从如下链接获取: