影响基因型填充效果的因素有很多,比如填充软件的选择,reference panel的选择,样本个数,SNP的密度或者测序深度等等因素。目前基因型填充的软件有很多种,每个软件各有优劣,如何选择是一个难题。
本篇解读的文献标题如下
从多个方面系统评估了以下几种主流的基因型填充软件的性能,对应的文章链接如下
https://www.karger.com/Article/Pdf/489758
对以下4种主流的基因型填充软件进行了评估
- Begale4.1
- Impute2
- Shapeit2 Impute2
- MACH Minimac3
每个软件对应的网址,功能,适合的平台汇总如下
评估流程如下所示
综合考虑了以下5个因素
- software,选择了4种常用的填充软件组合
- reference panel,测试样本来自中国人群,为了比较测试样本和ref样本人群的相似性对结果的影响,定义了1000G所有人群1KG_ALL和1000G东亚人群1KG_EAS两种panel,
- SNP density, 以36个SNP位点为窗口,在该窗口内随机剔除固定个数的位点,通过该种方法创建了14种不同的SNP密度梯度
- study sample size,创建了如上图所示的6种不同的样本个数
- sequencing coverage,定义了3种不同的测序深度
在part1中对前3个因素,共4X2X14=112种组合的填充结果进行评估。chr1和chr22的SNP density和填充准确率的结果示意如下
可以看到,随着SNP密度的提高,填充准确率逐渐上升,二者呈现正相关关系,在大于200/MB时,斜率上升趋势变得平缓,说明至少要保证200/MB的snp密度,基因型填充的准确率才有所保障。其次可以发现,impute2的填充准确率最高,而shapeit2 impute2和beagle4.1的准确率接近,mach minimac3的准确率最低。
chr1中使用不同reference panel的结果如下所示
可以看到,reference panel的选择对impute2的结果几乎没有影响,其准确率非常稳定。对于Beagle4.1而言,reference panel的人群和测试人群更接近了,填充准确率反而降低, 可能是由于参照单倍型变少的原因。另外两个软件的组合则准确率有所提高,二者的共同点都是存在了pre-phasing步骤,说明选择和研究样本相似的reference panel,有助于提高pre-phasing的准确性。
不同软件运行时间和内存消耗的比较结果如下
图a表示运行时间,随着SNP个数的增加,Begale4.1的运行时间显著增多,其他几款软件则变化不大。对于不同的reference panel而言,panel越大,运行时间越长。其中impute2的运行时间最久,beagle4.1的运行时间最短,其次是shapeit2 impute2的组合。
图b表示内存消耗,SNP个数对内存消耗的影响不显著,最直接的影响因素是reference panel的大小,panel越大,内存消耗越大。对于不同软件而言,impute2的内存消耗最大,其次是shapeit2 impute2, 内存消耗最小的是beagle4.1。
study样本大小对填充准确率和运行时间的影响如下
可以看到,样本多少对于beagle4.1和impute2的准确率几乎没有影响,对shapiet2 impute2则存在显著影响,样本越多,准确率越高。在运行时间上,impute2对样本大小很敏感,样本越多,运行时间越久,其他两种软件的运行时间对样本大小不敏感。
不同测序深度的填充结果venn图如下所示
文章中指出,impute2填充准确率高,在不考虑硬件资源的情况下,是最佳的基因型填充软件。