文献解读|不同基因型填充软件性能的比较

影响基因型填充效果的因素有很多，比如填充软件的选择，reference panel的选择，样本个数，SNP的密度或者测序深度等等因素。目前基因型填充的软件有很多种，每个软件各有优劣，如何选择是一个难题。

本篇解读的文献标题如下

从多个方面系统评估了以下几种主流的基因型填充软件的性能，对应的文章链接如下

https://www.karger.com/Article/Pdf/489758

对以下4种主流的基因型填充软件进行了评估

Begale4.1
Impute2
Shapeit2 Impute2
MACH Minimac3

每个软件对应的网址，功能，适合的平台汇总如下

评估流程如下所示

综合考虑了以下5个因素

software，选择了4种常用的填充软件组合
reference panel，测试样本来自中国人群，为了比较测试样本和ref样本人群的相似性对结果的影响，定义了1000G所有人群1KG_ALL和1000G东亚人群1KG_EAS两种panel，
SNP density, 以36个SNP位点为窗口，在该窗口内随机剔除固定个数的位点，通过该种方法创建了14种不同的SNP密度梯度
study sample size，创建了如上图所示的6种不同的样本个数
sequencing coverage，定义了3种不同的测序深度

在part1中对前3个因素，共4X2X14=112种组合的填充结果进行评估。chr1和chr22的SNP density和填充准确率的结果示意如下

可以看到，随着SNP密度的提高，填充准确率逐渐上升，二者呈现正相关关系，在大于200/MB时，斜率上升趋势变得平缓，说明至少要保证200/MB的snp密度，基因型填充的准确率才有所保障。其次可以发现，impute2的填充准确率最高，而shapeit2 impute2和beagle4.1的准确率接近，mach minimac3的准确率最低。

chr1中使用不同reference panel的结果如下所示

可以看到，reference panel的选择对impute2的结果几乎没有影响，其准确率非常稳定。对于Beagle4.1而言，reference panel的人群和测试人群更接近了，填充准确率反而降低，可能是由于参照单倍型变少的原因。另外两个软件的组合则准确率有所提高，二者的共同点都是存在了pre-phasing步骤，说明选择和研究样本相似的reference panel,有助于提高pre-phasing的准确性。

不同软件运行时间和内存消耗的比较结果如下

图a表示运行时间，随着SNP个数的增加，Begale4.1的运行时间显著增多，其他几款软件则变化不大。对于不同的reference panel而言，panel越大，运行时间越长。其中impute2的运行时间最久，beagle4.1的运行时间最短，其次是shapeit2 impute2的组合。

图b表示内存消耗，SNP个数对内存消耗的影响不显著，最直接的影响因素是reference panel的大小，panel越大，内存消耗越大。对于不同软件而言，impute2的内存消耗最大，其次是shapeit2 impute2，内存消耗最小的是beagle4.1。

study样本大小对填充准确率和运行时间的影响如下

可以看到，样本多少对于beagle4.1和impute2的准确率几乎没有影响，对shapiet2 impute2则存在显著影响，样本越多，准确率越高。在运行时间上，impute2对样本大小很敏感，样本越多，运行时间越久，其他两种软件的运行时间对样本大小不敏感。

不同测序深度的填充结果venn图如下所示

文章中指出，impute2填充准确率高，在不考虑硬件资源的情况下，是最佳的基因型填充软件。

panel reference 软件

0 人点赞