最近测试illumina SNP芯片数据填充的时候发现,原来的数据是会被改变的,觉得这是一个小坑,在这里分享一下。当然,对于看整体的话,应该是影响不大的,毕竟它基本上是按照基因型频率和单倍体型的结果来给的。不过,对于个别比较重要的点,还是影响比较大的,在这里提醒大家注意下。先来看一下几个最主流流程中的版本中的参数情况。
impute流程
IMPUTE2 (ox.ac.uk)
impute2是有这个参数选项的,是把原来分型数据的点完全取代还是只填充分型数据中缺失的位点,这应该只是个额外选项,非默认的。新版本里没找到相关选项。。。The -pgs flag tells the program to "predict genotyped SNPs"; that is, to replace the original study genotypes with LD-based imputed genotypes in the output file.
Minimac
前面版本的Minimac没有发现相关选项,只有在第3和4版是有的,默认关闭的。从选项的说明看应该是只涉及参考中没有,而原始数据中有的点,据此推断,原来的点也应该是变的。
Beagle等流程没有仔细看,欢迎交流!