昨天有读者问我RDP的阈值怎么选,我只知道用默认的就行,并不知道原因。于是查了一下:
RDP采用bootstrap 的方法检验结果的准确性。当一条序列的bootstrap值低于阈值,则会被标记为unclassified。bootstrap 阈值默认为80%。
但是研究表明,对于长度在50~250bp的序列,50%的阈值已经足够将序列准确的划分到属水平。如下图所示。V3,V4,V6区综合来看50%鉴定到属的比例较高,且准确率较高。
因此在扩增子测序结果的分析中,RDP阈值一般都取50%。
但是对于一些研究很少的生境,RDP在较高的分类水平效果可能也不是很好。如研究已经发现,在一些环境克隆文库中,甚至在门水平上也会有很高比例的序列的分类置信度低于80%。因此可能需要全面的系统发育分析才能对序列进行划分。
总结:
如果RDP结果中unclassified比例特别高,可能是因为群落比较新颖,RDP中的训练数据集不能很好的对其进行分类。可以自己上传一些数据作为RDP训练集,或许也可以适当降低一些阈值牺牲一定准确性。
参考:
http://rdp.cme.msu.edu/classifier/class_help.jsp#conf
END