Link: https://www.nature.com/articles/s41467-017-01312-x
Journal: Nature communication
IF: 11.878
Published: 30 October 2017
First author: Tobias Guldberg Frøslev
Corresponding author: Tobias Guldberg Frøslev, Anders Johannes Hansen
Department: Department of Biology, University of Copenhagen, Universitetsparken 15, DK-2100 Copenhagen, Denmark. (哥本哈根大学)
目前引用39次
本研究开发了一种新算法:LULU,可用于移除高通量测序得到的错误的OTUs。
LULU通过序列相似性(sequence similarity)和共发生模式(co-occurrence patterns)对OTU进行判断。
利用丹麦不同环境梯度中的130个位点的维管植物与植物的ITS2数据验证了该方法的准确性。
先利用不同聚类算法得到OTU,在利用LULU进行筛选(curated with LULU)。结果表明LULU提升了α多样性与其他多样性,且不需要额外的参考数据库。
这是一种很有前途的可靠的生物多样性估计方法。
核心原理是在基于子代OTUs(‘daughter’ OTUs)是假OTU的假定条件下,鉴定并融合与高丰度父代OTUs始终共存、序列相似的子代OTUs。
The core mechanism is the identification and merging of ‘daughter’ OTUs with consistently co-occurring, sequence similar, but more abundant ‘parent’ OTUs across a multi-sample data set, under the assumption that the ‘daughter’ OTUs are artefacts.
该方法不需要参考数据库,可用于任何样本、算法产生的任何OTU表。
之前已经有了一种类似的方法,该方法基于分布进行聚类,可将16S细菌序列聚类为具有显著生态意义的OTU,并被整合到了dbotu3工具中。
Preheim, S. P., Perrotta, A. R., Martin-Platero, A. M., Gupta, A. &Alm, E. J. Distribution-based clustering: using ecology to refine the operational taxonomic unit. Appl. Environ. Microbiol. 79, 6593–6603 (2013).
Olesen, S. W., Duvallet, C. & Alm, E. J. dbOTU3: A new implementation of distribution-based OTU calling. PLoS ONE 12, e0176335 (2017)
但是这两种方法存在本质的不同。LULU是一种post-clustering curation method,旨在移除错误的OTU,得到有意义的多样性。而dbotu3是一种聚类算法,旨在鉴定具有显著生态意义的细菌种。两算法的总体处理策略是相似的。
方法
OTU表可以得到的一些东西:
1. OTU表中的OTU数量一般都多于实际的物种数;
2. OTU表通常包含很多低丰度的OTU,它们在分类上是冗余的,因为它们的分类学信息与高丰度OTU相同。这种情况可能是由于不完整的参考数据或聚类不足造成的,这可以表明OTU实际上是一种方法学人造物;
3.相同分类学信息的前提下,高丰度OTUs序列相似性要高于低丰度OTUs序列的相似性;
4. 低丰度的OTUs往往是共发生的。
基于以上四条,低丰度的OTU可能是人为带来的错误,或者种内稀有的变异。因此LULU的核心思想是利用OTUs序列之间成对相似性所体现的共现模式来进行筛选。
1. 建立OTU表
2. 建立用于匹配的列表。包含样本中和每个OTU相似的样本中其他OTU信息。这一步可用其他算法计算,如BLASTn 或 VSEARCH。这个列表包含三列,第一列是需要进行比较的OTU,第二列是与之比较的OTU,第三列为相似性阈值。
3. LULU进行筛选。先将OTU按照丰度从高到底排序,先挑选最高丰度的OTU作为potential daughter,考察其发生是否可以用丰度更高且相似的父代OTU的共发生来解释,如果可以,则这个子代OTU是错误,如果不可以,则这个子代OTU为真OTU。对每个OTU依次进行检验,最后将所有的子代OTU与对应的父代OTU合并。
几个可以调整的参数:
OTU之间相似度的最小阈值:默认84%。低于阈值会被认为是错误的OTU。
共发生率阈值:默认95%
子代OTU与父代OTU丰度的比值。
与LULU相比,dbout3使用未聚类的数据,使用另一种序列相似性矩阵(Levenshtein edit distance)进行序列比对。The asymptotic likelihood ratio test检验OTU之间是否具有相似的分布。另外dbout3使用python写的。
结果
四种算法生成OTU:
VSEARCH : Rognes, T., Flouri, T.,Nichols, B., Quince, C. & Mahé, F. VSEARCH: a versatile open source tool for metagenomics. Peer J. 4, e2584 (2016). SWARM : Mahé, F., Rognes, T., Quince, C., de Vargas, C. & Dunthorn,M. Swarm: robust and fast clustering method for amplicon-based studies. Peer J.3, e1420, https://doi.org/10.7717/peerj.1420 (2015). CROP: Hao, X., Jiang, R. & Chen, T. Clustering 16S rRNA for OTU prediction: a method of unsupervised Bayesian clustering. Bioinformatics 27,611–618 (2011)
DADA2: Callahan, B. J. et al. DADA2: high-resolution sample inference from Illumina amplicon data. Nat. Methods 13, 581–583 (2016).
LULU筛选过的OTU数量与实际植物数量相关关系显著提升
b.筛选过的OTU数量下降;
c.分类学冗余性减少;
d.beta多样性减少;
e.和数据库匹配的比例上升。
此外,将LULU与移除singletons的效果进行了比较。移除singletons增加了0.03的OTU与真实物种数相关性,而LULU增加了0.27。
LULU与dbout3进行了比较。LULU在贪婪聚类算法(SWARM和VSEARCH)得到的结果上明显优于dbout3。
LULU基于R, R包在github可下载:
https://github.com/tobiasgf/lulu
—END—