LULU:对OTU进行过滤的算法,得到更准确的群落多样性

2020-06-01 13:36:59 浏览数 (1)

Link: https://www.nature.com/articles/s41467-017-01312-x

Journal: Nature communication

IF: 11.878

Published: 30 October 2017

First author: Tobias Guldberg Frøslev

Corresponding author: Tobias Guldberg Frøslev, Anders Johannes Hansen

Department: Department of Biology, University of Copenhagen, Universitetsparken 15, DK-2100 Copenhagen, Denmark. (哥本哈根大学)

目前引用39次

本研究开发了一种新算法:LULU,可用于移除高通量测序得到的错误的OTUs。

LULU通过序列相似性(sequence similarity)和共发生模式(co-occurrence patterns)对OTU进行判断。

利用丹麦不同环境梯度中的130个位点的维管植物与植物的ITS2数据验证了该方法的准确性。

先利用不同聚类算法得到OTU,在利用LULU进行筛选(curated with LULU)。结果表明LULU提升了α多样性与其他多样性,且不需要额外的参考数据库。

这是一种很有前途的可靠的生物多样性估计方法。

核心原理是在基于子代OTUs(‘daughter’ OTUs)是假OTU的假定条件下,鉴定并融合与高丰度父代OTUs始终共存、序列相似的子代OTUs。

The core mechanism is the identification and merging of ‘daughter’ OTUs with consistently co-occurring, sequence similar, but more abundant ‘parent’ OTUs across a multi-sample data set, under the assumption that the ‘daughter’ OTUs are artefacts.

该方法不需要参考数据库,可用于任何样本、算法产生的任何OTU表。

之前已经有了一种类似的方法,该方法基于分布进行聚类,可将16S细菌序列聚类为具有显著生态意义的OTU,并被整合到了dbotu3工具中。

Preheim, S. P., Perrotta, A. R., Martin-Platero, A. M., Gupta, A. &Alm, E. J. Distribution-based clustering: using ecology to refine the operational taxonomic unit. Appl. Environ. Microbiol. 79, 6593–6603 (2013).

Olesen, S. W., Duvallet, C. & Alm, E. J. dbOTU3: A new implementation of distribution-based OTU calling. PLoS ONE 12, e0176335 (2017)

但是这两种方法存在本质的不同。LULU是一种post-clustering curation method,旨在移除错误的OTU,得到有意义的多样性。而dbotu3是一种聚类算法,旨在鉴定具有显著生态意义的细菌种。两算法的总体处理策略是相似的。

方法

OTU表可以得到的一些东西:

1. OTU表中的OTU数量一般都多于实际的物种数;

2. OTU表通常包含很多低丰度的OTU,它们在分类上是冗余的,因为它们的分类学信息与高丰度OTU相同。这种情况可能是由于不完整的参考数据或聚类不足造成的,这可以表明OTU实际上是一种方法学人造物;

3.相同分类学信息的前提下,高丰度OTUs序列相似性要高于低丰度OTUs序列的相似性;

4. 低丰度的OTUs往往是共发生的。

基于以上四条,低丰度的OTU可能是人为带来的错误,或者种内稀有的变异。因此LULU的核心思想是利用OTUs序列之间成对相似性所体现的共现模式来进行筛选。

1. 建立OTU表

2. 建立用于匹配的列表。包含样本中和每个OTU相似的样本中其他OTU信息。这一步可用其他算法计算,如BLASTn 或 VSEARCH。这个列表包含三列,第一列是需要进行比较的OTU,第二列是与之比较的OTU,第三列为相似性阈值。

3. LULU进行筛选。先将OTU按照丰度从高到底排序,先挑选最高丰度的OTU作为potential daughter,考察其发生是否可以用丰度更高且相似的父代OTU的共发生来解释,如果可以,则这个子代OTU是错误,如果不可以,则这个子代OTU为真OTU。对每个OTU依次进行检验,最后将所有的子代OTU与对应的父代OTU合并。

几个可以调整的参数:

OTU之间相似度的最小阈值:默认84%。低于阈值会被认为是错误的OTU。

共发生率阈值:默认95%

子代OTU与父代OTU丰度的比值。

与LULU相比,dbout3使用未聚类的数据,使用另一种序列相似性矩阵(Levenshtein edit distance)进行序列比对。The asymptotic likelihood ratio test检验OTU之间是否具有相似的分布。另外dbout3使用python写的。

结果

四种算法生成OTU:

VSEARCH : Rognes, T., Flouri, T.,Nichols, B., Quince, C. & Mahé, F. VSEARCH: a versatile open source tool for metagenomics. Peer J. 4, e2584 (2016). SWARM : Mahé, F., Rognes, T., Quince, C., de Vargas, C. & Dunthorn,M. Swarm: robust and fast clustering method for amplicon-based studies. Peer J.3, e1420, https://doi.org/10.7717/peerj.1420 (2015). CROP: Hao, X., Jiang, R. & Chen, T. Clustering 16S rRNA for OTU prediction: a method of unsupervised Bayesian clustering. Bioinformatics 27,611–618 (2011)

DADA2: Callahan, B. J. et al. DADA2: high-resolution sample inference from Illumina amplicon data. Nat. Methods 13, 581–583 (2016).

LULU筛选过的OTU数量与实际植物数量相关关系显著提升

b.筛选过的OTU数量下降;

c.分类学冗余性减少;

d.beta多样性减少;

e.和数据库匹配的比例上升。

此外,将LULU与移除singletons的效果进行了比较。移除singletons增加了0.03的OTU与真实物种数相关性,而LULU增加了0.27。

LULU与dbout3进行了比较。LULU在贪婪聚类算法(SWARM和VSEARCH)得到的结果上明显优于dbout3。

LULU基于R, R包在github可下载:

https://github.com/tobiasgf/lulu

—END—

0 人点赞