Microbiome: 标准化和微生物差异丰度策略取决于数据特征

2021-07-30 15:02:14 浏览数 (2)

Link:

https://link.springer.com/article/10.1186/s40168-017-0237-y

Published: 2017

引用800

摘要

利用稀释数据和原始数据评估了七种统计方法。

模拟研究表明,许多差异丰度测试方法的错误发现率并没有因为稀释而增加,尽管稀释会由于部分可用数据的消除而导致灵敏度的损失。

对于平均库大小差异较大(~10×)的组,稀释降低了错误发现率。

DESeq2在较小数据集(<每组20个样本)上的灵敏度增加,但随着样本的增加、库的不均匀度(~10×)和组成效应,趋向于更高的错误发现率。

为了推断生态系统中的分类单元丰度,analysis of composition of microbiomes (ANCOM)是唯一一种能够很好地控制错误发现率的方法。

微生物数据的几个特征:

1.每个样品中的微生物群落可由不同数量的序列来表示,这反映了测序过程的不同效率,而不是真正的生物变异。几乎不能观察到物种的全部,从而更多的测序就能观察到更多的物种。因此,具有相对较少序列的样本可能具有膨胀的β多样性。

2.大多数OTU表是稀疏的,这意味着它们包含很高比例的零计数(~90%)。因此当样本序列很高时稀有OTU数量不确定;而样本序列很低时又难以检测。

3.从样本中获得的读数不能反映存在的微生物的绝对数量,因为样本只是原始环境的一小部分。因为相对丰度总和为1并且是非负的,所以相对丰度代表组成数据。

组成数据受 (和为1)约束,并且不能在欧几里得空间中自由浮动;因此标准的分析方法不适用。

例如,一个细菌分类单元丰度的增加可能导致其他分类单元丰度的虚假负相关。

不均匀的采样深度、稀疏性,以及研究人员对利用标本级数据推断生态系统中的分类单元丰度,为解释微生物数据带来了严峻的挑战。

为了减轻这三个挑战中的一些并帮助数据解释,数据通常在下游分析之前通过各种计算过程进行标准化。标准化是对数据进行转换的过程,目的是通过消除人为因素,准确比较不同测量的统计数据。

例如在微生物组数据中,由于样本收集、文库制备和/或测序的差异,可能存在偏差,并且可能表现为例如不均匀的采样深度和稀疏性。在有效的标准化之后,来自不同样本的数据可以相互比较。

研究人员可能还希望通过统计测试来确定两个生态系统中哪些特定细菌的含量差异显著;这个过程被称为差异丰度测试(differential abundance testing)。

标准化方法

1. 稀释,可减轻第一个特征问题。但它可能会降低统计能力,这取决于移除了多少数据,并且不能解决第三个特征问题。

2. 缩放,及序列数乘以固定值或比例。通常数据的特定分位数用于归一化,但选择最有效的分位数是困难的。此外,微生物组数据通常很稀疏,缩放比例可能会高估或低估零分数的流行程度,这取决于缩放比例中是保留零还是丢弃零。

这是因为将不同采样深度的所有样本放在同一尺度上忽略了测序深度(以及物种分辨率)的差异,这是由样本之间不同的文库大小造成的。

例如,在小文库大小的样品中计数为零的稀有物种在大文库的样品中可能具有丰度。缩放还会扭曲样本间的OTU相关性,这同样是由于测序深度中的零和差异导致的。

3. Aitchison’slog-ratio转换,适用于微生物这样的组成数据。然而因为对数变换不能应用于零,所以稀疏性对于依赖这种变换的方法来说可能是有问题的。

解决这个问题的一种方法是用一个小值代替零,称为伪数值。尽管许多论文讨论了可能影响结果的伪数值的选择,但对于如何选择它们还没有明确的共识。

差异丰度测试方法

对于组与组之间的OTU差异丰度检验,一种常见的方法是首先将进行稀释,然后应用非参数检验(两组间的Mann-Whitney/Wilcoxon rank-sum test,多组件间的Kruskal-Wallis test)。

非参数检验通常是首选的,因为OTU计数并不完全正态分布。然而当分析相对丰度数据时,这种方法没有考虑相对丰度是组成性的这一事实。此外,当样本量小和/或数据稀疏时,非参数检验(如Kruskal-Wallis)在表现不佳。

此外还有参数模型,这些参数模型由假设分布的广义线性模型(GLM)组成,分布的选择经常是有争议的。考虑到计数数据中额外的泊松变化,泊松参数通常由伽马分布建模,因此边际计数分布为负二项式(NB)。尽管NB模型考虑了额外的泊松变化,但当有许多零点时,它并不能很好地拟合数据。

Zero-inflated GLMs中最有希望的是Zero-inflated对数正态,试图克服这一限制。Zero-inflated对数正态试图通过分别建模由测序不足产生的“结构性”零计数和由分类群的生物分布产生的零计数来解决稀疏性和不相等的采样深度,而非零计数由对数正态分布建模。

本研究考察的7种标准化方法

本研究探索的差异丰度检测方法

结论

1. 除了加权UniFrac之外,针对RNA-Seq数据开发并利用类似对数变换的DESeq标准化在对生态有用的指标上并不奏效。DESeq标准化需要对微生物组数据的一般使用进行更多开发。

许多微生物环境的微生物组成差异极大,这将违反DESeq和edgeR-TMM的标准化假设,即大多数物种的丰度恒定,而那些确实发生变化的物种的丰度增加/减少维持平衡。

2. 稀释仍然是一种有用的标准化技术:与其他标准化技术相比,稀释可以更有效地减轻样本库大小的影响,并为所研究的生物效应带来更高的PERMANOVA R2,尤其是对于小的(<每个样本1000个序列)和组间非常不均匀的(> ~10×平均)库大小。

3. 在β多样性分析中,不标准化和样本取比例的方法容易产生基于测序深度的人为因素聚类。

因此,如果计数数据不稀薄,研究人员应该谨慎进行,并检查排序结果中的这些因素的影响。

在PERMANOVA测试中,如果数据集未被稀释或标准化,建议包含库大小的术语。

4. 对于差异丰度测试,使用了模拟和真实数据进行验证。总的来说,模拟结果非常依赖于模拟设计和分布,这突出了对黄金标准(gold standard)数据集的需求。

证实了基于负二项式或对数比率的GLM方法是有希望的。

DESeq2是为更小数据集(<每组20个样本)设计的,并提供了更高的灵敏度;然而随着库大小的增大和/或非常不均匀(>平均约10倍),它趋向于更高的错误发现率。

在DESeq2的对数转换之前,手动向矩阵添加伪数值的做法会增加FDR。这与之前的研究结果一致,即RNA-Seq方法不适合微生物组数据

如果每个组的平均库大小大致相等,那么稀释本身不会增加错误发现率。对于组间平均库大小差异较大(~10×)的组,稀释有助于降低错误发现率。

在分析之前,研究人员应该评估各组之间平均文库大小的差异。如果观察到样本间文库大小的巨大差异,那么稀释作为一种标准化方法是有用的。

5. ANCOM对所有样本大小都保持较低的FDR,并且是唯一适用于对分类单元进行推断的方法。

使用ANCOM,小数据集(<每组20个样本)的灵敏度降低,部分原因是它使用了Mann-Whitney检验。需要研究更敏感的ANCOM统计检验。

相关文章

ANCOM:找出微生物群落中的差异物种

Frontiers:Rarefaction, Alpha Diversity,and Statistics

Waste Not, Want Not: 为什么重抽微生物数据是不可取的

MEE: 微生物组数据标准化的方法:一个生态学的观点

0 人点赞