Journal: Microbiome
Published: 11September 2020
Link:
https://microbiomejournal.biomedcentral.com/articles/10.1186/s40168-020-00909-7
摘要
为了量化样本间的差异,并得出影响群落聚集的因素,通常使用不同的指标。常用来量化分类差异的Jaccard和Bray-Curtis指数未必是最符合逻辑的选择。
利用好氧颗粒污泥(AGS)反应器和微生物燃料电池(MFC)两个实验系统的扩增子测序数据表明不同的不相似性指标的选择对结果有相当大的影响。
由于随机抽样效应,重复数据之间的高度不一致使得基于发生率的指数不太适合识别样本组之间的差异。
基于Hill数的零模型的分析表明,不同的生态机制作用于实验系统中不同部分的微生物群落。
作者开发了一个Python包qdiv,可以方便的计算基于Hill数的零模型的不同相似性指数。
(https://github.com/omvatten/qdiv)
背景
Hill定义如下:
Hill可以被分解为alpha (α), gamma (γ), beta (β)组分。其中beta由除法定义:
qDβ=1时,表示比较的群落完全相同。当qDβ= N时,群落完全不同,彼此之间不共享任何otu/asv。qDβ可以转换为0-1之间的不相似指数(dissimilarity = 1−overlap)。有几种方法可以完成这样的变换。Chao和Chiu描述了两类overlap指标。局部overlap指数衡量的是一个群落与其他比较群落共享的otu/asv的有效平均比例。区域overlap指数衡量了所有比较群落之间共享的otu/asv在所有群落中的有效比例。
方程3a和3b为qDβ转化为局部不相似指数(qd)。qd量化了otu/asv在一个与其他比较群落区不同的群落区中的有效平均比例。整篇文章中使用这类局部指标。
qd是多样性阶q的局部不相似指数,N是被比较的群落数量。
随机化过程可以根据某个OTU/ASV的频率,或区域物种池中与该OTU/ASV相关的reads总丰度进行。重复多次随机过程,生成两个样本不相似性的零分布。然后将这个零分布与观察到的不相似性进行比较。如果两值相似,则观察到的差异可以用随机因素来解释。如果观测到的不相似性高于或低于零期望,则可能存在确定性因素。
Raup-Crick模型最初是为基于发生率的数据开发,最近被扩展到与Bray-Curtis指数一起发挥作用。
本文进一步扩展了Raup-Crick零模型,使其具有基于Hill的不相似指数(qd)的连续体。在这里表示为多样性阶数q (qRC)的Raup-Crick指数,其计算方法:
方法
使用DADA2、Deblur、USEARCH、Mothur四种处理过程。
Mantel检验不相似矩阵之间统计显著性;permanova比较不同样本之间差异。
随机化过程使用基于频率的方法,与Stegen相同。即零模型是通过维持样本中总的otu/asv数量不变,每个otu/asv选中的可能性与其出现频率相同,且序列数与实际样本的序列数相同。序列数被选中的可能性与区域池中与otu/asv相关联的总数有关。
结果
1. q越高,qd与qRC越低。群落构建过程受到q值影响。
2.不同数据处理方法的差异上,只有DADA2和UNOISE得到了较为一致的ASV。
3. 重复之间的不相似性跟选择的不相似性指数相关。
4. 随机采样过程影响了重复之间的不相似度。
测序深度影响多样性。300,000 reads/sample的测序深度下,模拟的重复之间的差异与实验观察到的差异非常吻合。
结论
1.不同分析方法在otu/asv数量和序列数上存在很大差异。课根据使用不同方法(如UNOISE、DADA2和Deblur)生成共识表。
2.从实验数据中得出的结论取决于所选的不同指标。为了充分理解beta多样性,应该计算基于Hill的不同阶数(q)。将qd绘制成q的函数可以提供更多信息。
3.零模型可以根据不同的指标来计算,有助于不同值的解释,并提供关于群落构建机制的信息。