冬至快乐~~~
注:
这是14年前的一篇文章,在我看来写的很不错,时至今日仍有启发意义。
我认为重要的加粗表示;自己的评论用红字;文末有想法总结。
摘要
微生物多样性是一个迷人的课题,具有深远的实际重要性。
“多样性”一词可指分类群或物种丰富度以及它们的相对丰度。
这两者都有不确定性,主要是因为样本量太小。
非参数多样性估计方法在样本量较小且分布不均匀的群落中使用时,往往会造成严重的低估。
通过假设物种/类群多度分布,可以用小样本在许多尺度上进行丰富度估算。
然而没有人知道细菌群落潜在的物种丰度分布是什么。
最近通过拟合来自基因克隆文库的数据并据此外推物种多度曲线来估计多样性。但是由于样本量小,不能确定这些样本是否代表了他们所来自的群落。
然而可以制定和校准预测地方群落和从该地方群落抽取样本的多样性的模型。这些模型的校准表明,迁移率很小,并且还会随着群落的扩大而减少。该模型的初步预测与实际的文库中看到的模式定性一致。不过这个模型的验证也被小样本所混淆。
1. 微生物多样性有多大
微生物有多少种?这是科学中天真(child-like)的问题之一,它暴露了我们无知的深度,以及我们最复杂的测量工具和智力策略的严重局限性。仅这一点就使它成为一个值得解决的问题。但是,这也是一个具有深刻现实意义的问题。
微生物多样性的问题并不总是被认为是一个问题,至少不是一个很有趣或容易处理的问题。目前对多样性有多高这一问题还没有达成一致。诸多不确定性的原因中一个最重要的问题是样本量。
对未来几代人来说,适当样本大小的重要性是显而易见的。然而目前流行的争论和混乱主要是由于抽样限制的结果,是可以理解的,因为我们正在处理的是一个微生物世界,它的运作范围超出了正常人类直觉的范围。因此我们使用含糊不清的术语;忽视重要的因素;犯错误也就不足为奇了。然而不能允许这种情况持续下去,微生物世界的探索太重要了。
2. 发现多样性的策略
如何确定微生物/原核生物的多样性呢?
很明显样本的多样性超过了用任何经验度量所观察到的类群的数目。尤其是因为当使用16S rRNA基因克隆文库分析原核生物群落时,克隆文库的大小与观察到的不同类群的数量几乎总是存在关系。
在试图确定多样性时,可以采用许多策略中的一种,每种策略都有自己的优点和缺点。最简单的方法可能是使用某种形式的非参数估计量。或者可以假设某种形式的分布,由理论推理或从数据集推断指导。最后利用校正后的群落聚集数学模型,可以估计群落的多样性和局部分布。
3. Chao's estimators
非参数方法是估计多样性的一种极具吸引力的方法。方法由Chao发展,Colwell推广,给出了与数据相容的最小多样性的估计。
这些方法很简单,对底层分布不做任何假设。
尽管这些方法本身很好,但它们可能会被误解为对多样性的真实估计,而与样本容量无关。在现实中,如果样本量太小,那么相应的多样性估计值也会太小。
这类估计量所需的最小样本量是两倍多样性的平方根的数量级。
然而最小样本量对潜在物种丰度分布是非常敏感的,Schloss通过模拟探索了非参数估计器的使用。他们发现对于一个物种丰富度为5000的样本,如果细菌的分布是对数正态分布的话,它可以用18000-40000个克隆来正确估计真正的物种丰富度,但是如果分布是均匀的,它只需要150个克隆。
这些年非参数方法由于其计算方法简单已经被严重的滥用了。
当样本量较小时,非参数方法必须谨慎使用。注意,如果多样性是均匀的,非参数估计是非常有效的。但如果多样性是对数正态分布的,那么需要一个非常大的样本才能得到正确的答案。
对局部和全球的生物多样性数据分析明确表明非参数估计是样本量的函数。我们目前还没有足够的数据,在局部或全球范围内使用这些估计器来估计丰富度。
到2020年够了么?
4. 假设一个分布
避免样本大小问题的一种方法是假设样本所处的特定种类丰度分布。分布的具体性质就成为一个关键因素。研究较大生物体的生态学家通常观察到,在给定位置的一组特定生物体中通常为对数正态分布。
MacArthur和May指出微生物会呈指数增长,但不会有很大的存活种群。他们提出,如果许多不同的因素独立地作用于微生物的生长率,那么生长率将是正态分布,因此有机体的丰度将是对数正态分布(因为生长是指数型的)。他们进一步推断,在更极端的环境中,较少的因素会影响增长率,从而导致群落具有几何的物种丰富度曲线。
在缺乏关于细菌分类群相对丰度的可靠数据的情况下,对数正态分类群丰度曲线是一个合理的起点。
大多数文章都是对数正态分布,但是也存在其他很多类似的分布。如
mbio: 随机采样过程会高估微生物群落的beta多样性
采用了五种不同的物种丰度分布
通过假设一个分布来估计多样性的一种quick and dirty的方法。
(a)具有对数正态物种丰度曲线的群落分类单元总数就是该曲线下的面积(称为物种曲线)。个体曲线是每个丰度处的物种数量(物种曲线)乘以它们的丰度(x轴)。因此,在物种面积曲线下的面积、个体数量NT(个体曲线下的面积)和丰度最大值和最小值(Nmax和Nmin)之间存在数学关系。
(b)假设Nmin等于1,种群大小与NT/Nmax不同比例的关系超过30个数量级。根据经验,土壤的比例是10个数量级,海洋和湖泊的比例是4数量级。
quick and dirty的方法其优点是需要的信息相对较少,缺点是更有可能在任何给定的系统发育解析水平上高估物种丰富度。此外,通过比较该方法的结果和非参数估计(假设样本容量太小)可以相互印证和补充。
此外,还有一种bullet proof的估计方法,但它只能用于16S rRNA基因克隆文库中检测到的所有序列都不相同的特殊情况。
虽然对数正态曲线似乎在大型生物群落中很常见,但我们不知道它们是否适用于微生物世界。例如,在同一个厌氧消化器中,古生菌和细菌的样本可能有明显不同的分布。这应该意味着厌氧消化器为细菌提供了一个宽松的环境,为产甲烷菌提供了一个极端环境。
5. 根据数据拟合物种丰度曲线
除了简单地假设分布曲线,一个替代方法是根据克隆库数据中克隆的相对丰度,简单地预测曲线的形状(从而预测物种丰富度)。
方法的主要缺陷是样本大小是由预算和技术决定的,而不是对承担任务所需的样本大小的理性评估。因此有一个隐含的假设,即样本中有足够的信息来描述潜在的分布。但是这个假设不一定满足。
Sloan已经证明,来自具有完全不同多样性的群落的相对较小的样本将看起来非常相似,并且与它们所在群落的分类群分布几乎没有相似之处。因此,人们不能假定在16S rRNA基因克隆文库中观察到的序列分布类似于其所在群落的分布。
小样本可能非常具有误导性。为了证明小样本容量的不可靠性,四种完全不同的分布(左图)被取样(200个随机选择的个体),并绘制出结果分布(右图)。注意所有的样本分布表面上是相似的。
在数据不足的情况下坚持进行曲线拟合,只能得到论文,不能得出知识。
6. 更有成效的方法
为一个给定的微生物群落确定一个适当的分布和多样性将是迷人的,因为它是困难的和未知的。此外,打破围绕该领域的猜测和争论,并把对微生物世界范围的探索置于一个更坚实的基础上,可以获得巨大的满足感。然而即使有足够的数据,简单拟合曲线的局限性也应该得到承认。
1957, MacArthur在评论当代关于物种丰度曲线的争论时写道:
一种方法……是将不确定的生物学意义的已知统计分布与数据相匹配。基于简单的生物学假设进行预测似乎是一种卓有成效的方法。
这一批评对微生物生态学具有双重意义。可能不会有单一的“一刀切(one size fits all)”的分布或多样性。不同的群落、分类分辨水平和功能群(指具有相同功能的生物,如反硝化菌)的情况会有所不同。
上文已经提到,在同一环境中,古菌和细菌之间存在着明显的差异。描述任何特定群落或功能群体的多样性本身并不是目的,而是对群落如何形成的更深入理解的探索的一个里程碑。
参见:微生物领域的名人名言(2)--多样性的意义
提到了ISME一篇文章:多样性是问题,而不是答案
此外,计算微生物多样性通常是一项费力而昂贵的工作。如果我们能利用这些研究得出有意义和可推广的推论,我们就能更好地证明费用的合理性。因此,我们不能满足于简单地画出这些线,然后说多样性是x。相反,我们必须利用这些信息来测试我们在简单的生物学假设基础上预测的能力。
这反过来将为我们提供工具来预测群落是如何形成和变化,即使我们没有机会非常详细地描述这些群落。如果我们有了这样的工具,我们就可以利用从小样本中收集的信息,绘制出许多微生物环境和景观的土地布局,这些信息可以进行经济有效的分析。对于那些试图调查、利用或操纵给定类型的环境的人来说,这样的估计可能是无价的指南。
如果功能和高丰度物种高度相关的话,确实没错。但是近期很多研究发现稀有物种也会承担很多生态功能。
参见:
微生物领域的名人名言(2)--多样性的意义
NC:全球土壤生物多样性和生态系统功能研究的空白
SBB:微生物稀有类群是长期施肥土壤生态系统多功能性的主要驱动因子
EM:土壤中稀有和丰富微生物类群对气候条件变化的不同响应
7. 微生物群落形成模式的标准和原则
MacArthur还提出了“岛屿生物地理学理论”。他的合著者Wilson提出,一个好的理论应该以简约性、概括性、一致性和可预见性(parsimony,generality, consilience and predictiveness)为标准来判断。
预测能力在微生物环境中尤为重要。许多生态学理论的评估依据是它们再现一个已经被很好描述的世界的能力。理论被用来代替实验,以获得对潜在机制的洞察。这可能意味着要使用带有许多参数的复杂模型,其中大多数参数都必须是虚构的。
在微生物世界里就不同了。我们必须使用这些参数来预测微生物世界。由此可见,参数必须尽可能地接近现实,因此无论是从第一性原理还是合理的测量都可以推断出来。这反过来加强了对简约的需求,因为这最小化了参数的数量,这意味着一种基于简单真理的理论。
在寻找这些真理的过程中,人们可能会倾向于去观察某些公认的普遍存在的现象,如TARs或对数正态分类群丰度曲线。这些现象是普遍原则起作用的良好指标。它们本身并不是普遍的原则。很不幸TAR被描述为“生态学中为数不多的法则之一one of the few laws in ecology”。
震惊!第一次看到人说TAR不是生态学为数不多的法则。
这种说法混淆了一种现象,即物种面积曲线和它背后的潜在原则,其中可能包括人口因素、选择或进化。由于微生物世界的长度超过30个数量级(即从一个细胞到地球上的所有细胞),规模是微生物生态学中较为重要的挑战之一。相信简单的原则比推断某些现象要容易得多。地球绕着太阳转,但豌豆不会绕着葡萄柚转:两者都可以用万有引力定律来解释。
万有引力定律跟生命又没关系。。。
不管什么东西,只要带了生命就带了随机性,变得复杂多了。
微观粒子虽然测不准,形成的宏观物质却测的准。
类比到微生物,微生物单个细胞似乎测不准,但是形成的群落似乎也测不准,但是生态效应/功能却是测的准的。
那么是不是可以把一个微生物群落类比为物理中的单个粒子,而功能作为宏观体现?就可以找到最少的参数描述微生物群落,得到微生物群落的测不准原理?
微观粒子可以定义,但是怎么定义一个微生物群落?时间尺度?空间尺度?样本大小?各种尺度如何分割?
头疼。。。
8. 最简单的模型
几乎有无数的因素影响着微生物的生命。然而,关于一个开放的微生物系统,最简单的可能事实是,有机体会繁殖、死亡和迁移。MacArthur &Wilson (1967)以出生、死亡和移民作为岛屿生物地理学理论的基本原理。
然而,岛屿生物地理学的理论虽然很简单,但对微生物生态学家来说却过于复杂。这是因为它是建立在对当地和资源多样性进行全面或几乎全面的普查的基础上的,正如前面所述,我们发现我们无法满意地回答这个问题。然而通过表明一个地方群落的组成是移民和某些源群落的函数,他们确实提出了一个预测地方多样性的策略。
最近,Bell和Hubbell独立地提出了群落聚集的随机模型。这些模式在概念上类似于岛屿生物地理学的原始理论,被称为中性模型,因为它们含蓄地假定物种是相等的。
Hubbell的理论只有三个参数,一个是源群落,一个移民参数和当地群落的数量。然而至少从表面上看,似乎能够产生在现实世界中的各种各样的多样性。
影响微生物的因素比宏观生物多得多,模型更难以简化。
用来估计多样性的模型的示意图。
当一个个体在当地群落死亡时,他被群落外移民代替的概率为m,或被群落内移民代替的概率为1−m
就微生物生态学家而言,Hubbell的模型在最初的形式下也无法使用。最重要的问题是,它是基于离散马尔科夫链的,因此对于大于104个个体的数量来说,在计算上变得难以处理。
第二个问题是,原始模型使用两个拟合参数(源和迁移率)对已知的物种丰度曲线进行了验证。但这是有问题的,在微生物界,我们仍然不确定多样性的本质、移民的定义、还没有一个可靠的物种丰度曲线。
最后,该模型将源多样性概念化为对数序列;对于给定的微生物源群落,这可能是真的,也可能不是真的。在Hubbell的模型中,源群落进化是通过简单的点突变产生的。这可能是用来描述微生物多样性的某些基因的一个适当的模型。然而,由于水平基因转移在原核生物物种形成中起着重要作用,它可能不是一个适合于整个生物的模型。总之,一个简单的中性群落模型是探索微生物多样性的一个有吸引力的选择。然而这样一个模型必须能够处理大量的数据,在不借助于丰度曲线或多个独立参数的情况下进行校准,并且不能完全依赖于Hubbell的源的概念。
Hubbell模型后续发展除了很多群落构建的方法,主要包括三类,参见:
一、Sloan模型
EM:Sloan的随机性模型方法
ISME Microbiome:Sloan随机性方法的发展及代码
MicEco:计算Sloan随机性的另一方法
画一个sloan图~
二、基于Stegen的βNTI和RCbray;iCAMP
Stegen(基于βNTI和RCbray)的群落构建方法
NC-iCAMP过程解析
R-iCAMP功能介绍
三、ST,NST和MST系列
PNAS:NST方法定量生态过程中的随机性
NST:轻松计算随机性比例的R包
零模型总结可参见:
Ecography:群落系统发育结构度量和零模型:新方法和新软件的综述
以下几部分详细介绍了Sloan模型的参数,可以跳过。
9. 微生物的中性群落模型
为了开发可以处理大数据的随机模型,Sloan等人(2006)推导出了Hubbell离散模型的连续形式。他们借鉴了中性进化研究中广泛使用的方法,这些方法最初是由物理学家开发的,用于扩大随机行走的规模。模型的概念基础与Hubbell的概念基础相同。
它是基于这样一种想法,在一小段时间内,一个群落中的个体数量要么增加一个有机体,要么减少一个有机体,要么保持不变。每一种可能性的概率都可以用生物体数量(NT)、本地群落以外的生物体替代死亡的概率(m)和源群落中物种丰度的比例(pi)来表示。
基于这些概率,有可能推导出一个方程,描述物种将拥有一个特定的相对丰度xi的概率变化率。假设相对丰度是大型微生物种群的连续随机变量。该方程的稳态解给出了第i种物种相对丰度的概率密度函数表达式。
相对于其他类群(引入了第四个优势度参数,可用于表示竞争)或拥有一个纯粹中立的系统(在这种情况下优势参数为零),可以赋予它轻微的优势或劣势。当优势参数为0时,xi是beta分布。这不是Hubbell模型的唯一解析解,但它是最简单的,即使在NT值很低的情况下,也能做出与离散模型相同的预测。对于源群落中任何给定的平均比例丰度,随着个体数量(NT)乘以入侵率(m)或NTm的值的减少或增加,概率分布会扩散或收紧。
其中ϕi表示占源群落20%的物种的局部丰度。m=1表示每次死亡所腾出的空间由移民填补,来源和当地群落高度耦合。因此, ϕi形成了一个紧凑的钟形分布,平均相对丰度为20%。随着m的下降,局部群落变得越来越孤立,内部的中性动力学作用增加了分布的偏度和方差,使低丰度的可能性增大,但增加了不确定性或变异性。当m继续下降时,分布模态变为0 (m<0.04),物种不存在的可能性增大。
NTm和m的值如何确定。
(a)对于一个给定的平均来源群落丰度,观察一种生物的频率与NTm有关,NTm是指个体总数乘以移民参数。当NTm值较高时,局部分布紧密地聚集在平均元群落分布(本例中为0.2)周围。随着NTm值的下降,分布范围扩大,最终曲线模态下降到检测限以下,不再观察到该生物。因此,平均源群落丰度NTm与生物体被观察的频率之间存在关系。
(b)在不同NTm值的当地群落观察到的预期频率-相对丰度关系。对于给定的数据集,NTm值可以通过对这些数据拟合一条线来找到;在NT的值已知的地方,m很容易推导出来。
10. 参数估计
上文中参数NT、pi和m的值需要合理。
NT,个体的总数在样本的数量可从克隆文库, 16 s rRNA基因,DGGE,FISH或其他定量方法来确定。值得注意的是,虽然模型本身是随机的,但参数NT不是随机的。更确切地说,某一特定功能群中的个体数量是该特定功能群将能量转化为生物量的效率的函数。在已知的情况下,个体的数量可以先验地估计出来。
元群落中的比例丰度pi也可以被估计。Hubbell(2001)指出,每个地方群落实际上都是其形成所在群落的一个样本。因此,通过取许多来自同一源群落的当地群落,人们可以构建出该生物在源群落中比例丰度的图景。这可以通过分析大量来自相似环境的16S rRNA基因克隆文库或微生物群落指纹来实现。样本量应大致相同,而样本本身应是独立的,最好是来自类似环境中的不同群落。
参数m是群落内死亡个体被群落外个体所替代的概率。至少有两种方法可以推断m。
首先,随着NTm值的增加或减少,局部分布的方差也会增加或减少。对于任何给定的分子方法,都有一个检测极限(d),即微生物必须超过一定比例丰度才能被检测到。例如,要在克隆文库中被检测到,一个生物体必须包含至少1/ 2的克隆数量,而在DGGE中,一个生物体必须至少占样本的1%。由于NTm值控制了局部分布的方差,它控制了某一生物存在于检测限度以上的群落的比例,从而控制了该生物被观察到的频率。因此,对于平均丰度pi的生物体,该生物体的局部丰度(xi)超过检测限(d)的概率可与NT的值有关,NT值与m相关。
其次,物种定义的缺失可能被认为是理论微生物生态学的障碍。然而,参数m是个体移民的概率,因此应该独立于物种定义。Horner-Devine(2003)在不同水平的系统发育水平 (95、97和99%的16S rRNA相似度)记录下了这一问题,这可能大致对应于属、种和亚种的区分。
利用不同水平的系统发育分辨率得到的m估计值相似(分别为0.13、0.13和0.2)。这表明模型参数不受物种特异性、生态位适应因素的限制,或人为因素的影响。由于频率丰度关系最初是由达尔文和基于生态位的随机理论所发现的,因此这个观察结果可能对生态学有一般意义。
参数m也不需要借助复杂的数学模型就可以推导出来。在群体形成的有机体中,每个群体代表一个移民事件。一个群落中没有参与移民的个体的数量代表了当地群落中的繁殖事件。当单个生物迁移时,m的值为菌落总数与该菌落中个体数量的比值。这也是m的最小可能值,因为不止一种生物可以形成一个群体(从而降低了通过繁殖增加数量的移民事件的比例),但少于一种生物不能启动一个群体并增加该比例。
11. 移民概率的尺度
迁移参数不可能是恒定的,移民的规模与群落的规模及其潜在的物理属性有关。此外,使用小的随机样本确定的移民参数,比如来自中立聚集的群落的克隆文库,会被抽样效应带来的方差搞混。这意味着人们在小样本中感知到的m值可能比迁移到大样本或整个群落的值要高得多。
随着样本数量的增加,移民率会下降。
12.物种形成和迁移率
在微生物世界中,选择和进化这两种过程应该以某种形式的动态平衡存在,不同群落中基因的相似性和差异性应该包含这两种机制的相对重要性,甚至速率的信息。
14. 未来
当代微生物多样性的研究由于样本量过小而受到严重阻碍。这些数据,以及我们对微生物世界的认知,是方法和预算的作用,而不是对所需样本量的理性评估。
通常从环境中获得的样本的不足,一定程度上解释了围绕微生物多样性的争论。此外,除非在微生物多样性研究中获得足够大的样本,否则关于微生物多样性的明确陈述只能谨慎进行。
目前,我们不知道样本需要多大,而且很明显,“足够的”样本大小将超出大多数实验室的能力范围。微生物多样性的预测数学模型在这两种情况下都有帮助。
我们已经描述了一个这样的模型以及如何在这里校准它。该模型的预测可用于设计一个密集抽样方案,以确定选定的当地群落的多样性,从而向我们提供关于从中抽取这些群落的更广泛群落的宝贵资料。这反过来将允许实验室通过使用小样本校准模型,对微生物群落多样性做出预测。
一种预测微生物群落多样性的常规和普遍接受的方法,辅以偶尔的深度采样,将为系统地调查微生物世界的多样性程度开辟道路。对微生物世界的探索可以成为一项常规的、累积的、非常强大的长期努力,为国家的知识和经济基础提供支撑。
样本量和多样性的关系,参见:
确定群落研究的最小序列数
Frontiers: 样本量决定了微生物数量
土壤样本量对细菌和真菌扩增子测序得到群落结构的影响
总结:
1.14年前的文章,现在来看样本量的问题解决了么?在我看来依然没有。
2. 只知道不够,但是多大算是足够呢,依然没有确定的答案。这和研究的生境和科学问题息息相关。
3. 本文首先介绍了两类估计物种数量的方法,分别是Chao为代表的非参数估计方法,和根据物种分布曲线进行模拟或拟合。这两类方法前文介绍过,参见:
估计理论物种数
此外,近年又发展出了新的方法,如基于物种丰度比例的算法:
Biometric-通过频率比估计物种数量的方法breakaway
以及通过物种数与个体数关系得到的尺度定律方法:
Biology Direct:地球上到底有多少原核生物?
PNAS(2016)-尺度定律预测全球微生物多样性
4. 关于物种多样性,之前介绍过分类学、系统发育及功能多样性三大类,见:
多样性的大一统理论
但是除此之外,还有一些表征多样性的方法,如zeta多样性:
zetadiv: 计算zeta多样性
zeta多样性:基于发生率多样性的统一框架
5. 所以发展到现在,对于微生物多样性的维度,其测量与估计方法,及存在的大量技术性问题仍然都还在探索和发展过程中。
6. 我以前总是有这样一种想法,觉得目前我们连群落的准确物种数都得不到,后续的分析又有什么意义。本文给出了一个答案,即能够进行一些预测即可。
7. 关于这个杂志,之前也介绍过几篇文章:
Phil. Trans. R. Soc.B:休眠抑制了微生物的距离衰减
Phil. Trans. R. Soc.B:土壤异质性的生态学
Phil. Trans. R. Soc.B:把科学带回微生物生态学
我对这个杂志观感很好,因为在普遍心照不宣、和气生财、浅藏辄止的环境下,它上面的文章批判的很深刻。