如何从微生物网络中的“毛线球”理出头绪
From hairballs to hypotheses–biological insights from microbial
Lisa Röttjers, Karoline Faust
KU Leuven, Department of Microbiology and Immunology, Rega Institute, Laboratory of Molecular Bacteriology, Leuven, Belgium
FEMS Microbiology Reviews, Volume 42, Issue 6, 1 November 2018, Pages 761–780,
https://doi.org/10.1093/femsre/fuy030
Published: 30 July 2018
摘要
微生物网络是研究微生物群落结构的一种越来越流行的工具,因为它们整合了多种类型的信息,并可能代表系统水平的行为。理解这些网络并不是一项简单的工作,通常网络特性中的生物学意义是不清楚的。通过分析微生物网络使得研究人员能够预测枢纽物种和物种之间的相互作用。这种分析可以帮助鉴定可以替代的群落状态和生态位。这里,我们回顾了可能导致虚假预测的因素,并讨论了在微生物群中可能有意义的突现特质。我们还概述了分析微生物网络以验证新假设的研究。此外,我们通过模拟说明了分析工具的选择和环境因子对网络特性的影响。例如,枢纽物种在不同的分析工具可能不一致,环境异质性导致模块化。我们强调需要可靠的微生物网络推断,并提出了更可靠地推断网络的策略。
关键词
网络、枢纽物种、网络特性、标尺、生态网络、互作
引言
工程植物和土壤微生物群落很可能在不久的将来大幅度提高产量,然而,动物微生物的改造或转接已经被证明具有抗药性,甚至可以治愈感染。这类微生物群的合理设计要求研究人员了解微生物如何影响其环境,它们如何相互影响,以及它们的动态在多大程度上受到随机事件的影响。然而,在大多数情况下对这种机制的理解下是缺乏的。
因此,研究人员经常通过比较健康和疾病的生态系统寻找丰度不同的细菌,这些细菌将成为新的治疗药物的候选对象。然而,不稳定的微生物疗法影响了从临床微生物学到植物保护剂等一系列领域。例如,关于粪便移植的研究表明,并非所有移植的物种都能在每个受者体内定殖下来。植物科学家面临着一个类似的难题,因为田间性能往往是可变的,而且比在实验室环境中证明的效果要低。
在临床和田间试验中,这种不可预测性可能是由于我们对微生物群落的理解不足所致。生态平衡和生态失调的机制尚不完全清楚。有几个微生物群落在干扰后显示出复原能力,并恢复到原来的状态。然而,一些抗生素治疗和饮食干预永久地改变了微生物群落。在某些情况下,系统发育成分在扰动后发生变化,而功能成分保持不变。此外,生态失调的微生物往往比健康的微生物更易变化,这一现象在托尔斯泰著名小说开头的句子中叫做“安娜·卡列尼娜原理”(Anna Karenina Practice)。
虽然我们对菌群失调的认识正在提高,但新疗法的发展将得益于更详细的病因和效果描述。要解决实验室和体内环境之间的差异,就需要更好地了解微生物群落的各个方面。考虑到生态学、宏组学和代谢组学的信息,网络提供了一种灵活的分析工具。生物网络是微生物组数据的直观可视化,因为它们可以同时处理其规模和多样性(scale and diversity)。除了数据可视化之外,网络的一个主要优点是它们能够展示涌现性(emergent properties)。涌现性是那些如果网络的一部分被单独研究就不会被观察到的特性。这些特性可能有助于解释复杂系统的行为,例如它们明显的鲁棒性或模块化(robustness or modularity)。
在系统生物学中,研究人员已经认识到网络在多种应用中的价值。例如,Emig开发了一种将基因表达数据与药物靶位点数据相结合的网络方法。因此,他们能够识别出多个新药靶点。在植物科学中,基因调控网络已经被用来识别新的调节因子或功能模块。随着Cytoscape的普及,网络技术已经成为一系列生物科学中的关键可视化技术。
对于微生物组,网络可能有助于确定益生元或益生菌治疗的新靶点,或确定可能改变它的因素。促进我们对微生物组的理解需要一种分析方法,以提炼复杂行为的代表。微生物网络适应这种方法。在这篇综述中,我们描述了微生物网络分析的一些局限性和可能性。此外,我们还总结了微生物学家感兴趣的涌现性,并利用模拟来评估微生物群数据是否允许推断这些特性。最后,我们总结了一些关于微生物网络作为假设生成工具的观察结果。
网络作为复杂世界的代表
微生物网络是由两个部分组成的生态系统的时间或空间快照:节点和边。节点通常代表微生物,但也可以代表其他感兴趣的变量,如氧饱和度或酸度。边表示节点之间的统计意义关联,连接到节点的边数称为节点的度。微生物关联的显著性计算是多种多样的,但它们都需要一个无效模型来计算在没有相互作用的情况下所期望的关联强度。虽然已经开发和使用了许多这样的无效模型,在无效模型下生成数据的最常见方法是简单地应用置换检验的方法。如果关联对实际数据的关联得分高于对许多置换数据实例的关联得分,则分配给关联值较低的p值。P值阈值控制假阳性率,基于无效假设模型是无交互作用的真实数据的代表。统计显著性通常需要多重检验较正以控制假阳性,因为两种微生物之间的每一个关联都可以被认为是一个特定的检验。
根据丰度数据建立网络需要特殊的方法
在定义节点时,16s rRNA基因扩增子数据中的局限性可能会有问题。这些数据的三个方面与网络构建有关:==分辨率、不同的测序深度和稀疏性==。由于分辨率低,调查人员可能无法区分菌株和物种。这限制了网络可以帮助解答的问题的范围。例如,我们知道来自蜡状芽孢杆菌(Bacillus cereus)群的许多物种具有几乎相同的16S序列。然而,由于它们的宿主特化,它们在生态系统中的功能不同。因此,蜡状芽孢杆菌的16S序列不太可能解释致病性。这并不是蜡状芽孢杆菌独有的。因此,研究人员无法通过分析网络来研究近缘物种或菌株。改进的去噪算法,如DADA2的核心算法、可选的排序策略和更好的分类方法,都有可能提高微生物组数据的最大系统进化分辨率。同时,基因组内16S rRNA基因的自然变异可能导致这些方法夸大生物多样性,无法恢复具有生态意义的物种。由于这些尚未解决的问题,微生物关联网络在保守表型的研究中比对致病性菌株或稀有代谢功能的研究更为实用。
除了物种分类的定性问题外,测序过程中的技术变化会导致不同的测序深度。为了消除这种变化,测序数据中的数目经常被转换成相对丰度,稀释到所有样本的总和,或者以其他方式标准化。因此,研究人员使用的是相对数据,而不是绝对数据。某些统计方法,例如相关性,在应用于相对数据时会导致错误的结果。然而,Spearman相关性在模拟数据的准确性方面优于组成性数据推导中鲁棒的网络推理方法。这意味着仅提高组成性的健壮性并不能保证一个正确的网络。为了解决组成性问题,要么对数据进行转换,要么使用对组成性数据稳健的关联度量方法。这两种技术都依赖于比率,因为当将分子和分母除以相同的常数时,比率不会改变。中心的对数化是将一个分类单元的丰度除以样本的几何平均值后所取的对数,是一种普遍的转换。Bray-Curtis和Aitchison距离是基于比率的组成稳健的关联度量的例子。
除了构成,微生物群数据稀疏,如零富集。这给分析带来了另一个问题,因为用于处理组成性的对数率对零很敏感。计算带有零的数据集的对数率需要提前删除这些数据,以避免负无穷大。通常,添加伪计数将解决此问题。然而,如果对高度稀疏的数据使用伪计数,则会对最终结论产生影响,因为它们会改变数据的协方差结构。虽然存在不改变原始数据结构的替代方案,但它们对尚未验证的零进行了额外的假设。例如,这些方法对数据中零的来源和分布进行了假设,即使我们不知道零表示缺位(基本零)还是欠采样(近似零)。一般来说,这不仅是对数转换的问题,也是网络推导的问题。在许多匹配的零点上计算的相关性将是非常显著的,尽管所涉及的分类群可能在检测极限以下随机变化。虽然某些关联度量(例如Bray–Curtis)不因直接匹配零而有偏差,但它们间接受到影响,因为它们的可用数据点较少。基于这些理由,当从16S数据推断微生物网络时,对稀有分类群的普遍过滤是不可避免的。在这一规则中,偶尔高丰度的稀有分类群是个例外:尽管许多零可能会引起问题,一个低-高的模式是可以提供信息的,并且可能代表例如特殊性。虽然目前还没有关于如何最优地设置普遍过滤器的指导方案,但是理想的设置应该在避免有偏好的关联和保留潜在的特殊性之间取得平衡。
此外,网络推理工具还必须解决间接边缘问题。当两个分类群的关联是由于第三个分类群或环境因素所致时,它们之间存在间接边缘。例如,双歧杆菌降解低聚果糖,产生乳酸和乙酸,然后可供其他物种使用。如果其他物种与这些乳酸消费者有直接联系,它们将与双歧杆菌有间接联系。在推断网络中,这种间接边不能与表示直接关联的边区分开来。在基因调控网络中,间接边可能导致不反映实际路径的“快捷键(shortcuts’)”。这也可能是微生物关联网络中的情况,但缺乏有效的微生物相互作用阻碍了间接边缘的识别。
当一个样本中微生物总数已知时,相对丰度可以转化为绝对丰度。例如,稀疏流式细胞术和16s拷贝数校正相结合,以获得粪便样品的绝对丰度。其他可估计绝对丰度的方法包括DNA内参(spiking)、qPCR和原位杂交技术。由于很少的数据集得到这些定量技术的补充,我们认为微生物组数据是相对的。
用专业的工具推断微生物网络
横截面数据集(Cross-sectional datasets)不包含时间信息,因此,横截面分析工具在没有考虑样本顺序的情况下研究分类群之间的关联。相反,时间序列分析工具利用样本的顺序来计算关联或拟合方程。在分析时间序列之前,我们首先讨论用于横截面数据分析的工具。用于网络推理的工具包是多种多样的,工具使用一系列不同的方法来推断关联性以及处理具有挑战性的微生物数据。作为第一批微生物网络推断的工具之一,SparCC的开发是为了利用Aitchison对数比方差导出的相关度量来处理组分问题的。与基于相关的SparCC不同,SPIEC-EASI利用协方差的逆矩阵来推断关联。此外,考虑到正则化算法(regularization algorithm)的高精度,开发出了一种新的正则化算法。CoNet试图通过集成方法来提高网络的准确性,包括诸如Bray-Curtis这样的稳健的差异性度量。还有其他可用的工具;例如,gCoda通过估计逻辑正态分布的绝对丰度来解决组分问题,并使用它计算协方差矩阵的逆矩阵。而最大信息系数(MIC)是一种基于互信息的关联测量。其中一些工具试图删除间接边缘。例如,SPIEC-EASI计算协方差矩阵逆矩阵,其中非零项表示直接相互作用。相反,基于相关的工具,如CoNet和SparCC,并不试图删除间接边。
网络推理工具的方法不同,因此它们的优缺点也不同。例如,Weiss等人使用模拟数据评估多个工具,表明并非所有测试工具都能够检测到与两个以上成员的竞争或关系。没有任何工具能够推断出特定的生态交互作用,如偏害共栖现象(amensalism)。SparCC和LSA(Local Similarity Analysis)是在模拟数据中识别三物种竞争关系的唯一测试工具。当他们重复稀释降噪以测试少量噪音的效果时,只有CoNet和MIC推断出相似的网络。最后,Weiss等发现在两种不同的方法之间推断的网络共有的边不到三分之一。因此,打算使用网络的微生物学家必须警惕其潜在的低准确度和推断的网络之间缺乏重叠。
大多数横截面工具无法推断定向网络。从生态学的角度来看,方向性是指一个物种是否影响到另一个物种,是否受到另一个物种的影响,还是两者兼而有之。这意味着无方向的网络无法区别偏害共栖现象与竞争或共栖与互利共生。一些横截面工具确实可以推断出定向网络。例如肖等人,建立有向网络,假设横截面数据是通过Lotka-Volterra动力学生成的。相反,大多数需要时间序列数据的工具都使用时间信息来推断方向。
虽然横截面数据分析工具可以用来分析时间序列数据,但为了更好地利用这类数据,已经开发了专门的工具。例如,局部相似分析(Local Similarity Analysis,LSA)及其后继的eLSA采用动态规划对齐时间序列,使它们能够识别时间窗口与最优的局部相似性,并检测时间延迟关联。此外,eLSA还可以包括时间序列数据的复制。Pollet等人提供了与eLSA进行分析的一个显著例子。世卫组织利用这一工具研究沿海生物膜的动态和更替(时间序列数据用此法更专业)。
时间序列数据分析模型也在流行病学研究(epidemiological studies)中得到了广泛的研究。现在正在寻找获得微生物群数据信息的途径。例如,Ridenhour等人使用自回归整合移动平均(autoregressive integrated moving average,ARIMA)模型来描述微生物相互作用。ARIMA模型的自回归分量意味着当前值依赖于以前的值,而ARIMA模型也可以通过对连续值的差分来消除非平稳性。Ridenhour和他的同事忽略了差异;在他们的模型中,一个分类单元的当前丰度仅取决于一个噪声项和该分类单元本身的丰度及其在前一个时间点的相互作用伙伴。
在这种形式下,它们的模型类似于广义Lotka-Volterra(gLV)模型,该模型描述了随着时间的推移,类群丰度的变化与它们的生长速度和所有两两的分类单元相互作用的函数关系。这些成对的相互作用构成了相互作用矩阵,这相当于一个定向微生物网络。已经提出了许多算法来参数化gLV模型或它的离散版本Ricker模型。由于这些算法对交互矩阵进行估计,所以它们进行了一种形式的网络推理。LIMITS是一种用正向逐步回归来参数化Ricker模型的流行算法。与LIMITS相反,MDSINE使用贝叶斯方法对数据进行去噪,并提供参数的不确定性估计。在sGLV-EKF中实现了另一种在有噪声的情况下进行网络推理的方法,该方法包括一个扩展的卡尔曼过滤器,它是一种基于系统动态模型估计系统真实、无噪声状态的算法。这些动态网络推理方法还没有在微生物网络推理的背景下得到广泛的评价。
在大多数情况下,要确定分析微生物群落动态的最合适的模型(因此也是最合适的工具)并不简单。例如,Lotka-volterra 模型可以很好地拟合微生物群落中长期的交叉喂养交互作用,而该群落的空间结构可以更好地反映在基于单独的模型中。此外,不同的过程对群落动态的控制程度可能因每个生态系统和物种的不同而不同。例如,廖等人观察到,中性模型可以解释普通物种的湖水群落组成,但不能解释专门物种的群落组成。在植物微生物群中,Cregger等人发现植物结构诱导的强生态位过滤足以解释群落结构。
此外, 具体过程的贡献可以更多或更少的可见,这取决于空间或时间比例取样。然而,当基本的动力学仍然知之甚少时,很难选择一个最优采样频率。在这方面,Gibbons等人研究控制微生物群的不同动态机制,最丰富的物种似乎是自回归的。相比之下,稀有物种的丰度并不是自回归的。Gibbons等人说明稀有物种更多地受到外部驱动因素的影响,例如,饮食。作者还评估了自相关消失的时间间隔;在他们的数据集中,这种延迟是3到4天。这意味着需要足够高的采样率来拟合动力学模型。此外,Faust等人建议对以前的时间点进行依赖测试。这可以帮助区分由底层规则控制的动态和完全随机的动态。后者可能是由于高噪音或采样率不足而产生的。作者认为,gLV或中性模型只有在有时间依赖证据的情况下才能适用于时间序列。
总的来说,这为实验设计提供了两个考虑因素:高采样率将提高推断网络的准确性,工具的选择取决于时间序列的采样间隔。例如,环境因素的影响可以从稀疏采样的时间序列或横截面数据中识别出来,而将gLV参数化的工具则需要更密集的采样。如果时间序列的采样不够密集,错误的函数可能会很好地拟合数据(混淆),从而导致不正确的交互方向。
生物和非生物因素引入假边
除了网络推理工具的局限性外,网络分析还需要进行实验设计。微生物并不孤立地生活,它们与它们的非生物以及生物环境相互作用。如果两个物种和一个未报告的因子共同发生,它们可能在最终的相互作用网络中获得一个间接的边缘,这仅仅是因为它们都受到这个因素的影响。这些边缘也可能是由16S数据集中未统计的物种造成的。例如,原生动物经常是人类肠道中未报告的居民。在反刍动物肠道中,厌氧真菌可能具有大量独特的功能。虽然菌根在植物科学中得到了广泛的研究,但与微生物的新型相互作用仍在被确认。当这些物种存在时,与这些物种的联系将导致间接边缘。事实上,利用SPEC-EASI进行的跨域分析表明,当真菌被包括在内时,网络特性发生了显著的变化。当这些物种存在时,与这些物种的联系将导致间接边缘。噬菌体尤其有可能在微生物群中发挥重要作用,如果不将它们包括在内,微生物结合网络的相关性就会降低。
此外,微生物群落的非生物驱动因素可能没有被报告;pH的变化有利于嗜酸菌,生物反应器(或人类)的保留时间也可能导致特定微生物群数量的增加。有些因素在较大的空间尺度上可能更容易研究。例如,Delgado-Baquerizo等人最近发现,全球土壤数据集的优势类群更容易共生,如果他们有共同的栖息地偏好,而pH、干旱和净初级生产力是这些偏好的重要驱动因素。
图1展示了间接边的一些来源。==如果环境在不同的样本之间是恒定的,间接边缘就不那么突出了==。相反,不断变化的环境会导致样本的异质性,并可能对网络结构产生深远的影响。间接边缘可能是样品异质性的结果。当所研究的生态系统中的环境因素不同时,这种异质性就会发生,并且可能是实验设计的结果。当使用网络分析来推断关联时,这种现象是有问题的。由于微生物生态位偏好的差异,在可变环境中共有的生态位偏好可能是共生模式的来源。当两个物种在相同的生态位中具有生长最优时,它们将共同发生,而相反的效应则会导致相互排斥。生态位偏好也可以解释为什么近缘物种经常同时出现,因为它们可能比远亲物种有更多的生态位重叠。
图1 微生物相互作用网络的共现源
(A)共生关系可以由微生物相互作用驱动。物种间的交叉饲喂可被视为共现关系,而竞争则可导致相互排斥.(B)共用生态位的生物更有可能同时发生。如果从异类环境中采集样本,不同的生态位转化可能会导致虚假的相互作用。(C)并不是所有相互作用的物种都在16S rRNA数据集中被检测到。(D) 最后推断的网络包含虚假的和真实的交互。
尽管生态位偏好可能对网络结构产生影响,但网络推理工具往往不包含环境数据。这可能导致由环境引起的间接边缘急剧增加。基于逆协方差的工具,如SPIEC-EASI,理论上可以在两个假设下去除这些边缘:第一,数据是多元正态分布的;第二,考虑了系统的所有组成部分。第一个假设可以放松,但第二个假设在有可变环境的情况下并不容易解决。无论如何,一个好的抽样策略可以减轻生态位的影响。研究人员可以在受控环境下工作,如生物反应器或人工生物膜。在这种情况下,生态位偏好不太可能造成虚假的关联,因为样本变化减少,剩余的生态位可以用完全的监测策略加以说明。在结构较弱的环境中,当可归因于环境因素的样本集之间存在很大差异时,调查人员可以选择分割数据集。这可能是合理的,因为相关的分类群和环境因素之间的联系以前已经在文献中描述过,或者因为环境特征与群落的变化有关。或者,生态位偏好的影响可以通过选择普遍物种来减轻。调查人员可以选择高度异质的样本,并设置严格的普遍过滤器;因此,只有在许多样本中出现的物种才会被保留。Pascual- Garc´ıa使用这一方法来研究世界性物种。他们能够找到在不同环境中同时发生的物种,并表明其中一些共生现象得到了文献的支持,因此很可能代表了生物间的相互作用。
虽然生态位可以引入环境诱导的间接边缘,但环境影响的可视化是关联网络的主要力量之一。大多数研究人员在他们的微生物组研究中收集额外的临床或环境数据,这些数据可以包含在一个完整的网络中。可视化生态位偏好在那些对微生物所知甚少的系统中是有价值的,事实上,最近对宏观生态共现网络的观察表明,这些网络可能比它们代表的生物相互作用更好地代表生态位偏好。网络对环境因素的敏感性也有利于社区结构的重建。基于网络的β多样性度量方法,如TINA和PINA,比其他方法更清晰地解决了生境诱导的人类微生物群。
此外,网络可以将生态位表示为微生物相互作用的中介。一些微生物通过改变环境特性来创造新的生态环境。它们可能导致酸化,提供空间结构或从环境中清除氧气。共生模式可以显示微生物产生空间结构或无氧环境的能力。例如,牙斑的早期和晚期菌群呈负相关。这不是直接的相互作用,而是好氧细菌创造了有利于氧敏感的晚期菌群的厌氧环境的结果。
在所讨论的所有网络推理工具中,很少支持包括环境或宿主数据。例如,CoNet计算分类群与环境因素(如pH)或宿主元数据(如重量)之间的关联。MInt假定环境或宿主因素对物种丰富度有加性的线性影响。它首先将这些因素回归出来,然后从残差中推断出分类群网络,从而消除了这一影响。分类群和环境因子之间的关联通常是根据相对丰度来计算的。根据这些关联得出的结论在多大程度上符合绝对丰度,仍有待评估。
与环境丰度的相关性并不是纳入环境数据的唯一方法。对于分类变量(例如抽样方法或位置),可以使用适当的差异丰度检验,例如在ALDex2或DESeq2中实现的差异丰度检验。丰度差异的物种可以连接到代表感兴趣的环境因子节点,或者将效应大小添加为节点属性。如果调查人员将这类数据包括在网络中,那么网络的某些模块如何代表环境条件就会变得更加明显,尽管并非所有模块的物种都可能有显著的差异。由于网络是一种灵活的数据存储和可视化形式,因此几乎没有理由将它们限制在数据的丰度上。
网络特性的生物理解
由于微生物关联只预测少数情况下的生物相互作用,在寻找新的生物学角度时,新涌现的特性可能更可靠。微生物相互作用网络为研究它们提供了一个很好的工具。网络理论中的概念可能暗示出一些生物的涌现性,例如微生物群落中的抗生素耐受性,在这种微生物群落中,缺乏抗药性基因的微生物可以耐受抗生素,如果它们是一个群落的一部分。然而,这些概念与实际观测之间的联系尚不清楚。在本节中,我们将讨论以下网络属性:中心物种、中介中心性、网络基序、同配性、传递性、模块化和网络健壮性。
图2 网络中涌现的网络特性。A绿色节点的网络表示中心物种,因为它具有最高的度。B网络中的绿色节点具有最高中介中心性。C 网络中可以找到的基序举例。(前馈基序:在这里,显示了一个4节点的基序)是基因调控网络中已知的基元。而闭合的和三元的基序的例子是可以在无定向的微生物网络中找到的基序。D网络中的同配性。绿色节点是同配的,因为它只连接到具有相同度的其他节点。蓝色节点是不同配的。E网络中的脆弱性或健壮性。对于靶标位点的攻击会导致网络是脆弱的,因为对绿色节点的任何攻击都会使网络片段化。
网络中节点重要性的定义
在寻找有意义的生物知识时,核心物种常常是微生物网络分析的结果。核心物种是网络中级别最高的节点,因此与大量其他物种相关联。识别这些物种是直截了当的,它们对群落结构的重要性似乎几乎是直观的。然而,核心物种的生态作用尚不清楚。例如,网络中的核心物种可能代表已知的重要生态系统结构和功能中的关键物种。它们的消失会导致生态系统崩溃。核心物种不一定有同样重要的生物学意义,因为研究人员不能推断出这种重大变化,除非他们进行实验,包括去除枢纽物种和随机选择的对照物种。此外,最近的工作表明,在宏观生态网络中已知的基石物种并不一定会在共现网络中产生可检测到的信号。这进一步削弱了核心物种很可能代表关键要素的假设。
与核心物种相关的概念是强相互作用物种(Strongly Interacting Species,SIS)。在模拟中,这些“杠杆”被证明能够引导生态系统走向特定的群落类型。为了实现这些群落转移,异质交互强度是必要的,SIS具有最强的交互作用。总体而言,核心物种在群落结构中的作用是不明确的,可能包含重点物种和杠杆物种的各个方面。除了度之外,其他类型的节点中心可以作为节点重要性的代表。例如,节点之间的中心性计算方式为从所有节点到的所有其他节点通过该节点的最短路径总数。因此,如果一个节点连接构成网络的集群,则其度为2的节点可以在网络中具有最高的中间度。尽管它的度很低,但它可以影响网络的大部分。除了最短路径外,通过网络的随机行走也可以用来估计节点的中心性。在随机游走过程中访问频率更高的节点随后被分配给更大的中心性估计。也存在其他形式的中心性,每种形式都对节点间交互的性质作出不同的假设。例如,中介中心性假设最短路径很重要(例如包裹从一个地点到另一个地点的传递),而基于随机游走的中心性度量则假设信息或代谢物是随机传播的。将错误的中心性度量应用于网络可能会导致不正确的节点重要性度量。由于微生物相互作用的机制可能是多种多样的,而且通常不为人所知,因此我们不建议对微生物网络的中心性进行最佳选择。
此外,一些中心性的度量依赖于对网络上运动的模拟。它们的解释和相关性因网络类型的不同而不同;在无定向网络上行走比在有向网络上行走所面临的限制更少。因此,由时间序列数据构造的有向网络与由横截面数据集构建的无向网络代表着不同的群落结构。图3展示了这个问题。在图3A所示的无向网络中蓝色节点似乎是一个枢纽物种。然而,3B的有向网络表明,它受益于其他物种的存在,但不影响它们。在图3B所示的有向网络中,蓝色节点似乎是“死胡同”,而移动则可以从灰色节点自由地传递到其他节点。因此,依赖于随机游动的仿真结果表明,灰色节点是最有影响的节点,因为大多数随机游动都会通过它。
图3 节点方向性会影响节点的重要性。(A)在这个无向网络中,红边蓝色节点在中心性度量上得分最好.由于该节点的移动是可能的,在随机行走的电子模拟中,最短路径或其他类型的运动将支持这样的假设,即该节点在网络结构中起着关键作用。(B)在这个定向网络中,在模拟移动过程中不会穿越蓝色节点。因此,红边灰色节点现在可以被识别为具有最大影响力的节点。
连接网络特性到生物学
当中心性度量描述网络组件时,对网络的更高层次的描述也可能是信息性的。例如,Motif是一个至少有三个节点的被过度呈现的子网络,它的过度表示意味着该基序发生的频率比预期随机发生的期望的要高得多。基因调控网络中经常出现基序,模型显示它们可以稳定转录网络中的信号。因此,它们可能在细胞内信号通路中有效和强劲的信息流中发挥作用。不管它们的功能如何,研究者们已经使用基序鉴定基因调控网络中的主要调控因子。在选择压力方面,微生物网络不同于基因调控网络。虽然基因和基因基序由于这些基因所提供的独特而重要的功能而保守,但宿主相关的微生物群落可能包含更多的冗余,并表现出更多的机会主义行为。然而,它们也暴露在群落层面的选择之中,因为微生物与宿主的亲密联系意味着它们至少经历了宿主面临的部分选择压力。为了减少微生物群落中的机会主义行为,宿主已经制定了几种控制群落组成的策略。这种独特的选择压力可能会诱导群落结构上的模式,但在微生物网络中这些模式的样子并不明显。在这一点上,基序在微生物网络中的作用尚未确定。这类主题可能代表保守的信息传递或保守的交叉喂养相互作用。信息传递可能涉及群体感应或电子交换等过程。在水生环境和人类病原体中观察到了物种间的交流。同样,微生物可以利用电通讯来协调生物膜群落中的代谢活动。即使没有证实直接的相互作用,微生物也可能改变它们的转录组,以响应其他物种。物种间的协调行为的能力表明微生物可以协作。如果保守,这种关系可以形成基序。目前,微生物网络中基序的存在和功能仍然局限于推测。已经有迹象表明,它们至少可以作为生物标记物使用。Ma and Ye 调查了人类微生物群数据集中是否存在三元基序。他们发现,在多种疾病中,特定的基序过多或代表不足。我们仍然不知道这种模式是否在不同的生态系统(甚至跨工具)中被保存,或者它们为什么会存在。建立基序在微生物网络中的作用需要更多的探索性研究。与基序相似,分类系数描述网络结构。在分类网络中,节点更有可能连接到类似的节点。这种相似的定义有多个。首先,同配性可以定义为节点程度上的相似性。基于这个定义,Newman能够计算出多个网络的分类得分,正的分类得分表明节点更容易连接到具有相似程度的节点。相对于社会网络,Newman(2002)发现生物网络是不同配的。他用模型证明,通过移除高次节点,非同配网络要比同配网络更容易被分解。虽然Newman定义了关于节点度的相似性,但对于有向网络来说,相似度也可以根据内、外度来计算。大多数微生物网络推理工具不提供有向网络,但同配也可以定义为共现或互斥的相似性。研究人员也可以使用局部分类,在这种情况下,该程度仅与节点的直接邻居的程度相比较。Piraveenan、Prokopenko和Zomaya观察到,当使用这些替代系数时,许多生物网络是同配的,而不是错配的。因此,应在微生物网络的背景下详细解释同配系数,因为所使用的分类系数定义完全改变了结果。此外,同配性也可以指分类学群中的相似性。这种类型的同配性表明物种是否更有可能与近缘物种相互作用。虽然这一系数包含了更多的生物信息,但它不太适合基于网络理论的评估。同配性是指网络中边缘的异质性,而传递性则描述了全局结构的异质性,即它量化了节点聚在一起的程度。因此,这个属性也被称为全局聚类系数。据我们所知,传递性并没有在生物网络中被认为是有信息的。在社交网络中,传递性量化了“我的朋友是朋友的朋友”这句话。虽然微生物没有朋友,但它们可以显示交叉喂养,高传递性可能是降解途径或生态位过滤的指示。然而,由于我们可能无法在不知道真正的相互作用网络的情况下估计同配性或传递性,这些系数可能对推断网络的解释影响不大。目前,我们不知道它们是否可能是诸如群落特性等均匀度的后果。
最后,模块化量化了网络可以被分解成更小的组件的程度。为了识别这些模块,提供了一个丰富的工具包。例如,马尔可夫聚类算法通过模拟网络中的随机游走来定义簇。虽然Walktrap算法也依赖于随机游走,但它得益于较低的运行时间,因此能够处理比马尔可夫聚类算法更大的网络。Newman和Girvan开发的一种算法通过迭代删除网络中的最高节点,将网络划分为模块。由于每一种算法都返回具有不同结构性质的模块(即高度紧致的模块或模块间边最小数目的模块),它们在模块识别方面的性能取决于模块的期望属性。
无论算法的选择如何,微生物网络模块化的来源并不完全清楚。模块可以可视化不同的生态位,并已被用于研究生境偏好,例如,在土壤中。在另一个例子中,Guidi等人研究了塔拉海洋考察期间采样的浮游生物群落中的碳输出,发现有两个模块与这一过程相关。其中一个模块包含了原核生物,解释了大约60%的碳输出变异。另一个模块包含噬菌体,可以预测89%的相同变异。有趣的是,这些网络中最重要的节点是双球菌,一种蓝藻和两种双球菌噬菌体。这表明这些模块如何将碳输出表现为噬菌体与其宿主之间的相互作用,并显示网络模块作为重要生态过程指标的潜力。
尽管研究系统可能是相同的,但模块背后的驱动程序可能会有所不同。在另一项关于海洋生态系统中的自由生物群落的研究中,模块被证明与采集样本的深度相对应,从而支持了环境驱动模块的存在。CRIM等人确定了两个模块,其中一个模块对应于表面叶绿素和日光长度。由于共享路径和交叉喂食方式和通过环境因素引入的模块,区分模块可能是一项具有挑战性的工作。例如,蒋等人观察到,模块与土壤变量以及潜在的硝化活动相对应。当对模块中的有机体知之甚少时,这两者之间的区别是不可能确定的。
总体而言,模块可能表明管理群落结构的生态进程,但需要进一步的信息来确定其来源。在某种程度上,这些信息可以通过模块中特定功能或分类组的过度呈现来收集。如果特定的酶编码基因被过度表达,模块中的分类群可能是专门针对某一特定营养物的。相关的代谢途径可能是从过度表达的基因推断出来的。例如,一个森林土壤网络可以包含一个模块,该模块包含在固氮过程中起作用的物种。或者,如果分类群的代表性过高,这可能表明生态位过滤的效果。
网络鲁棒性是一种生物信息特性
Newman提出了同配性可以作为网络健壮性的一个指标。然而,如何在微生物网络的背景下衡量健壮性呢?首先,我们要澄清的是,我们指的不是统计意义上的鲁棒性,稳健意味着方法的选择不影响研究成果。虽然这个鲁棒性的定义对微生物网络是有价值的,并且理想的情况下会被报道,但是下一节将从网络理论中把健壮性作为一个概念来报道。鲁棒性作为一种网络性质,可以用渗流理论来研究。这个理论描述了信息如何从一个节点流动到另一个节点。其应用之一是节点去除对网络的影响。在这种情况下,鲁棒性是指网络易受随机或特定节点删除的影响,当网络因节点删除而分解成较小的部分时,网络被认为是易受攻击的。渗滤阈值是对网络脆弱性的定量度量:当足够多的节点被移除超过此阈值时,网络就会崩溃,其最大分量的大小会急剧减小。
生物网络的鲁棒性与其度分布密切相关。这种生物网络的分布并不总是遵循强力的定律(即网络的度分布有重尾分布),但是通常有更多的低度节点。由于只有少数节点是具有高维度的枢纽物种,因此在理论上,生物网络对随机节点的去除具有鲁棒性,但对特定节点的去除非常敏感,虽然渗流在实践中难以证明,但可以计算出哪些节点是影响因素。影响因素可能是关键因素的替代物,因为清除影响因素会导致网络破裂。
在生态学意义上,鲁棒性也有第三个定义,即一个生态系统在其成员物种或环境的行为发生变化的情况下维持其当前状态的能力。例如,肠道微生物群的分类组成可能对饮食变化不具有鲁棒性,即使功能组合确实显示了鲁棒性。据我们所知,目前还没有对渗滤理论在微生物组学研究中的应用进行广泛的评价。节点删除分析可能无法预测系统在现实生活中的响应,因为网络只是生态系统的简化表示。此外,虽然所有关联网络都是生态系统的静态表示,但从时间序列推断的定向网络可能更适合于节点删除模拟。无论如何,网络鲁棒性要比生态鲁棒性容易得多,因此,如果网络鲁棒性是生态鲁棒性的预测,它将是一个有价值的诊断工具。
从网络到假设
在上一节中,我们讨论了边的性质。我们还暗示了如何改进实验设计,以发现或避免样品的异质性。包含额外的信息可以让研究人员区分间接的和直接的边缘,并阐明共现背后的功能机制。在这里,我们提供了这种方法的例子。
环境信息可以包括在网络中
利马-门德斯等人研究了Tara海洋浮游生物数据集,该数据集在所涵盖的区域和范围内是独一无二的:在八个海洋省份以两个深度采集了样本,其中包括从病毒到小型多细胞动物等大小不同的生物。正如前面提到的,研究生物和非生物因素对生态系统结构的影响给网络建设带来了一个问题:非生物因素变化的环境会导致虚假的共线发生。作者试图通过纳入所有衡量的非生物因素来解决这个问题。它们的初始网络既有环境因素,也有分类群,它们往往形成三重奏,其中两个类群与同一环境因子呈正相关或负相关关系。这个三重奏表明,这两个类群之间的边缘是它们对环境因素的反应的结果。为了量化三体的间接性程度,他们计算了三重奏的相互作用信息。具有显著负相互作用信息的三胞胎的分类群边缘被假定是由环境因素引起的,并被删除。42%以前已知的浮游生物相互作用是在网络中发现的,而一个先前未知的、非常重要的候选相互作用被激光共聚焦显微镜所证实。
以类似的方式,Wang等人调查了从慢性阻塞性肺疾病患者收集的肺微生物组数据。以前的研究表明,疾病严重程度的增加与α多样性的下降有关。Wang 等人利用宿主元数据查找在不正常的状态中起作用的分类群。排除共线性变量后,在靶向网络中包括66个临床变量。因此,他们发现有几个痰生物标志物是共同发生网络中的中枢节点。这些生物标记物大多与炎症有关,这表明这种失调状态与患者的炎症反应有关。他们认为特定的中枢物种是炎症反应的驱动因素。
鉴定微生物组中的关键角色
而Agler等人没有以这种方式包括元数据,他们进行了电子实验,以量化核心物种在拟南芥微生物群中的重要性。拟南芥叶际(地上植物表面)网络包含三个枢纽物种,这些枢纽物种与大多数其他节点相关。Agler等人假设这些节点对生态系统有不成比例的影响。为了检验这一假设,他们在电子表达中进行了一个节点去除实验,在那里他们删除了每个枢纽,并观察到它们的去除对边的影响比对非中心物种的去除影响更大。然后,通过宿主定植试验和交互作用试验,证实了Albugo sp.和Dioszegia sp.两个枢纽物种的作用。由于Albugo sp 需要一个活着的宿主来生存,他们无法研究个体间的相互作用。然而,宿主定植试验表明,受感染的拟南芥植物的微生物α多样性下降。对于Dioszegia,交互作用试验表明,该中心物种降低了某些细菌的叶定植效率。他们的方法证明了如何用通常不能被培养的物种来检验因果关系,以及如何从实验上验证所鉴定的枢纽物种的关键行为。
微生物网络在病理生物学研究中具有重要的应用价值。与真正的病原体不同的是,在健康个体的微生物群中可以存在致病有机体,因此,找出内源性病理生物与疾病之间的因果关系并不是那么直接,但是网络分析可以帮助阐明致病有机体引起疾病的原理。Meyer等人以这种方式接触珊瑚宏生物中的黑带病。由于黑带病是一种多菌感染,没有单一的致病因素。然而,在从黑带采集的大多数样品中都有一种蓝绿藻,即红被膜菌。Meyer等人首次将健康的珊瑚微生物群落与患病珊瑚微生物群落进行比较。他们发现健康珊瑚的微生物比患病珊瑚更均匀,进一步支持了安娜卡列尼娜原则的有效性。
由于在健康的珊瑚中也存在雷氏菌,作者推测它不是一种主要的病原体,==微生物群中的相互作用是疾病发展的原因==。事实上,他们发现与疾病相关的微生物群落的属与其他疾病相关的属是同时发生的。雷氏菌在网络中的位置特别有趣,因为与它相关的少数联系主要是与高度连接的物种联系在一起的。作者的后续分析表明,它确实通过一种干扰群体感应的化合物直接影响着高度连接的枢纽物种,从而改变了微生物之间的相互作用。总之,除了它在疾病发展过程中的重要性外,它的网络结构成功地突出了病变的感染机制。
网络方法也被应用于老鼠的研究。在这些研究中,因果关系比临床试验更容易被观察到。小鼠研究的标准化意味着样本异质性的降低,由于这些研究得到了更好的控制,网络结构的变化更有可能是微生物相互作用的结果,而不是环境因素的结果。例如,Mahana等人研究了抗生素治疗对高脂饮食小鼠的影响。与相同高脂饮食的小鼠相比,抗生素治疗的小鼠脂肪增加。他们对生理数据进行无监督聚类,对6组样本进行聚类。大多数类对应于特定的表型。然后对每一类构建单独的网络,为了比较它们,他们鉴定了潜在的重点物种。他们通过对目标节点的去除来量化网络的健壮性,并在此分析的基础上提出,特定的抗生素可以针对关键分类群并导致生态系统崩溃。
虽然这是一个很有吸引力的假设,但他们的分析都是用电子表达推断的,而枢纽或瓶颈类群的生态作用还没有完全弄清楚。上述方法突出了从微生物网络中学习更多知识的两个关键策略。首先,网络可以集成环境参数的测量,我们不能推荐一个标准的参数集,上面的每一项研究都包含了各自的相关参数。因此,对纳入考虑的生态系统的良好理解对实验设计至关重要。在许多研究中,无论非生物参数或生物标志物在网络建设中的使用情况如何,都要进行测量。然而,当数据存在时,合并它还不是一个简单的试验,因为没有微生物网络推理工具支持所有类型的环境数据。分类数据也可以指导数据的分组,例如根据治疗情况。然后可以为每个组构建一个单独的网络,如Mahana等人所述。这可以降低样本的异质性。
其次,正如Agler等人和Mahana等人所证明的,研究者可以应用网络理论和渗流理论中的概念来进一步分析它们的网络。尽管他们的工作很有希望,但目前还不清楚如何电子预测生态系统的行为,而实验验证仍然是必要的。
推断的网络性质不可靠
总之,我们上面提到的大多数属性都可以简单易用的方式进行计算。然而,环境条件和工具选择对涌现性的影响尚不清楚,因此,是否可以从微生物网络可靠地推断出涌现性尚不得而知。继Berry和Widder之后,我们用Klemm-EGU‘ıLuz算法生成了相互作用矩阵,并用gLV方程模拟了群落动力学。并不是所有的微生物群落都会遵循gLV的动态。例如,它们的动力学可以用中性模型更好地描述,而gLV型模型可能无法正确描述所有的交互机制。然而,尽管它们简化了假设,但研究已经证明了gLV模型在微生物群分析中的优点。这些模型的简单性使得它们在仿真中易于实现,数值求解速度也更快。
由于没有经过充分验证的微生物相互作用网络,我们只能估计它们的拓扑结构。然而,Sung等人表明,在文献记载的肠道微生物相互作用网络中,只有17.6%的肠道微生物是高度相关的。实验工作还表明,推断网络可以拟合(截断)幂律。此外,食物网也被发现有偏斜度分布。总的来说,这支持微生物网络中的枢纽物种的存在,并且可以用klemm-eguıluz算法进行模拟,该算法通过优先连接生成网络。因此,我们使用该算法生成综合交互网络,然后利用这些已知的网络测试工具从数据中推断出涌现性的能力。Fig s1 图中提供了仿真的图形摘要。同时提供更详细的方法说明和代码存储库作为补充文件。
图S1:利用Klemm-EGUíLuz相互作用矩阵和广义Lotka-Volterra方程模拟微生物共现数据集。(A)Klemm-EGUíLuz算法生成的交互作用矩阵。(B)广义Lotka-Volterra模拟的时间序列输出。每条线代表一个物种的丰度。对于我们的数据集,我们在最后一个时间点采样了这些时间序列。(C)同一数据集中所有物种的相对丰度条形图。该数据集包含环境异质性,样本40的丰度变化表明。(D)从一个交互作用矩阵生成的所有数据集的多维缩放(MDS)图,以模拟不同的环境条件。MDS是一种排序方式。颜色表示环境扰动的强度,形状则表示不同的环境条件。这些条件因环境强度的不同而不同。
样品的异质性改变网络结构
为了研究环境因子的效应,我们改变了每个数据集中一半样品的生长速率,有效的模拟了单一数据集中的不同的环境情形。一种类似的方法在以前的gLV模型中包含了环境参数,并且这个模型可以拟合湖泊群体的季节波动。我们预计,随着环境引起的间接边缘的形成,环境影响的增加会伴随着精度的下降。这确实在Fig4B 和 Fig4c 中反映了。虽然并非所有的工具都报告了提高的维度(特别是SPIEC-EASI的推断结果一直是稀疏网络),但所有工具的精度都下降了。此外,随着传递性的显著增加,环境因素也改变了网络结构。虽然传递性预计会随着度的增加而增加,但对于不报告度急剧上升的工具,传递性也会增加。SPIEC-EASI算法之间的差异尤其值得注意,因为两者在精度上的变化并不是很大,而传递性系数却变化很大。此外,随着环境因素的增强,少量的度增加表明SPIEC-EASI推断的网络也被重新连接。
最后,图4D显示了在不同的条件下,所有工具的同配性有多大差异。在生物网络中,同配性一般认为是负的。Klemm-EGU‘ıLuz相互作用矩阵反映了这一点。然而,大多数工具都无法返回负的同配性;如果返回,则一旦数据集条件发生变化,这种情况就会发生变化。对于SPIEC-EASI,正同配性至少可以部分地解释其推断网络的低边数(稀疏性)。当SPIEC-EASI网络中的节点遵循较窄的度分布时,由于需要连接的高次节点较少,因此它们不太可能是不匹配的。相反,在低环境强度下,CoNet推断的网络具有负的同配性得分,但随着环境影响的增加,网络得分变为正。这可以解释为,由于环境因素,当CoNet开始关联物种时,节点度就会增加。
图4 Conet、gCoda、SPARCC、Spearman相关性和SPIEC-EASI从环境强度增加的数据中推断出的关联网络的统计量。对于CoNet,测试了两种p值合并方法:Fisher p值合并和Brown p值合并.对于SPIEC-EASI,包括两种不同的算法:图形套索算法和Meinshausen-BuühlmannMethod算法。这些设置称为GL和MB。A 所有生成的网络的精度与灵敏度的散点图。灵敏度度量预测的已知交互作用的数量,而精确度量化预测的交互作用中有多少是正确的。B-E对数据点进行二次函数拟合,灰色区域表示预测二次函数95%的置信区间。B 所有网络的平均度,Klemm-EGU‘ıLuz矩阵的平均度表示在x=0。CoNet和Spearman的平均度急剧增加。C-E 所有网络的精确性、同配性和传递性。当环境强度增加时,所有工具的精度降低,而传递性增加。然而,没有普遍的趋势可以观察到的同配性。
推断网络中的全局网络属性经常与Klemm-EGU‘ıLuz交互矩阵中测量的值不匹配。网络理论提供了宝贵的资源,但有些方法可能并不适合于形态微生物群的研究。由于网络的拓扑特性可以很容易地用R igraph包或在Cytosscape中计算,因此作者有时会在发表的刊物中报告它们。根据我们的模拟,在没有实验或其他信息的情况下,将生物学相关性归因于这些特性似乎是不明智的。如果潜在的交互网络是未知的,它们可能是工具偏差的结果,也可能是有组织的复杂行为的结果。这些结果反映了Connor,Barber‘an和Clauset的研究结果,他们发现当Spearman相关性的阈值设置改变时,网络属性会完全改变。
正如我们前面提到的,模块可能代表不同的领域。因此,我们期望在我们的数据集中引入两个小生境来生成网络的模块化结构。Fig5 显示来自特定Klemm-EGu‘ıLuz矩阵的数据集的该结构
图5 用SPIEC-EASI和CoNet推断网络的跨环境梯度网络结构。SPIEC-EASI采用Meinshausen-Buühlmann方法运行,CoNet采用Brown p值合并.对于SPIEC-EASI网络的可视化,使用了一个圆形布局,而CoNet网络则使用了一个考虑边缘标志的强制有向布局。当环境变得更强时,两个模块变得可见。与SPIEC-EASI发现的模块相似,在CoNet0.7网络中的模块由正边连接。节点的填充颜色和边框颜色表示两种环境条件对生长率的影响,绿色意味着该条件对生长率有正的影响,而红色则意味着增长率的降低。在后两个CoNet网络中,蓝色节点表示环境因素。
值得注意的是,随着环境强度的增加,形成了两个团簇。节点的颜色表明,这确实是对环境的类似反应的结果。虽然SPIEC-EASI仍然生成稀疏网络,但在颜色相似的节点之间形成额外的正边,在不同颜色节点之间出现少量负边。相反,随着环境强度的增加,CoNet的维度急剧增加。这种结构只在模拟数据集上可见,在这些数据集中,有不同的微生物群对强环境因素的反应不同,因此这些因素对数据集中每一组的影响完全相反。我们没有强制执行这个约束,所以并不是所有推断的网络都共享这个结构。
如果没有边缘符号,这种模块化结构是无法识别的,因为模块由共现(而不是相互排斥)物种组成。因此,我们的合成环境看起来像在实验研究中观察到的效应。此外,实验结果表明,即使在特定的边缘不一致的情况下,模块在工具之间也可能是一致的。然而,识别这些模块的聚类方法需要考虑到微生物关联的边缘标志。
每个工具的中心性是不同的
由于微生物生态学家感兴趣的是程度和中间中心性,我们评价了工具是否能鉴别出高度的物种,还是高中间中心性评分较高的物种。对于度较高的物种,丰度一般很低。由于gLV模拟中使用的相互作用矩阵中正向的边百分比较低,高连通物种比低度物种更容易暴露于负相互作用中。由于只有SPIEC-EASI和CoNet将度归因于低丰度物种,这可能解释了它们在这个模拟中的更好的性能。(Fig.S3 支持信息)
图S3 用CoNet、gCoda、SparCC、Spearman相关和SPIEC-EASI推断网络中节点的度和丰度。在真实正向网络中,度最高的节点通常是丰度最低的节点。在经过测试的网络推理工具中,只有SPIEC-EASI和CoNet似乎重复了这种行为。
Fig S2(支持信息)显示,在精度上得分较高的工具并不一定是在搜索中心物种或中心性物种时表现最好的工具。即使更改其中一个SPIEC-EASI分析的设置,也会导致识别中心物种发生明显的变化。此外,尽管gCoda和SPEC-EASI在精确度上都取得了很好的得分,但在识别中心物种时得分却不一样。仿真结果表明,在测试工具的涌现性时,精度并不是唯一的衡量标准,尽管它对于交互预测是至关重要的。
图S2 利用CoNet、gCoda、SparCC、Spearman相关和SPIEC-EASI鉴定最高度和中介中心性的物种。 在已确定的枢纽物种中,明显缺乏重叠,因为工具大多识别独特的枢纽物种。(Fig S4)这与一项水稻土壤微生物群的实验研究相吻合,因为在水稻土微生物群中,大多数中心物种在不同工具间是不保守的。由于工具预测很少重叠,而且与单个工具预测相比,重叠并没有丰富真实的正面信息,因此,我们怀疑融合多个工具的集成方法是否会提高中心物种推断的准确性。
当对最高百分比进行评估时,准确度会提高
以往的工作表明,当考虑更多的节点而不是前1或前3中心节点时,度和中间中心性对错误的敏感性会降低。当我们分析前3、5、7、10、20和30个枢纽物种时,我们想要证实这一点,并计算出正确预测的枢纽数量。在这种情况下,我们研究了在真正的正网络和推断网络中的枢纽节点之间的重叠,这是Borgatti及其同事评估的最严格的准确性度量之一。一种不那么严格的方法是测试最高级的中心节点是否存在于前10%。
图6显示如何随着计算更多节点而增加正确预测的数量。例如,如果从CoNet推断的网络中提取前10个中心物种,大约一半是正确的;如果将前20位计算在内,这将平均增加到11种正确的预测。此外,我们利用超几何检验计算p-值,给出了偶然绘制正确的中心物种数目的概率。在确定了20多个枢纽物种后,p值停止下降。这很可能是我们固有的网络属性,因为超过这20%意味着物种的程度不再是度分布尾部的一部分,即这些物种不再是枢纽物种。然而,由于没有一个测试工具能很好地识别枢纽物种,因此,在实际数据集中,对枢纽物种的识别和解释应谨慎处理。
图6 用CoNet、gCoda、SparCC、Spearman相关和SPIEC-EASI推断网络中的正确预测数和p值.在这两个图中,都显示了标准偏差。对于CoNet,测试了两种p值合并方法:Fisher-p值合并和Brown-p值合并.对于SPIEC-EASI,包括两种不同的算法:图形套索算法和Meinshausen-BuühlmannMethod算法。这些设置称为GL和MB。(A)越来越大的中心物种集预测出的中心物种平均数目。对数据点进行了二次方程拟合。(B)对于越来越大的中心物种集合,平均p值,每个重复的p值分别计算。这些数值是从超几何检验中计算出来的,其中p值代表从总体中随机抽取出正确预测的枢纽的概率(n=100)。紫色线以下的值小于0.05。
然而,由于没有一个测试工具能很好地识别枢纽物种,因此,在实际数据集中,对枢纽物种的识别和解释应谨慎处理。这意味着,当对∼10%的高度中心物种进行研究时,对枢纽物种的推断可能会更准确,而不是少数几个。此外,gLV模拟产生了高度、低丰度的物种,而且并非所有的工具似乎都能够识别这些物种。同时,对人类微生物群和农田土壤的分析也确定了高度相关的低丰度分类,我们不知道它们之间的联系是否是真正的生物相互作用。
网络解释得益于数据整合
即使在我们比较简单的模拟中,网络也往往很密集,很难解释。实际情况更糟:大多数调查人员在开始分析数据集时会发现一个“毛线球”网络。在做后续实验之前,把毛线球的尺寸缩小到一个更能提供信息的版本本身是必要的。为了研究个体间的相互作用,低数量的假阳性是必需的。了解更多关于互作本身的信息也是有益的。一旦研究人员知道了哪些关联在统计上是可靠的,它们代表了哪些机制,那么后续实验就可以简化,而不需要过高的通量。为此,我们讨论了一些减少网络边缘数目和识别其背后机制的方法。
聚集和流行减少了节点数
聚集和流行过滤相对简单,因为它们不需要额外的数据,也不需要注释良好的物种。聚集可以在分类层次上“设定”网络细节。研究人员可以将网络推理之前的聚集步骤应用于在更高的分类水平上研究微生物网络。如果物种与它们的系统发育类群具有特定的功能,它们的丰度可能会随机变化,尽管高等系统发育群的总丰度可能由于独特的功能而稳定。聚集步骤将滤除由这些系统发育相似引起的噪音,同时在较高的分类水平上揭示保守的相互作用。例如,Yun and Cho 可视化了特定目与环境因素之间的关联,并展示了不同的社区与某些代谢物之间的联系。如果研究人员对高度保守的交叉-饲喂相互作用感兴趣,(产甲烷菌和产氢细菌)集聚是有益的。除了分类学外,还可以使用生态类群。对于浮游生物,功能类型,如自养生物和硅烷,以前已经定义过。利马-门德斯等人根据这些浮游生物功能类型在其网络中分组的物种。聚集网络表明,寄生虫是许多其他浮游生物功能类型的重要相互作用伙伴,而硅藻与寄生虫和食草动物的预测的相互作用要比其他功能类型少。然而,聚集步骤可能导致重要信息的丢失,特别是当菌株具有独特的功能时。例如,珊瑚病原体R. reptotaenium 在破坏群体感应网络方面是独一无二的。如果网络是在较高的分类级别上创建的,那么唯一的相互作用可能会被“稀释”,因为亲缘物种不共享交互作用。除非反应足够强烈,否则它不会成为最终网络的一部分。如果在构造的网络上而不是在所提供的数据上执行聚集步骤,则可以防止这种情况发生。在这种情况下,聚集步骤可以将边缘保留在较低的分类级别,作为元数据的一部分,尽管系统发育相似,但具有冲突边缘符号的分类单元可以保留为单独的节点。
如前所述,研究人员也可以选择筛选数据以获得高流行度。该方法有利于降低样本的异质性,提高网络推理的精度。唯一剩下的分类群将是更多的多面手,而这些相互作用可能更可靠。当然,稀有的分类群将在分析中丢失。这在某些情况下可能是有害的,因为稀有的分类群可能更有可能发挥独特的功能。虽然减少物种数量的目标也将通过丰度过滤器来实现,但流行率过滤器对推断的网络结构的影响可能较小。吉布森等人模拟的有影响物种。并不总是非常丰富,将被丰度过滤器移除。此外,丰度过滤器并不消除采样的异质性,因为只有少数样本中才存在的高度丰富的分类群将被保留。
除了分类群之外的可视化功能
当物种有足够的注释或宏基因组数据可用时,可以在网络中包含关于群落成员的更详细的信息。虽然这不会直接减少“毛线球”的大小,但与这些信息相关联的网络更容易解释。例如,KEGG直系同源物(Ko)描述或种子子系统(SEED subsystems)可用于预测特定性状或代谢功能。此外,当将代谢信息合并为节点属性时,可以显示功能冗余。在网络中整合功能简介也可以揭示特定的生态位。在对小麦和黄瓜的研究中,利用KO谱分析了根瘤菌和土壤微生物的功能差异。研究发现,根瘤菌群落中与植物细胞壁降解、运动能力和趋化性相关的KO在根瘤菌群落中富集,有些富集物是特定于寄主物种的。事实上,已经开发了专门的工具来进行这种比较:FishTaco估计功能曲线的变化,并用于评估健康对照者和2型糖尿病队列之间的差异。在这些背景下,研究人员比较了不同社区的KO概况。类似的方法可以用来比较网络模块的KO配置文件。
当KO配置文件被广泛使用时,更抽象的表型描述可能更容易在网络中集成。例如,整合的微生物基因组数据库(Integrated Microbial Genomes database)提供了表型注释,并开发了微生物表型的标准本体论。然而,用这些表型注释微生物数据并不简单,因为对表型的实验验证对许多物种来说可能不可行。此外,基因型-表型匹配并不完全可靠。因此,微生物学并没有像蛋白质研究和基因组学那样采用本体论。例如,BugBase提供了基于16S的注释和宏基因组数据集,但是,目前只有微生物表型本体论中描述的有限的表型子集可用。相反,FAPROTAX使用文献中描述的功能来注释微生物数据。虽然它目前描述了80多个功能,但它在研究不足的微生物群落中的应用是有限的。
尽管存在这些困难,使用合适的本体进行注释,无论是表型还是基于基因的本体,都将使研究人员能够更好地将他们的数据集成到数据库中,并进行跨学科的研究。随着数据库规模的增加,互用性变得越来越重要,采用标准本体论对于避免破碎化公开可用数据的数据库至关重要。此外,本体论可以识别生物数据集中信息最丰富的特征,因此在数据探索中非常有用。本体论还支持自动推理,因此可以量化本体论层次的多个层次上的差异。自动推理可用于报告每个节点、模块或网络所特有的所有属性,或用于暗示未培养的物种的表型。例如,属于甲基微生物目的未培养物种可以被指定为甲烷原表型,因为所有按该顺序培养的物种都具有甲烷原活性。由于网络分析并不总是由特定生态系统的专家进行的,因此本体论帮助支持研究人员对缺乏深入的了解的生态系统的严谨推断。除了本体论外,代谢信息还可以用来描述特定的功能。在网络环境中,代谢信息可以映射到边缘和节点上。由于微生物的代谢功能可能不同或重叠,它们可以表示代谢互补或冗余,因此边缘是否可能代表互利或竞争。基于代谢模型的工具可以提供这样的预测。例如,RevEcoR计算代谢物的消耗和分泌,以提供互补或竞争的指数。相比之下,MMinte利用通量平衡分析来计算单一和共培养下物种的生长速度。像这样的工具可以让研究者预测物种之间的生态交互作用。然而,代谢模型需要完整的基因组序列,被错误的注释所限制,如果没有人工管理,可能是不准确的。 因此,它们的使用仅限于少数经过仔细研究的物种。引人注目的是,营养物质的竞争可能导致物种间的联系,因为生境过滤对物种丰度的影响比竞争更大。因此,预测的竞争可能出现在网络中,而互惠的交叉饲喂关系也可以被推断为共现。因此,代谢信息有可能更多地揭示关联的性质,而不仅仅是共同发生。正相关与代谢模型预测的竞争相结合,可能预示着强有力的栖息地过滤。据我们所知,聚集步骤或数据选择没有最佳选择。这取决于数据的质量和实验的性质。
量化网络工具的性能
由于缺乏基准数据,研究人员经常不得不求助于合成数据集来识别工具属性。Weiss等人用合成数据集对几个工具进行了评估,就像我们所做的那样。他们的评估显示工具如何受到微生物群数据中一些具有挑战性的方面的影响,如组成性、稀疏性和噪音。相反,我们关注的是涌现性和经常被忽视的环境影响。我们的数据集具有相对均匀的物种丰度分布,不包括额外的噪音。因此,在我们的仿真中,工具性能并不一定反映实际数据集上的工具性能。然而,模拟强调了微生物网络推理工具对模拟环境因素的响应和识别枢纽物种的能力有多大的不同。虽然这两种评估都依赖于合成数据集,但通过实验和文献进行的验证可能会提供更多的信息,因为这些数据反映了微生物网络在现实世界中的应用。此外,描述微生物网络的统计稳健性的分析也可能突出有问题的结论。
合成群落验证网络
合成群落或降低复杂性的群落为微生物网络的验证提供了一种有吸引力的方法.Agler等人的工作表明,并非所有物种,如那些需要活宿主的物种,都可以进行体外相互作用试验。为了解决这一问题,可以在宿主内部或在宿主上建立合成群落。与整个生态系统不同的是,这些群落将微生物群的规模缩小到更易于动态模拟的水平。例如,拟南芥已经被用来研究降低复杂性的土壤群落对植物性状的影响。对于肠道微生物,无菌的小鼠允许研究人员构建合成群落并收集组织样本,从而可以更容易地研究宿主微生物相互作用的机制。对于可以在体外培养的群落,高通量系统可以支持识别代谢物驱动的相互作用。因此,合成群落有助于验证微生物关联网络,并在某些情况下阐明这些关联背后的相互作用机制。然而,微生物相互作用在多大程度上依赖于环境还不完全清楚,这可能会影响合成群落验证真实世界生态系统关联的能力。微生物的相互作用可能会因背景群落的组成而有所不同,而忽略物种或它们的宿主来构建一个综合群落会改变环境。研究人员还可以扰乱合成群落,观察对网络结构的影响,就像基因调控网络所做的那样。
将网络特性与微生物群落的动态行为联系起来,可以使我们发现网络作为一种诊断工具的新应用。例如,在电子模拟中,鲁棒性可以预测生态系统的稳健性,也可能是管理这类生态系统的工具。根据Mahana等人的建议,确定影响因素或中心物种将使临床医生能够开出替代抗生素,以实现向更健康的群落状态转变,而不影响整个肠道微生物群。这些应用仍然是科幻小说,直到这些在电子模型和实验观测之间的联系被彻底确定。合成的群落可能有助于建立这一联系。事实上,微生物在疾病中的作用已经具有相对简单的群落特征。例如,多微生物泌尿道感染(UTIs,polymicrobial urinary tract infections)是由细菌群落引起的。De Vos 等人从单一和共培养构建了一个相互作用网络,这表明微生物相互作用有两大影响:它们导致高度稳定的UTI群落的组装,并对敏感菌株提供了对抗生素的耐受性。一项对果蝇肠道微生物的研究表明,高阶相互作用对维持生物多样性很重要,这种多样性影响果蝇的健康。
即使在某些情况下(即使不是大多数情况),仍然无法验证微生物联系网络,但确定上下文依赖性的效果,枢纽物种的生物学意义以及对微生物动态的更好理解已经是有价值的贡献。
基准数据集对于开发更好的工具是必要的
在整个综述中,我们已经证明网络分析需要研究人员开发独特的方法来回答他们的研究问题。因此,没有数据处理或参数选择的标准。也没有“一刀切”的工具。因此,制定标准的网络建设协议,就像地球微生物群项目中的扩增子测序一样,目前是不可行的。这在一定程度上是由于我们对工具性能缺乏了解;我们没有基准数据集来测量工具的准确性。这也是因为有可能集成多个数据源。网络中包含的元数据越多,多重测试的效果就越大。因此,在选择相关的生物和非生物因素时,专业知识仍将是有价值的。
然而,微生物网络推理工具将受益于标准化基准数据集,类似于为微生物组研究或基因调控网络推断而开发的数据集。这些基准数据集会是什么样子?首先,不存在单一的理想数据集,而是一组数据集。虽然工具做出了不同的假设,实现了不同的方法,但我们并不知道最佳的工作工具。这些基准数据集会是什么样子?这有两个原因;第一,我们不太清楚一个工具的哪些工作做得很好(例如,高精度的关联预测、中枢物种分类识别、模块检测等),其次,我们还不知道微生物网络的哪些方面对分析真实世界的数据集有意义。例如,高精度可能并不是精确评估节点重要性的必要条件,但我们还不知道哪一种节点重要性度量最能反映物种的生态重要性。为了解决第一个原因,有必要评估特定工具可能具有的偏见和局限性。例如,我们发现CoNet和SPIEC-EASI能够找==到相对丰度较低的枢纽物种==,而其他工具则没有对它们进行识别。因此,如果鉴定这些物种是重要的,SparCC和gCoda可能不是最好的选择。同时,当处理有效物种数量较少的数据集时,SparCC可能会做得更好。揭示这种偏好需要(模拟的)数据集具有预先规定的均匀度、物种中心性或其他感兴趣的属性。然而,这种评价的新颖性,特别是在较新的工具上重复进行的评估,可能不足以引起科学界的兴趣。因此,任何这类基准数据集都应该是简便和可访问的,以支持工具开发人员的系统采用。NeSSM提供了这样一个用于微生物组测序的资源的示例,因为它从参考数据库构建人工宏基因组。有了诸如NeSSM这样的数据模拟器,用户就能够评估他们的工具在低复杂度和高复杂度社区中的表现,或者他们如何受到不同的排序技术的影响。由于目前尚不清楚数据质量和预处理如何影响微生物网络推理,因此网络推理工具开发人员将从这种资源中获益。
然而,与其他模拟一样,NeSSM的输出可能并不能反映真实世界的微生物群落.例如,我们在模拟中假设微生物群落遵循相对简单的Lotka-Volterra动力学。由于现实世界的群落可能只受到这种动态的部分控制,而且由于我们没有模拟测量噪声,我们模拟的数据集上的工具性能将与现实世界的情况不同。同时,在大多数情况下,我们不知道真实世界微生物群落背后的相互作用和动力学,因此性能无法在这些数据集上进行评估。合成群落的数据将提供复杂程度的中间表示。为了进行测序分析,包含模拟社区数据的微生物丛资源就达到了这个目的。由于现实世界的社区可能只受到这种动态的部分控制,而且由于我们没有模拟测量噪声,我们模拟的数据集上的工具性能将与现实世界的情况不同。
然而,合成群落也面临着类似的限制:它们仍然是真实世界数据的糟糕反映,因为它们只包含了多样性和噪音的一小部分。虽然真实世界的数据集没有完全的真实(所有的互动和过程都被量化了)。可以构建包含已知关联的数据库。这可以用来推断的网络是否得到文献的支持,或者更系统地评估网络结构在多大程度上反映了生态。图7提供了此类基准的图示。有了不同类型的基准,我们可以期望有更多不同的性能评估器。这将使用户能够对网络推理工具和实验设计做出更知情的选择。
图7. 用于评估网络推理工具的基准套件类型。
(A)使用不同模型的模拟数据集有助于评估工具是否能够识别生态相互作用和网络特性。(B)合成群落可以提供一个具有已知交互作用的地面真相网络,然后可以用来评估真实世界数据的工具精度。 (C)网络模块可以与特定的环境因素或代谢特性相关联。如果有事先的生物知识,可以对推断的网络进行评估,以便对这些模块进行可视化。 (D)引用数据库可用于将推断的边缘与已知的交互匹配。这样,网络推理的灵敏度就可以利用现实世界的群落来评估。虽然在模拟和合成群落中评估精确度是很简单的,但是很难对现实世界的群落进行测量,因为缺乏预测的交互作用是很难证明的。
网络特性的统计鲁棒性
总之,需要解决一些关键的方法问题,以减少实地的偏见。这些问题超出了微生物网络推理工具的性能,要求研究人员理解其方法的局限性。首先,微生物关联网络中的错误数量很大,可以通过适当的预处理步骤来缓解。然而,这些工具的高假阳性率和对设置的明显敏感性意味着网络属性的统计稳健性(在不受不同设置、缺失值、噪声或错误影响的意义上)可能很低。因此,从关联网络得出的结论将受益于统计稳健性分析。节点的中心性可以与置信区间或其他统计稳健性度量一起报告。例如,可以在保持程度分布和关联数量的同时重新连接网络。作者使用这种重布线策略来计算“信息的变化”系数。这个系数量化了轻微重连线网络的紧急性质(例如中间性)与原始网络的相似程度。如果网络特性具有统计鲁棒性,则系数较小。因此,它们的系数确定了在某些边不正确的情况下会发生变化的涌现性。如果中心物种的置信区间与网络中的50%重叠,那么报告它们可能是不明智的。虽然前面的示例解决了统计稳健性问题,但该系数并没有显式地处理不完整数据。Borgatti、Carley和Krackhardt测试了四种不同类型的错误对网络属性的影响:边缘删除、节点删除、边缘添加和节点添加。几乎所有评价指标,即程度和不同类型的中心性,其准确性都随着误差的增加而降低。然而,他们发现,观测到的网络的特性,即使有误差,也反映了它们的合成网络的性质。Wang等人通过测试真实世界的网络和探索不同类型的错误来扩展这一分析。有趣的是,他们发现当两个节点被错误地描述为一个节点时,错误的聚合会对中心性产生重大影响。
虚假聚集不仅是物种分配所固有的,还可以通过物种的分类聚集而引入。因此,当丰富的数据被归纳到更高的分类水平时,网络属性可能就不那么健壮了。这表明,存在着与分类学团聚相关的成本;如果网络被聚集,在电子模拟实验中,可能不像网络的整体结构改变那样可靠。此外,聚类系数或节点集中度等网络属性也会发生变化。总的来说,发布置信估计将使读者能够适当地判断网络属性。Frantz和Carley发展了一种统计数据,即置信水平,它量化了当假阴性错误率已知时,中心度(即度、间度)估计的可靠程度。
尽管这样的统计对微生物组的研究是有价值的,但我们不知道错误率是多少,以及它们与排序深度、聚合或网络推断方法有什么关系。因此,在复杂、有效的网络可用之前,估计错误率很可能是一种猜测。虽然包含方法引入的误差的置信区间可能无法实现,但基于重连线网络的信息系数已经可以计算出来。
网络尚未解释机制
即使我们能够高精度地推断出网络特性,这些特性也不会产生有用的生物学知识。例如,网络健壮性是生态鲁棒性的一种表示,但我们不知道这是否是一种与生物相关的表示。如果要实现网络特性在微生物学中的价值,我们需要更好地理解网络的健壮性如何反映生态的稳健性,或者在什么意义上枢纽物种对微生物群落是重要的。由于这些仍然是未解决的问题,实验验证对于任何报告这些属性的研究仍然是至关重要的,而不验证网络属性的研究应该小心地将意义赋予它们。
网络提供了一个有价值的工具,但它们最好被认为是新假设的产生者,而不是一个坚实的结论。此外,它们很可能代表微生物群落的不同方面,这取决于用来构建网络的工具。如果假设侧重于因果关系,利用时间序列数据的工具可能更适合,因为它们能够提供定向网络。同样,如果环境因素预计会对群落结构产生重大影响,那么可以考虑到这些因素的工具(如CoNet或MInt)可能更合适。
外部数据的整合为基于微生物网络的假设提供了额外的支持。除了有关新陈代谢或表型的信息外,还可以包括一个参考数据库。这类数据库已经开发出来,用于蛋白质相互作用和宏观生态相互作用。某些营养链、交叉饲喂、寄主寄生虫或其他相互作用有可能在空间和时间上得到保存。就像基因一样,这些相互作用可以映射到代表交叉喂养、群体感应甚至环境诱导的间接相互作用指标的“同源”群体。边缘管理是很费时的。一个参考数据库,特别是对于研究得很好的系统,如肠道,可以显示保守的相互作用。标准化的元数据注释将允许更健壮的样本间比较,并允许更大规模、更信息丰富的宏基因组研究。
微生物群数据集的生成速度比以往任何时候都快,但我们只是开始了解微生物群落的结构和功能。微生物网络提供了一种灵活和有价值的工具来增加人们对这一问题的理解,尽管它们有一些陷阱。没有上下文,它们的意义就很小;因此,要由微生物学家提供这种背景,并由分析人员将其整合到网络中。