GigaScience综述:从分类学基因推断微生物功能

2022-03-31 21:37:07 浏览数 (1)

Published: 12 January 2022

Link: https://academic.oup.com/gigascience/article/doi/10.1093/gigascience/giab090/6505123

注:

本文介绍了几乎目前所有的基于扩增子序列的功能预测工具,值得好好看一看。

为我们选择合适的工具,以及了解功能预测原理、历史、发展历程及未来发展方向很有帮助。

Table2为所有功能预测工具和相关数据库。

每个工具作者也都进行了具体介绍,这里我略过了。

摘要

此综述回顾了100篇关于功能推断和生态特征划分的论文,并对这些工具的优点、特异性和缺点进行排序。

到目前为止,推理工具(inference tools)主要用于研究细菌的功能,生态特征划分工具(ecological trait assignment)主要用于研究真菌的功能。

一个主要的限制是与人类微生物群相比参考基因组的缺乏,特别是对于土壤等复杂的生态系统。

最后展望了应用的前景。这些工具很有前途,提供了生态系统功能的相关信息,但仍缺乏标准化的指标和相应的存储库。

背景

2016年6月,英国生态学会微生物生态学特别兴趣小组举办了一场研讨会,确定了微生物生态学的50个重要研究问题。

其中一个主要的问题是“我们可以用什么方法把微生物多样性和功能结合起来;我们如何将转录组学、蛋白质组学和代谢组学联系起来?”。

这总结了科学界在提高我们对微生物群落多样性和功能调控方面面临的未来挑战。

图1 用于探索微生物群落功能多样性的各种策略示意图。绿色框架表示通过功能推断和生态性状分配从分类基因假定功能的方法。cDNA:互补DNA;NMR:核磁共振;rRNA:核糖体RNA。

Metabarcoding直接靶向功能基因并对其进行分类,但其应用仍局限于少数物种。

面对这些限制,有两种方法可以间接地从分类学中获得功能信息,即使用(元)基因组和微生物组大数据进行(i)功能推断和(ii)生态性状分配(图1)。

功能推断可以预测假定的功能(如基因类型和代谢通路)。而生态性状分配则通过将分类学名称与专用数据库连接起来,直接检索所有分类单元共有的性状。

这两种获取功能信息方案之间的主要区别是由于序列(分类学信息)在参考树和不同的进化模型中的系统发育位置,功能推断甚至可以为没有分类名称的OTUs检索功能。

自从第一次发表功能预测工具以来,已经开发了许多生物信息工具。到目前为止,只有1篇文章讨论了功能推断工具:

Ortiz-Estrada, ÁM, Gollas-Galván, T, Martínez-Córdova, LR, et al.Predictive functional profiles using metagenomic 16S rRNA data: A novel approach to understanding the microbial ecology of aquaculture systems. RevAquac 2019;11(1):234–45.

因此在目前的情况下,定期提出新的方法来预测功能,需要更详尽地考察技术的现状,以建立一个科学和技术基准。

作者提供了每个工具的详细描述,并通过特别关注它们的方法、模块化、可移植性和鲁棒性来评估它们的优点、特殊性和缺点。

微生物数据集的历史和近期增长

数据快速增加细菌和古菌基因组的数量超过了摩尔定律。

图2 DNA序列每兆序列成本(美元)的演变(对数刻度),以及NCBI上的SRA数据数量的演变。

图3: 数据库年累积增长的细菌/古菌(A)和真菌(B)序列,以及物种/亚种数。细菌/古菌(C)和真菌(D)基因组的年度累积增长与摩尔定律的比较结果。比较三个数据库的16S rRNA基因序列:RDP(蓝色)、SILVA(橙色)和Greengenes(绿色)。信息基于细菌和古菌物种的原核生物名称名录(LPSN)网站,以及真菌物种的MycoBank数据库。细菌、古菌和真菌基因组的信息基于基因组在线数据库(GOLD)。

图4 不同生态系统的全球微生物基因目录。最多的依次是根际,表层土和海洋。

预测微生物群落潜在功能的工具概述

功能的概念可涉及基因、酶或代谢途径,也可能代表将表型和生化概念结合在一起的生态特征。

在分析2013年以来20篇论文的基础上对数据库和工具进行了分类(图5A),从生态性状等一般信息到基因或代谢通路等更详细的信息。

在代谢途径或基因水平上的任何分类解析,被称为“功能推理工具”(图5B)。当功能信息涉及表型或生态性状,且仅在特定的分类等级下可访问时,现有的工具或数据库归类为“生态性状分配”(Fig. 5C)。

图5 可以通过功能推断(B)或生态特征分配(C)获得的数据信息(A)。

迄今为止已经收集了从微生物分类中检索功能或生态数据的工具或数据库约20个,每年有2 - 4个新的进展(图6和表2)。

大多数工具(23个工具中的18个)仅用于细菌/古菌,2个用于细菌/古菌 真菌,只有3个专门用于真菌。这些工具中的大多数为功能推理(23个中的13个)。

被引用次数最多的工具是PICRUSt v1,它在2020年继续以> 4000次被引位居所有工具之首。而FUNGuild、Tax4Fun v1或FAPROTAX被适度引用,引文数为几百次,其他被引用次数较少,仅为十几次(图7A)。

有趣的是,引用功能推理和生态特征分配工具的文章与它们最初开发的工具属于同一范围(图7B.): PICRUSt、FUNGuild和PAPRICA主要分别在有关人类健康、土壤和海洋环境的文章中被引用。

图6 用于功能推断或生态特征分配的主要工具的时间线。

图7 主要工具的年度累计被引次数(A)及其范围(B)。

功能推理

定义

功能推理为从数据预测微生物群落的功能潜力。一个分类单元或一个微生物群落的功能潜力代表了基于这些途径中涉及基因存在/不存在的代谢能力。

功能推理方法基于这样的假设:当相关的参考基因组可用时,来自标记基因序列的系统发育信息与基因组足够相关,从而产生准确的预测。换句话说,它假设(i)分类标记之间的系统发育距离与(ii)遗传信息之间存在显著的关系,即微生物基因组进化过程中基因垂直传递。

这是通过生物的系统发育亲缘关系与其基因含量之间的关系实现的 (图5B)。

需要强调的是,一个或多个基因与一个功能的存在关系是“潜在的”,在环境条件下可能不会被表达。从这个角度来看,功能推理的结果可能类似于鸟枪法宏基因组数据。此外,推断出来的宏基因组仅基于这些工具中可用的参考基因组(古菌、细菌、真菌),这意味着无法研究水平基因转移和基因丢失,这与鸟枪法宏基因组不同。

可用的工具

PICRUSt,PAPRICA,Tax4Fun,Piphillin等。

预测的质量可能取决于工具,也取决于目标生态系统的类型。

结果表排名,无论工具,人类微生物群的预测最佳。在不同的土壤研究中,PICRUSt质量分数的变动性似乎比Tax4Fun的要低。然而,使用Tax4fun进行的一些土壤研究表明Tax4fun质量较高,只有约30%的OTU未映射到参考数据库。这可能反映了人类参考基因组有效性与土壤微生物基因组有效性之间的差异。此外,土壤中的微生物多样性要比人类微生物群复杂得多。在这种情况下,必须考虑功能推理工具的质量分数,因为这是对结果进行可靠解释的关键。不幸的是我们发现很少有研究展示这些质量分数。

在目前可用的所有功能推理工具中,PICRUSt和Tax4Fun非常突出。一项对这些工具的基准研究发现,他们在性能方面没有重大差异,特别是对土壤样品。另一项基准研究表明这两种工具提供了类似的功能图谱,但对于仅在其中一种或另一种中发现的某些基因家族来说,结果可能是互补的。

此外,PICRUSt2对真菌功能潜力的描述最近才出现,我们还不能深入了解其在土壤群落中的稳定性。与性状分配相比,在某些生物地球化学循环或气候变化和植物多样性的影响方面,多样性和功能之间的联系仍然薄弱(图9)。

生态性状分配

定义

生态性状分配不同于功能推断,它包括从一个分类单元的命名中获得有关其生存策略、表型和数量基因组性状(例如,营养模式、生长策略)的信息,无论其分类级别如何。如果分类单元在数据库中不存在,就不可能知道它的特征(图5C)。

这种方法比功能推理快,但缺乏适合metabarcoding结果的工具,且目前可用的生态特征也很少(表2)。生态特征的确经常基于来自数据库或生化实验结果。

当生态特性工具被使用时,被识别为属于Serpula属的真菌序列将被分配到一个木材腐生菌;而利用推理工具,与多糖降解相关的各种基因的丰度将归因于所有真菌序列。

可用的工具

FUNGuild,FunFun,FungalTraits,DEEMY(针对外生菌根),FAPROTAX,IJSEM phenotypic database(表型和环境耐受性),BacDive(细菌和古菌性状)

FUNGuild是目前使用最多的工具。FAPROTAX是分析土壤群落功能潜力的强大工具。

图9 基于功能推断和生态性状分配的相关微生物土壤功能结果汇总。左边是基于功能推理的细菌群落研究,右边是基于生态性状分配的真菌群落研究。对于所有的研究(气候变化、人为梯度、农业实践、植物多样性或生物地球化学循环),如果在基因库或具有特定生态特征的微生物群落上发现了影响或相关,则用彩色箭头表示影响,用交叉表示没有显著影响。三角形表示基因库或具有特定特征的微生物群落的减少或增加。

技术和概念上的限制和偏差

功能推理工具的一个基本限制主要是由于水平基因转移,以及基因复制、基因丢失和基因的再生。水平基因转移在功能预测中仍难以准确考虑,其对微生物群落的影响也难以估计。

此外,水平基因转移率在生命树内和基因家族/通路中存在显著差异。这一过程主要在原核生物中被描述,但在真核生物中也有少量发现,特别是真菌。

微生物可以通过质粒转移获得一种功能,但目前尚无关于功能预测的文献报道。质粒是染色体外的DNA分子,在所有微生物群落对环境变化的快速适应中发挥作用。特别是它们在系统发育上距离较远的种群之间被转移,以获得基因和有利于适应的性状(例如对抗生素、杀菌剂、污染物的抗性)。这对所有环境都很关键,尤其是土壤,且生物和非生物的波动非常大。质粒的转移也可以从噬菌体或病毒到微生物基因组。

从技术角度来看,大多数对微生物群落多样性的研究都是基于1个或多个高变区的测序,并且仍然受到测序扩增子大小的限制。目前最常用的Illumina测序平台(MiSeq、HiSeq和NovaSeq)最大读长可达600 bp。一些研究对获得最佳分类学分辨率的最合适区域提出了质疑,他们认为使用全长rRNA (~ 1800 bp)似乎是最合适的解决方案。这将显著提高原核微生物和真核微生物的系统发育分辨率 (图10,第二个框)。短序列在分类学中也不允许有足够的分辨率(即不低于物种水平),尽管这一点对于在系统发育树中放置序列/分类单元以实现功能预测是至关重要的。

第三代HTS平台(如PacBio、Oxford Nanopore)可以对全长分子标记进行测序,如16S/18S rRNA基因或完整的ITS1和ITS2序列。这将大大改善分类学准确性,并使在某些情况下在物种甚至菌株水平上分配序列成为可能。这个条件下功能推理和生态特征分配将得到改善。然而,如果目标是获得可能的最佳分类分辨率,那么对高分类等级(如门)生态性状的研究仍然很有前途,特别是对高度保守的性状的研究。例如,碳矿化速率与其相对丰度呈正相关(如拟杆菌门)或负相关(如酸杆菌门)。

与使用全长扩增子测序相补充的一个很好的实践是使用asv(也称为ZOTUs),通过在参考树中更好地放置序列来提高推断率。事实上,对于那些使用具有相似阈值的OTU聚类方法的人来说,一种解决方案是使用OTU内的所有序列,而不是为每个OTU种子使用一个代表序列。然而这也会增加分析时间。

分类学和参考基因组的重要性:从准确性到分辨率

许多工具使用分类数据获取微生物功能的信息。因此,从筛选步骤到OTU聚类与否,检查包括分类信息的分配在内的扩增子序列分析所用的生物信息学策略是很重要的。

生态性状工具高度依赖于分类分分辨率。例如在使用FUNGuild时,还必须特别注意一个事实,即在属水平上分配的序列可能与几种营养类型相关,植物病原真菌具有高度的寄主特异性,在本研究中可能是非致病的。对于未进行分类的序列(或OTUs),不能使用生态性状工具获得功能(图10,第二个框)。

为了改善这一点,特别是对于真菌群落,可以根据系统发育来推断,就像对细菌、古菌或大型生物所做的那样。需要探索的途径之一是使用PICANTE或CASTOR等ASR工具,从系统发育树中推断缺乏生态数据的分类群的特征。

功能性推理工具依赖于参考基因组来建立预测,因此结果的准确性可能因样本而异。具有描述良好的宿主相关群落(如人类微生物群)的样本有许多可用的参考基因组,并具有良好的预测准确性(图8和图10第三框)。相比之下,在更复杂和生物多样性高度的环境中,如土壤,代表总分类多样性的基因组更难获得。与人类微生物群(80%)相比,可培养的陆地菌株的比例仍然很低(约25%)。因此,对来自复杂生物群落的群落的估计结果是近似的和有争议的。

为了提高功能预测的结果,建议提供特定感兴趣栖息地的基因组。必须作出相当大的努力,以增加特定生境参考基因组(动物/人类、水、植物、土壤)的数量,并特别注意最复杂和未知的环境。还需要开发定期更新数据库的工具,这是国际范围内正在进行的一种动态。例如,数据库中参考基因组的注释还不能代表土壤微生物多样性。为了填补这一空白,人们已经努力创建Refsoil数据库或Refsoil 质粒数据库。

图10 预期结果概要图(第一个框)、功能预测前景(第二个框)和不同生境微生物基因组数据的限制(第三个框)。第一个框显示了通过PCA (a)得到的群落结构和功能结构数据结果的比较示例。该示例说明了功能群落结构对实验条件的区分优于微生物群落结构的区分情况。图示的热图显示每个样本(B)或每个OTU (C)的基因相对丰度。

第二代工具的未来前景

第二代工具目前正在出现,例如PICRUSt2、Tax4Fun2或iVikodak (图6)。Langille的开发团队为科学界在真菌生态学方面的工作架起了桥梁。PICRUSt2现在包括来自真菌王国的18S rDNA和ITS扩增子。

另一个很大的改进是灵活性:序列可以直接使用,而不是基于Greengenes命名法的分类。用户不再依赖于分类来推断功能,这是一个很大的改进,并提供了更好的稳健性分析。然而,用户应该对结果保持警惕,因为目前集成在该工具中的已测序真菌基因组数量远低于细菌基因组数量。建议检查质量分数(如NSTI),以确保结果和解释的稳健性。

然而这一限制可以解除。例如,the 1000 Fungal Genomes Project的目标就是对真菌基因组进行高质量的测序和注释,从而构建一个用于元数据分析的参考数据集。

这些工具的另一个缺点是缺乏对土壤至关重要的微真核生物群落的数据支持。原生生物丰富多样,具有广泛的功能多样性,高度参与土壤食物网和功能。根据文献中现有的生态特征数据,开发出专门研究原生生物的工具将是特别有用的。

挑战:从基础研究到实际诊断

据我们所知,现在不可能基于从元数据中派生出来的假定功能为人类提供鲁棒且可操作的指示。主要的挑战是(i)聚集和总结当前产生的大量数据,(ii)测试数据集上的预测,并将其与“真正的”功能测量进行比较,(iii)在不同的实验条件下(例如,土地利用梯度、农业实践),在当地和全球尺度上验证数据集上的这些指标,并且(iv)开发具有代表性的知识库,以确保从这些新工具中做出的诊断的有效性。

关于聚集和数据简化(项目i),一个方向是使用约束的非负矩阵分解方法,这是群落聚集特征概念的另一种选择。这种方法已经被用于从宏基因组中聚集功能性状。作者已证明,显著的减少数据使得提出简单模型来描述生态系统(这里指的是人类肠道微生物群中纤维降解的可能性)规模下的一组复杂功能成为可能,并同时保持生物数据质量。

关于项目ii,例如用挥发性有机化合物(VOCs)排放或土壤微生物呼吸速率进行功能性预测将是有趣的。微生物的VOCs种类繁多,是起着多种作用的次生代谢物,特别是能够进行或多或少的长距离相互作用和交流(如生长、运动、抗生素耐药性、应激反应基因的表达)。

此外,建议这些工具作为土壤质量的可靠指标(项目iii),它将必须使用大型数据集根据不同的科学问题来确定最好的指标(例如功能丰富度,相对基因丰度、聚合的特征)和最敏感的基因或基因组。一旦这些限制被解除,这些工具将以相对负担得起的人力、技术和财务成本提供给科学界有趣的结果。

但是,维持有关的科学知识对于支持将其转移到业务应用和避免可能对土壤使用者和土壤决策者造成灾难性后果的错误解释是至关重要的(项目iv)。例如,解释营养型需要强有力的专门知识,特别关注潜在致病性信息的开发,这是一项高度敏感的任务。这些性状的响应随生态系统受到的干扰而变化,结果必须结合实际情况以确保正确的解释。

结论

基于分类标记基因的微生物功能多样性的探索,以提高我们对微生物多样性和功能的认识才刚刚起步。正如本文所强调的,多年来出现了各种解决方案,并且由于技术的进步,这些解决方案正在迅速改进。

功能推理的结果对于一些多样性低(特定丰富度)和基因组特征良好的生态系统(如人类微生物群)来说已经是强有力的和具有代表性的。现在需要在更复杂的环境中取得进展。未来的挑战,特别是环境样本,将是建立参考数据集的功能预测和环境测量之间的联系。

SoilBON致力于监测全球范围内土壤生物多样性和功能生态系统,特别关注微生物多样性,是朝着这个方向迈出的一步。这一雄心勃勃的框架旨在根据土壤生态指标(即基本生物多样性变量)收集和分析土壤多样性。该框架的一个目的是告知决策者和利益攸关方,使他们能够采取措施保护这种生物多样性。

0 人点赞