一、宏基因组测序简介
宏基因组定义:(维基百科)
Metagenomics is the study of genetic material recovered directly from environmental samples. The broad field may also be referred to as environmental genomics, ecogenomics or community genomic。
宏基因组 ( Metagenome):(也称微生物环境基因组 Microbial Environmental Genome, 或元基因组)是由 Handelsman 等 1998 年提出的新名词, 其定义为“the genomes of the total microbiota found in nature” , 即环境中全部微小生物遗传物质的总和。它包含了可培养的和未可培养的微生物的基因,目前主要指环境样品中的细菌和真菌的基因组总和。
宏基因组学(或元基因组学,metagenomics):是一种以环境样品中的微生物群体基因组为研究对象,以功能基因筛选或测序分析为研究手段,以微生物多样性、种群结构、进化关系、功能活性、相互协作关系及与环境之间的关系为研究目的的新的微生物研究方法。一般包括从环境样品中提取基因组 DNA, 进行高通量测序分析,或克隆 DNA 到合适的载体,导入宿主菌体,筛选目的转化子等工作。
广义宏基因组:泛指研究微生物组的学科—宏基因组学(Metagenomics),狭义仅指宏基因组测,区别于扩增子测序与宏转录组测序,主要分析样品物种组成与功能基因。
微生物:指“一切肉眼看不见或看不清的微小生物的总称”。从这个概念来看微生物的范围其实包括是非常广泛的,只要是微小的生物,都可以属于微生物。微生物可以分为两类,无细胞结构和有细胞结构,有细胞结构又可以分为原核微生物与真核微生物。原核生物可以分为“三菌三体”,细菌、放线菌和蓝细菌,支原体、衣原体和立克次氏体。
二、研究对象
宏基因组研究是微生物研究的延伸,传统微生物研究都可以采用宏基因组测序的方法。只要有微生物的地方,都可以采用宏基因组研究的方法。
目前宏基因研究主要的样品包括人肠道,各种动物肠道,人体各部位,植物根系,土壤,水体,空气,极端环境条件下等。
EBI 宏基因组测序样品分类统计
三、发展历史
宏基因组的发展与测序技术的发展是息息相关的,正是因为高通量测序的出现,才让宏基因组测序成为可能。下面选取宏基因组发展历史上几个重要节点作为介绍。
1991:首次提出环境基因组学(environmental genomics)的概念,同年构建了第一个通过克隆环境样品中 DNA 的噬菌体文库。
1998:美国国立环境卫生科学研究所启动了环境基因组计划(environmental genome project,EGP),开展有关人体遗传变异与环境胁迫相互关系的研究。环境基因组学第一次提出特定生态条件下,全部生物基因组总体概念,这是基因组学的重要进展。
1998:由 Handelsman 等提出的新名词宏基因组 ( Metagenome)(也称微生物环境基因组Microbial Environmental Genome, 或元基因组),其定义为“the genomes of the total microbiota found in nature” , 即环境中全部微小生物遗传物质的总和。
2004 年:Jillian Banfield 与 J. Craig Venter 进行鸟枪法宏基因组测序。
2005 年:454 测序仪上市,正式进入高通量测序时代。
2007 年 3 月,美国国家科学院以“环境基因组学新科学——揭示微生物世界的奥秘”为题发表咨询报告,指出宏基因组学为探索微生物世界的奥秘提供新的方法,这是继发明显微镜以来研究微生物方法的最重要进展,是对微生物世界认识的革命性突破。
2009 年:发布 mothur 软件,分析高通量扩增子分析。
2009 年:pacbio 测序仪发布,测序读长增长到 10K 以上。
2010 年:EMP 地球微生物组计划。
2010 年:《nature》封面文章,基于宏基因组测序构建人类肠道微生物组参考基因集,正式开启宏基因组测序时代。
2011 年:illumnia 发布 miseq 测序仪,PE 300 测序,连接起来可达到 500bp 左右,达到16S 序列三分之一长度。
2013 年:小鼠肠道微生物基因组数据发布。
2013 年:美国人肠道微生物基因组计划。
2014 年:牛津纳米孔公司发布 minion 测序仪,纳米孔测序时代来临。
2015-2019:大量环境样本被测序出来,微生物研究进入宏基因组测序时代。
2019 年:Qiime2 流程发布。
2020 年:快速,实时,长读长纳米孔宏基因组在新冠病毒研究中重要应用……
四、研究目的
宏基因组研究本质上还是微生物学研究,只是传统微生物学研究的一个扩展,所以研究目的与其他生物学研究类似,同样是关注基因型,表型与环境之间的相互关系以及相互作用,不过微生物与环境之间有更强的相互作用关系。下面从科学研究与技术应用两个维度来介绍宏基因组学的研究目的。
4.1 科学研究
回答问题 1:定性分析,样品中包含哪些微生物?
原核生物,真菌,病毒,显微藻类,原生动物……
回答问题 2:定量分析,不同微生物之间丰度?
样品中每种微生物所占的比例格式多少,不同比例变化与表型之间有哪些关联?
回答问题 3:功能分析,样品中包含哪些基因,实现哪些代谢功能?
将整个样品当做一个基因集合,检测样品中包含了哪些基因,这些基因的功能以及代谢分析。
回答问题 4:比较分析,不同样品之间的差别?
比较不同表型样品中微生物物种组成及丰度的差别,与表型进行关联分析。
回答问题 5:关联分析,样品基因型,表型以及环境之间的关系?
不同条件处理下,不同时间下样品物种组成及丰度的变化。
4.2 技术应用
应用 1:发现新物种
通过测序不同环境下样本,鉴定出之前无法进行分离以及纯培养的微生物样本。
应用 2:流行病学快速诊断
通过对疾病样本进行宏基因组测序,获得样品微生物组成及丰度,尤其是低覆盖度样本的测序。
应用 3:病原菌溯源
发现病原微生物的栖息源头以及传播途径。
应用 4:微生物与人体健康研究,寻找标记 biomarker。
微生物组成以及丰度的变化与人体健康之间的关联关系。
应用 5:筛选重要微生物菌种
筛选出具有重要应用价值的微生物品种。
五、取得成就
宏基因组测序已经取得很大的成就,2019 年 6 月,Nature Milestones 推出专刊,详解人类菌群研究历史上的 25 个重大里程碑。时间跨度长达 70 余年,总结了相关领域的几乎一切重要研究。通过这 25 个里程碑成就可以展示出宏基因组研究目前取得的一些成就。
代码语言:javascript复制https://www.nature.com/immersive/d42859-019-00041-z/index.html
1944 里程碑 1:培养厌氧菌
1958 里程碑 2:粪菌移植用于治疗艰难梭菌感染
1965 里程碑 3:无菌动物中的肠道菌群移植实验
1972 里程碑 4:菌群影响宿主药物代谢
1981 里程碑 5:生命早期的菌群承递
1996 里程碑 6:基于测序的人相关菌群的鉴定
1998 里程碑 7:成人菌群的稳定性和个体性
2003 里程碑 8:细菌之外:研究宿主相关的其它微生物
2004 里程碑 9:菌群对粘膜免疫的调控
2005 里程碑 10:喂好你的菌群的重要性
2006 里程碑 11:通过菌群移植转移宿主表型
2006 里程碑 12:饮食-菌群互作对人体代谢的影响
2007 里程碑 13:定殖抵抗的机制
2007 里程碑 14:使用组学技术进行体内的人类菌群功能分析
2010 里程碑 15:抗生素对菌群组成和宿主健康的影响
2010 里程碑 16:生物信息学工具助力菌群测序数据分析
2010 里程碑 17:对大规模人群的菌群分析
2011 里程碑 18:菌群-肠-脑轴
2012 里程碑 19:现代培养方法用以扩展可培养菌群
2012 里程碑 20:全球人类微生物组
2013 里程碑 21:菌群产生的短链脂肪酸诱导调节性 T 细胞的产生
2014 里程碑 22:人体菌群产生的抗生素
2015 里程碑 23:靶向宿主的药物影响菌群种群
2018 里程碑 24:人肠道菌群影响对癌症治疗的应答
2019 里程碑 25:宏基因组组装的基因组分析鉴定出了前所未有的人体相关菌群
六、宏基因组研究重大项目
1、HMP 人体微生物组计划
代码语言:javascript复制http://hmpdacc.org/
人体微生物组计划(Human Microbiome Project,HMP)是 2003 年完成的人类基因组计划的延伸,也是第一个真正意义上的微生物组计划。在 2007 年底宣布发起时,HMP 的目标之一是为至少 900 种在人体中驻扎的细菌成功绘制出参照基因组序列。HMP 一期的工作中一共产出了 14.23Tb 数据,得到了 3000 株微生物的基因组信息。
2、EMP 地球微生物基因组研究项目
代码语言:javascript复制http://www.earthmicrobiome.org/
EMP 的全称为 Earth Microbiome Project,地球微生物基因组研究项目,HMP 主要研究与人相关的微生物,而微生物生态学的一个重要挑战在于如何从微生物的结构与功能上来了解微生物。地球微生物基因组研究项目(EMP)提供了相应的解决方案,包括问题本身以及潜在的问题。高通量测序技术为探索微生物世界提供可前所未有的机会。与以前的微生物或微生物群体测序相比,EMP 的提出将会带来更加巨大的影响。该项目可以获得大约 500,000 个重测的基因组,一个全球的代谢模型和一个所有信息可视化的数据分析入口,这将可以更好的描述每个生物群落的蛋白质空间结构及环境代谢模型。
3、iHMP 人体微生物组计划第二期
人体微生物组计划第二期(iHMP)的研究对象锁定三类特殊疾病人群,怀孕和早产群体、炎症性肠病患者和 II 型糖尿病患者。目标是利用包括宏基因组、宏转录组、宿主基因组等、微生物培养等多组学、多维度技术,对三个特殊队列人群的微生物组和宿主进行分析,建立包含微生物组和宿主基因组与功能特性的纵向数据集,并应用这些数据集来评估和构建模型,试图解析宿主-微生物的相互作用。
4、欧盟 MetaHIT 计划(人体肠道宏基因组计划)
代码语言:javascript复制http://www.metahit.eu/
(网站2022年10月16日打不开,报错)
MetaHIT 计划是由欧盟第七框架计划(FP7)资助的子项目之一。该项目的合作伙伴包括了来自 8 个国家学术界和工业界的 13 个成员。深圳华大基因研究院承担了 MetaHIT 计划中的200 多个欧洲人肠道微生物样品的测序及后续生物信息分析工作。MetaHIT 计划的目的是研究人类肠道中的所有微生物群落,进而了解人类肠道中细菌的物种分布,最终为后续研究肠道微生物与人的肥胖、肠炎等疾病的关系提供非常重要的理论依据。
5、AGP 美国肠道计划
代码语言:javascript复制https://microsetta.ucsd.edu/
美国肠道计划(American Gut Project, AGP)是一项专门针对于人体肠道菌群的计划,发起人是资深微生物组专家、微生物生信分析神器 QIIME 作者也是 HMP 发起人之一 Dr.Rob Knight。
6、NMI 美国国家微生物组计划
2016 年 5 月 13 日,美国白宫科学和技术政策办公室(OSTP)与联邦机构、私营基金管理机构一同宣布启动“国家微生物组计划”(National Microbiome Initiative,简称 NMI),这是奥巴马政府继脑计划、精准医学、抗癌“登月”之后推出的又一个重大国家科研计划。计划关注的方向主要包括如下几个方面:支持跨学科研究,解决不同生态系统微生物的基本问题;开发平台技术,对不同生态系统中微生物组的认识以及知识的积累,并提高微生物数据的访问;通过公民科学、公众参与,扩大微生物的影响力。
7、MetaGenoPolis (MGP)计划
MetaGenoPolis (MGP)是一个由 French initiative Future investments 投资的示范性项目。该项目目的在于,通过定量和功能宏基因组学技术建立人类肠道微生物对健康和疾病的影响。人体微生物组的特点能够使人类群种、基因分型、疾病、年龄、营养、医疗个环境得以研究。
因此,打开修饰肠道菌的途径,从而为人类健康服务。为了实现以上目标,MGP 开启了一个卓越的人类肠道宏观基因组中心,该中心集中肠道菌医疗、科研和生产于一体。
8、美国 Hospital Microbiome 计划
医院微生物组计划将对两家医院的外表面、空气、水和人体相关微生物群落进行分类,以便对病人和医院工作人员进出医院对其微生物菌落改变进行研究。其具体目的在确定人群特征的影响,包括人际接触空间、建筑物材料空间的群落交替,以及潜在的病原菌定植率。这一项目在美国芝加哥的一家私人医院和德国的美国陆军医疗中心进行。
9、Home Microbiome 计划
Home Microbiome计划是由Argonne National 实验室的PI Jack Gilbert,博士后Daniel Smith和技术人员 Jarrad Hampton-Marcell 领导,以及由 Alfred P. Sloan Foundation 资助。这项研究与 MicroBE.net 合作,Earth Microbiome Project 提供微生物样本,以便尽可能多地了解环境因素对微生物群落的影响。
10、My New Gut Project
欧洲食品信息委员会在 2013 年发起的 MyNewGut 计划同样由欧盟 FP7 资助。顾名思义,MyNewGu 主要关注营养代谢和能量平衡和人体肠道菌群的关联。MyNewGut 的研究对象包括健康人、肥胖、孕妇、儿童和其他代谢疾病患者,主要工作是结合肠道微生物多样性测序和代谢组学分析,了解人类肠道微生物分布如何影响肥胖、行为和生活方式相关的疾病。
11、中科院人类微生物组计划
2017 年 12 月,中科院微生物组计划由中科院牵头,执行期为两年,总投入三千万元人民币。项目分为五个子课题,分别是:基于微生物组学策略干预代谢性疾病及并发症的机制,家养动物肠道微生物组功能解析与调控,活性污泥微生物组功能网络解析与调节机制,微生物组功能解析技术与计算方法学,中国微生物组数据库与资源库建设。
七、宏基因组测序与扩增子测序比较
当前宏基因组研究主要包括扩增子测序,宏基因组测序以及宏转录组测序等技术方法。科研人员在进行微生物学研究中经常不知道该选择哪种合适的方法。这个主要根据研究目的以及预算情况来决定,每一种方法都有其优缺点。16S 测序可以得到物种组成和丰度信息,而宏基因组测序可以得到基因组的序列,可以进行下一步基因组成和功能的分析,如果关注样品中基因表达情况在,则选择宏转录组测序。
通常的研究是先做一个 16S 测序,对物种组成和丰度有一个初步的估计,例如样品中包含了多少种细菌,然后根据评估结果在进行宏基因组测序获取更详细的物种组成和丰度,以及功能组成信息等。然后可以进一步做宏转录组,在转录组水平鉴定宏基因组基因表达情况。简单总结起来三句话:
1、what is in my pot?
2、what can they do?
3、what are they doing?
宏基因组三种测序技术比较
扩增子测序 | 宏基因组 | 宏转录组 | |
---|---|---|---|
研究对象 | 16S/18S/ITS 等扩增产物 | 全部 DNA | 全部 mRNA |
是否需要PCR扩增 | 需要 | 不需要 | 需要 |
资金成本 | 较低 | 较高 | 较高 |
获得结果 | 物种组成及多样性 | 物种组成,多样性以基因功能功能 | 基因表达差异信息以及基因功能 |
物种组成信息 | 一次研究只包括细菌(16S)或真菌(18S 或 ITS),无法得到全部物种 | 可以得到细菌,真菌以及病毒信息 | 可以得到细菌,真菌以及病毒信息 |
分析难度 | 简单 | 较难 | 较难 |
优势 | 不用考虑宿主污染问题,价格便宜适合大样本研究 | 无需扩增,包含全部 DNA 信息 | 可以得到基因表达差异信息 |
局限性 | 存在 PCR 偏好性 | 测序数据量大,价格高,无法得到基因表达信息 | RNA 不稳定,建库难度较大,基因信息不完整 |
八、为什么宏基因组测序比较难?
1 样品采集:
由于微生物在地球上广泛的覆盖,因此,宏基因组样品来源非常广泛,从南北极冰川,到海底淤泥,从喜马拉雅山山脉,到亚马逊丛林,覆盖高山,大河,冰川,土壤,海洋,大气,火山,牛胃,包括人体各个部分都可以进行宏基因组研究,采集到合适的样品,才能开展创新性的研究。
2 样品提取:
由于微生物宏基因组样品种类繁多,可以来自人肠道,山川,河流,土壤,粪便等等样品。因此,很难有统一的样品提取流程。往往无法提取到高质量的 DNA 而影响后续分析结果。
另外,由于样品中可能包括多种物种,例如革兰氏阳性菌和革兰氏阴性菌,由于二者细胞壁的差别,不同的提取方法都可能造成差异。另外,一些样品中可能包含宿主污染,去除宿主污染也是一大难题。对于宏转录样品,由于原核生物与真核生物 RNA 结构不同,也不能采用同样的测序。样品提取一直是宏基因组分析中一项重大难题,需要结合前人经验,以及具体样品,不停的摸索经验。
3 建库方案:
选择不同的建库方案,会对结果造成影响。二代测序需要使用 PCR 扩增,会带来 PCR 的偏向性,比如高 GC 区域无法很好的扩增出来,测序不到,影响后续分析。宏基因组样品由于包含多种 GC 含量微生物,不同的建库方案会带来差异。
4 测序成本:
尽管随着测序技术的发展,测序价格越来越低。当前测序成本已经下降很多。人全基因组价格已经突破 1000 美金。但是因为宏基因组测序量数据量大,比如二代测序,每个样本要达到 6G 以上数据,因此,进行大规模研究,成本依然很高。除了测序费用,后续数据存储,传输,计算等都是不小的费用。
5 测序技术条件限制:
虽然现在的测序技术实现了高通量,可以一次测序环境样品中全部序列。但由于测序读长短,存在测序错误,特异性差,对于物种分类鉴定,基因组拼接都会产生很大的影响。例如,无法完整拼接出样品中包含的全部,完整微生物基因组序列。
6 数据分析:
当前技术条件下,分析单个细菌或者真菌也具有很大的难度。而宏基因组包含未知种类和数目的微生物,并且由于宏基因组测序数据量较大,分析难度也水涨船高。宏基因组数据分析需要微生物学,计算机,统计学等基础。宏基因组分析方法,软件,算法非常多,数据处理过程复杂,分析难度较大。并且很多时候没有标准作为参考,只能摸石头过河。
7 计算资源:
由于宏基因组样品测序量较大,二代测序单个样品一般都需要 6G 数据以上,有些更多。给数据的存储,传输,计算,分享带来很大困难。物种鉴定,基因组拼接都需要非常大的计算资源,例如多核心 CPU(32 线程以上),较大的内存(256G 内存以上)。计算资源目前依然是宏基因组分析中的瓶颈,很多实验室缺乏足够的计算资源来处理宏基因组数据。另外,由于计算时间较长,不方便反复调整选项参数,得到最优解。
8 数据库完整性:
宏基因组物种鉴定完全依赖已知数据库信息。数据库的完整性直接影响到最终分析结果。当前技术条件下,只测序了一小部分微生物。因此,宏基因组物种鉴定中,还会有大量物种无法鉴定,即使鉴定出没有达到种水平。另外,数据库中结果的准确性也直接影响到鉴定结果。
之前一些物种分类错误,这样的问题得不到修正,会逐渐累积下去。
9 相似物种的干扰:
宏基因组样本是一个微生物的混合群落,里面的物种会有来自同一种或者同一属及以上水平的物种,这些物种基因组序列具有相似性,比如基因组同源性达到 70%。这会给物种鉴定时测序数据分配,基因组组装测序数据连接造成干扰。例如测序数据分配错误,造成丰度偏差,基因组拼接形成嵌合体序列等,影响分析结果,造成假阳性。
10 结果可重复性:
由于以上宏基因组分析中诸多的影响条件,从样品采集,保存,提取,建库,测序,不同的数据量,选用不同软件,算法,数据库等,都会产生干扰,因此,同样的样品,结果不容易重复。
写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。
代码语言:javascript复制bioinfoer.com
有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。