binning分箱

2023-02-24 13:22:52 浏览数 (2)

一、什么是 binning?

Binning,简称为分箱,更确切的说是 strain-level clusters 或 strain-level taxonomic units),本质是采用聚类的方法将分析对象进行归类,得到不同的集合。在宏基因组分析中,由于是混合微生物的测序,通过聚类的方法,将相同的微生物聚成一类,这个过程就是 binning。通过 binning,可以从菌落中提取到“单菌基因组”。这是一种不依赖实验室分离培养,基于分析算法开展单菌研究的策略。这样很多没法进行纯培养的微生物,通过这种方法就可以得到其基因组序列。

Binning 分析主要可以得到以下结果:

1、哪些序列来自哪些微生物?

2、得到单菌基因组;

3、拼接出不容易分离培养的微生物基因组。

二、binning 分类

按 Binning 的对象不同,可分为 3 种,即基于 reads、contig、gene 三种。通常 contig 的 binning效果比较好。因为二代高通量测序 reads 长度比较短,包含的序列信息十分有限,故基于contig 和 gene 的 Binning 更常见。

基于 reads binning 的优势是可以聚类出宏基因组中丰度非常低的物种,考虑到在宏基因组组装中 reads 利用率很低,单样品 5Gb 测序量情况下,环境样品组装 reads 利用率一般只有10%左右,肠道样品或极端环境样品组装 reads 利用率一般能达到 30%,这样很多物种,尤其是低丰度的物种可能没有被组装出来,没有体现在 gene 或者 contig 中,因此基于 reads binning 才有可能得到低丰度的物种。

基因 genes binning,基于基因丰度进行序列聚类,比如 Canopy 聚类算法、Chameleon 算法。基因的聚类旨在探究“种层级”的功能特征。根据具体的聚类算法和相关性系数的不同,对 binning 得到的 bins 的叫法也不同,主要有 metagenomic linkage groups ( MLG ), metagenomic clusters ( MGC ),metagenomic species ( MGS ),和 metagenomic operational taxonomic units ( MetaOTUs ),同时,MLG, MGC, MGS 和 MetaOTUs 物种注释的标准也是不一样的。

三、binning 原理

按 Binning 的方法,也可分为 3 种,即基于核酸组成、丰度、同时基于核酸组成和丰度。核心思想在于宏基因组样品中每个样品之间核酸组成,丰度不同,这样就表现出 GC 含量和Coverage(Depth)不同。通过 GC-Depth 即可分成很多类。这点类似于单菌基因组去除污染。

但是,虽然 binning 的基本原理比较简单,但是实在计算起来比较复杂,由于样品中包含的微生物非常多,且 GC 含量与测序深度可能类似,测序深度不足,拼接效果不好等,都会影响到 binning 的计算。因此不同软件、不同的聚类算法,预测获得的 Bin 也不太一样。通过binning 得到的基因组可以称为 MAG (Metagenome Assembled genome)。

四、binning 软件

做 binning 的软件有很多中,目前主流的包括 MaxBin 2.0, MetaBAT, CONCOCT 等。Metawrap 则是整合了三款软件的分析流程。

下面这篇文章对多款 binning 软件进行比较评估。

代码语言:javascript复制
https://www.nature.com/articles/nmeth.4458

写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。

代码语言:javascript复制
bioinfoer.com

有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。

0 人点赞