一、细菌基因组
细菌基因组按照拼接基因组完整性,可以分为草图,精细图和完成图。
草图(draft genome):也就框架图,一般只采用一个小片段建库,MiSeq 深度测序和初步的基因组组装策略,性价比高,满足细菌基因组研究基本需求。一般要求基因组覆盖度达到95%以上,基因区覆盖度 98%以上,单碱基错误率在十万分之一;
精细图(fine genome):一般采用 illumina 多个文库,通常一个小片段文库 一个大片段建库。可以连接出更多的 scaffold,相对于草图,基因组更加完整,但依然不是完整基因组。基因组覆盖度达到 98%以上,基因区覆盖度达到 99%以上,单碱基错误率在十万分之一;
完成图 (complete genome):也称为 perfect map;得到完整的基因组,包括完整的染色体,质粒,不包含 gap 区域。完成图包含物种全部遗传信息,是基因组拼接的终极目的。
二、细菌基因组为什么可以做完成图?
受技术条件的限制,相比于其他物种,例如病毒,真菌,动植物等,目前只有细菌基因组才容易得到完成图。
细菌个体微小,结构简单,进化地位低。因此它的基因组也就与其他物种有很大的差别。主要有以下特点:细菌基因组主要具有以下特点:
1、基因组通常比较小,一般都小于 10M,大部分在 4-5M;2、通常只有 1 条染色体,大部分为环形,有些具有质粒序列;
3、GC 范围变化比较大,从 25%~70 以上都存在;
4、基因组组成比较简单,基因区占大部分,通常 80%以上,重复序列少;
5、遗传信息的连续性,基因中不含内含子。
三、细菌完成图方案
目前主要的细菌完成图拼接方案可以选择 illumina 测序 纳米孔测序的方案。扬长避短,充分利用两种测序技术的优势,首先利用纳米孔测序数据搭建细菌基因组框架,然后使用二代测序进行纠错,最终得到细菌完成图。
可以使用 unicycler 进行拼接。
网址:https://github.com/rrwick/Unicycler
案例数据文章地址:https://www.nature.com/articles/s41598-019-49700-1/
PRJ 号码:PRJNA523610
代码语言:javascript复制#获取数据
esearch -db sra -query PRJNA523610 | efetch -format runinfo > runinfo.csv
#获取SRR number
cat runinfo.csv | cut -d , -f 1,2,16 | head -3
#获取下载地址
cat runinfo.csv | cut -d , -f 1 | grep "SRR" | while read i;do srapath ${i};done;
四、从宏基因组中直接拼接细菌完成图
《Complete, closed bacterial genomes from microbiomes using nanopore sequencing》文章数据
写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。原地址暂未启用(bioinfoer.com)。
代码语言:javascript复制sx.voiceclouds.cn
有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。