使用Circlator环化Ecoli基因组组装结果

2020-03-03 14:51:51 浏览数 (1)

原文地址

PacBio reads:Assembly with command line tools

Circlator安装

看了看Circlator官网的安装教程,稍显麻烦,就不花时间在安装软件上了,直接使用conda安装

代码语言:javascript复制
conda search circlator
conda install circlator

###教程中还用到了emboss工具包,也同时使用conda安装
conda install emboss
Ecoli PacBio测序数据下载

使用canu官方教程中的数据 Canu Quick start

代码语言:javascript复制
wget http://gembox.cbcb.umd.edu/mhap/raw/ecoli_p6_25x.filtered.fastq
mv ecoli_p6_25x.filtered.fastq pacbio.fastq
组装
代码语言:javascript复制
time canu -p canu -d canu_outdir genomeSize=4.8m -pacbio-raw pacbio.fastq

-p 输出文件文件名的前缀 -d 输出文件夹的名字 -genomeSize 组装基因组的大小 only has to be approximate -pacbio-raw 测序数据为PacBio;或者可以选nanopore-raw

如果组装结果中包含多条contigs,可以加上额外的灵敏的参数重新运行canu

代码语言:javascript复制
canu -p prefix -d outdir corMhapSensitivity=high corMinCoverage=0 genomeSize=4.8m -pacbio-raw pacbio.fastq.gz
输出结果

canu.contigs.fasta 组装结果 canu.unassembled.fasta 没有被用于组装的reads canu.correctedReads.fasta.gz 用于组装的经过矫正的reads canu.file.gfa the graph of the assembly.

image.png

使用circlator环化基因组
代码语言:javascript复制
circlator all --verbose canu_outdir/canu.contigs.fasta canu_outdir/canu.correctedReads.fasta.gz circlator_outdir

--verbose将软件运行的过程信息输出到屏幕上 canu_outdir/canu.contigs.fasta canu组装结果的路径 canu_outdir/canu.correctedReads.fasta.gz canu矫正后的reads的路径 circlator_outdir输出结果存放路径

运行结果

image.png

查看是否环化

代码语言:javascript复制
less -S 04.merge.circularise_details.log
##最后一行
Circularized: yes

最终结果06.fixstart.fasta

建议:

options if all the contigs have not circularised with Circlator, an option is to change the --b2r_length_cutoff setting to approximately 2X the average read depth.(这句话的意思还没有太理解)

samtools提取没有比对到参考基因组的reads
代码语言:javascript复制
samtools index aln.bam
samtools fastq -f 4 -l unmapped.R1.fastq -2 unmapped.R2.fastq -s unmapped.RS.fastq aln.bam

fastq bam转换为fastq -f 4输出没有比对上的reads -1 -2 -s单个没有比对上的reads

samtools根据fasta序列名字提取序列
代码语言:javascript复制
samtools faidx contigs.fasta
samtools faidx input.fasta seq_name > output.fasta

还有两部分内容

使用blast确定某条序列是否两端可以overlap
使用二代测序数据矫正PacBio组装结果

参考文献

  • 1 Pacbio reads: assembly with command line tools
  • 2 canu quica start
  • 3 使用Canu对三代测序进行基因组组装
  • 4 生信小白组装学习系列:初识Canu与其组装实战训练(3)

0 人点赞