freebayes 是一款snp calling 软件,其灵敏度高,用法简便,所以广受欢迎。
软件的安装过程如下
代码语言:javascript复制git clone --recursive git://github.com/ekg/freebayes.git
cd freebayes/
make
编译成功之后,在bin
目录就是可执行文件。为了使用方便,可以将bin
目录添加到PATH
环境变量中。
对于freebayes而言,只需要两个输入文件,一个是参考基因组的fasta文件,另外一个是比对产生的bam文件。基本用法如下
代码语言:javascript复制freebayes -f ref.fasta align.bam >var.vcf
参考基因组的fasta文件需要有后缀为.fai
的索引文件,可以通过samtools来构建,命令如下
samtools faidx ref.fasta
如果你提供的fasta文件没有对应的索引,程序会自动去构建。对于大型参考基因组而言,建议是先构建好索引。比对的bam文件可以按照GATK官方推荐的预处理流程得到。
输出结果是VCF格式的,示例如下
头部
代码语言:javascript复制##fileformat=VCFv4.2
##fileDate=20180626
##source=freeBayes v1.2.0
##reference=ref.fasta
##contig=<ID=NC_023084.1,length=156971>
##phasing=none
##commandline="./freebayes --fasta-reference ref.fasta align.bam"
##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of samples with data">
正文
代码语言:javascript复制#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT GW1
NC_023084.1 107 . G T 331.137 . AB=0;ABP=0;AC=2;AF=1;AN=2;AO=13;CIGAR=1X;DP=13;DPB=13;DPRA=0;EPP=3.17734;EPPR=0;GTI=0;LEN=1;MEANALT=1;MQM=60;MQMR=0;NS=1;NUMALT=1;ODDS=22.627;PAIRED=0.615385;PAIREDR=0;PAO=0;PQA=0;PQR=0;PRO=0;QA=423;QR=0;RO=0;RPL=0;RPP=31.2394;RPPR=0;RPR=13;RUN=1;SAF=6;SAP=3.17734;SAR=7;SRF=0;SRP=0;SRR=0;TYPE=snp;technology.illumina=1 GT:DP:AD:RO:QR:AO:QA:GL 1/1:13:0,13:0:0:13:423:-38.3849,-3.91339,0
VCF格式之前的文章中已经详细介绍过,每个字段的含义可以参考头部的注释信息。