bioawk

2022-10-25 19:27:30 浏览数 (1)

一、软件介绍

bioawk 是 bwa,samtools 等软件作者李恒写的另一个工具,在 awk 的基础上增加一些专门处理生物文件的使用功能。可以处理 fasta/q,bam,gff,vcf 等格式文件。

代码语言:javascript复制
#安装
mamba install -y bioawk
#显示文件格式
bioawk -c help

软件地址:https://github.com/lh3/bioawk

二、使用案例

代码语言:javascript复制
#输出fasta/q名字部分
bioawk -c fastx ' { print $name } ' demo.fastq.gz
#计算gc含量
bioawk -c fastx ' { print $name, gc($seq) } ' demo.fastq.gz
bioawk -c fastx ' { print $name, gc($seq) } ' demo.fasta

#输出CIGAR为deletions的列
samtools view -f 2 demo.bam | awk '$6 ~ /D/ { print $6 }' | head
samtools view -f 2 demo.bam | bioawk -c sam '$cigar ~ /D/ { print $cigar }' | head

#打印vcf文件中的CHROM与POS列
grep -v "^##" demo.vcf | bioawk -tc hdr '{print $_CHROM,$POS}'

#输出比对上的行
samtools view demo.bam | bioawk -Hc sam '!and($flag,4)' | le
 
#反向互补fasta
bioawk -c fastx '{print ">"$name;print revcomp($seq)}' demo.fasta

#输出vcf中特定genotypes类型
grep -v "^##" in.vcf | bioawk -tc hdr '{print $foo,$bar}'

写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。原地址暂未启用(bioinfoer.com)。

代码语言:javascript复制
sx.voiceclouds.cn

有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。

0 人点赞