最新 最热

datamash

datamash 是 data 和 mash 的组合词语,data 是数据,mash 捣碎和调情的意思,这里边应该翻译捣碎更加贴切。它是一个 GNU 工具,和 Linux 一些基础命令类似,所以可以使用 yum或者 apt 直接安装。这样就可以在命令行中对数据进...

2022-10-25
1

csvtk

csvtk是 seqkit 与 taxonkit 作者开发的另外一款工具,专门用来处理表格数据,虽然名字称为 csvkit,但也可以处理 tsv 格式。可以对表格文件进行多种处理,包括统计,转换,集合,编辑,排序,绘图等操作。相比于 R 与 python 这些功能...

2022-10-25
1

bioawk

bioawk 是 bwa,samtools 等软件作者李恒写的另一个工具,在 awk 的基础上增加一些专门处理生物文件的使用功能。可以处理 fasta/q,bam,gff,vcf 等格式文件。...

2022-10-25
1

cut-sort-uniq

cut 命令从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段写至标准输出。如果不指定 File 参数,cut 命令将读取标准输入。必须指定 -b、-c 或 -f 标志之一。...

2022-10-25
1

文本编辑sed

sed 全称是 Stream EDitor,是一种流编辑器,什么是流编辑器呢。也就是相当于一个格式化的工具。当数据流过这个工具时,都被格式化成固定的格式。比如一个流水线中的一个模具,原材料是各种形状的,但是结果模具处理之后都变成...

2022-10-25
1

文本筛选 grep

grep 是 Linux 下非常重要的一个工具,grep 全称是 Global Regular Expression Print,表示全局正则表达式版本。grep 是一个文本筛选器,其实也是搜索的功能,grep 的工作原理是,给定一个条件,我们也叫做模式,然后从文本中筛选...

2022-10-25
1

正则表达式

正则表达式,又称规则表达式,模式匹配。(英语:Regular Expression,在代码中常简写为regex、regexp 或 RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。...

2022-10-25
2

sam和bam处理案例

写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。原地址暂未启用(bioinfoer.com)。...

2022-10-25
1

sam/bam 文件格式处理

SAM 文件格式(Sequence Alignment Map Format)是高通量测序分析当中最重要的文件格式之一。将测序数据(fastq 格式)与参考序列(fasta 格式)进行比对,就会生成 sam 格式。sam 格式文件中包含了全部的测序数据信息,参考序列信息...

2022-10-25
1

多重比对问题如何处理

前面介绍的都是 reads 正常的比对情况,比上或者比对不上。在实际比对过程中还会出现很多种“特殊”情况,而往往分析需要的就是这种特殊情况。例如多重比对的 reads 分配问题,将 reads split 切割之后的比对,包括 spliced ...

2022-10-25
1