文本查看、操作、统计命令
cat 查看文本文件的内容,输出到屏幕
常见参数:
-A ## 打印所有内容,包括特殊字符,如制表符
-n ## 打印出所有行号,-b 参数仅打印非空白行行号
其他:
zcat:可以查看压缩的文本文件 tac:逆向查看
head / tail -n :查看文件的前/后 n 行,默认 10 行
less less 参数 文件名
常用参数:
-N:显示行号
-S:单行显示
zless:查看压缩文件
用“/keyword”进行关键词查询
n/N:上下浏览关键词
more:逐页查看,按空格翻页,按回车换行
wc:统计文本
常见参数:
-l 统计行数
-w 统计字符串数
-c 统计字节数
cut:文本切割
常见参数:-d 指定分隔符,默认t;
-f 输出哪几列(字段fields)
cut –d不只可以指定标点符号为分隔符,也可指定字母或者数字等字符为分隔符
sort:排序
常见参数:
-n:按照数值从小到大进行排序
-V:字符串中含有数值时,按照数值从小到大排序
-r:逆向排序
-k:指定按哪一列排序
-t:指定分隔符
uniq:去除重复行
只能去除相邻的重复行!,跟sort连用!
常见参数:
-c:统计每个字符串连续出现的行数
paste:文本合并
常见参数:
-d:指定分隔符
-s:按行合并
常见用法:1. paste file1 file2 2. seq 20 | paste - -
tr:字符替换
常见用法:
tr ‘<pre>’ ‘<dest>’
常见参数:
-d:删除指定字符
-s:缩减连续重复字符
md5.txt文件:md5sum可以计算文件大小, md5sum -c 文件名称.md5
生物信息学常见文件格式
fasta
fastq
gff/gtf
fasta:一种基于文本用于表示核酸序列或多肽序列的格式。缩写为 fa
特征: 两部分, id行和序列行.
- id行:以“>”开头, 有时候会包含注释信息,如 chr1、chr2 …
- 序列行:一个字母表示一个碱基/氨基酸,ATCGN 或 20种氨基酸fastq:一种保存生物序列(通常为核酸序列)及其测序质量得分信息的文本格式。FASTQ文件中,一个序列通常由四行组成: 第一行:以 @ 开头,之后为序列的标识符以及描述信息 第二行:为序列信息,如 ATCG 第三行:以 开头,之后可以再次加上序列的标识及描述信息(保留行) 第四行:为碱基质量值,与第二行的序列相对应,长度必须与第二行相同。
gff:基因组注释文件 ,总共有 9 列。分别为:
列 名称 含义
1 seqname 序列的名字。通常格式染色体ID或是contig ID
2 source 注释的来源。通常是预测软件名或是公共数据库
3 feature 基因结构:transcript,gene,exon,CDS,start_codon,stop_codon,UTR…
4 start 起始位置,从1开始计数。
5 end 终止位置。
6 score 这一列的值表示对该类型存在性和其坐标的可信度,不是必须的,可以用点“.”代替。
7 strand 链的正向与负向,分别用加号 和减号-表示。
8 frame 密码子偏移,可以是0、1或2。
9 attributes
属性,一个包含众多属性的列表,格式为“标签=值”(tag=value),不同属性之间以分号
相隔。
gtf:基因注释文件 ,总共有 9 列。分别为
列 名称 含义
1 seqname 序列的名字。通常格式染色体ID或是contig ID
2 source 注释的来源。通常是预测软件名或是公共数据库
3 feature 基因结构:transcript,gene,exon,CDS,start_codon,stop_codon,UTR…
4 start 起始位置,从1开始计数。
5 end 终止位置。
6 score 这一列的值表示对该类型存在性和其坐标的可信度,不是必须的,可以用点“.”代替。
7 strand 链的正向与负向,分别用加号 和减号-表示。“.”表示不需要指定正负链,“?” 表示未知.
8 frame 密码子偏移,可以是0、1或2。仅对编码蛋白质的CDS有效,本列指定下一个密码子开始的位置。
9 attributes
属性,必须要有以下两个值:
gene_id value: 表示坐标在基因组上的基因座的唯一的ID。gene_id 与 value 值用空格分
开,如果值为空,则表示没有对应的基因。
transcript_id value: 预测的转录本的唯一ID。transcript_id与value值用空格分开,空
表示没有转录本。