Linux基础 Day2

2024-06-01 18:14:14 浏览数 (2)

文本查看、操作、统计命令

cat 查看文本文件的内容,输出到屏幕

常见参数:

-A ## 打印所有内容,包括特殊字符,如制表符

-n ## 打印出所有行号,-b 参数仅打印非空白行行号

其他:

zcat:可以查看压缩的文本文件 tac:逆向查看

head / tail -n :查看文件的前/后 n 行,默认 10 行

less less 参数 文件名

常用参数:

-N:显示行号

-S:单行显示

zless:查看压缩文件

用“/keyword”进行关键词查询

n/N:上下浏览关键词

more:逐页查看,按空格翻页,按回车换行

wc:统计文本

常见参数:

-l 统计行数

-w 统计字符串数

-c 统计字节数

cut:文本切割

常见参数:-d 指定分隔符,默认t;

-f 输出哪几列(字段fields)

cut –d不只可以指定标点符号为分隔符,也可指定字母或者数字等字符为分隔符

sort:排序

常见参数:

-n:按照数值从小到大进行排序

-V:字符串中含有数值时,按照数值从小到大排序

-r:逆向排序

-k:指定按哪一列排序

-t:指定分隔符

uniq:去除重复行

只能去除相邻的重复行!,跟sort连用!

常见参数:

-c:统计每个字符串连续出现的行数

paste:文本合并

常见参数:

-d:指定分隔符

-s:按行合并

常见用法:1. paste file1 file2 2. seq 20 | paste - -

tr:字符替换

常见用法:

tr ‘<pre>’ ‘<dest>’

常见参数:

-d:删除指定字符

-s:缩减连续重复字符

知识点总结知识点总结

md5.txt文件:md5sum可以计算文件大小, md5sum -c 文件名称.md5

生物信息学常见文件格式

fasta

fastq

gff/gtf

fasta:一种基于文本用于表示核酸序列或多肽序列的格式。缩写为 fa

特征: 两部分, id行和序列行.

  • id行:以“>”开头, 有时候会包含注释信息,如 chr1、chr2 …
  • 序列行:一个字母表示一个碱基/氨基酸,ATCGN 或 20种氨基酸fastq:一种保存生物序列(通常为核酸序列)及其测序质量得分信息的文本格式。FASTQ文件中,一个序列通常由四行组成: 第一行:以 @ 开头,之后为序列的标识符以及描述信息 第二行:为序列信息,如 ATCG 第三行:以 开头,之后可以再次加上序列的标识及描述信息(保留行) 第四行:为碱基质量值,与第二行的序列相对应,长度必须与第二行相同。

gff:基因组注释文件 ,总共有 9 列。分别为:

列 名称 含义

1 seqname 序列的名字。通常格式染色体ID或是contig ID

2 source 注释的来源。通常是预测软件名或是公共数据库

3 feature 基因结构:transcript,gene,exon,CDS,start_codon,stop_codon,UTR…

4 start 起始位置,从1开始计数。

5 end 终止位置。

6 score 这一列的值表示对该类型存在性和其坐标的可信度,不是必须的,可以用点“.”代替。

7 strand 链的正向与负向,分别用加号 和减号-表示。

8 frame 密码子偏移,可以是0、1或2。

9 attributes

属性,一个包含众多属性的列表,格式为“标签=值”(tag=value),不同属性之间以分号

相隔。

gtf:基因注释文件 ,总共有 9 列。分别为

列 名称 含义

1 seqname 序列的名字。通常格式染色体ID或是contig ID

2 source 注释的来源。通常是预测软件名或是公共数据库

3 feature 基因结构:transcript,gene,exon,CDS,start_codon,stop_codon,UTR…

4 start 起始位置,从1开始计数。

5 end 终止位置。

6 score 这一列的值表示对该类型存在性和其坐标的可信度,不是必须的,可以用点“.”代替。

7 strand 链的正向与负向,分别用加号 和减号-表示。“.”表示不需要指定正负链,“?” 表示未知.

8 frame 密码子偏移,可以是0、1或2。仅对编码蛋白质的CDS有效,本列指定下一个密码子开始的位置。

9 attributes

属性,必须要有以下两个值:

gene_id value: 表示坐标在基因组上的基因座的唯一的ID。gene_id 与 value 值用空格分

开,如果值为空,则表示没有对应的基因。

transcript_id value: 预测的转录本的唯一ID。transcript_id与value值用空格分开,空

表示没有转录本。

0 人点赞