(1)TBtools | 序列工具之序列信息提取

2020-08-26 16:43:16 浏览数 (3)

一、功能介绍

该功能可获取Fasta序列的以下信息:

①Total_Len(序列总长)

②Total_Seq_Num(染色体数)

③Total_N _Counts(未测通的碱基数)

④Total_LowCase_Counts(重复序列的标志)

⑤Total_GC_content(GC含量)

⑥Minimum Len(最小序列长度)

⑦Maximum Len(最大序列长度)

⑧Mean Len(平均序列长度)

⑨Median Len(序列中位数长度)

⑩N50

附,N50含义:

在此之前我们需要先明白reads、conting、scaffold的意义和关系。

①reads:就是我们测序产生的短读序列,通常一代和三代的reads读长在几千到几万bp之间,二代的相对较短,平均是几十到几百bp。

②contig:中文叫做重叠群,就是不同reads之间的overlap交叠区,拼接成的序列就是contig。

③scaffold:是比contig还要长的序列,获得contig之后还需要构建paired-end或者mate-pair库,从而获得一定片段的两端序列,这些序列可以确定contig的顺序关系和位置关系,最后contig按照一定顺序和方向组成scaffold,其中形成scaffold过程中还需要填补contig之间的空缺。

N50:比如一个基因组大小是1M,然后把contig 和 scaffold 从长到短进行排列,然后相加,当恰好加到1M的50%,也就是500k的时候,那一条 contig 或者scaffold 的长度就叫做Contig N50和Scaffold N50。

这个数值越大说明组装的质量越好。

即:从最长的开始倒数,数到长度为总长度一半的片段,最后一个被数到的片段越长,说明长的片段越多,最后组装的质量越好。

二、操作方式

SequenceToolkit → Fasta tools → Fasta stats

0 人点赞