（1）TBtools | 序列工具之序列信息提取

一、功能介绍

该功能可获取Fasta序列的以下信息：

①Total_Len（序列总长）

②Total_Seq_Num（染色体数）

③Total_N _Counts（未测通的碱基数）

④Total_LowCase_Counts（重复序列的标志）

⑤Total_GC_content（GC含量）

⑥Minimum Len（最小序列长度）

⑦Maximum Len（最大序列长度）

⑧Mean Len（平均序列长度）

⑨Median Len（序列中位数长度）

⑩N50

附，N50含义：

在此之前我们需要先明白reads、conting、scaffold的意义和关系。

①reads：就是我们测序产生的短读序列，通常一代和三代的reads读长在几千到几万bp之间，二代的相对较短，平均是几十到几百bp。

②contig：中文叫做重叠群，就是不同reads之间的overlap交叠区，拼接成的序列就是contig。

③scaffold:是比contig还要长的序列，获得contig之后还需要构建paired-end或者mate-pair库，从而获得一定片段的两端序列，这些序列可以确定contig的顺序关系和位置关系，最后contig按照一定顺序和方向组成scaffold，其中形成scaffold过程中还需要填补contig之间的空缺。

N50：比如一个基因组大小是1M，然后把contig 和 scaffold 从长到短进行排列，然后相加，当恰好加到1M的50％，也就是500k的时候，那一条 contig 或者scaffold 的长度就叫做Contig N50和Scaffold N50。

这个数值越大说明组装的质量越好。

即：从最长的开始倒数，数到长度为总长度一半的片段，最后一个被数到的片段越长，说明长的片段越多，最后组装的质量越好。

二、操作方式

SequenceToolkit → Fasta tools → Fasta stats

median minimum overlap

0 人点赞