一、功能介绍
该功能可获取Fasta序列的以下信息:
①Total_Len(序列总长)
②Total_Seq_Num(染色体数)
③Total_N _Counts(未测通的碱基数)
④Total_LowCase_Counts(重复序列的标志)
⑤Total_GC_content(GC含量)
⑥Minimum Len(最小序列长度)
⑦Maximum Len(最大序列长度)
⑧Mean Len(平均序列长度)
⑨Median Len(序列中位数长度)
⑩N50
附,N50含义:
在此之前我们需要先明白reads、conting、scaffold的意义和关系。
①reads:就是我们测序产生的短读序列,通常一代和三代的reads读长在几千到几万bp之间,二代的相对较短,平均是几十到几百bp。
②contig:中文叫做重叠群,就是不同reads之间的overlap交叠区,拼接成的序列就是contig。
③scaffold:是比contig还要长的序列,获得contig之后还需要构建paired-end或者mate-pair库,从而获得一定片段的两端序列,这些序列可以确定contig的顺序关系和位置关系,最后contig按照一定顺序和方向组成scaffold,其中形成scaffold过程中还需要填补contig之间的空缺。
N50:比如一个基因组大小是1M,然后把contig 和 scaffold 从长到短进行排列,然后相加,当恰好加到1M的50%,也就是500k的时候,那一条 contig 或者scaffold 的长度就叫做Contig N50和Scaffold N50。
这个数值越大说明组装的质量越好。
即:从最长的开始倒数,数到长度为总长度一半的片段,最后一个被数到的片段越长,说明长的片段越多,最后组装的质量越好。
二、操作方式
SequenceToolkit → Fasta tools → Fasta stats