生物信息学基本概念
- De novo 测序:即从头测序,其不需要任何现有的序列资料(不依赖于参考基因组)就可以对某个物种进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。
- 基因组重测序:对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。
- Contig:基于reads之间的overlap区,拼接获得的序列称为Contig(重叠群)。
- scaffold:基于Contig之间的顺序关系,将Contig进一步组装得到的更长的序列,称为scaffold。
- Contig N50:所有的Contigs按照从长到短进行排序,将排序后的contig长度依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50。举例:Contig 1 Contig 2 Contig 3 Contig 4=Contig总长度*1/2时,Contig 4的长度即为Contig N50。Contig N50可以作为基因组拼接的结果好坏的一个判断标准。
- k-mer:k-mer是指将reads分成包含k个碱基的字符串,一般长短为m的reads可以分成m-k 1个k-mers。举例:假设reads序列(当然实际比这个长):AACTGACTGA,如果k-mer的k=3,就是reads切割为AAC ACT CTG TGA GAC ACT CTG TGA,我们将这些k-mers放入计算机中拼接,假设第一个为TGA ,那么下一个应该为GA-,.……
- 基因组组装策略,除了基于序列overlap关系进行拼接,另一种就是基于de Bruijn图进行组装。该方法是把reads打断成一定长度的k-mer,然后根据k-mer之间严格的碱基配对关系构建de Bruijn图,最后通过对图形的解读找出最合理的序组装结果。
- 测序深度和覆盖度:测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M。覆盖度是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为Gap。例如一个细菌基因组测序,覆盖度是98%,那么还有2%的序列区域是没有通过测序获得的。
- SNP 和 SNV:单核苷酸多态性(singlenucleotide polymorphim, SNP),单核苷酸位点变异(single nucleotide variants, SNV),两者都指的是在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。SNP是各种生物都有的,是一个群体性概念,SNV仅针对单个基因而言。
- INDEL:插入缺失变异(insertion-deletion, InDel),指的是基因组中有一定数量的核苷酸插入或缺失导致的亲本与其它亲本在基因组中的差异。
常用数据格式
- Fastq格式:
一种基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式,一般都包含有4行。
第一行:由‘@’开始,后面跟着序列ID和可选的描述,序列ID是唯一的;
第二行:碱基序列;
第三行:由‘ ’开始,后面是序列的描述信息;
第四行:第二行序列的质量评价。
举例:@HISEQ:777:HCMCVBCX2:1:1101:4712:2186 1:N:0:TACTCCAG
- Fasta格式:
- 以“>”为开头,fasta格式标志。
- 序列ID号,gi号,NCBI数据库的标识符,具有唯一性。
- 格式为:gi|gi号|来源标志|序列标志(接收号、名称等),若某项缺失可以留空,“|”保留。
- 序列描述。
- 4:碱基序列,序列中允许空格、换行、空行,一般一行60个。
- GenBank格式:
以LOCUS和一些注释行开始。
序列的开头以“ORIGIN”标记,末尾以“//”标记。
- EMBL格式:
以标识符行(ID)开头,后面跟着更多注释行。
序列的开头以“SQ”开头标记,序末尾以“//”标记。