基因组坐标系统的 0-based 和 1-based(图文详解)

2023-11-21 10:00:15 浏览数 (1)

基因组坐标中的 “0-based” 和 “1-based” 是两种不同的规范,用于表示基因组上的位置。 它们在不同的上下文和文件格式中可能会有不同的使用方式。 下面我们聊聊它们间的区别和应用:

一、0-based

也叫做 zero-based half-open

示例
代码语言:javascript复制
start=0,end=7
表示

该特征长度为 7,而不是 8,注意这里记录并不是以核苷酸编号,而是间隔编号。 为啥要设计这么反直觉的规范? 最早这种设计是 UCSC Browser 为了方便在基因组浏览器中渲染方便,以 start 为起始,以 end 作为序列长度。 也就是说这种格式给计算机看的,你可以在很多用于渲染信号值的文件中看到这种规范。 一般在基因组浏览器中,bed 文件,BigWig 文件等都是以此为规范

查询

使用基因组浏览器位点查询应该为 chr1:1-7

二、1-based

示例
代码语言:javascript复制
start=1, end=7
表示

表示 该特征长度为 7,这个比较直观。因此,这种规范一般多用在注释中。 一般在 gff 等文件中,以此为规范。

查询

使用位点查询应该为 chr1:1-7 ,查询时二者并不差别。

一起来看就是这样的区别:

三、注意

这两个只是规范,实际应用中并不会强制检测。 因此在序列比对和 SNP 检测等流程结果中,最好去基因组上看看,也许会因为规范不同导致离谱的结果。

0 人点赞