玩转基因组浏览器之自定义IGV的参考基因组

2020-05-07 16:21:48 浏览数 (2)

IGV软件内置了很多的参考基因组,全部放在亚马逊的云服务器上,完整的参考基因组列表见如下链接

http://software.broadinstitute.org/software/igv/Genomes

每次打开IGV软件的时候,会从该服务器下载一个默认的参考基因组,通常是hg19

由于网络原因,可能会下载的非常慢,甚至是下载失败。对于这种情况,我们可以在本地构建一个参考基因组,每次从本地导入就好了,这样即使没有网络链接也可以正常使用。

构建一个本地的参考基因组,需要下列几种文件

  1. genome fasta, 参考基因组的fasta文件,可以是一个文件包含了所有的染色体,也可以是一个目录,目录下每条染色体是一个单独的文件
  2. cytoband file, 染色体条带文件
  3. gene annotation file, 基因结构注释文件,支持bed, gtf, genePred 3种格式,
  4. alias file, 别名,当fasta文件和基因结构中的染色体名称不同时,可以通过这个文件来进行映射

上述4个文件中,只要基因组的fasta文件是必须的,其他3个文件都是可选的,通常情况下,只需要基因组序列和基因结构文件就可以满足需求了。需要注意的是,IGV不支持压缩文件,对于压缩文件,必须解压缩之后再使用。

以hg38为例,展示下具体用法,首先从UCSC下载上述几种文件

对于fasta文件,要建立后缀为fai的索引,命令如下

代码语言:javascript复制
samtools faidx hg38.fa

建好索引号,将上述几个文件放在同一个目录下,然后打开IGV, 点击菜单栏的Genomes->Create ,genome File,会弹出如下所示的输入框

选择对应的输入文件即可,示例如下

点击OK,选择一个目录来保存后缀为.genome的参考基因组即可。创建成功后,软件会自动导入该参考基因组,而且自定义的参考基因组名称也会出现在下拉列表里,下次使用时, 可以从下拉菜单选择本地的参考基因组。

通过创建本地化的参考基因组,可以避免网络差用不了IGV的情况,也大大扩展了IGV支持的物种列表。

0 人点赞