前言
原核生物的基因没有内含子,其基因预测相对真核生物简单。本期将以大肠杆菌基因组为例,讲解如何使用GeneMarks对原核基因组进行预测。
GeneMarkS软件官网
代码语言:javascript复制http://exon.gatech.edu/GeneMark/
GeneMarkS软件安装
代码语言:javascript复制GeneMarkS提供了在线预测服务,网站如下:
# GeneMarkS在线网站
http://exon.gatech.edu/GeneMark/genemarks.cgi
本期主要介绍Linux运行GeneMarkS。GeneMarkS安装需要到其官网填写信息获取下载链接,所以下载地址不固定,需要自己申请。下面介绍如何获取下载链接(不想自己申请可以后台回复genemarks获取软件)。
①首先进入GeneMarkS官网(http://exon.gatech.edu/GeneMark/,点击下图红框处的“download”,跳转到软件下载界面。
②软件选择红框框选的“GeneMarkS-2 version 1.14_1.25_lic”(32位还是64位根据服务器情况选择),在黄色框填写信息后点击绿色框即可获取软件下载链接。
③使用软件需要下载两个文件,一个为软件本身(红框),一个是密钥(橙框)。鼠标右键单击选择“复制链接地址”后到服务器上下载,或者浏览器下载自行传入服务器。
代码语言:javascript复制④下面介绍服务器下载安装GeneMarkS的方法
# 下载软件和密钥
wget http://topaz.gatech.edu/GeneMark/tmp/GMtool_dHlO8/gms2_linux_64.tar.gz
wget http://topaz.gatech.edu/GeneMark/tmp/GMtool_dHlO8/gm_key_64.gz
# 解压软件
tar -zxvf gms2_linux_64.tar.gz
gunzip -c gm_key_64.gz > ~/.gmhmmp2_key
# 将软件添加到环境变量
vim ~/.bashrc
PATH=$PATH:/opt/biosoft/gms2_linux_64
source ~/.bashrc
Tips:①密钥安装需要安装到用户的家目录下,并且需要命名成“.gmhmmp2_key”;②将软件添加到环境变量时需要根据自己软件安装位置进行添加。
GeneMarkS示例数据下载与处理
代码语言:javascript复制# 下载大肠杆菌基因组
wget -O Escherichia_coli.fna.gz https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/005/845/GCF_000005845.2_ASM584v2/GCF_000005845.2_ASM584v2_genomic.fna.gz
# 解压重命名
gunzip -c Escherichia_coli.fna.gz >Escherichia_coli_genome.fasta
GeneMarkS常用参数
代码语言:javascript复制--seq : 输入FASTA格式的基因组序列的文件
--genome-type : 基因组类型:archaea,bacteria,auto (默认)
--gcode : 遗传密码(默认:自动。支持:11、4、25、15)
--output : 输出文件的名称(默认:gms2.lst)
--format : 输出文件的格式(默认:lst)
--fnn : 生成预测基因组的核苷酸序列
--faa : 生成预测基因组的蛋白质序列
GeneMarkS使用案例
代码语言:javascript复制gms2.pl
--seq Escherichia_coli_genome.fasta
--genome-type bacteria
--gcode 11
--format gff
--output Escherichia_coli.gff
--fnn Escherichia_coli_gene.fasta
--faa Escherichia_coli_protein.fasta
GeneMarkS结果文件
代码语言:javascript复制Escherichia_coli.gff #储存基因结构信息
Escherichia_coli_gene.fasta #预测基因组的核苷酸序列
Escherichia_coli_protein.fasta #预测基因组的蛋白质序列
gff文件简介
代码语言:javascript复制# gff文件一共9列,分别如下:
①seqid(序列ID):通常为染色体的ID;
②source(注释的来源):表示产生此文件的软件或方法;
③type(类型):表示区间特性类型,如gene,repeat_region,exon,CDS等;
④start(起始位点):特征区间的起始位置;
⑤end(结束位点):特征区间的终止位置;
⑥score(得分):表示注释信息可靠性;
⑦strand(正/负链):"+":正链,"-":负链;
⑧phase(步进):对于编码蛋白质的CDS,本列指定下一个密码子开始的位置。可以是0,1,2。表示到达下一个密码子要跳过的碱基个数;
⑨attribut(属性):基因ID,长度等信息;多个属性之间用";"分号分隔。
温馨提示:后台回复genemarks即可获取本期内容的软件、示例数据以及注释文件。