GeneMarkS | 原核生物基因组预测①

2022-08-18 09:05:14 浏览数 (2)

前言

原核生物的基因没有内含子,其基因预测相对真核生物简单。本期将以大肠杆菌基因组为例,讲解如何使用GeneMarks对原核基因组进行预测。

GeneMarkS软件官网

代码语言:javascript复制
http://exon.gatech.edu/GeneMark/

GeneMarkS软件安装

GeneMarkS提供了在线预测服务,网站如下:

代码语言:javascript复制
# GeneMarkS在线网站
http://exon.gatech.edu/GeneMark/genemarks.cgi

本期主要介绍Linux运行GeneMarkS。GeneMarkS安装需要到其官网填写信息获取下载链接,所以下载地址不固定,需要自己申请。下面介绍如何获取下载链接(不想自己申请可以后台回复genemarks获取软件)。

①首先进入GeneMarkS官网(http://exon.gatech.edu/GeneMark/,点击下图红框处的“download”,跳转到软件下载界面。

②软件选择红框框选的“GeneMarkS-2 version 1.14_1.25_lic”(32位还是64位根据服务器情况选择),在黄色框填写信息后点击绿色框即可获取软件下载链接。

③使用软件需要下载两个文件,一个为软件本身(红框),一个是密钥(橙框)。鼠标右键单击选择“复制链接地址”后到服务器上下载,或者浏览器下载自行传入服务器。

④下面介绍服务器下载安装GeneMarkS的方法

代码语言:javascript复制
# 下载软件和密钥
wget http://topaz.gatech.edu/GeneMark/tmp/GMtool_dHlO8/gms2_linux_64.tar.gz
wget http://topaz.gatech.edu/GeneMark/tmp/GMtool_dHlO8/gm_key_64.gz
# 解压软件
tar -zxvf gms2_linux_64.tar.gz
gunzip -c gm_key_64.gz > ~/.gmhmmp2_key
# 将软件添加到环境变量
vim ~/.bashrc
PATH=$PATH:/opt/biosoft/gms2_linux_64
source ~/.bashrc

Tips:①密钥安装需要安装到用户的家目录下,并且需要命名成“.gmhmmp2_key”;②将软件添加到环境变量时需要根据自己软件安装位置进行添加。

GeneMarkS示例数据下载与处理

代码语言:javascript复制
# 下载大肠杆菌基因组
wget -O Escherichia_coli.fna.gz https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/005/845/GCF_000005845.2_ASM584v2/GCF_000005845.2_ASM584v2_genomic.fna.gz
# 解压重命名
gunzip -c Escherichia_coli.fna.gz >Escherichia_coli_genome.fasta

GeneMarkS常用参数

代码语言:javascript复制
--seq : 输入FASTA格式的基因组序列的文件
--genome-type : 基因组类型:archaea,bacteria,auto (默认)
--gcode : 遗传密码(默认:自动。支持:11、4、25、15)
--output : 输出文件的名称(默认:gms2.lst)
--format : 输出文件的格式(默认:lst)
--fnn : 生成预测基因组的核苷酸序列
--faa : 生成预测基因组的蛋白质序列

GeneMarkS使用案例

代码语言:javascript复制
gms2.pl 
--seq Escherichia_coli_genome.fasta 
--genome-type bacteria 
--gcode 11 
--format gff 
--output Escherichia_coli.gff 
--fnn Escherichia_coli_gene.fasta
--faa Escherichia_coli_protein.fasta

GeneMarkS结果文件

代码语言:javascript复制
Escherichia_coli.gff #储存基因结构信息
Escherichia_coli_gene.fasta #预测基因组的核苷酸序列
Escherichia_coli_protein.fasta #预测基因组的蛋白质序列

gff文件简介

代码语言:javascript复制
# gff文件一共9列,分别如下:
①seqid(序列ID):通常为染色体的ID;
②source(注释的来源):表示产生此文件的软件或方法;
③type(类型):表示区间特性类型,如gene,repeat_region,exon,CDS等;
④start(起始位点):特征区间的起始位置;
⑤end(结束位点):特征区间的终止位置;
⑥score(得分):表示注释信息可靠性;
⑦strand(正/负链):"+":正链,"-":负链;
⑧phase(步进):对于编码蛋白质的CDS,本列指定下一个密码子开始的位置。可以是0,1,2。表示到达下一个密码子要跳过的碱基个数;
⑨attribut(属性):基因ID,长度等信息;多个属性之间用";"分号分隔。

温馨提示:后台回复genemarks即可获取本期内容的软件、示例数据以及注释文件。

0 人点赞