真核生物基因预测

2022-10-25 19:01:34 浏览数 (1)

一、同源基因比对

代码语言:javascript复制
#下载参考序列基因集
https://www.ncbi.nlm.nih.gov/genome/?term=NC_009648
wget -c
https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/240/185/GCF_000240185.1_ASM24
018v2/GCF_000240185.1_ASM24018v2_protein.faa.gz
#建立索引
$ makeblastdb -in GCF_000240185.1_ASM24018v2_protein.faa -dbtype prot
-parse_seqids -out GCF_000240185.1_ASM24018v2_protein.faa
#blastx 比对
blastx -query MGH78578.fasta -out blast.out -db
GCF_000240185.1_ASM24018v2_protein.faa -outfmt 6 -evalue 1e-5 #提取比对区域,生成 bed 文件
awk '{if ($7 < $8) print $1"t"$7-1"t"$8;else print $1"t"$8-1"t"$7}'
blast.out >gene.bed
#根据比对位点,提取序列
seqkit subseq --bed gene.bed MGH78578.fasta >MGH78578_gene.ffn

二、真核生物基因预测

真核生物的开放阅读框不仅含有编码蛋白的外显子,而且还有内含子,并且内含子将开放阅读框分割为若干个小片段。开放阅读框的长度变化范围非常大,因此真核生物的基因预测远比原核生物困难。但是,在真核生物的开放阅读框中,外显子与内含子之间的连接绝大部分情况下满足 GT-AG 规律:即内含子序列 5' 端的起始两个核苷酸总是 GT,并且其 3'端的最后两个核苷酸总是 AG,即:5'-GT ……AG-3',这个规律有助于真核生物开放阅读框的识别。因此真核生物的预测基因更加复杂。常用的软件包括 augustus,snap,GlimmerHMM,GENSCAN,genemarks 等工具。

利用 augustus 预测真核生物基因

官网:http://bioinf.uni-greifswald.de/augustus/

代码语言:javascript复制
#安装 augustus 软件
mamba create -n augustus -y augustus=3.4.0
#激活环境
conda activate augustus
#查看软件自带模型
augustus --species=help
augustus --strand=both --genemodel=partial --singlestrand=false --protein=on
--introns=on --start=on --stop=on --cds=on --codingseq=on
--alternatives-from-evidence=true --gff3=on --UTR=on --outfile=out.gff
--species=arabidopsis ninanjie.fa

选项参数:

-strand 预测序列的方向,是正向还是反向,还是正反链都预测,一般基因正反链都有分布,所以选择 both

--genemodel 预测基因的模式,允许部分的基因结构,例如基因含有 N 碱基,或者选择完整结构或者是无内含子的基因

--singlestrand 分别单独预测每个链方向的基因,例如先预测正链方向,然后反链方向,允许基因之间的 overlap。

--hintsfile hints 表示基因的边缘信息,例如上下游的非翻译区,此选项用于输入 gff 格式的基因上下游非编码区信息,辅助基因预测

--AUGUSTUS_CONFIG_PATH=path 软件配置文件目录,没指定从环境变量中获取下面的 --alternatives-from-evidence , --alternatives-from-sampling , --sample ,--minexonintronprob,--minmeanexonintronprob,--maxtracks 等,这些选项都是关于基因可变剪切的选项,关于此选项的具体含义,可以查看 README 文件的第四部分介绍

--proteinprofile 读入一个氨基酸序列文件,作为训练集,关于此选项的具体含义,可以查看 README 文件的第七部分

--predictionStart=A, --predictionEnd=B A 和 B 表示预测的优先级,优先基因结构头部还是尾部

--gff3 是否输出 gff 格式结果文件

--UTR 是否预测非翻译的 UTR 区域,此选项目前只对人基因组,新秀丽线虫,弓形体等起作用

--outfile 输出文件名

--noprediction 如果输入的序列是 genebank 格式进行基因预测,并将预测结果和genebank 的结果进行比较后 得出一个精确性的统计结果。由于 genebank 格式文件中有些 sequences 没有 cds 的注释结果,因此可以使用该参数进行检测,从而得到没有 cds 的序列号,再人为去去除这些没有 cds 注释的序列,再去进行预测准确性的评估。

--paramlist 输出全部参数列表

写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。原地址暂未启用(bioinfoer.com)。

代码语言:javascript复制
sx.voiceclouds.cn

有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。

0 人点赞