欢迎关注”生信修炼手册”!
中科院北京基因组研究所搭建了国内的大数据中心BIGD, 拥有海量计算资源,5000以上CPU,8PB以上的存储,借助庞大的计算资源,存储了高通量测序产生的各种组学数据,同时集成了各种分析软件,组成了一个组学数据整合,挖掘的应用体系。
今天要介绍的LGC
工具就是整合在BIGD中的一款lncRNA预测软件,源代码保存在BIGD提供的BioCode`数据库中,网址如下
http://bigd.big.ac.cn/biocode/tools/BT000004
同时还提供了在线版本,网址如下
http://bigd.big.ac.cn/lgc
在线工具支持fasta
, bed
, gtf
三种格式的输入文件,示意如下
对于bed
和gtf
这两种格式而言,还需要指定基因组版本,目前支持以下几种
- Human (hg38, GRCh38)
- Human (hg19, GRCh37)
- Mouse (GRCm38/mm10)
- Mouse (NCBI Build 37/mm9)
- Fly (dm3, BDGP Release 5)
- Zebrafish (Zv9/danRer7)
本地版的安装也很简单,采用了python语言进行开发,只需要下载源代码就可以了,需要注意的是,该软件依赖biopython模块。本地版的用法如下
代码语言:javascript复制python lgc-1.0.py transcript.fa output.txt
第一个参数为转录本对应的fasta格式的序列,第二个参数为输出文件,其内容可以分为
两部分,以#
开头的注释行,解释了正文中每一列的含义,如下所示
正文内容如下所示
其中Coding lable
那一列标识了转录本的蛋白编码情况。
·end·
—如果喜欢,快分享给你的朋友们吧—
扫描关注微信号,更多精彩内容等着你!