跟着Plos Genetics学数据分析:LTRpred流程注释完整的LTR(1)安装篇

2024-03-01 16:17:57 浏览数 (1)

论文

Transposon dynamics in the emerging oilseed crop Thlaspi arvense

https://doi.org/10.1371/journal.pgen.1008370

论文的内容基本都是在围绕着转座子相关

论文的分析代码 https://github.com/acontrerasg/Tarvense_transposon_dynamics

今天的推文记录一下LTRpred这个R包的安装过程,这个R包主要是用来预测完整的LTR,后续好像还可以分析LTR的年龄相关的内容,具体还得再仔细研究

这个R包对应的论文

LTRpred: de novo annotation of intact retrotransposons

github主页 https://github.com/HajkD/LTRpred

帮助文档 https://hajkd.github.io/LTRpred/articles/Introduction.html

安装最容易到的方式是使用docker镜像,我在自己租的云服务器上用docke的方法安装成功并且示例数据也运行成功了,但是运行自己的数据的时候报错提示内存不够用,这个云服务器只有1核2G

开头提到的论文里提供的代码 https://github.com/acontrerasg/Tarvense_transposon_dynamics/blob/main/Reference_TE_description/LTR_intacts/install_run_LTRpred.sh 的安装方式是udocker,这个udocker直接使用conda就可以安装,但是启动镜像的时候遇到报错 this container exposes privileged TCP/IP ports

没有查到是什么原因,这个udocker和docker是什么关系暂时也没有搞明白

尝试手动安装

依赖的R包都可以用conda安装

genometools用源码安装 https://github.com/genometools/genometools/releases 然后添加到环境变量

还需要用到usearch 和vsearch

vsearch可以直接用conda安装

usearch 下载链接 https://www.drive5.com/usearch/download.html

还需要用到 dfamscan.pl这个脚本,这个直接使用conda install dfam 命令进行安装

还需要把 https://github.com/HajkD/LTRpred/blob/master/R/dfam.query.R

这个脚本里 /usr/local/bin/dfamscan.pl 全部改为自己的真实路径 直接用which dfamscan.pl 命令可以获取自己的路径,把这个R包fork到自己的github账号下,代码就可以修改了

安装这个包

devtools::install_github("NotebookOFXiaoMing/LTRpred")

这样就安装好了,按照https://hajkd.github.io/LTRpred/articles/Introduction.html 这个链接里的配置Dfam数据库

https://github.com/acontrerasg/Tarvense_transposon_dynamics/blob/main/Reference_TE_description/LTR_intacts/run_LTRpred.R

用这个脚本直接去运行,这个脚本里的22 23行代码后面的逗号需要去掉

代码语言:javascript复制
genome="/app/ltrpred_data/modified.fasta"
#####
Dfam="/app/ltrpred_data//Dfam_v3.1" # Folder containing Dfam database with the name Dfam. and extensions. 
Rscript  ./run_LTRpred.R  ${genome} ${Dfam}

我自己300多兆的基因组还没有运行完,这个还挺慢的,具体结果应该怎么解读还需要仔细看论文

0 人点赞