论文
Transposon dynamics in the emerging oilseed crop Thlaspi arvense
https://doi.org/10.1371/journal.pgen.1008370
论文的内容基本都是在围绕着转座子相关
论文的分析代码 https://github.com/acontrerasg/Tarvense_transposon_dynamics
今天的推文记录一下LTRpred这个R包的安装过程,这个R包主要是用来预测完整的LTR,后续好像还可以分析LTR的年龄相关的内容,具体还得再仔细研究
这个R包对应的论文
LTRpred: de novo annotation of intact retrotransposons
github主页 https://github.com/HajkD/LTRpred
帮助文档 https://hajkd.github.io/LTRpred/articles/Introduction.html
安装最容易到的方式是使用docker镜像,我在自己租的云服务器上用docke的方法安装成功并且示例数据也运行成功了,但是运行自己的数据的时候报错提示内存不够用,这个云服务器只有1核2G
开头提到的论文里提供的代码 https://github.com/acontrerasg/Tarvense_transposon_dynamics/blob/main/Reference_TE_description/LTR_intacts/install_run_LTRpred.sh 的安装方式是udocker,这个udocker直接使用conda就可以安装,但是启动镜像的时候遇到报错 this container exposes privileged TCP/IP ports
没有查到是什么原因,这个udocker和docker是什么关系暂时也没有搞明白
尝试手动安装
依赖的R包都可以用conda安装
genometools用源码安装 https://github.com/genometools/genometools/releases 然后添加到环境变量
还需要用到usearch 和vsearch
vsearch可以直接用conda安装
usearch 下载链接 https://www.drive5.com/usearch/download.html
还需要用到 dfamscan.pl这个脚本,这个直接使用conda install dfam 命令进行安装
还需要把 https://github.com/HajkD/LTRpred/blob/master/R/dfam.query.R
这个脚本里 /usr/local/bin/dfamscan.pl 全部改为自己的真实路径 直接用which dfamscan.pl 命令可以获取自己的路径,把这个R包fork到自己的github账号下,代码就可以修改了
安装这个包
devtools::install_github("NotebookOFXiaoMing/LTRpred")
这样就安装好了,按照https://hajkd.github.io/LTRpred/articles/Introduction.html 这个链接里的配置Dfam数据库
https://github.com/acontrerasg/Tarvense_transposon_dynamics/blob/main/Reference_TE_description/LTR_intacts/run_LTRpred.R
用这个脚本直接去运行,这个脚本里的22 23行代码后面的逗号需要去掉
代码语言:javascript复制genome="/app/ltrpred_data/modified.fasta"
#####
Dfam="/app/ltrpred_data//Dfam_v3.1" # Folder containing Dfam database with the name Dfam. and extensions.
Rscript ./run_LTRpred.R ${genome} ${Dfam}
我自己300多兆的基因组还没有运行完,这个还挺慢的,具体结果应该怎么解读还需要仔细看论文