论文题目
Evolution of the novel coronavirus from the ongoing Wuhan outbreak and modeling of its spike protein for risk of human transmission 2020年1月21日 SCIENCE CHINA Life Sciences
研究单位
image.png
主要的研究内容
- Evolution of the novel coronavirus from the ongoing Wuhan outbreak 武汉新型冠状病毒的进化分析
- modeling of its spike protein for risk of human transmission 传播风险建模(这部分内容自己暂时还没有看懂)
本篇笔记重点关注进化分析部分
论文中的进化分析用到了64条冠状病毒的全基因组序列 其中有6条是武汉新型冠状病毒基因组序列
本篇笔记中64条序列其中59条序列下载自NCBI数据库,包括一条武汉新型冠状病毒序列,另外5条武汉新型冠状病毒基因组序列下载自百迈客的数据库http://ncovdb.biocloud.net/page/download/download
图一A
本篇论文中图一A中提到
Phylogenetic tree of coronaviruses based on full-length genome sequences. The tree was constructed with the Maximum-likelihood method using RAxML with GTRGAMMA as the nucleotide substitution model and 1000 bootstrap replicates
- 构建进化树使用的是全长基因组序列
- 进化树软件使用的是RAxML
- 核苷酸替代模型是 GTRGAMMA
- 1000 次bootstrap
并没有提到序列比对用到的软件
我这里比对使用mafft软件
代码语言:javascript复制mafft novel_virus.fasta > novel_virus_aligned.fasta
使用在线程序http://www.sing-group.org/ALTER/将比对结果转化为phylip格式
构建进化树
参考文章https://www.plob.org/article/1107.html
代码语言:javascript复制raxmlHPC -p 12345 -# 1000 -m GTRGAMMA outputResult -s novel_virus_aligned.fasta.alter.phy -n test
自己平时构建进化树很少使用raxml这个软件,自己用的比较多的是iqtree,所以接下来的分析自己也尝试用iqtree。遇到的问题是:不知道GTRGAMMA对应的是IQtree里的哪个模型;为了加快运行速度,我这里选用了iqtree的JC模型,使用-bb参数做bootstrap重复 不知道结果会不会与论文中有出入 命令是
代码语言:javascript复制iqtree -s novel_virus_aligned.fasta -pre novelvirus -bb 1000 -nt AUTO -m JC
novelvirus.treefile
是最终的进化树文件
使用R语言的ggtree来可视化进化树文件
library(ggtree)
tree<-read.tree("../../Novel_Coronavirus/novelvirus.treefile")
pdf(file="nv.pdf",height=10,width=10)
ggtree(tree,layout="circular")
geom_hilight(node=81,fill="darkgreen",alpha=0.2,extend=1)
geom_hilight(node=93,fill="red",alpha=0.2,extend=1)
geom_hilight(node=83,fill="blue",alpha=0.2,extend=1)
geom_tiplab2(align=T)
dev.off()
image.png
最终得到的树形和原论文中的基本一致!
今天就先到这里了,明天任务
- 进一步对进化树进行美化
- 继续看论文中对进化树的解读
文章中用到的序列数据大家可以自己下载,或者直接在我的公众号留言即可!