跟着Nature学数据分析:minimap2+DeepVariant流程利用hifi数据检测snp和indel

2024-05-18 08:47:52 浏览数 (1)

论文

Graph pangenome captures missing heritability and empowers tomato breeding

代码链接

https://github.com/YaoZhou89/TGG/tree/main/4.Graph_pangenome/1.construction_graph_genome

minimap2用conda安装

用conda 去搜deepvariant是能够搜到的,但是安装一直没有成功,最后是用的singularity(singularity的路径问题还是没太明白,有时间需要学习singularity)

https://github.com/google/deepvariant/tree/r1.6.1

代码语言:javascript复制
singularity pull docker://google/deepvariant:1.6.1

示例数据就用草莓T2T那篇文章的数据,自己的基因组和自己的hifi数据做比对,hifi数据只取一部分作为练习

minimap2比对

代码语言:javascript复制
minimap2 -ax map-pb -a -k 19 -O 5,56 
-E 4,1 -B 5 -z 400,50 -r 2k --eqx 
--secondary=no Fv.fa pra.fq.gz > aln.sam

这里用到了好多参数,有时间仔细看每个参数具体是什么意思

这里还提到了samblaster软件

https://github.com/GregoryFaust/samblaster

运行这一步遇到了报错,暂时没有解决,先运行下一步

代码语言:javascript复制
samtools sort -@ 12 -O BAM -o aln.sorted.bam aln.sam

samtools index aln.sorted.bam

DeepVariant

代码语言:javascript复制
singularity run ~/my_data/myan/deepvariant/deepvariant_1.6.1.sif 
/opt/deepvariant/bin/run_deepvariant --model_type PACBIO 
--ref Fv.fa 
--reads aln.sorted.bam 
--output_vcf output.vcf.gz 
--output_gvcf output.g.vcf.gz 
--sample_name abc 
--num_shards 24

接下来用到了WGS这个软件

https://github.com/YaoZhou89/WGSc

可以对vcf文件进行各种操作

在vcf文件中随机选择多少行,这里没有头文件

代码语言:javascript复制
~/my_data/myan/biotools/WGSc-master/bin/WGS --model file --type random --file output.vcf.gz --headLine 25 --r 0.1 --out random.vcf

计算vcf文件中每个位点的深度

代码语言:javascript复制
~/my_data/myan/biotools/WGSc-master/bin/WGS --model vcf --type calTotalDP --file output.vcf.gz --out random.dep

但是这个结果好像不对,这个值对应的是GP的值,不是DP的值

这个软件还有很多功能,可以参考github主页的文档

0 人点赞