Kneaddata数据质控

2023-02-24 13:16:10 浏览数 (1)

一、下载案例数据

网址:

代码语言:javascript复制
https://github.com/biobakery/biobakery

案例文章:

代码语言:javascript复制
https://www.nature.com/articles/nature11234

该案例来自 HMP 计划,选取 10 个口腔黏膜(buccal mucosa)样品和 10 个舌头背面( tongue dorsum)样品进行比较分析。

代码语言:javascript复制
#/share/home/xiehs/17.meta/data/hmp

buccal_mucosa_samples="SRS013506 SRS015374 SRS015646 SRS017687 SRS019221 SRS019329 SRS020336 SRS022145 SRS022532 SRS045049"
for s in ${buccal_mucosa_samples}
do
    wget http://downloads.hmpdacc.org/data/Illumina/buccal_mucosa/${s}.tar.bz2 -O input/${s}.tar.bz2
done
tongue_dorsum_samples="SRS011243 SRS013234 SRS014888 SRS015941 SRS016086 SRS016342 SRS017713 SRS019219 SRS019327 SRS043663"
for s in ${tongue_dorsum_samples}
do
    wget http://downloads.hmpdacc.org/data/Illumina/tongue_dorsum/${s}.tar.bz2 -O input/${s}.tar.bz2
done
#解压
cd input
id="SRS013506 SRS015374 SRS015646 SRS017687 SRS019221 SRS019329 SRS020336 SRS022145 SRS022532 SRS045049 SRS011243 SRS013234 SRS014888 SRS015941 SRS016086 SRS016342 SRS017713 SRS019219 SRS019327 SRS043663"
for s in ${id}
do
    tar -jxvf ${s}.tar.bz2
done
代码语言:javascript复制
vi matadata.txt
#写进如下内容
ID  type
SRS013506   BM
SRS015374   BM
SRS015646   BM
SRS017687   BM
SRS019221   BM
SRS019329   BM
SRS020336   BM
SRS022145   BM
SRS022532   BM
SRS045049   BM
SRS011243   TD
SRS013234   TD
SRS014888   TD
SRS015941   TD
SRS016086   TD
SRS016342   TD
SRS017713   TD
SRS019219   TD
SRS019327   TD
SRS043663   TD

二、KneadData 数据质控

kneaddata 是一个数据质控过滤流程,软件整合了 fastqc 质控,trimmomatic 数据过滤,bowtie2 比对数据库过滤宿主等功能。输入原始数据,即可得到处理好的 cleandata,直接用于后面的分析。默认集成人,小鼠,rRNA 等数据库。如果是其他宿主,可以自行建库。

文档:

代码语言:javascript复制
https://github.com/biobakery/kneaddata
代码语言:javascript复制
conda activate biobakery
vi kneadata.sh #编辑如下内容进脚本
kneaddata  -i1 /share/home/xiehs/17.meta/data/hmp/input/SRS011243/SRS011243.denovo_duplicates_marked.trimmed.1.fastq 
    -i2 /share/home/xiehs/17.meta/data/hmp/input/SRS011243/SRS011243.denovo_duplicates_marked.trimmed.2.fastq 
    -db /share/home/xiehs/17.meta/database/kneadData_databases/human_genome_bowtie2/Homo_sapiens 
    -o kneaddata_output --remove-intermediate-output -v -t 12 
    --trimmomatic /share/home/xiehs/Software/miniconda3/envs/biobakery/share/trimmomatic/ --trimmomatic-options 
    'ILLUMINACLIP:/share/home/xiehs/Software/miniconda3/envs/biobakery/share/trimmomatic/adapters/TruSeq3-PE.fa:2:40:15 SLIDINGWINDOW:4:20 MINLEN:50' 
    --reorder --bowtie2-options '--very-sensitive --dovetail' --run-fastqc-start --run-fastqc-end
#集群命令
#bsub -q fat -n 12 -o %J.log -e %J.err sh kneadata.sh
#没有的话就nohup sh执行到后台
nohup sh kneadata.sh &

写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。

代码语言:javascript复制
bioinfoer.com

有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。

0 人点赞