下面是100个lncRNA组装流程的软件的笔记教程
seqtk在生信届被誉为序列处理的瑞士军刀,其出自生信大神李恒之手,李恒是SAMtools、BWA、MAQ等著名生信软件的核心作者。seqtk基于C语言编写的软件,运行速度极快,极大的提高工作效率。seqtk日常序列的处理包括,比如:fq转换为fa,格式化序列,截取序列,随机抽取序列等。
一、软件安装
使用conda安装
代码语言:javascript复制conda install -y seqtk
二、seqtk的用法
安装完成以后,可以使用 seqtk 来查看软件的帮助文档。
1. 软件用法:
2. 常用参数:
代码语言:javascript复制Command: seq common transformation of FASTA/Q # FASTA/Q 的转换
comp get the nucleotide composition of FASTA/Q # 获取FASTA/Q的核苷酸组成
sample subsample sequences # 获取样本序列
subseq extract subsequences from FASTA/Q # 提取子序列
fqchk fastq QC (base/quality summary) # fastq的质控
mergepe interleave two PE FASTA/Q files # 交叉合并双端测序的两个FASTA/Q files,
# 合并后的file第一条序列是第一个fq的第一条,
# 合并后的file第二条是序列是第二个fq的第一条
trimfq trim FASTQ using the Phred algorithm # 用Phred算法对fq修剪
hety regional heterozygosity # 区域性杂合
gc identify high- or low-GC regions # 识别高低GC含量的区域
mutfa point mutate FASTA at specified positions # 在特定位置指出FASTA的突变
mergefa merge two FASTA/Q files # 合并两个的FASTA/Q files
famask apply a X-coded FASTA to a source FASTA # 将X编码的fa应用到原fa
dropse drop unpaired from interleaved PE FASTA/Q # 从交错合并的fa/fq中丢弃不成对的序列
rename rename sequence names # 序列重命名
randbase choose a random base from hets#从hets中随机选一个碱基
cutN cut sequence at long N # 在N长度处切掉序列
listhet extract the position of each het # 提取每一个het位置
三、软件运行命令
1. seq 序列常规转换
代码语言:javascript复制将fastq转换成fasta:
seqtk seq -a Sample_R1.fq.gz > Sample_R1.fa
将fastq序列做反向互补分析:
seqtk seq -r Sample_R1.fq.gz > Sample_Revc_R1.fq
2. sample 随机抽样
代码语言:javascript复制seqtk sample -s100 Sample_R1.fq.gz 10000
# 可直接对压缩文件进行序列随机提取,在提取R1和R2两个文件的时候,需要-s值一致,才能使提取的序列id号对应。
3. subseq 提取序列
代码语言:javascript复制# 根据输入的bed文件信息,将固定区域的序列提取出来:
seqtk subseq in.fa reg.bed > out.fa
# 根据输入的name list,提取相应名称序列:
seqtk subseq in.fq name.lst > out.fq
4. 截取序列
代码语言:javascript复制# 切除reads的前5bp,以及后10bp:
seqtk trimfq -b 5 -e 10 in.fq > out.fq
更多使用方法参考:
https://www.jianshu.com/p/2671198ae625