多重比对问题如何处理

2022-10-25 19:23:16 浏览数 (3)

背景

前面介绍的都是 reads 正常的比对情况,比上或者比对不上。在实际比对过程中还会出现很多种“特殊”情况,而往往分析需要的就是这种特殊情况。例如多重比对的 reads 分配问题,将 reads split 切割之后的比对,包括 spliced 与 clipped reads 的比对。

例如在RNAseq 分析中,由于真核生物存在可变剪切,会导致那些来自于不同外显子的 reads无法比对到基因上,所以,必须采用支持 spliced 比对策略的软件进行短序列比对才行。比较 bowtie 和 tophat 两种比对软件,很明显发现,支持 spliced 比对的方法能够比对上更多的 reads。前一篇推文我们介绍了hisat2的结果文件的确是大于bowtie2的结果文件。

一、spliced alignment

read 一端比对上,跳过了中间,然后另一端也比对上【CIGAR 中用“N”表示】如果是转录组数据的比对结果,N 表示内含子;其他类型组学数据中 N 也可以用,但没有意义,和 deletion一个意思。

二、clipped alignment

clipped alignment:切出两侧比对不上的,read 只有中间部分能比对上,两侧在比对过程中被忽略

三、soft-clipped 和 hard-clipped

clipped alignment 分为 soft-clipped 和 hard-clipped,在 SAM/BAM 的 CIGAR 列分别用“S”和“H”表示,比对完将 clipped 序列继续保留输出的,称为 soft-clipped,直接切掉不保留的称为 had-clipped。

那么什么时候标记 Hard clip,什么时候标记 Soft clip 呢?

代码语言:javascript复制
in bwa, HARD clipping is used for supplementary reads.
if the read has a chimeric alignment, the paired
or the top hit uses soft clipping ;All the other hits part of the chimeric alignment
will use hard clipping

四、chimeric alignment

“嵌合比对” 的形成是由于一条测序 read 比对到基因组上时分别比对到两个不同的区域,而这两个区域基本没有 overlap。因此它在 sam 文件中需要占用多行记录显示。只有第一个记录被称作"representative",其他的都是"supplementary"【Chimeric reads are also called split reads】;RNA-seq 中的 chimeric read 或许可以说明有融合基因存在,但在基因组中一般作为结构变异的证据。

下面列出几个概念,这些概念类似,但又有一些差别,需要能够区分,主要是根据 reads 直接比对到多个区域,还是切开之后比对到多个区域。

represent alignment 与 supplementary alignment

supplementary alignment 是指一条 read 的一部分和参考区域 1 比对成功,另一部分和参考区域 2 比对成功,参考区域 1 和参考区域 2 没有交集(或很少),那么一条 read 就会产生两行比对记录输出。将其中的一条 sam 文件作为 represent alignment,而另一条作为 supplementary alignment。

primary 与 sencondary:

一条 reads 只输出一行比对结果的,属于(primary),secondary 是指一条 read 可以比对到基因组上多个位置(>=2),可以是 read 使得同一部分有不同匹配区域,也可以是一条 read上的不同区域。输出的这些结果都称为secondary。

五、多重比对 reads 分配问题

对于多重比对的 reads,最终输出的结果可以设置多种模式,根据不同的需求来进行选择,一般软件中有很多选项参数可以控制输出。例如 bwa mem 软件中的“-Y -M”,minimap2 比对软件中的“-N -Y”等。对于多重比对,在计算的时候也会有影响,可以选择丢弃多重比对,

例如在做变异检测过程中。如果是在 RNAseq 分析中也可以选择平均分配,或者利用 Unique region 估计并重新分配等。这个地方就比较麻烦了。要记住有这些参数,该用时可以找到。

写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。原地址暂未启用(bioinfoer.com)。

代码语言:javascript复制
sx.voiceclouds.cn

有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。

1 人点赞