建议收藏 | 生物信息学中的可变剪切,这些内容你了解吗?

2020-07-21 15:56:34 浏览数 (1)

声明:非常感谢Carina投稿,全文由Carina撰写,主要对生信的可变剪切相关内容作了一定的梳理。

检索TCGA中可变剪切的相关文献,虽然总数量并不多,但是其在2019年猛增为49,在2020年的上半年发文数量也超过了2019年的一半。这说明可变剪切研究在生物信息学中的热度有上升的趋势。

1.基础知识 1.1 可变剪切的定义与生物学意义

①定义:可变剪切(Alternative Splicing) 是指转录形成的前体mRNA通过去除内含子、保留外显子形成成熟mRNA的过程。

②生物学意义:可变剪切是维持蛋白质多样性的主要机制[1]。在不同组织或者发育的不同阶段,可变剪切不是一成不变的,在特定的组织或者条件下,会产生特定的剪切异构体(isoform),这说明不同异构体具有特定的时间与空间作用,从而将可变剪切与正常的生命活动和疾病相关联,有大量的研究发现,可变剪切的变化与癌症等多种疾病相关,所以研究可变剪切在不同组织中的作用是非常有意义的。

1.2可变剪切的类型

根据基因的某个转录本与其组成型转录本(可以理解为最长转录本)之间的比较,可对不同的基因的不同转录转本进行分类。

Spliceseq是MDAnderson cancer center开发的,基于java探究高通量RNA-seq数据可变性剪切模式的软件。SplAdder是基于python或matlab软件。此外,还有很多方法可用于识别可变剪切。

①SplAdder软件得到5种可变剪切类型:外显子跳跃(exonskip);内含子保留(intron retention);可变3’剪切位点(alternative 3’ site);可变5’剪切位点(alternative 5’ site);互斥外显子(mutual exclusive exons)。

②Spliceseq软件得到7种可变剪切类型:在5分类的基础上还包括可变供体位点和可变受体位点。

1.3可变剪切的调控

可变剪接以细胞类型和发育阶段特异性方式调控[2],这是通过广泛的RNA-蛋白相互作用来协调调控实现的。

最保守的顺式剪接元件包括分别界定内含子与其上游和下游外显子的边界的5'和3'剪接位点,以及3'剪接位点上游的分支位点和聚嘧啶束。

除了这些核心元件外,外显子或侧翼内含子中的辅助顺式元件还可以作为剪接增强子或沉默子元件,通过它们与反式剪接调节子,特别是RNA结合蛋白(RBP)的相互作用来促进或抑制外显子剪接。

例如,特定于细胞类型的剪接调节剂,例如ESRP,CELF,MBNL,RBBFX和PTB家族成员,存在不同的mRNA亚型,通过与它们在细胞中的同源顺式元件相互作用,来控制上皮,肌肉和神经元细胞的替代剪接模式和细胞身份[2]。

可变剪切通常受人类遗传变异和疾病突变的影响。很多突变会破坏前体mRNA中的剪接位点信号或剪接增强子或沉默子元件,从而导致异常mRNA和蛋白质产物的产生。

据估计,这种顺式剪接突变占人类疾病突变的15%–60%。另外,破坏反式作用的剪接调节子的突变通过全面破坏许多下游靶基因的剪接而引起疾病。

2.可变剪切拼接图谱和PSI

2.1可变剪切拼接图谱

很多方法识别可变剪切均是基于剪切图谱(splice graph)。剪切图谱的构建,可参考以下模式图:转录本1-4分别是基因x的4个不同的转录版本,将他们进行取并集的形式,构建囊括所有转录本结构的统一体,即针对gene x创建了单个基因的剪切图谱。至于如何解读剪切图谱,可参考接下来的示例。

2.2PSI

PSI(percent spliced in)指剪切百分比,它是可以量化可变剪切的指标,可以实现某个外显子是否纳入转录本定量,从而用于单个样本或组间多个样本的比较。其计算公式可总结成如下:

PSI = splice_in / (splice_in splice_out)

2.3spliceseq探索TCGA样本的AS示例

上左图展示的是经过spliceseq算法处理得到的可变剪切矩阵。

①第一列展示可变剪切的类型:ES、AT、AP等等。

②第二列展示发生可变剪切的外显子位点:外显子1、2、3等等。

③第三列对应发生可变剪切的基因:基因名。

后面的列分别对应不同的肿瘤类型(可用于不同肿瘤间的比较,PSI值取同一肿瘤队列中所有样本的均值)。如果后面对应的是不同的样本,PSI取该样本对应的PSI值。

上中图是对可变剪切矩阵的箱线图可视化结果,可用于直观比较不同肿瘤类型中某种可变剪切类型的差异。

上右图与NCBI、uniprot相连展示基因的信息,而exon table则是对目前基因的外显子情况进行汇总,包含每个外显子的序列,这对感兴趣序列的接头的设计非常有用。

下图是基于右上角选中基因(如FBLN2),构建的可变剪切图谱。根据可变剪切矩阵,可以知道该基因发生的是外显子11跳过事件,而该剪切图谱就是阐释为什么发生的是外显子11跳过事件,而不是其他类型的可变剪切事件。

在外显子11处,外显子10-外显子11、外显子11-外显子12连接分别对应的OPKM读数为0.3、0.4(OPKM:校正基因长度和样本含量,类似于RPKM;READS:rawdata),而外显子10-外显子12连接对应的OPKM为2,故基因FBLN2倾向于发生外显子11跳过的转录版本,故得出外显子11发生跳跃事件。

另外,我们还可以观察到,在剪切谱图中:同一基因的不同外显子发生相同类型或者不同类型的可变剪切,通过软件计算出不同的PSI值,如NEIL3的外显子10和外显子8.2。也就是说,同一个基因能够同时发生多种类型的可变剪切事件,可用UpSet plot进行汇总展示[3],如下:

3.可变剪切研究思路

3.1可变剪切分析流程

在可变剪切分析中,首先需要在软件中输入待分析的RNA-seq数据(这里指的应该是RNA-seq raw data),然后软件利用其已经配置好的参考基因组数据库进行RNA测序数据的注释和比对,接着构建每个基因的剪切图谱,进行可变剪切事件的量化(这些识别的基因可变剪切模式,有些是在已有的数据库(如GENECODE=ensemble,refseq=NCBI,UCSC)中注释过的,但是有些是未注释过的)。

最后,就是将识别的可变剪切事件与临床意义联系起来,探究可变剪切在疾病发展、治疗和预后中的作用。

3.2可变剪切后续研究

① 可变剪切事件与患者预后的单因素或多因素cox分析

②可变剪切事件与剪切因子表达的相关性分析[4]

③可变剪切事件与蛋白质组数据库(CPTAC)的联合分析

参考文献

1. Li Y, Sun N, LuZ, Sun S, Huang J, Chen Z, et al. Prognostic alternative mRNA splicingsignature in non-small cell lung cancer. CancerLett 2017; 393:40-51.

2. Kalsotra A, Cooper TA. Functionalconsequences of developmentally regulated alternative splicing. Nat Rev Genet 2011; 12(10):715-729.

3. Xiong Y, Deng Y, Wang K, Zhou H, Zheng X,Si L, et al. Profiles of alternative splicing in colorectal cancer and theirclinical significance: A study based on large-scale sequencing data. EBioMedicine 2018; 36:183-195.

4. Zhu J, Chen Z, Yong L. Systematicprofiling of alternative splicing signature reveals prognostic predictor forovarian cancer. Gynecol Oncol 2018;148(2):368-374.

0 人点赞