检索关于TCGA可变剪切的相关文献。虽然总的数量并不是很多,但是其在2019年猛增为49,在2020年的上半年发文数量也达到了2019的一半,说明可变剪切研究在生信方面的热度有上升的趋势。
1.基础知识
1.1 AS剪切的原理与生物学意义
- 定义:可变剪切是指转录形成的前体RNA通过去除内含子、保留外显子形成mature RNA的过程,从而实现一个基因同时编码多种蛋白质,实现生物功能多样性。
- 一个基因倾向于同时表达许多个不同的转录本,但是其表达的转录版本不是线性增加的,而一个基因往往在表达10-12个转录本之后达到平台期,参考文献1。根据混合组织测序的结果仅能描述总基因表达的转录本比例,往往不能区分是源自同一类型细胞的多个转录版本,还是源自不同类型细胞的转录版本。此外,虽然一个蛋白编码基因有多个不同的转录版本,但是其主要有至少两个主要的类型,这跟细胞系所处的状态相关。
1.2 可变剪切的分类
根据基因的某个转录本与其组成型转录本(可以理解为最长转录本)之间的比较,可对不同的基因的不同转录转本进行分类。
- SplAdder软件得到5种可变剪切类型:外显子跳过(exon skip);内含子保留(intron retention);可变性3’剪切位点(alternative 3’ site);可变性5’剪切位点(alternative 5’ site);互斥外显子(mutual exclusive exons)。
- Spliceseq软件得到7种可变剪切类型:在5分类的基础上还包括可变性供体位点和可变性受体位点。
2.可变剪切拼接图谱和PSI指数
2.1 可变剪切拼接图谱
Spliceseq是MDAnderson cancer center开发的,基于java探究高通量RNA-seq数据可变性剪切模式的软件。SplAdder是基于python或matlab软件。此外,还有很多方法可用于识别可变剪切。
很多方法识别可变剪切均是基于剪切图谱(splice graph)。至于剪切图谱的构建,可参考以下模式图:转录本1-4分别是基因x的4个不同的转录版本,将他们进行取并集的形式,构建囊括所有转录本结构的统一体,即针对gene x创建了单个基因的剪切图谱。至于如何解读剪切图谱,可参考接下来的示例。
2.2 PSI指数
PSI指数(percent spliced in index):它是可以量化可变剪切的指标,可以实现某个外显子是否纳入转录本定量,从而用于单个样本或组间多个样本的比较。其计算公式可总结成如下:
PSI = splice_in / (splice_in splice_out)。
例如在如下的模式图中,展示的某基因的exon 2外显子跳过事件,其PSI计算等于含有该外显子的reads除以(含有该外显子的reads 不含有该外显子的reads),故针对这一事件的PSI=0.8。
也就是说,外显子2纳入该基因所有转录本中的比例是0.8。
2.3 spliceseq探索TCGA样本的AS示例
左上图展示的是经过spliceseq算法处理得到的可变剪切矩阵。
- 第一列展示可变剪切的类型:ES、AT、AP等等。
- 第二列展示发生可变剪切的外显子位点:外显子1、2、3等等。
- 第三类列对应发生可变剪切的基因:基因名。
- 后面的列分别对应不同的肿瘤类型(可用于不同肿瘤间的比较,PSI值取同一肿瘤队列中所有样本的均值)。如果后面对应的是不同的样本,PSI取该样本对应的PSI值。
上中图是对可变剪切矩阵的箱线图可视化结果,可用于直观比较不同肿瘤类型中某种可变剪切类型的差异。上右图与NCBI、uniprot相连展示基因的信息,而exon table则是对目前基因的外显子情况进行汇总,包含每个外显子的序列,这对感兴趣序列的接头的设计非常有用。
可变剪切图谱的应用与解读:下图是基于右上角选中基因(如FBLN2),构建的可变剪切图谱。 根据可变剪切矩阵,可以知道该基因发生的是外显子11跳过事件,而该剪切图谱就是阐释为什么发生的是外显子11跳过事件,而不是其他类型的可变剪切事件。在外显子11处,外显子10-外显子11、外显子11-外显子12连接分别对应的OPKM读数为0.3、0.4(OPKM:校正基因长度和样本含量,类似于RPKM;READS:raw data),而外显子10-外显子12连接对应的OPKM为2,故基因FBLN2倾向于发生外显子11跳过的转录版本,故得出外显子11发生跳过事件。
另外,我们还可以观察到,在剪切谱图中:同一基因的不同外显子发生相同类型或者不同类型的可变剪切,通过软件计算出不同的PSI值,如NEIL3的外显子10和外显子8.2。也就是说,同一个基因能够同时发生多种类型的可变剪切事件,可用upset图进行汇总展示,如下:
2.4 可变剪切分析的流程
在可变剪切分析中,首先需要在软件中输入待分析的RNA-seq数据(这里指的应该是RNA-seq raw data),然后软件利用其已经配置好的参考基因组数据库进行RNA测序数据的注释和比对,接着构建每个基因的剪切图谱,进行可变剪切事件的量化(这些识别的基因可变剪切模式,有些是在已有的数据库(如GENECODE=ensemble,refseq=NCBI,UCSC)中注释过的,但是有些是未注释过的)。
最后,就是将识别的可变剪切事件与临床意义联系起来,探究可变剪切在疾病发展、治疗和预后中的作用。这一部分的分析就需要“仁者见仁,智者见智”啦。如果从应用的角度来说,探究可变剪切的生物学意义是研究的精华所在,其较弄明白可变剪切事件识别的算法更加有意义。
3 可变剪切后续研究
3.1 基因位点突变与可变剪切事件的关联
- 也就是表达数量性状基因座(expression Quantitative Trait Loci,eQTL)探究。
- 对于数量性状位点(QTL,Quantitative Trait Loci):性状指的是个体的表型,可以分为定性性状和定量性状,定性性状如得病或者不得病、单双眼皮;数量性状指的是像身高、体重这样的性状,能够从不同水平进行量化。而控制数量性状的基因位点就是数量性状位点。
- 对于表达数量性状基因座:它是指某些mRNA、pro表达水平与数量性状成比例,而特定调控这些mRNA、pro分子的染色体区域被称为表达水量性状位点。在可变剪切事件中,将可变事件当做是研究的表型,调节可变事件的基因位点存在顺式作用与反式作用。具体来说,顺式调节作用就是指:调节区域与其调控的靶点位于同一染色体上,其能通过自身的变化直接实现对靶点的调控;而反式作用是指:调节区域与其调控的靶点不位于同一染色体上,其自身的变化需要通过中间分子才能实现对靶点的调控作用。参考文献2。
3.2 可变剪切事件与患者预后的单因素或多因素cox分析
cox分析在具有临床数据的预后分析中常常采用,根据可变剪切事件进行分组,进行单因素cox分析,探究其与患者预后的关联;然后利用具有显著性的可变性剪切事件,构建多因素cox分析模型,探究多因素与患者预后的关联。可参考文献3和4。
3.3 可变剪切事件与剪切因子表达的相关性分析
可绘制剪切因子表达与可变剪切事件PSI相关性的汇总圈图(上方的A图,绿色的连线表示为负相关,红色的连线表示正相关),也可绘制单个剪切因子表达与可变剪切事件PSI指数的散点图(上方的B-K图),从生信的角度探究可变剪切事件与剪切因子表达的相关性,为后续的湿试验提供思路。可参考文献3和4。
3.4 可变剪切事件与蛋白质组数据库(CPTAC)的联合分析
CPTAC的数据尚是一个未被充分挖掘的宝藏!整合基因组学、转录组学、micRNA、表观组学和蛋白质组学的综合分析绝大多数属于高分典范。在可变剪切分析中,可以考虑将可变剪切来源的多肽与CPTAC数据中的蛋白质表达进行整合。
可变剪切事件能翻译成介导不同功能的蛋白质,故联合CPTAC蛋白质组学数据库,从新生抗原肽的角度探究可变剪切事件的临床应用,也可从蛋白质的角度探究其与患者预后的关系。根据可变剪切推测其可能引发的抗原表位,利用CPTAC数据库进行验证抗原表位,根据肿瘤样本中常发生的AS来源抗原表位探究免疫干预疗法,如嵌合抗原抗体T细胞治疗和个性化抗癌疫苗,参考文献2。
小结
本次关于可变剪切的学习主要是从基础部分和可变剪切应用方向进行展开。如果在后续的学习中,能够继续开展应用实例的深入学习,我们又继续分享。期待我们再次相见!
参考文献
1.Djebali S, Davis CA, Merkel A, Dobin A, Lassmann T, Mortazavi A, et al. Landscape of transcription in human cells. NATURE. [Journal Article; Research Support, N.I.H., Extramural; Research Support, Non-U.S. Gov't; Research Support, U.S. Gov't, Non-P.H.S.]. 2012 2012-09-06;489(7414):101-8.
2.Kahles A, Lehmann KV, Toussaint NC, Huser M, Stark SG, Sachsenberg T, et al. Comprehensive Analysis of Alternative Splicing Across Tumors from 8,705 Patients. CANCER CELL. [Journal Article; Research Support, Non-U.S. Gov't]. 2018 2018-08-13;34(2):211-24.
3.Li Y, Sun N, Lu Z, Sun S, Huang J, Chen Z, et al. Prognostic alternative mRNA splicing signature in non-small cell lung cancer. CANCER LETT. [Journal Article]. 2017 2017-05-01;393:40-51.
4.Zhu J, Chen Z, Yong L. Systematic profiling of alternative splicing signature reveals prognostic predictor for ovarian cancer. GYNECOL ONCOL. [Journal Article]. 2018 2018-02-01;148(2):368-74.