译者:
杨伊词(大连医科大学附属第二医院血液科,硕士研究生)
译者总结;
3. 嵌合RNA的鉴定和验证
癌症基因组项目中的米特曼染色体畸变数据库和基因融合数据库等数据库发现了大量在癌症中出现的嵌合RNA。通过癌症基因组图谱计划(TCGA)这样的大型联盟的努力,积累了更多的RNA序列数据集。因此,越来越多的嵌合RNA被鉴定出来。然而,由于嵌合RNA在正常生理中也存在,其在癌症样本中也许不具有癌症特异性。因此,筛选出在正常组织/细胞中也表达的嵌合RNA对于发现癌症特异的嵌合RNA是十分重要的,对于新发现的嵌合RNA,应该在不同的癌症和正常样本中进行仔细验证和量化。在这一章中,我们首先总结了在癌症和正常生理组织中表达的各种类型的嵌合RNA,然后从生物信息学和生物学角度提供一个嵌合RNA的定义并用此去探索新的嵌合RNA,研究它们与临床参数的关系。
3.1 嵌合RNA在癌症和正常生理中的表达
在慢性粒细胞白血病患者中BCR-ABL融合基因的发现象征着融合基因首次在血液恶性肿瘤中被观察到[17]。到目前为止,血液系统肿瘤中共鉴定出了几十个融合基因。RUNX1-RUNX1T1是继BCR-ABL1 [32]之后最早发现的染色体变异。由染色体易位形成的RUNX1-RUNX1T1定义了一个急性髓系白血病(AML)特异的亚群,因此其已被用作诊断AML患者复发的生物标志物[54]。同一时期在80%的伯基特淋巴瘤样本中发现了IGH-MYC融合基因[33]。后来一项研究对患有急性淋巴细胞白血病(ALL)的墨西哥儿童进行RNA测序分析,发现了几个新的融合基因可以产生嵌合RNA,它们都是通过染色体异位形成,这些融合基因涉及了许多在白血病发生中起重要作用的造血转录因子如IKZF1、CREBBP和ETV6 [55];同时也可能与急性淋巴细胞白血病的预后密切相关。
微阵列和深度测序技术的发展允许在实体肿瘤中发现更多的融合基因。Tomlins等人证明,约50%的前列腺癌病例被证明是TMPRSS2-ERG阳性[19,56]。随后在实体肿瘤中报道了更多的融合基因,包括非小细胞肺癌中的EML 4-ALK[26],乳腺癌中的ETV 6-NTRK[24],胶质母细胞瘤中的RFGFR3-TAC3[57]和膀胱癌中的FGFT3-BAIAP 2 L1[58]。
传统的融合基因检测依赖于Southern印迹分析、FISH检测和PCR分析。然而,Southern印迹和FISH的一个缺点是灵敏度低,PCR会受到DNA水平上断点分布的限制。由于在不同内含子断点处可能产生相同嵌合RNA的事实,RT-PCR可以作为在DNA水平上检测融合基因的替代方法。随着深度测序的发展,融合基因可以以高通量的方式被发现。最近一份对33种癌症类型的9500多份肿瘤样本的分析表明,有38.2%前列腺腺癌样本中含有TMPRSS2-ERG,5.6%的胆管癌样本中有FGFR2-BICC1中有4.2%的甲状腺癌样本中有CCDC6-RET,以及1%的肺腺癌样本中有EML 4-ALK[59]。
RNA测序灵敏度的增加可以提高低表达嵌合RNA的检出。Heyer等人最近的一项研究报告了一种新的RNA测序方法,用生物素化的寡核苷酸探针来富集靶RNA转录物[60],在RDES细胞系中成功地检测到之前用标准测序法未测出的嵌合转录物EWSR1-FLI1。使用这个方法检测临床患者样本的40个实体瘤和32个血液恶性肿瘤之后,候选融合转录物的诊断率从63%增加到76%。
从RNA测序数据库中鉴定的嵌合RNA也包括由反式剪接和顺式剪接产生的非典型嵌合RNA。一些嵌合RNA已经被检测出具有癌症特异性,但是还没有将它们用作临床的诊断标记物。CYCLIN D1-TROP2在多种癌症中都被检测到了,其中肠细胞非整倍体癌中最多见,卵巢和子宫内膜癌中也有表达。使用RT-PCR未在正常结肠、肾、肺、胰腺、前列腺、胃和子宫组织中检测到CYCLIN D1-TROP2嵌合体[15],说明它可能作为癌症标志物。
SLC45A3-ELK4 e1e2是一种通过cis-SAGe形成的嵌合RNA。是由一个亲本基因SLC45A3的外显子1与另一个亲本基因ELK4(因此命名为e1e2)的外显子2顺式剪接形成,与前列腺癌的发生相关[12]。有趣的是,它的亲本基因并没有表现出这种相关性。然而,它也存在于动脉组织中,说明这种嵌合体对前列腺癌组织没有特异性。[14]。
超过90%的原发性慢性淋巴细胞白血病(CLL)样本中发现了特异表达的YPEL5-PPP1CB嵌合RNA,DNA水平上却没有出现融合基因 [35]。这种嵌合体在良性样本或同时伴有其他恶性血液病的样本中未被检测到,说明其作为CLL的生物标记物是可能的。然而2015年的一项研究报告称,由于亲本基因之间的反式剪接产生的YPEL5-PPP1CB嵌合RNA不是CLL特有的,在髓系白血病、单克隆B细胞淋巴细胞增多症和急性白血病中也检测到了。此外,在正常骨髓样本中也检测到了YPEL5-PPP1CB的表达,使得这种嵌合RNA不能简单作为CLL的生物标记物 [36]。
DUS4L-BCAP 29曾被报道是前列腺癌和胃癌的特异性嵌合RNA[37,38]。然而,Tang等人使其在正常组织和非癌细胞系中表达出了和癌症样本中相似的表达水平 [39]。针对其的功能性研究表明,DUS4L-BCAP 29在细胞增殖和运动等细胞基本行为中起着关键作用;这些发现使得DU4L-BCAP 29不能再作为癌症生物标志物[39]。
上述发现告诉我们在寻找新的嵌合RNA作为癌症生物标记物时,应该确认其是否特异表达,因为它可能在其他癌症类型甚至非癌症组织中也表达。
3.2 通过生物信息学方法鉴定癌症特异性嵌合RNA
自从BCR-ABL1和TMPRSS2-ERG等嵌合RNA被发现以来,癌症特异性嵌合RNA一直受到人们的关注[18,20,61]。下一代测序(NGS)技术和大型癌症序列数据库的出现,使研究人员可以通过开发算法和软件工具,从这些公开可用的数据库快速鉴定嵌合RNA。现在有许多软件工具可以通过转录组测序来发现嵌合RNA[63]。除了少部分软件使用单端读取,大多数软件工具采用成对端序列读取作为输入。简而言之,“单端读取”是指对RNA转录物获得的cDNA片段的测序只从一端进行,而在成对端序列读取中,测序从两端进行产生R1和R2序列。当这些R1和R2序列被映射到参考转录组后能在片段大小范围内的距离紧密排列时,就被称为一致读取。如果R1和R2序列对齐后距离超出片段大小范围,就被称为不一致读取。嵌合RNA预测软件工具的目的是将一致读取的序列映射到参考基因组或转录组序列,对于不一致读取的序列则分别映射到不同的参考基因组或转录组序列进行分开匹配。为了预测嵌合RNA的断点位置,这些工具还依赖于分裂读取将属于不同基因的两个转录本的R1或R2序列分别匹配。在映射步骤之后,这些软件工具应用各种过滤步骤来缩小潜在嵌合RNA候选物的种类。这些过滤步骤包括(a)同源性过滤:如果嵌合RNA的亲本基因彼此同源或具有高序列同一性,则过滤掉(b)基于阈值的过滤:将最小数量的不一致读取和分裂读取设为阈值,将低可信度的嵌合RNA筛掉,即低于阈值的嵌合RNA (c)伙伴基因之间的距离:如果伙伴基因之间的距离低于选定的阈值,则这部分嵌合RNA作为假阳性事件筛掉。随着许多嵌合RNA预测工具的出现,为每个项目选择适合它们的预测工具变得很困难。Kumar等人[62]对12种软件工具进行了综合基准分析,发现EricScript软件在灵敏度和计算资源(时间和内存)方面具有一定的优势。作者还观察到,不同工具之间预测出的嵌合RNA只有少量重叠,因此没有一个工具可以筛出比较完整的嵌合RNA。Haas等人最近对23种新开发的软件工具进行了基准分析[63],发现STAR-Fusion [63], Arriba [https:/ /github.com/suhrig/arriba],和STAR-SEQR [https:/ /github.com/ExpressionAnalysis/STAR-SEQR]较为优秀,计算效率也最高。
为了鉴定和筛选出癌症特异性嵌合RNA,所有的癌症及对应的正常组织样本都会使用这些软件进行分析。分别计算嵌合RNA在这些样本中出现的频率之后,发现这些嵌合RNA是具有癌症特异性的。最后,对嵌合RNA进行实验验证,并对其进行功能学分析。下面有一个例子,Zhu等人[31]分析了由414个膀胱癌和19个对应的正常膀胱组织样本组成的数据,然后用EricScript软件[64]分析,获得了19,547个高可信度的嵌合RNA列表。他们增加了新的过滤条件来过滤掉 M/M事件(两个伴侣基因的断点都位于外显子的中间),因为这些事件通常具有较差的实验验证率[13]。此外,他们选择了复发频率至少为5的嵌合RNA,并根据基因型-组织表达(GTEx https:/ /www.gtexportal.org)数据库中的数据去除了正常人组织中也存在的嵌合RNA。通过这种方式,他们筛选出13种潜在的嵌合RNA,其中6种收录于癌症基因组图谱(TCGA)中,因此进一步使用医院采集的样本对其进行实验验证。然而在六个样本中,只有两个嵌合RNA (BCL2L2-PABPN1和CHFRGOLGA3) 在癌症样本中显著表达,而其他样本中嵌合RNA的表达没有明显差异。Wu等人也采用了相同的方法 [44],使用SOAPfuse软件[65]对宫颈癌数据进行分析得到了49,460个嵌合RNA,过滤掉潜在的假阳性事件后,最终鉴定出嵌合RNA LHX 6-NDUFA 8,该嵌合RNA是宫颈癌特异性的,对该嵌合RNA进行实验验证,发现在巴氏涂片中也呈阳性。为了提高筛选的能力,Gao等人[59]使用了多种软件,包括EricScript、Forrester[https://github . com/annalam/Forrester]和[63],从TCGA数据库中存在的33种癌症类型中预测出癌症特异的嵌合RNA,从而探索出嵌合RNA的广阔前景。他们使用严格的标准,通过STAR-Fusion或更多软件分析后,只选择了那些嵌合RNA表达FFPM(每百万个基因中表达)> 0.1的事件。通过这种方式,他们识别了25,664个嵌合RNA,并使用WGS样本验证出了63%的嵌合RNA。
尽管已经应用了严格的标准和多种过滤标准来筛选嵌合RNA,还是会有大量候选嵌合RNA需要实验验证,这是难以做到的。因此,需要借助计算机验证,将嵌合RNA 连接处的核苷酸序列与RNA序列数据库中进行匹配。它的成功象征癌症特异的嵌合RNA是具有高可信度的。最近,Singh和Li[66]描述了一个预测、表征和执行嵌合RNA的计算机验证策略,他们利用来自每个连接处的14个核苷酸序列,用agrep[https://www . tgries . de/agreep]字符串匹配软件将其与EricScript中预见的含有嵌合RNA的RNA样本序列匹配。作者还强调,即使软件预测出的嵌合RNA是具有癌症特异性的,但从计算机在癌症和正常样本中的验证结果来看却可能并不具有癌症特异性。从另一方面来说,一些已经确认的癌症特异性嵌合RNA可能会被软件筛选掉,但如果单独搜索他们的连接序列却可能被检测到。例如,Panagopoulos等人[67]发现,存在于肉瘤患者中的嵌合RNA CIC-DUX4在软件中未被筛查到,但通过连接序列在RNA-seq样本中却被检测出了。
有大量的数据库存储了关于嵌合RNA的信息。包括ChimerDB[68]、dbCRID [69]、Mitelman [5]、TICdb [70]、TumorFusions[71]和ChiTaRS [46,72]。dbCRID、Mitelman和TICdb主要收集染色体重排/易位(基因组事件)的信息,而TumorFusions、ChimerDB和ChiTaRS数据库的重点是收集癌症转录组的融合转录物(嵌合RNA)。ChiTaRS数据库的独特之处还在于,它的最新版包含来自包括智人在内的八个不同物种的嵌合RNA。植物物种拟南芥(AtFusionDB)[73]的嵌合RNA数据也是可用的。
(未完待续)