PseudoChecker: an integrated online platform for gene inactivation inference
Nucleic Acids Research(IF:11.5011), 2020.06.02
导语
GUIDE ╲
理解表型性状进化背后的分子signatures是当代进化生物学和基因组学的一个关键挑战。虽然基因复制和氨基酸分化的事件经常与新性状的进化有关,但另一方面,基因丢失(loss)本身很少被视为一种进化力量。事实上,冗余缺失事件与有害突变积累引起的基因非功能化密切相关,这一过程称为假基因化,紧随基因重复(重复的假基因)或经处理的转录本(经处理的假基因)的转座事件。然而,从适应性和退化的角度来看,非冗余基因丢失机制,包括完全基因消除或假基因(单一假基因),已经越来越多地与表型修饰联系在一起。
背景介绍
尽管目前基因组的可用性和高质量基因组组装的快速增加,对基因丢失事件的评估仍然存在技术上的惰性。此外,一些研究表明,真正的伪基因可能被错误地注释为有功能的蛋白编码基因。ORF-中断突变,包括框内突变或框内过早终止密码子,通常被认为是测序或组装的人工产物,被全基因组注释器自动修正。这与哺乳动物谱系尤其相关。尽管如此,哺乳动物的基因库,包括受影响的基因和谱系,仍然是非常不完整的,把这个组作为一个参考测试案例,以说明基因丢失作为形态多样化和适应的主要驱动因素的作用和程度。
虽然目前已有自动和半自动方法用于识别复制和加工的假基因,但能够推断非冗余基因失活事件片段的系统方法存在一些限制,包括:(1)自动化程度降低,对全基因组的需求以及缺乏基于多序列比对的方法。(2)缺乏能够测量基因侵蚀(gene erosion)的客观指标。(3)在每一个阶段都必须进行详尽的手工整理,而这在处理现有的数百个基因组时是不太实际的。
PseudoChecker是第一个集成的基因失活推断在线平台。PseudoChecker旨在帮助和促进基因失活作为进化变化的driver的研究,提供一种易于使用、系统、高精度和计算自动化的方法。基于比较基因组的方法包括一个在线的基于三步的计算方法,能够推断一个给定的真核蛋白编码基因在单个或多个物种中的编码状态。该软件是为了配合快速发展的基因丢失研究领域对一种方便、全面和互补的分析工具的新兴需求而建立的,免费访问,无需登录,支持文档和示例数据。地址:http://pseudochecker.ciimar.up.pt/。
工具功能
在使用最小用户输入和一组已建立的参数时,PseudoChecker能够
(1)识别基因失活事件,自动,远程和在相对短的时间内,为一套无限的目标物种可用基因组数据highlighting突变证据。
(2)通过在给定的分析中,在密切相关的类群中精确地显示保守的基因失活突变,揭示祖先基因的灭活事件。
(3)测量候选基因在任何目标物种中的侵蚀程度,通过指定一个伪基因化指数,即伪指数(PseudoIndex)。
(4)包括外部功能性基因数据集的分析。
(5)在整个分析过程中导出产生的数据,对于执行下游的补充任务,包括系统发育重建和选择分析是有用的。
工具介绍
01
PseudoChecker概述
在一个给定的家系中,一个基因如果符合以下两个条件,就认为它是失活的:首先,它必须来自于产生完整的蛋白质编码基因的祖先序列;其次,它应该显示侵蚀的证据,如完全缺乏相应的同源基因组位点,开放阅读框(ORF)的积累破坏了可能导致非功能化的突变(建立单一假基因)。PseudoChecker利用同源编码序列作为参考来推断目标物种中给定候选基因的编码状态。PseudoChecker考虑到相关物种的编码序列保护,需要先前的系统发育背景化。基因注释后,筛选基因序列侵蚀特征。具体地说,该通用生物信息学工具被设计成容易应用于两种不同的情况:(1)从头进行候选基因注释,例如未注释的基因组。(2)对先前自动注释的基因组中的候选基因进行重新注释,以验证先前的注释,并识别被错误注释为功能蛋白编码基因的单一伪基因。
02
输入及参数
PseudoChecker两个主要的输入:(1)从给定的参考物种中注释和检索到的单个参考核苷酸编码序列(CDS,coding sequence)和各自的外显子核苷酸序列(FASTA格式)(如果存在不同的基因亚型,即剪接变体,用户必须选择单个参考序列)。(2)对于每个目标物种提供相应的基因组序列,映射到参考编码外显子来预测目标物种的基因CDS (FASTA格式)。使用者要确保每个插入的序列与研究基因是同源的。作为目标序列,工具支持部分/全部基因组contigs、支架或基因组测序。也可以使用FASTA格式,用户可以将完整的功能性核苷酸编码序列包含到给定的分析中——称为预定编码序列,进一步并入PseudoChecker的第二个组件中,从而在最终输出中(见下文)。在pseudochecker.ciimar.up.pt/pseudochecker/instructions.html页面可以找到关于数据应该如何格式化和提交到软件中的详细信息。一旦正确分配了输入数据,并选择了三步集成方法中不同组件的可用参数,则后者执行如下(图1)。
重要的是,在PseudoChecker的主页上的参数选择,在每次分析之前,将会对结果产生影响。PseudoChecker将所需的全部参数分为两组:(1)与方法中第一个组件相关的参数,编码序列预测。(2)与第二个组件相关的参数,MACSE alignment(MACSE 是一个独立的序列alignment软件,已用于基因伪基因研究)。
工具首页:
(1)
示例:
(2)
03
输出
当PseudoChecker作业完成时,软件自动将用户重定向到相应的结果页。这个交互式和直观的web界面被划分为不同的部分,每个部分提供关于执行分析的不同级别的信息(图2)。
(1)MACSE Alignment:在结果页的顶部,MACSE提供的Alignment。MACSE产生的序列包含了每个序列的核苷酸和氨基酸水平的信息,用PseudoChecker分别表示为顶部和底部的序列。为了便于可视化,参考物种的CDS总是显示在顶部,alignment的颜色是根据所产生的结果密码子结构分级的,每组由3个核苷酸组成的相邻块以不同的背景颜色表示。
(2)在MACSE比对下面,总结了每个目标物种检测到的移码突变和终止密码子,相应的外显子,以及它们各自在比对中的位置。
(3)检测到的突变和PseudoIndex:部分编码序列只有在预测完整序列时才能宣布检测到的突变。MACSE自动在最合适的对齐位置加上感叹号(!),以保持读取框架的原始结构。但是,当单个或多个外显子缺失时(部分编码序列的情况),如果缺失外显子导致读取框中断,感叹号就会出现在缺失外显子附近的外显子旁边。这就构成了一个问题,因为用户很难区分真正的生物突变和MACSE为了保持读取框的完整性而产生的比对调整。然而,对于表现出部分或全部编码序列的目标物种,还提供了另一种工具——PseudoIndex。
04
PseudoIndex
准确地测量给定基因的伪基因化水平带来了几个挑战。例如,保守基因的外显子-内含子结构的进化变化,包括在进化过程中的剪接位置转移、lineage特异的外显子和精确的内含子缺失,所有这些都模拟了基因的失活突变,而这些失活突变实际上可能是功能性的。此外,甚至真正的基因突变可能不会显示 gene loss:例如,当给定移码插入出现,但下游额外的移码恢复原来的阅读框形成补偿,或者当出现这种框移和/或过早终止密码子出现在编码结果蛋白c端序列区域附近时,进化约束较少。为了克服这些挑战,在PseudoChecker中建立了PseudoIndex ,这是一种用户辅助度量,目的是通过检查突变证据的存在和大小,测量给定物种中给定基因的侵蚀状态。对于每个目标物种,PseudoIndex考虑到三种不同的组成部分:(1)缺失外显子成分,考虑到参考序列中存在的与相应的目标基因组序列不一致的外显子含量的百分比。(2)移位密码子组件,考虑到从参考阅读框中读出的密码子的百分比。(3)截断的序列成分,用来测量由于过早终止密码子的存在而没有翻译成蛋白质的目标序列的百分比。
由于剪接位点在进化过程中可能发生位移,因此在PseudoIndex计算中不考虑剪接位点的消除突变。然而,在PseudoIndex的结果页面的剪接位点突变在编码序列预测部分会报告的,因此可以被用户进一步检查。
每个研究目标基因的PseudoIndex属性值在0 - 5的离散范围内变化,PseudoIndex为0表示候选基因功能完整,PseudoIndex为5表示其完全失活。上述三个PseudoIndex成分中的每一个都将产生一个sub-PseudoIndex:关于外显子含量、移位密码子和序列截断,也在0到5的离散尺度上变化。
05
验证分析
为了测试方法的性能,将其应用于:(1)以前报告在哺乳动物中已灭活的基因。(2)同一组生物中可能有功能的一组基因。在第一个案例中,仔细研究了最近发表的关于哺乳动物基因loss发生的研究,影响了谱系,并且用总共30个丢失的基因来检验PseudoChecker。在后者中,PseudoChecker应用于30个可能的哺乳动物的功能性基因,根据以下预先确定的标准确定。
假设高表达的蛋白编码基因不易发生有害突变,首先检索了The Human Protein Atlas 数据库(之前我们有介绍HPA数据库《 请查收这份宝藏数据库—HPA 》:HPA是一个集组织图谱、细胞图谱、病理图谱、大脑图谱、血液图谱、代谢图谱为一体的数据资源。Human Protein Atlas 数据库,目前收录了超过26000种抗体,所有结果均有免疫组化染色,并经过专业人员的确认。准确度高,可信度强,而且还免费,是数据挖掘的必备神器。网址为:http://www.proteinatlas.org/。),以获得30个高表达基因:15个从15个随机选择的具有可用表达数据的组织中检索( tissues-pecific atlas),另外15个从细胞特异性图谱(cell-specific Atlas)中检索,细胞特异性图谱是一个包含不同人类细胞隔间表达信息的亚数据库。
对每个候选测试基因进行PseudoChecker分析,并使用PseudoChecker方法的第一个组件提供的三种相似性评分方案。因此,总共进行了180个分析,分布在两个类别,功能性和丢失,以及三个相似度评分方案变化,相关衡量不同方案对分类结果的影响。补充数据提供了分析结果。
小编总结
PseudoChecker是第一个推断基因失活的在线平台。它主要基于一个三步的计算方法,能够推断一个给定的真核蛋白编码基因在单个或多个物种中的编码状态。操作简单方便,大家快去试试吧~
引用:
Alves LQ, Ruivo R, Fonseca MM, Lopes-Marques M, Ribeiro P, Castro LFC. PseudoChecker: an integrated online platform for gene inactivation inference. Nucleic Acids Res. 2020;48(W1):W321-W331. doi:10.1093/nar/gkaa408