原理
根据对天然蛋白质结构与功能分析建立起来的数据库里的数据,可以预测一定氨基酸序列肽链空间结构和生物功能;也可以通过分子动力学、分子热力学等,根据能量最低、同一位置不能同时存在两个原子等基本原则分析计算蛋白质分子的立体结构和生物功能。
步骤
蛋白质结构的理论预测方法都是建立在氨基酸的一级结构决定高级结构的理论基础上,大致分为以下三类。 ( 1 )比较建模法( comparative modeling method ) 比较建模法是基于知识的蛋白质结构预测方法,又称为同源结构预测,是根据大量已知的蛋白质三维结构来预测序列已知而结构未知的蛋白质结构。 按照目前的定义,若待模型构建蛋白质的序列与模板序列经比对( alignment )后的序列同源性( sequence identity )在 40% (也有人认为在 35% )以上,则它们的结构可能属于同一家族,它们是同源蛋白( homology ),可以用同源蛋白模型构建的方法预测其三维结构。因为它们可能是由同一种蛋白质分化而来,它们具有相似的空间结构,相同或相近的功能。因此,若知道了同源蛋白家族中某些蛋白质的结构,就可以预测其它一些序列已知而结构未知的同源蛋白的结构,可以用同源模型构建的方法预测未知蛋白质的三维结构。 常用的数据库是swiss-model和interproscan。 同源蛋白模型构建(模建)的步骤: ① 目标蛋白序列与目标序列的匹配:应用 FASTA 或 BLAST 搜索软件,在 PIR 、 SWISSPROT 或 GENEBANK 等序列库中按序列同源性挑选出一些同源性比较高的序列,然后把挑选出的序列与目标序列基序多重匹配,得到模板结构等价位点套的初始集合。 ② 根据模板结构构建目标蛋白结构模型:在已确定的模板结构等价位点套的初始集合的基础上,旋转每一个模板的结构,使它们相互间的位置尽可能多地重叠在一起。不同两个模板在空间中若复合一定的重叠距离标准,那它们相互之间的关系就是等价位点。许多这样的等价位点构成了等价位点套。 叠合结束后,即得到了同源蛋白的结构保守区( SCRs ),以及相应的基架结构( framework )。模板结构匹配后,一般还要用得到的同源体的 SCRs 的第一条序列与目标序列匹配,挑选出目标序列上的高相拟区,定义为目标蛋白的 SCRs 。 Homology 、 UQANTA/CHARM 、 COMPOSER 、 CONSENSUS 、 MODELLER 和 Collar extension 等软件和方法可以用于目标蛋白结构模型的构建。 ③ 对模建结构基序优化和评估:同源结构模建(预测)得到的蛋白质结构模型,通常含有一些不合理的原子间接触,需要对模型进行分子力学和分子动力学优化,消除模型中不合理的接触。另外,模型中有些键长、键角和二面角也有可能不合理,也需要检查评估。 PROCHECK 和 PROSA II 等软件常用于完成这类工作。
可以将上述的步骤简化为: ① 找到与目标序列同源的已知结构作为模板(目标序列与模板序列的一致度要 ≥ 30%) ②为目标序列与模板序列(可以多条)创建序列比对。通常比对软件自动创建的序列比对还需要进一步人工矫正。 ③ 根据第二部创建的序列比对,用同源建模软件预测结构模型。 ④评估模型质量,并根据苹果结果重复以上过程,直至模型质量合格。
工具介绍( SWISS-MODEL )
SWISS-MODEL是一款用同源建模法预测蛋白质三级结构的全自动在线软件。SWISS-MODEL中一共有三个工作方式:First Approach mode:Alignment Interface mode:Project(Optimise)mode:
预测效果(使用范围)
如果目标序列与模板序列一致度极高,那么同源建模法是最准确的方法。
- 如果一致度能达到30%,那么模型的准确度就可以达到80%,模型可以用于寻找功能位点,以及推测功能关系等。
- 如果一致度能达到50%,那么模型的准确度就可以达到95%, 可以根据模型设计定点突变实验,设计晶体结构自转,辅助完成真实结构的测定
- 如果一致度能达到70%以上,我们可以认为预测模型完全代表真是结果,可以用来分子筛选,分子对接,药物设计结构功能研究。
- 特殊情况,虽然序列一致度达到很高水平,但是结构却并不相同。(这种情况比较少见,但需要注意)。 同时,此方法适用于能找到相似度高的已知结构的序列 。
实际操作
(1)找到目标基因的氨基酸序列,这一步在上一篇推送中介绍了。 (2)打开SWISS-MODEL网站,创建一个新的project或者modeling
(3)粘贴氨基酸序列;创建project名字;留下自己的邮箱;运作model。
一般耗时几分钟到半小时不等。运行成功后,所留下的邮箱会收到通知。
(4)得到一些model结果
GMQE :可信度范围为 0-1,值越大表明质量越好 QMEAN:区间-4-0,越接近0,评估待测蛋白与模板蛋白的匹配度越好。
(5)根据标准选择结果最好的model
(6)修改三维结构的样式或者下载图片
结果评估
- GMQE GMQE(全球模型质量估计)是一种结合目标-模板对齐方式和模板搜索方法的属性的质量估计。所得的GMQE分数表示为0到1之间的数字,反映了使用该对齐方式和模板构建的模型的预期准确性以及目标的覆盖范围。数字越高表示可靠性越高。
- QMEAN 该模型的得分可与相似大小的实验结构所期望的得分相媲美。0值附近的QMEAN 得分表明模型结构与相似大小的实验结构之间具有良好的一致性。分数为-4.0或以下表示模型的质量较低。