polygenic risk score:多基因风险评分

2019-12-19 12:36:14 浏览数 (1)

欢迎关注”生信修炼手册”!

针对复杂疾病,通过GWAS研究可以识别到大量的疾病易感位点,然而这些位点绝大多数都属于微效位点,单个或者少数几个位点对疾病的效应较弱,无法准确的预测疾病。为了更好的研究患病风险,我们需要综合多基因位点的信息。在这个基础上,提出了多基因风险评分的概念。

多基因风险评分,对应的英文如下

polygenic risk score

简称PRS, 计算公式如下

其中i表示SNP位点,m表示SNP位点的总数,β表示该SNP位点对于疾病的效应,j表示该SNP位点的基因型,分别用0,1,2表征没有突变,杂合突变和纯合突变,ω表示每种基因型的频率。从公式可以看出,PRS值是所有疾病相关位点效应值的总和。在计算PRS时,有以下两个关键步骤

  1. SNP位点的选择,采用GWAS分析的p值作为阈值来筛选SNP位点,通常会有多个阈值
  2. SNP位点权重的计算,常用OR值或者回归分析的beta值作为SNP位点对疾病效应的权重

PRS结合了所有疾病关联位点的效应值,更加适合预测个体的患病风险,在实际分析中,计算PRS的流程如下

首先将数据集分为两个部分,base data和target data。其中base data提供了GWAS分析的结果,如p值,beta或者OR值等,用于构建模型;而target data提供了部分样本的基因型和表型数据,用基于base data构建的模型来预测这部分样本的患病风险。 在建模之前,需要对数据进行质控,可以参考GWAS的质控标准。同时还需要注意,两个数据集的样本必须是独立的,不存在重复样本,即一个样本不能同时出现在base data和target data中。接下来计算PRS, 需要考虑连锁不平衡的调整,beta收缩,pvalue阈值选取等因素,然后计算PRS值,并进行PRS和表型之间的关联分析,最后使用两个数据集进行交叉验证。

可以进行PRS分析的软件有很多,PRSice是使用的最为广泛的一款。在后续会详细介绍其用法。

0 人点赞