今天这一期是多基因风险评分的最后内容,我将和大家主要介绍一下如何解读并充分利用PRSice的结果。
1. 条形图(barplot)
条形图是png文件,其名称由输出后缀 BARPLOT 日期构成,在我这里是TOY_OUT_BARPLOT_2020-08-24.png文件。该图横轴表示Base文件中SNP的P值阈,纵轴表示的是PRS模型的决定系数(R2),每一根方条的颜色代表拟合模型的P值并且将该P值标记在方条上方。
从图中我们不难看出,设定SNP的P值阈为0.4463(也即选用P<0.4463的SNP用于计算PRS)可以达到最好的拟合效果,此时计算出来的PRS和原来的表型拟合程度最高(决定系数R2最大),拟合模型的P值也最小。
2. 高分辨率图
高分辨率图和条形图本质上没有区别,只是它的横轴并不是间断的P值,而是变成连续的P值,每一个P值点都有一个PRS和表型拟合后的R2。从图中我们可以看出最高点在PT=0.5附近时最高,这和条形图的结果非常相似。
3. PRS模型拟合文件
这个文件包含不同P值阈下PRS和表型拟合的信息,其实就是高分辨率图的表格形式,它是以.prsice结尾。该数据主要包含如下7列:Pheno,Set,Threshold,R2,P,Coefficient,Standard.Error和Num_SNP。其中,Pheno表示的是表型的名字,有时可以是缺失的;Set表示的基因集的名称;Threshold表示的是SNP的P值阈;R2表示的是PRS和表型拟合的决定系数;P表示PRS和表型拟合后的模型的P值;Coefficient表示PRS和表型拟合的效应量;Standard.Error表示的是Coefficient的的标准误;Num_SNP是指Base文件中P值小于Threshold的SNP个数。这个文件可以用于绘制自定义的条形图,除此之外其用处并不大。
4. 个体PRS得分文件
这个文件包含最佳拟合模型下个体的PRS得分信息,以.best结尾。该文件主要包含四列FID,IID,In_Regression和PRS。其中FID是个体的family ID,IID是个体的individual ID,这两个与PLINK的fam文件内容对应,另外In_Regression表示个体是否用于PRS和表型的拟合,Yes表示该个体被用于PRS和表型的拟合,而No表示未用于拟合,PRS表示的是该个体的多基因风险评分。
这个文件是最重要的,它包含个体PRS信息,可以用于后续的孟德尔随机化研究以及疾病的诊断与预后等等
5. PRS得分的汇总文件
该文件以.summary结尾,它包含11列数据:Phenotype,Set,Threshold,PRS.R2,Full.R2,Null.R2,Prevalence,Coefficient,Standard.Error,P和Num_SNP,其含义和.prsice文件中的一致,但是PRS.R2表示PRS能解释表型的程度(即PRS和表型拟合的决定系数),Full.R2表示PRS和协变量一起能解释表型的程度,而Null.R2则表示协变量能解释表型的程度,Prevalence则表示疾病(表型)的流行程度,可用于矫正PRS.R2。
关于PRSice输出结果的解释就讲到这里,文末附有文献信息,有兴趣的朋友可以仔细阅读。
参考文献:
Choi, S.W., Mak, T.S. & O’Reilly, P.F.Tutorial: a guide to performing polygenic risk score analyses. Nat Protoc(2020). https://doi.org/10.1038/s41596-020-0353-1