最近发现PRS是近两年比较热门的领域,从科学家对糖尿病等几种疾病的评分,到23andme对糖尿病的评估,发表的文章也越来越多,有必要学习一下他的基本过程。这里找到了一个比较详细的教程,学习和记录一下。教程是一个毕业于中国香港大学的博士写的,还是PRS分析软件PRSice-2的作者之一,地址放在这:https://choishingwan.github.io/PRS-Tutorial/ 。这篇教程是以同作者发表在生物预印本上的一篇文章为蓝本写的,教程更加详细,示例数据和步骤详尽,可以保证每个人从头重复到尾,而且分别介绍了三种方法的使用,值得学习一下。教程需要R语言和plink,以及LDpred和lassosum软件。
从我读的几篇文章来看,多基因风险评分分为两个派别,一个是从GWAS中挑选显著差异的snp,进行评分,另一个则是倾向于使用尽可能多的位点,比如几万甚至更多。一般的过程是从GWAS统计结果出发,进行进一步的分析获得结果,由于还没有统一的标准,这几篇文章的方法各不相同,使用了不同的算法。下面,先来看下整体的步骤:
从图中也可以看出,PRS分析需要Base数据(GWAS统计数据如P值,基因型-表型的SNP关系等)和Target数据。主要步骤便是: – Base Data质控 – Target Data质控 – PRS计算和分析 – PRS结果可视化 下面分别来看下详细的步骤:
1、Base Data质控
教程的Base数据来自于GIANT协会研究的高度统计数据摘要
其实教程本身的命令行没有什么难度,关键在于统计意义的理解和为什么进行这些操作。所以这里就不直接抄代码了,原文反而更加详尽和清楚,只把步骤列出。
- 获取数据
- 遗传性检查,h2snp>0.05(2是上标,这里格式问题)
- 效应等位基因是哪个 某些GWAS结果文件无法弄清哪些等位基因是效应等位基因,哪些是非效应等位基因。如果在计算PRS时做出了错误的假设,则PRS在目标数据中的作用将指向错误的方向。
- 文件传输一定要确认md5值正确,确保数据完整性和正确性
- 基因组版本必需相同,否则要进行坐标转换
- 标准严格的GWAS QC 如果基本数据是从公开来源获得的摘要统计信息,那么您可以对它们执行的典型QC步骤是根据INFO得分和MAF过滤SNP。具有较低的次要等位基因频率(MAF)或估算信息得分(INFO)的SNP由于其较低的统计能力(在MAF低的情况下具有更高的基因分型错误概率),更有可能产生假阳性结果。因此,通常在执行下游分析之前先删除具有低MAF和INFO的SNP。我们建议删除MAF <1%和INFO <0.8的SNP(对于较大的基本样本量,如果灵敏度检查表明结果可靠,则可以降低这些阈值)。
- 不明确的SNP 如果基础数据和目标数据是使用不同的基因分型芯片生成的,并且其中一个的染色体链( /-)未知,则不可能匹配模棱两可的SNP(即具有互补等位基因,即C / G或A / T的SNP) ),因为未知的是基础数据和目标数据是否指向相同的等位基因。可以从基础数据中删除模棱两可的SNP,然后在后续分析中就不会再有此类SNP,因为仅对基础数据和目标数据之间重叠的SNP进行分析。
- 基因型不匹配 如果基本数据集和目标数据集之间的等位基因编码存在明确的不匹配,例如基本数据中的A / C和目标数据中的G / T,则可以通过“翻转”任一数据中的等位基因来解决 设置为其互补等位基因。但是,由于我们需要目标数据来了解哪些SNP在数据集中具有不匹配的基因型,因此我们将在目标数据中执行“等位基因翻转”。
- 重复的SNP 如果在基础数据的生成中发生了错误,则基础数据文件中可能存在重复的SNP。大多数PRS软件不允许在基本数据输入中重复SNP,因此应将其删除。
- 性染色体 先前对这些数据进行的QC删除了具有不匹配(推断的)生物学和报告性行为的个体,但不包括性染色体。有关性染色体执行QC的详细信息,请参阅论文的相应部分。
- 样本重叠 在本教程中,目标数据是模拟的,因此必须没有样本重叠。但是,用户应确保基本数据和目标数据之间样本重叠的可能性降至最低。
- 样本亲属关联 在本教程中,目标数据是模拟的,因此在基础数据和目标数据中必须没有紧密相关的个人。但是,用户应确保将基础数据和目标数据之间紧密相关的个人的可能性降到最低。
2、Target Data质控
教程的Target数据来自于基于1000个基因组计划欧洲样本的模拟数据
暂学习到这里,后面继续!