倾向性评分法(propensity score method,PSM)

2020-12-11 10:36:02 浏览数 (2)

倾向性评分法(propensity score method,PSM)

背景:

倾向评分(propensity score,PPS)这一概念最早出现在1983年rosenbaum与rubin合写的一篇名为《倾向评分对于观察研究中因果效应的中心作用》的论文中。2010年之后,这一方法日益受到人们的关注。国际上越来越多的研究者将倾向性评分法应用到流行病学、健康服务研究、经济学以及社会科学等许多领域。

观察性研究中,以队列研究为例,暴露因素的分配(如吸烟)通常不受人为控制,暴露组和非暴露组的形成无法等于随机分组,因此很难做到研究对象在组间均衡可比。组间因素不均衡可能造成混杂。调整混杂因素,可针对混杂因素进行匹配、分层分析或协变量调整等。但这些方法控制混杂因素都不能太多。当混杂因素太多时,就可以选择倾向性评分法(Propensity Score Method)

为了让大家更方便的理解这个方法,我们在这里举一个例子。2019年12月12日,Zeng等人在《JAMA》中发表了一篇关于《在成年骨关节炎患者中,处方曲马多与非甾体类消炎药相比与更大的1年死亡率相关》的文章。在基线上,接受曲马多的患者与接受其他镇痛药的患者在人口统计学、医学共病、药物治疗和先前的医院资源利用方面存在差异。而面对多量的混杂因素时,为了让组间均衡可比,Zeng等人使用倾向分数匹配来解释群体之间的差异,以达到控制多个混杂因素的目的。倾向性评分方法正是这样一个被用于减少组间的偏移,使观察性研究在已知的混杂因素中尽可能地模拟代表不同目标人群的随机对照试验中的随机化分组。可以说,经过配对之后的样本都可以认为是来自于同一个目标人群。

图一:zeng等人在JAMA上发表的一篇文章《在成年骨关节炎患者中,处方曲马多

与非甾体类消炎药相比与更大的1年死亡率相关》

定义:

1.目标人群

为了更好的理解倾向性评分方法,我们首先需要了解一下什么是目标人群?

目标人群是一组以纳入和排除标准为特征、以基线特征为特征、平均治疗效果适用的人群。来自具有相同纳入和排除标准的队列的两个样本可能具有不同的特征,代表不同的目标人群,这是由于研究地点和患者纳入研究的方式的差异造成的。在观察性分析中,这进一步受到倾向评分法选择的影响。

2.倾向性评分

倾向评分的定义:倾向评分是指根据患者的特征、治疗医师和临床环境,患者接受感兴趣治疗的概率。

方法:

倾向性评分方法可以用多种方式进行,不同的方式产生不同的目标人群,两种常用的倾向性评分方法是倾向评分匹配(propensity score matching,PSM)和倾向分数加权(propensity score weighting,PSW)。

倾向评分匹配:

倾向评分匹配是使用最广泛的一种倾向性评分方法。而在倾向性评分匹配中,又以1:1近邻匹配被使用最广泛。

在观察性研究中,如病例对照研究,经常会见到匹配的概念,即按照某些因素或特征,将病例组(或暴露组)和对照组的研究对象进行匹配,以保证两组研究对象具有可比性,从而排除匹配因素的干扰。

但这是在研究设计或者说筛选人群阶段就会使用到的匹配方法。假如我们的人群已经筛选好了,或者我们是在数据库挖掘人群信息的,这时候,我们就可以用统计学方法进行“事后匹配”,也就是倾向性评分匹配。

倾向性评分匹配,以最常使用的1:1近邻匹配(亦被称为贪婪匹配)为例,每名接受治疗A的患者逐一与倾向性评分最为接近的接受治疗B的患者匹配,在这个范围内没有匹配的患者被排除在外。例如,Zeng等人以接受曲马多治疗的16 372名合格患者和接受双氯芬酸治疗的21 675名对照患者为研究对象。在配对之前,接受tramlofenac的患者在他们的特征上有很大的差异,包括平均年龄(72.1 vs 67.5岁),以及过去2年去看全科医生的次数(14.3 vs 9.7次)。而在接受倾向性评分匹配之后,在6512对符合条件的患者中,只有38%被保留了。接受tramadol治疗的患者的平均年龄更低了(平均年龄为70.3 vs 72.1),并有更低的平均(mean[SD])就诊次数(12.8 [9.7]vs 14.3[12.8])。

图二:zeng文章中的表格2——经过倾向性评分匹配后的数据基线特征

为了解释在观察性研究当中,倾向性评分匹配是如何转换目标人群的,我们来看一下这个与zeng研究中相似的50名患者。(FigureA.)在匹配前后,患者在接受曲马多以及双氯芬酸治疗方面是类似的,但我们可以看到匹配之后的人群在年龄以及看全科医生的次数上的分布区域更窄了。(FigureB.)这些成功匹配的患者的倾向性评分往往是中等的,意味着在日常就医中,这些患者接受两种治疗的概率是相近的。(FigureB.)这不正是我们想要模拟的随机对照试验的均衡的效果吗?

然而,任何我们使用的这些方法都只是一种尽量减少误差的行为,并不能完全做到消除误差,而且每个方法都有它的优缺点。上述我们提到的倾向性评分匹配虽然能利用匹配做到组间均衡,但是它仍存在着缺点,比如当我们以暴露组的样本量去匹配对照组,而对照组的样本量又是暴露组的好几倍,此时往往会在匹配后造成样本量的损失。如果损失的病例数太多,则不能排除匹配造成的选择性偏移。此外还有匹配的变量必须是已知的等等。那在倾向性评分方法当中,有没有其他方法让我们既能做到均衡组间,又能避免上述情况下样本量的丢失呢?答案是有的。这种方法正是上文中我们提到的第二常用的倾向性评分法

——倾向性评分加权法

倾向性评分加权:

逆处理概率加权法(IPTW)是倾向性评分加权法的其中一种实现方式。通常情况下,接受治疗A的患者以1/倾向分数加权,而接受治疗B的患者以1/(1 -倾向分数)加权,而倾向分数表示接受治疗A的可能性。得出的结果则是来自于对加权后样本的分析。直观地说,权重弥补了每个治疗组中某些类型的个体的代表性不足或过高。例如,在FigureC中,我们将IPTW应用于模拟的与Zeng研究中相似的患者,在这些患者中,由于年龄和看全科医生的次数不均衡,而导致tramadol治疗组和diclofenac治疗组之间存在不可比性。而我们的加权则是将propensity score小的个体赋予一个大的加权数,而propensity score大的个体则赋予一个小的加权数(正如我们在FigureC看到的每个气泡的大小代表了每个患者的加权数)以达到组间均衡可比。因此可以说,倾向性评分加权法是一种基于个体化的标准化法。而且我们可以通过FigureC看到,没有一位病人被排除在人群之外。这正是PSW所能实现的即达到组间均衡可比,又不造成样本量的丢失。

图三:参考文献”Using Propensity Score Methods to Create Target Populations

in Observational Clinical Research”中的3个图

但这种权重的增加,尤其是在极端情况下,可能导致方差的增大。例如将将目标人群定义为几乎总是接受1种治疗的患者时,所有患者的平均治疗效果将会存在很大的不确定性。

到此为止,相信经过这样一个模拟zeng研究的相似患者的两种倾向性评分方法的分析之后,大家都对这两种方法的优缺点有所了解了。但请记住,无论是用PSM还是PSW,都不能不仅仅是为了达到到消除组间的不平衡这个目的。研究人员应该对基线特征进行全面审查,以确定目标人群是否具有临床相关性。

参考文献:

1. Thomas L, Li F, Pencina M. Using Propensity Score Methods to Create Target Populations in Observational Clinical Research. JAMA. 2020.

0 人点赞