一 介绍
上一篇ZZ介绍了本篇综述的背景知识和相关数学符号表示,了解到了本篇文章主要是关于基于“潜在结果框架”的因果推断方法综述,并且明确了样本,策略,潜在结果,混杂和混杂带来的辛普森悖论和选择性偏差等概念。下面我们书接上文,进入到解决因果推断问题具体的方法的解析,首先附一下上篇内容:因果推断文献解析|A Survey on Causal Inference(2),论文原文点击文末阅读原文即可查看。
为了区分是原文内容还是ZZ自己的理解,下面ZZ自己的旁白用粗体标出。
二正文解析
3、基于三个假设下的因果推断方法
在这个部分,作者将介绍基于上一节中三个假设下的因果推断方法。根据这些方法控制混杂方法的不同,作者将这些方法分为了7个小类:(1) 权重更新方法;(2) 分层方法;(3) 匹配方法;(4) 基于树的方法;(5) 基于表示学习的方法;(6) 多任务学习方法;(7) 元学习方法。
3.1 权重更新方法
我们从上面的描述中知道,由于混杂的造成的选择性偏差,导致试验组和对照组的样本的分布不同。也就是说,我们观察的数据中,策略分配与样本的其他变量是相关的。样本权重更新是一种有效的方法。它通过给每一个样本分配不同的权重,这样生成的样本集合中,试验组和对照组的分布是类似的。
样本权重分配方法中,核心概念就是平衡得分,即权重分
,它起到的作用是:
,即在平衡得分的条件下,策略分配与样本的其他变量是独立的。那么最普通的平衡得分是:
(ZZ感觉作者想表达的意思可能是
),最常用生成平衡分的方法是利用倾向得分。
Propensity score:倾向得分,给定背景变量条件下,某个策略的选择概率:
那么基于倾向得分来构造平衡得分是最常见的,下面作者将详细介绍如果基于倾向得分来构造平衡得分,再详细介绍之前,首先给出样本权重分配方法的总览:
根据样本权重是否将其他相关变量的平衡考虑在内分成两类,下面依次介绍:
3.1.1 基于倾向得分的样本权重分配
首先给出最基本基于倾向得分的平衡得分:逆倾向得分权重( Inverse propensity weighting(IPW)),也称作逆策略概率权重(inverse probability of treatment weighting(IPTW)):
其中,
为策略,
为倾向得分,这个公式又是
或者
的统一公式;
其实IPW可容易理解,就是样本越倾向选择这个策略,那么说明这个策略对该样本可能获得更好的策略效果,所以取逆得到的权重来平衡这个策略效果;
经过IPW权重调整之后,我们来重写一下ATE的估计公式,即ATE的加权平均值:
以及标准化IPW权重调整后的ATE的加权估计值,标准化就不解释了哈:
经过IPW加权之后,我们大致认为各组样本之间不存在选择性偏差,这时,我们用对照组的观测结果(
的加权值来估计整体的对照策略的潜在结果期望,用试验组的观测结果(
)的加权值来估计整体的试验策略的潜在结果期望。
大样本和小样本理论都表明,标准化的倾向得分调整足以消除由于所有观察到的协变量而产生的偏差[106]。倾向得分调整可以用来平衡策略组和对照组的相关变量不平衡问题,从而通过匹配、分层(次分类)、回归调整或三者的某种组合来减少偏倚。文献31讨论了使用倾向得分来减少偏差,也提供了例子和详细的讨论。
到了这里,问题看似已经解决了,但是大家不知道的是,作者又给我当头一棒。上面方法虽好,但是我们注意到需要样本权重主要围绕倾向的分为核心,倾向得分一旦预测不准,会导致上面的估计方法出现很大的偏差。
为了解决样本权重过度依赖倾向得分准确性的问题, 大佬又提出了Doubly Robust estimator (DR)方法或者成为增强IPW(AIPW)。DR方法具体做法类似于鸡蛋不放在一个篮子里的投资方法,它结合倾向得分和结果回归模型来得到样本权重,其具体做法如下:
其中
和
分别是根据试验组和测试组训练出来的回归模型;原综述参考文献[38]说如果倾向得分或者回归模型是准确的,那么这个估计就是一致渐进无偏估计。这个ZZ未去考证,感兴趣的小伙伴可以给ZZ留言讨论一下。
下面我们解析一下这个公式,公式(13)第一个式子ZZ还没看明白,但是第二行这个式子比较好理解,将求和公式中每一项根据
或者
分解来看,可以发现,他代表的含义是【根据试验组和对照组数据预测出结果的差异】加上【试验或对照组真实结果与模型预测结果的差距通过逆倾向得分加权的差值】。后面这项描述起来费劲,就是首先通过真实结果与预测结果取一个差值作为真实结果的矫正,然后对这个矫正乘上逆倾向得分权重;
为什么这么取呢?首先第一项【根据试验组和对照组数据预测出结果的差异】反映了两组数据在回归模型下的策略效果差异;第二项【试验或对照组真实结果与模型预测结果的差距通过逆倾向得分加权的差值】反映排除预测效果外,真实观测结果之间的效果差异,并用逆倾向得分进行加权;两部分差异加一起,反映了无偏的策略效果估计。听起来有点道理哈。
如果小伙伴还是没明白或者有质疑,欢迎留言一起Battle哈。
现实中,回归模型的准确性和倾向得分的准确性都不容易得到验证。结合它们可以增大了估计的鲁棒性。当然了,我们也可以想一些其他办法,将策略效果分解以增加估计的鲁棒性。这样是一种方式,当然很多知友可以想到我们为什么不直接从根源入手,直接增加倾向得分的准确性呢?当然可以,这不就来了!
IPW方法的倾向得分其实是策略的倾向选择概率,但是选择性偏差带来的是样本之间其他相关变量分布的不平衡。所以使用逆倾向得分属于只考虑了策略的倾向选择概率,却用来平衡样本之间其他相关变量的分布。Covariate balancing propensity score (CBPS),协变量平衡倾向得分方法被设计出来来同时衡量这两方面,来使倾向得分更准确。CBPS得到倾向得分的方式是求解下面的方程:
其中,
是一个预定义的向量-值映射函数。通过解决上述问题,CBPS直接从估计的带参数的倾向得分中构建了协变量平衡得分,增加了对倾向得分模型的稳健性。
这个式子就很玄妙了,首先
这个预定义的映射函数是什么,我们就不知道,作者也没介绍。我们就姑且认为他是某个固定的函数,来衡量相关变量值组成的向量的一个状态,比如说偏度,散度什么的,我们就姑且算
用来衡量样本的稀缺度(根据相关变量的混合高斯分布计算样本的出现概率即可)。
那么我们理解这个式子就明了了,给倾向得分
加了一个参数,使它变成
,然后根据这个新的倾向得分
给样本加权,使试验组和对照组的稀缺度一样,这样求解出来的的倾向得分
岂不就是平衡了样本的相关变量之间的不平衡嘛。这我都能解释出来,不愧是ZZ。好了,这个式子理解了,我们就继续。
作者紧接着又介绍到, 在CBPS方法的基础上,还有它的增强版本the covariate balancing generalized propensity score (CBGPS) ,又来处理策略是连续值的情况;因为咱们上面讨论的策略一直是离散的,甚至是二元的,这回即使它是连续的我们也能处理。
由于策略是连续值的,所以很难直接最小化对照组与治疗组之间的协变量分布距离。CBGPS通过改变平衡得分的定义来解决这个问题。我们上面知道,这些问题的根源是混杂,而混杂的定义是既与策略相关,又与结果相关。混杂带来了选择偏差,我们通过样本权重来平衡选择偏差。那么,我们是不是可以重新定义平衡得分,不让它来平衡选择偏差,直接用来使策略与混杂不想关呢?当然可以,CBGPS就是这个思想。根据新的平衡得分的定义,它的目的是使策略分配与样本其他相关变量是条件独立的,CBGPS方法使加权后策略分配与相关变量之间的相关性最小化。具体来说,CBGPS的目标是学习一个基于倾向得分的权重,从而使策略分配和样本其他相关变量之间的加权相关性最小化:
其中,
是倾向得分,
是基于平衡得分的样本权重,
和
是中心化或者正交化的策略和样本相关属性变量(例如标准化)。
这个容易理解,就是这个样本权重与标准化的策略和样本相关属性变量乘积最小,以消除策略和样本相关属性变量之间的相关性,求解得到的
是性能优良的平衡得分,由于是连续的,所以求期望就变成了积分;但是这里其实留下来一个盲点,
是什么,怎么设置都没交代,ZZ盲猜是策略的自然选择概率吧,详细可细读原文参考文献。
总而言之,CBPS和CBGPS都是直接以协变量平衡为目标学习基于倾向得分的样本权重,这可以缓解倾向得分的模型不准确带来的负面影响。
IPW估计方法的另一个缺点是,如果估计的倾向分数很小,它可能是不稳定的。如果任一策略分配的概率都很小,逻辑回归模型可能会在尾部变得不稳定,导致IPW也不太稳定。为了克服这个问题, trimming 修剪方法是一种常用的正则化策略,它消除了倾向分数小于预定义阈值的样本。
然而,这种方法对修剪的尺度高度敏感。此外,原参考文献[82]的理论结果表明,倾向分数的小概率和修剪过程可能会导致IPW估计量的不同非高斯渐近分布。基于这一观察,[82]提出了一种双向鲁棒性IPW估计算法。该方法将子抽样与基于局部多项式回归的微调偏置校正器相结合,对倾向得分较小的样本和大尺度的微调阈值都具有鲁棒性。
克服小倾向分数下IPW不稳定性的另一种方法是重新设计样本权重,使权重有界。在原参考文献[75]中,提出了重叠权重,其中每个单位的权重与该单位被分配到另一组的概率成正比。其中,重叠权值
定义为
,其中
为倾向评分。重叠权值有界于区间 [0,0.5] ,因此对倾向值的极值不太敏感。最近的理论结果表明,重叠权值在所有平衡d得分权重中有最小的渐近方差[75]。
上面这两段简单介绍了其他基于倾向得分样本权重构建方法,主要是用于解决IPW对小概率的倾向得分不稳定问题。作者介绍了大概思路,具体操作需要感兴趣的小伙伴参阅原文参考文献。
上面作者介绍了平衡得分的设计理念都是为了给样本一个权重,使不同组别之间的样本得到平衡,下面作者会介绍同时考虑样本权重和样本相关背景变量划分的权重更新方法。
3.1.2 Confounder balancing:混杂平衡
上述的样本加权方法可以在将观测到样本其他变量均视为混杂因素的意义上实现平衡。然而,在实际情况中,并非所有观察到的变量都是混杂因素。有些变量被称为调整变量,只是对结果有影响,还有一些可能是无关的变量。Lasso说了,对调整变量进行调整,是不能减少偏差的,只是有助于减少方差[17,116]。而调整那些无关的变量则会导致过拟合现象。
在原参考文献[69]中,基于观察变量可以分为混杂变量、调整变量和不相关变量的分离假设,Data-Driven Variable Decomposition (
)算法是为了区分混杂变量、调整变量,同时消除不相关的变量而提出的。具体来说,经过
算法调整的结果为:
其中, z 是调整变量,此时ATE计算方式更新为:
直接看到这个公式不可能不懵逼啊,这跨度也太大了,ZZ给大家解析一下哈:
首先我们回忆一下IPW中逆倾向得分权重的构造方式,也就是公式(10):
我们将公式(10)化简合并得到下面的公式:
然后考虑
情况:
然后考虑
情况:
再结合加权的ATE公式
,将上述
的两种形式带入
,可以得到:
在对比给出的公式(16),就是将加权的ATE中的
进行了一下调整,变成了
:
就是这么通透,就是这么简单,TMD!但是具体
怎么得到,作者没有深入介绍,大家可以自行研究哈。下面拉回论文来:
为了得到
, 需要先得到
,做法是在所有观测变量上做回归。目标函数是所有观测变量的
的回归值与实际观测结果的
损失,并进行稀疏正则化,以区分混杂变量、调整变量和无关变量。然而,在实践中,对于观测变量之间的相互作用的先验知识很少,数据通常是高维的和有噪声的。为了解决这一问题,我们提出了差异化混杂平衡算法(DCB)[68]来选择和区分混杂因子,最后达到平衡分布的目的。总的来说,DCB通过重新加权样本和混杂变量来平衡选择偏差带来的样本不平衡分布。
介绍到这里,ZZ已经将作者描述的第一种处理混杂的方法解析完毕。
三休息一下
本节书接上文,出现了混杂这个拦路虎,然后我们想办法解决。作者呢,首先介绍基于三个假设下的因果推断方法来处理混杂带来的选择偏差,作者将这些方法分层了7个小类,我们本节介绍了第一个类“权重更新方法”,其余的方法解析后续ZZ带大家继续前进。
对于样本权重更新方法,作者又进一步将它分成了两类,并分别进行了介绍。ZZ也在解析过程中对每一种方法涉及的公式进行了详细的解析。ZZ感觉解释的勉强还算通透,如果大家读着很爽,不要忘了鼓励一下ZZ,点个赞之类的,并关注一下公号:人人都是数据分析师。如果有什么疑问,也可以留言谈论,虽然我不一定有时间给你回。哈哈!
最后感慨一下,解析公式背后的含义是真的技术活,哈哈哈哈!