因果推断文献解析|A Survey on Causal Inference(5)

2021-05-13 17:27:00 浏览数 (1)

一介绍

本系列,我们介绍因果推断的经典综述论文《A Survey on Causal Inference》,上一篇ZZ介绍了本篇综述的第二个因果推断方法:“分层方法“;

通过之前的阅读我们明确因果推断的核心任务是搞定反事实结果

F_{i}^{CF}

,但是存在混杂因子这种变量,使估计结果产生了偏差,作者首先介绍基于前文三个假设下的因果推断方法来处理混杂带来的选择偏差,作者将这些方法分层了7个小类,分别是:

(1) 权重更新方法;(2) 分层方法;(3) 匹配方法;(4) 基于树的方法;(5) 基于表示学习的方法;(6) 多任务学习方法;(7) 元学习方法。

对于分层方法,ZZ认为是更粗粒度的权重更新方法。接下来我们继续启航,一起来解析接下来的基于潜在结果框架下的因果推断方法,那么经过前两个方法的学习,我们已经对基于潜在结果框架下的因果推断有了较深的认识,接下来的介绍其他方法会更快速一些,不会像上面那么细致的解析,原文作者也是同样思路,毕竟是综述文章,主要让大家了解这个领域的整体框架。

首先附上上一篇链接:

因果推断文献解析|A Survey on Causal Inference(4)

论文原文点击文末【阅读原文】即可查看。为了区分是原文内容还是ZZ自己的理解,下面ZZ自己的旁白用粗体标出。

二正文解析

3.3 匹配方法

书接上文,缺失的反事实结果和混杂造成的偏差是策略效果评估的主要挑战。匹配方法则是在减少选择偏差的基础上,提供了一种估计反事实结果的方法。总结来说,匹配方法通过以下方法来评估反事实结果:

对于每一个样本

i

,都会估计

hat{Y}_{i}(0)

hat{Y}_{i}(1)

,如果

W_{i}=0

那么

hat{Y}_{i}(0)=Y_{i}

hat{Y}_{i}(1)

则需要根据匹配方法得到的样本

i

的近邻集合

J(i)

的观测结果平均值得到,这个

J(i)

是在

W_{i}=1

的试验组中匹配到的,

W_{i}=1

的情况反之

分析匹配样本的方法类似于随机对照实验,可以直接比较实验组和对照组的观测结果;随机对照试验的概念中,试验组和对照的样本的相关变量的分布是相似的。因此,匹配方法在有效的减少选择偏差(混杂)的基础上,直接用观测结果来评估策略效果。

匹配方法的思想简洁易懂,大家应该也注意到了,匹配方法的核心是如何找到每一个样本

i

在其他策略组的近邻集合

J(i)

;那么一旦提到近邻,自然就涉及到距离度量,来衡量样本之间的远近,下面作者就开始介绍距离度量。

3.3.1 距离度量

衡量样本之间远近的距离度量很多,例如欧式距离和马氏距离;但是,很多匹配方法提出了各自独自的距离度量方法,距离抽象出来表示就是:

D(x_{i},x_{j})=|| f(x_{i}),f(x_{j})||_{2}

,核心在于如何设计

f(cdot)

基于倾向得分的映射:倾向得分可以用来代表样本的原始相关变量,所以,两个样本之间的相似性可以直接用:

D(x_{i},x_{j})=|e_{i}-e_{j}|

来表示,

e_{i}

e_{j}

是倾向得分;在这个基础上做一些变换也被提出:

D(x_{i},x_{j})=|logit(e_{i})-logit(e_{j})|

,原文文献[131]说明这样变换一下可以有效减少偏差。ZZ猜测是做了对数变换,是一种缩小变换,可以有效降低估计的方差。此外,基于倾向得分的距离度量可以与其他现有的距离度量相结合,这样可以提供更细粒度的比较。在原文文献[113]中,当两个单位倾向得分的差异在一定范围内时,进一步在一些关键协变量上用其他距离进行比较。在这种度量准则下,两个单位的接近程度包含了两个标准:在倾向得分测量下它们相对接近,在关键协变量的比较下它们特别相似。

其他映射方法:倾向得分还是只考虑了相关变量的信息,另外的一些映射方法将结果信息也考虑进来,这样映射空间的信息更加丰富。一个有代表性的指标是预知分数prognosis score,即估计的对照结果。映射函数表示为:

f(x)=hat{Y}_{c}

。可知,预知分数的表现依赖于相关变量和对照结果之间的关系建模。而且,预知分数只考虑了对照结果,忽略了策略结果。在原参考文献[26]中提出的基于Hilbert-Schmidt独立准则的最近邻匹配(HSIC-NNM)可以克服,预知分数的缺点。HSIC-NNM分别为对照结果估计和策略结果估计学习两个线性预测。为了充分探索观测到的控制/策略结果的信息,通过最大化投影子空间和结果之间的非线性依赖性来学习线性投影参数:

M_{w}=arg max_{M_{w}}HSIC(X_{w}M_{w},Y_{w}^{F})-R(M_{w})

,其中,

w=0,1

分别代表控制组和策略组;

X_{w}M_{w}

是变换后的子空间,其变换函数为

f(x)=X_{w}M_{w}

Y_{w}^{F}

为观察到的对照/策略结果,

R(M_{w})

为避免过拟合的正则化。目标函数确保学习到的转换函数将原始相关变量投影到信息子空间,在该信息子空间中,相似的样本将具有相似的结果。而且他们与观测结果是线性无关的,即消除了混杂的影响。

与基于倾向得分的距离指标侧重于样本相关变量的平衡相比,预知分数和HSIC-NNM侧重于样本在转换空间的投影和观测结果之间的关系。这两种方法有不同的优点,最近的一些工作试图将这些优点整合在一起。在原参考文献[77]中,提出了平衡的非线性表示(BNR)来将相关变量投影到平衡的低维空间。具体而言,非线性变换函数中的参数是通过以下两个目标共同优化来学习到:(1)最大限度地提高非连续类离散点和类内离散点的差异,使预测结果相同的样本在变换后具有相似的表示;(2)使转换后的控制组与策略组之间的最大平均差最小,从而得到转换后的平衡空间。一系列目标相似但平衡正则化方法不同的研究已经被提出,例如使用条件生成对抗网络来确保转换函数阻塞处理分配信息[74,151]。

上面提到的映射方法,对于控制组和策略组,有的提出一种映射函数,有的分别学习一种映射函数。与上面方法不同的是,随机最近邻匹配(RNNM)[78]采用多个随机线性投影作为映射函数,然后对每一个变换子空间中通过最近邻匹配得到相应的策略效果,最后取这些效果的中位数作为最后的效果。该方法的理论依据是Johnson-Lindenstrauss (JL)引理,它保证了高维空间中点的成对相似信息可以通过随机线性投影来保持。在JL引理的支持下,RNNM综合了几个线性随机变换的策略估计效果,可以适当的降低估计偏差;

3.3.2 匹配方法

我们上面了解一些匹配方法中用到的距离度量,有了距离度量之后,我们还需要选择一种合适的匹配方法来为每一个样本划分近邻;下面作者就来介绍了:

定义相似性度量后,下一步就是寻找邻居。根据原参考文献[23]所提,现有的匹配算法主要分为最近邻匹配、(caliper)卡尺匹配(不会翻译了,哈哈)、分层和核匹配四种基本方法,如图3所示。

最直接的匹配方法是最近邻匹配(NNM)。特别地,根据相似度评分(例如,倾向评分)是最接近的,控制组中的一个样本被选择作为一个策略组样本的匹配伙伴。NNM有几种变体,如有替换的NNM和没有替换的NNM(不知道什么意思)。每个策略组的样本被匹配到一个控制组的样本,称为成对匹配或1-1匹配,或者被匹配到两个控制组样本,称为1-2匹配,以此类推。确定邻居的数量是一种权衡,因为邻居的数量多可能导致处理效果估计量偏差大,方差小;而邻居数量少则偏差小,方差大。然而,众所周知,最优结构是完全匹配的,其中一个策略组样本可能有一个或几个控制组样本与其完全匹配,或者一个控制组样本可能有一个或几个策略组样本与之完全匹配[43]。

如果最匹配的伙伴之间仍离得很远,NNM可能会有糟糕的匹配。可以在最大倾向评分距离上设置一个容忍水平来避免这个问题(卡尺匹配)。因此,卡尺匹配是强加一个常见的支持阈值的一种形式。

分层匹配是将倾向得分划分为一组区间,然后取策略中观察结果和对照组观测结果的平均至差,以计算每个区间内的影响。这种方法也被称为区间匹配、分块和子分类[108]。

上面讨论的匹配算法有一个共同点,那就是在控制组中选取少数的观察结果来评估策略组样本的反事实结果。核匹配(KM)和局部线性匹配(LLM)是非参数匹配,使用对照组的观测值加权平均来创建反事实结果。因此,这些方法的一个主要优势是较低的方差,因为我们使用了更多的信息来产生反事实的结果。

在这里,我们还想介绍在原参考文献[56]中提出的另一种称为粗化精确匹配(CEM)的匹配方法。由于1-k匹配和完全匹配都没有考虑需要额外推理的区域,这些区域在其他策略组中很少或没有合理的匹配,因此提出CEM来处理这个问题。CEM首先对选定的重要相关变量进行粗化,然后对粗化协变量进行精确匹配。例如,如果选择的协变量是年龄(年龄小于50为1,其他为0)和性别(女性为1,男性为0)。治疗组中年龄50岁的女性患者用粗化协变量表示为(1,1)。她只会用完全相同的粗化协变量值匹配治疗组的患者。经过精确匹配后,将整个数据分成两个子集。其中一个子集中,每个单元都有精确匹配的邻居;另一个子集中,则包含着需要额外推理的样本,它们没有完全匹配的邻居。需要额外推理区域样本的反事实结果通过在匹配子集上训练的模型,进行模型预测估计,一般就是线性模型。首先,两个子集的策略效果可以单独估计,最后将两个子集的策略效果通过加权平均合并。

我们已经提供了几种不同的匹配算法,但最重要的问题是我们应该如何选择一个完美的匹配方法。可以预想,随着样本量的增加,所有匹配方法都应该产生相同的结果,并且它们将变得更接近于精确匹配[128]。当我们只有小样本时,这个选择将是重要的[52]。在偏差和方差之间有一个折衷。

3.3.3 需要考虑的变量

以上两个小节说明了匹配过程中的关键步骤,在这一小节中,我们简要讨论了应该在匹配中包含哪些类型的变量,也就是特征选择,以提高匹配性能。许多文献[41,52,112]建议包括尽可能多的与策略分配和结果相关的变量,以满足强可忽略性假设。然而,策略后变量(受策略分配影响的变量)在匹配过程中应该被排除[107]。此外,除了策略后变量外,研究人员还建议排除工具变量[93,148],因为它们往往会放大策略效果估计器的偏差。

三休息一下

本节书接上文,我们介绍第三个处理混杂的方法,匹配方法;整体来看和分层方法的思想也大概类似,分层的对象是整个策略组数据,分成不同的水平进行比较;匹配方法是针对每一个样本,给匹配一些合适的近邻来估计反事实结果,核心部分是样本间距离的衡量。与平时我们做分类和记录衡量距离不同的是,在因果推断中的距离需要考虑混杂的影响,各种距离的提出也都是围绕着去混杂,去相关性的方向展开,核心思想是很明确的。

上面三个方法都介绍了一篇文章,在接下来的解析中,ZZ准备加快进度,在每篇文章中多介绍几个方法,并快速进入作者的实践操作中,相信大家也迫不及待的想看看因果推断下的策略评估与直接评估有多大的差异,在实际中到底应该如何灵活应用各种方法!

0 人点赞