本文是一篇综述文章 「A Survey on Causal Inference」 的阅读笔记(大部分内容参照原文进行了较为通俗易懂的翻译,小部分内容加入了自己的理解)。
「因果推断」(Causal inference)是近年来很多领域的研究热点,诸如统计学、计算机科学、教育学、经济学等。和传统的试验性研究(如 RCT)相比,因果推断能够直接从观察性数据中估计因果关系,可以节省大量的人力物力成本。另一方面,得益于机器学习领域的发展,出现了各种各样用于因果估计的新方法。本文将对「潜在结果框架」(potential outcome framework)下的因果推断方法进行一个较为全面的综述。
1 背景
在日常生活中,我们可能会将「相关关系」和「因果关系」混为一谈,实际上两者存在着较大的差别。统计学中有一句名言:correlation does not imply causation(相关不代表因果)。相关关系描述的是两个变量相互关联,呈现出一个变量随另一个变量的变化而增加或减少的趋势;而因果关系则描述一个变量(因)导致了另一个变量(果)的变化,因对果(部分)负责,而果则(部分)取决于因。「因果推断」旨在基于已发生的结果推理出其中所存在的因果联系,与相关性推理相比,主要区别在于因果推断分析了在原因变量改变时(并不仅是简单的大小改变,而是包括类似有无这样的改变)结果变量的响应方式。
由于现实问题中因果的复杂性(并不是简单的一对一关系),学习因果是一个具有挑战性的问题。进行因果推断最有效的方式是进行「随机对照试验」(RCT),通过将参与者随机分配至对照组与试验组,并控制无关变量来观测目标干预的效果。然而,在实际中 RCT 通常成本较高,无法招募大量的参与者,难以代表整个干预的目标群体。此外,RCT 只关注样本的平均变化,并不能解释个体的干预效果,同时还可能存在伦理道德问题。因此,研究者们考虑直接基于「观察性数据」(observational data)来探究因果关系,观察性数据通常直接通过观测目标得出,没有对照与控制变量。我们可以从观察性数据中了解目标的行动、结果等信息,但是一般无法直接了解结果背后的原因,也就无法推导所谓的「反事实结果」(counterfactual outcome),从而无法把握其中的因果联系。
为了能够基于观察项数据进行因果推断,研究者们开发了各种因果推断框架,其中最著名的是「潜在结果框架」(potential outcome framework)以及「结构因果模型」(structual causal model),前者也被称为「鲁宾因果模型」(Rubin causal model)。潜在结果框架的主要目标是估计不同干预下的潜在结果(包括反事实结果),以估计实际的干预效果。而结构方程模型则是通过构建因果图与结构方程来探究因果关系。本文将介绍在潜在结果框架下的因果推断方法。关于结构因果模型的介绍可以参考这篇文章[1]。
2 因果推断基础
2.1 定义
2.1.1 相关术语
对于潜在结果框架来说,其核心概念为单元、干预和结果。因果与干预绑定,作用于单元上,我们通过比较不同干预的潜在结果来估计干预效果。下面给出相关术语的详细定义。
定义 1:「单元」(Unit)。单元是干预效果研究中的最小研究对象。
一个单元可以是处于某个特定时间点的物体、公司、患者、个体或人群。在潜在结果框架下,「不同时间点」的单元是「不同」的。一个单元可以视作整个数据集的一个样本。
定义 2:「干预」(Treatment)。干预指作用于单元的动作。
令
表示干预,其中
为可能干预的总数量。大部分研究都是针对二元干预,「干预组」(treated group)对应
,「对照组」(control group)对应
。
定义 3:「潜在结果」(Potential outcome)。对于每个单元-干预对,将干预作用于该单元所得到的结果称为潜在结果。
值为
的干预的潜在结果定义为
。
定义 4:「观察结果」(Observed outcome)。观察结果指实际执行了的干预所对应的结果。
观察结果也称为事实结果,记作
。潜在结果与观察结果的关系为
,其中
为实际执行的干预。
定义 5:「反事实结果」(Counterfactual outcome)。反事实结果指相对于实际执行的干预,如果对单元执行了另一种干预所取得的结果。
反事实结果是除去实际执行的干预外的干预所对应的潜在结果。由于对一个单元(同一时间点)只能执行一种干预,因此只能观察到一个潜在结果,剩余的未观测潜在结果即为反事实结果。在多元干预场景下,定义值为
的干预的反事实结果为
;在二元干预场景下,为了简化标记,我们使用
定义反事实结果,
,其中
为单元实际执行的干预。
在观察性数据中,除了执行的干预以及观察结果,单元的其他信息也有记录,我们可以将其分为预干预变量和后干预变量。
定义 6:「预干预变量」(Pre-treatment variables)。预干预变量指不会被干预影响的变量。
预干预变量也被称为「背景变量」(background variables),例如患者人口统计学,疾病史等。我们定义
为预干预变量。
定义 7:「后干预变量」(Post-treatment variables)。后干预变量指会被干预影响的变量。
后干预变量的一个例子就是中间结果,例如在药物试验中服药后的实验室检查结果。本文中除特殊说明外,均使用「变量」指代后干预变量。
2.1.2 干预效果
基于上述定义,我们可以对干预效果进行定量的描述。干预效果可以从「多个层面」进行度量,包括人群层面、干预组层面、亚组层面或是个体层面。这里给出二元干预下的干预效果定义。
在「人群」层面,干预效果称为「平均干预效果」(Average Treatment Effect, ATE),定义为:
其中
和
分别表示整个人群的潜在干预结果与对照结果。
在「干预组」层面,干预效果被称为「干预组的平均干预效果」(Average Treatment Effect on the Treated group, ATT),定义为:
其中
和
分别表示干预组的潜在干预结果与对照结果(添加了一个条件),类似地,对照组的平均干预效果被称为 「ATC」。
在「亚组」层面,干预效果被称为「条件平均干预效果」(Conditional Average Treatment Effect, CATE),定义为:
其中
和
分别表示背景变量
的亚组中的潜在干预结果与对照结果。当干预效果在不同的亚组中存在差异时,CATE 是一个常用的干预效果评估方法,也被称为异质干预效果。
在「个体」层面,干预效果被称为「个体干预效果」(Individual Treatment Effect, ITE),单元
的 ITE 定义为:
其中
和
分别表示单元
的潜在干预结果与对照结果。某些文献中将 ITE 与 CATE 视作等价。
2.1.3 目标
对于因果推断,我们的目标是从观察性数据中估计干预效果。从形式上看,给定观察性数据集
,其中
是数据集中的单元数量,则因果推断任务的目标是估计上述定义中的各项干预效果。
2.2 案例
为了更直观地进行说明,下面将给出一个医疗场景下的因果推断案例。我们希望去评估不同药物对于某种疾病的治疗效果。观察性数据(电子健康记录)包括患者人口统计学信息、患者所服用的具体药物与具体剂量,以及相关检查检验的结果。由于从数据中我们只能观察到特定患者的单个事实结果,因此我们的核心任务是预测如果对患者执行了另一种干预,会发生什么样的结果(即服用其他药物或调整药物剂量)。为了回答这一反事实问题,我们需要使用因果推断来预测每位患者的所有潜在结果。
需要特别注意的一点是,对于每种药物,其可能存在不同的剂量取值。例如,对于药物 A,其剂量范围是一个连续变量
;而对于药物 B,其剂量范围则是一个离散变量,只有几个特定的取值。在本案例中,「单元」为患有待研究疾病的患者,「干预」则指用于该疾病的特定剂量的不同药物,我们使用
来表示这些干预,例如,
表示单元
服用特定剂量的药物 A,
表示单元
服用特定剂量的药物 B。我们用
来表示「结果」,例如可以衡量药物作用效果的血液检查。
表示单元
服用特定剂量的药物 A 所产生的潜在结果。患者的「特征」包括年龄、性别、临床特征、检查检验结果等。在这些特征中,年龄、性别等人口统计学信息属于「预干预变量」,其不会被干预所影响;而部分临床特征与检查检验结果则会被干预(用药)所影响,属于「后干预变量」。在本例中,我们的目标是基于所提供的观察性数据估计不同药物(不同剂量)对于目标疾病的治疗效果。
2.3 假设
为了更好地估计干预效果,在因果推断中常常使用以下三种假设:
假设 1:「稳定单元干预值假设」(Stable Unit Treatment Value Assumption, SUTVA)。任意单元的潜在结果都不会因其他单元的干预发生改变而改变,且对于每个单元,其所接受的每种干预不存在不同的形式或版本,不会导致不同的潜在结果。
该假设强调了两点:第一点是每个单元之间的独立性,在上面的例子中,一名患者的结果不会影响另一名患者;第二点是每种干预只有一个版本,在上面的例子中,不同剂量的药物 A 对应于不同的干预。
假设 2:「可忽略性假设」(Ignorability)。给定背景变量
,干预的分配
独立于潜在结果,即
。
在上面的例子中,可忽略性体现在两个方面:首先,如果两名患者具有相同的背景变量
,则无论采取怎样的干预措施,其潜在结果都会是相同的,即
;类似地,无论潜在结果如何,这两名患者的干预分配策略也会是相同的,即
。可忽略性也被称为「无混淆」假设(unconfoundedness),在该假设下,对于背景变量相同的单元,其干预分配可以视为随机的。
假设 3:「正值假设」(Positivity)。对于任意值的
,干预分配都不是确定的。
正值假设表示为公式即:
如果对于某些
的值,干预分配是确定的,则对于这些值来说,至少有一项干预所导致的结果是无法被观测的,这样我们也就无法去估计干预的因果效应。在上面的例子中,假定有两种干预:药物 A 和药物 B,如果年龄大于 60 岁的患者总是给予药物 A,则我们就无法(也没有意义)去研究药物 B 在这些患者上的干预效果。换句话说,正值假设揭示的是干预的「可变性」,这对干预效果估计来说是十分重要的。
给予上述假设,观察结果与潜在结果之间的关系可以表示为:
上式中使用了可忽略性假设,其中
是观察结果的随机变量,
是干预
的潜在结果的随机变量。基于上式我们可以知道,如果我们对某一特定组(包括干预组、干预亚组等)的潜在结果感兴趣,可以通过该组的观察结果的期望对其潜在结果进行估计。
进一步地,基于上述等式,我们可以将 2.1 节中干预效果的相关定义表示为:
其中
和
是单元
的潜在干预与对照结果,
是整个人群的单元数量,
是对照组中的单元数量,
是
的亚组中的单元数量。对于
,上述公式将不同的干预值进行了合并,如
时,
;而对于
,上式首先基于期望公式与
式将其表示为与观察结果相关的等式,然后使用期望的估计方法进行进一步地转化,最终都表示为了基于不同组别的
的均值。
然而,由于我们无法同时观测到一个单元的潜在干预结果与对照结果,因此干预效果估计的关键在于,如何估计
中的反事实结果,即估计
和
,其中
指
或
。在下一节中,我们将介绍进行估计时所面临的挑战以及一般的解决方法。
2.4 混杂因子及一般解法
如上所述,因果推断的核心即估计在一个特定组别上的平均潜在干预结果与对照结果。以
为例,我们考虑直接使用观测到的干预与对照结果进行平均,即
,其中
和
分别是干预组与对照组的单元数量。然而,由于「混杂因子」的存在,上述估计(针对观察性数据)往往存在严重的问题,可能会包含完全虚假的因果效应。
定义 8:「混杂因子」(Confounders)。混杂因子是会同时影响干预分配以及结果的变量。
混杂因子是一些特殊的预干预变量(即背景变量),当直接计算观测到的干预与对照结果的平均值时,所得出的
不仅包括了干预对结果的影响,还包括了混杂因子对结果的影响,从而导致了「伪效应」(spurious effect)的出现。在上面的例子中,患者年龄就是一个混杂因子。年龄影响着康复率:一般来说,年轻患者要比老年患者恢复地更好;年龄同时还影响着干预的而选择:年轻的患者可能趋向于使用药物 A 而老年患者趋向于使用药物 B,或者年轻患者使用药物的剂量与老年患者存在差异。下表给出了对应的观察性数据:
基于该数据得到的伪
为:
其中
和
分别表示使用药物 A 和 B 的患者的数量。然而,我们并不能得出干预 A 要优于干预 B 的结论,因为采取干预 A 的组的平均康复率高的原因可能是该组中大部分的患者都是年轻患者(350 名中的 270 名),年龄对康复率的影响(伪效应)导致了计算得出的因果效应并不具有可靠性。
另一方面,上表中还存在着一个有趣的现象:「辛普森悖论」(Simpson's paradox)。具体来说,在年轻患者与老年患者对应的组别中,药物 B 都比药物 A 有着更好的康复率;然而当把这两组结合到一起后,药物 A 的总平均康复率却要高于药物 B。导致这一悖论的罪魁祸首依旧是混杂因子,当比较整个组的康复率时,药物 A 对应的组中大部分人都是年轻患者,表格中给出的比较并不能消除年龄对康复率的影响。
除了对干预效果估计带来的伪效应,混杂因子还会导致「选择偏差」(selection bias),从而使得反事实结果的估计变得困难。选择偏差描述的现象是:观测到的组别中的分布并不能代表我们感兴趣的组别,即
。混杂因子会影响单元的干预选择,从而导致选择偏差的出现。在上面的例子中,年龄是一个混杂因子,因此不同年龄的患者有着不同的干预偏好。下图展示了观测到的干预组与对照组的年龄分布。显而易见,观察干预组的年龄分布于观察对照组的年龄分布存在着差异。这一现象使得反事实结果的估计变得更加困难,因为我们需要去基于观察对照组来估计干预组中单元的对照结果,以及基于观察干预组来估计对照组中单元的干预结果。如果我们不对选择偏差进行处理,直接基于
的数据训练潜在结果估计模型
,则训练得到的模型对于实际接受的干预不为
的单元的潜在结果估计的效果会很差。这一问题在机器学习领域也被称为「协变量偏移」(covariate shift)。
处理混杂因子带来的问题(伪效应与选择偏差)是因果推断领域的关键研究问题,我们将处理混杂因子变量的过程称为「调整混杂因子」(adjust confounders)。下面将简要介绍处理上述两个问题的通用性方案(个人观点:两个问题之间存在关联,选择偏差是根本,可以引发伪效应),注意这些方案需要基于三种基本假设,特别是「可忽略性假设」,即不存在未观测的混杂因子。
对于伪效应问题,我们应该将混杂因子变量所造成的结果纳入到计算中去。一般来说,我们可以先估计以混杂因子变量为条件的干预效果,然后基于混杂因子的分布进行加权平均,具体来说:
其中
是
的值的集合,
是位于
中的背景变量在整个群体上的概率,
是背景变量值(相同值)属于
且干预为
的单元亚组。这一方案的代表性方法是「分层」(Stratification),将在之后进行介绍。
对于选择偏差问题,我们一般有两种解决方案:第一种方案通过创造一个「拟群」(pseudo group)来近似目标组的真实分布。常用的方法包括样本重加权、匹配、基于树的方法、混杂因子平衡、平衡表征学习方法、基于多任务的方法等。创建的拟群可以缓解选择偏差的消极影响,从而得到更加可靠的反事实结果估计。第二种方案首先仅基于观察性数据训练基础的潜在结果估计模型,然后对选择偏差引起的估计偏差进行纠正。这种方案的代表性方法是基于元学习的方法。
3 基于假设的因果推断方法
在本章节中,我们将介绍基于之前所述的三种假设的因果推断方法。根据其对混杂因子的处理方式,可以将其分为如下几类:
- 「重加权方法」(Re-weighting methods)
- 「分层方法」(Stratification methods)
- 「匹配方法」(Matching methods)
- 「基于树的方法」(Tree-based methods)
- 「基于表征的方法」(Representation based methods)
- 「多任务方法」(Multi-task methods)
- 「元学习方法」(Meta-learning methods)
下面将分别对这些方法进行详细介绍。PS:个人认为第三部分原文描述得相当精炼,如果对其中涉及的算法没有一定的了解很容易晕掉,这里尝试去理解了原作者想表达的核心内容,省略了原文的部分描述,建议对于感兴趣的算法去阅读相应的原始论文。
3.1 重加权方法
由于混杂因子的存在,干预组与对照组中协变量(注意混杂因子只是协变量的一种,而协变量是背景变量的一种,这里可以将这三个概念暂时等价)的分布是不同的,这会导致「选择偏差」的出现,换句话说也就是干预的分配与观察性数据中的协变量相关。样本重加权是一种解决选择偏差的高效方法,通过为每个单元分配合适的权重,创建出一个干预组与对照组分布类似的拟群。
在样本重加权方法中,一个关键的概念是「平衡分数」(balancing score)。平衡分数
是一种通用的权重分数,其是
的函数且满足:
,其中
是干预分配而
是背景变量。平衡分数的设计方法有很多种,最常规的是
。「倾向评分」是平衡分数的一个特例,其定义如下:
定义 9:「倾向评分」(Propensity score)。倾向评分是给定背景变量时干预的条件概率:
倾向评分可以表明在给定一个观测协变量集合的情况下,单元被分配到特定干预的概率。基于倾向评分的重加权方法是目前最常见的一种手段。下图对本节涉及到的重加权方法进行了归类,我们将先介绍仅基于样本重加权的方法,然后介绍同时对样本与协变量进行重加权的方法。
3.1.1 基于倾向评分的样本重加权
仅基于样本重加权的代表性方法是「逆倾向加权」(IPW),也被称为「逆概率干预加权」(IPTW),其为每个样本分配一个权重
:
其中
是干预分配(二元),
是
式中定义的倾向评分。重加权后的 ATE 的计算公式如下:
上式的归一化形式如下(当倾向评分通过估计获得时使用):
研究表明,无论在大规模样本还是小规模样本中,倾向评分都能够平衡协变量所带来的选择偏差。我们可以进一步将倾向评分与匹配、分层、回归等方法相结合,以消除协变量的影响。
然而,在实践中,IPW 估计器的正确性高度依赖于倾向评分估计的正确性,倾向评分的轻微错误会导致 ATE 的较大偏差。为了解决这一问题,研究人员提出了「双重稳健估计器」(DR),也被称为加强 IPW(AIPW)。DR 估计器将倾向评分加权与结果回归相结合,可以保证即使部分评分或回归不正确(不能同时不正确),估计器仍具有鲁棒性。DR 估计器的具体公式如下:
其中
和
分别为干预与对照结果的回归模型估计。只要倾向评分或模型能够正确地解释结果中混杂因子与变量之间的关系,DR 估计器就可以给出稳定且无偏的结果。
另一种改善 IPW 估计器的方法是提升倾向评分估计的正确性。在 IPW 估计器中,倾向评分同时作为干预概率与协变量的平衡分数而出现,为了利用倾向评分的这一双重特性,研究人员提出了「协变量平衡倾向评分」(CBPS),其通过解决如下问题来估计倾向评分:
其中
是预定义的
的向量化度量函数。通过求解上述问题,CBPS 可以直接根据估计的参数化倾向评分计算协变量平衡分数,从而提升倾向评分模型的鲁棒性,减少错误的发生。CBPS 的一种扩展是「协变量平衡广义倾向评分」(CBGPS),其能够处理「连续值」的干预。对于连续值干预来说,很难直接去最小化干预组与对照组之间的协变量分布距离,CBGPS 通过弱化平衡分数的定义来解决这一问题。基于原始定义,干预分配需要条件独立于背景变量,而 CBGPS 则选择将加权后的干预分配与协变量之间的相关性最小化(相比独立来说要求变低了)。具体来说,CBGPS 的目标是学习一个基于倾向评分的权重,使得干预分配与协变量之间加权后的相关性最小,如下式所示:
其中
是倾向评分,
是平衡权重,
和
是归一化后的干预分配与背景变量。总的来说,CBPS 和 CBGPS 都直接面向协变量平衡的目标来学习基于倾向评分的样本权重,这样可以避免倾向评分模型的错误带来的负面效果。
上述改进方法主要针对的是 IPW 估计器中倾向评分的正确性问题,IPW 估计器的另一个缺陷是当估计的倾向评分较小时,估计器可能会不稳定。具体来说,如果任意一项干预分配的可能性较小,则用于估计倾向评分的逻辑回归模型可能会在尾部附近不稳定,从而导致 IPW 估计器的不稳定。为了解决这个问题,一种常规的解决方式是进行「修整」(trimming),其可以视为一种正则化方法,通过预定义一个阈值,去除倾向评分小于该阈值的样本来提升估计器的稳定性。然而,研究表明这种方法对修整的阈值高度敏感,同时较小的倾向评分结合修整的过程可能会导致 IPW 估计器中出现不同的非高斯渐近分布。基于这些问题,研究者们提出了一种「双向鲁棒性 IPW 估计」方法(two-way robustness IPW estimation),这种方法将子采样与基于局部多项式回归的修整偏差校正器相结合,对于较小的倾向评分与较大的修整阈值均具有鲁棒性。另一种克服小倾向评分下 IPW 不稳定性的替代性方案是重新设计样本权重,研究者们提出了一种「重叠权重」(overlap weight),其中每个单元的权重与该单元分配到对立组的概率成比例。具体来说,重叠权重
定义为
,其中
是倾向评分。重叠权重的大小被限制在区间
以内,因此它对较小的倾向评分并不敏感。研究表明在所有的平衡权重中,重叠权重具有最小的渐近方差。
3.1.2 混杂因子平衡
对于上述的样本重加权方法来说,其中所有的观察变量都被视为混杂因子。然而实际上,并不是所有的观察变量都是混杂因子,有些变量可能是只影响结果的「调整变量」(adjustment variables),有些则可能是「无关变量」(irrelevant variables)。下图给出了关于混杂因子与调整变量的区别说明(这里并没有考虑到仅影响干预分配的工具变量以及介于干预与结果之间的中介变量):
为了区分混杂因子与调整变量的不同影响,同时消除无关变量,研究者们提出了一种「数据驱动的可变性分解」算法(Data-Driven Variable Decomposition),调整后的结果通过下式给出:
其中
是调整变量。因此,
算法的 ATE 估计公式为:
为了求解
,需要基于所有的观察变量对
进行回归分析。该分析的目标函数是
与所有观察变量的线性回归函数的
损失,以及用于区分混杂因子、调整变量与无关变量的稀疏正则项(注意这里本质上还是人工区分)。然而,在实践中通常缺少关于观察变量的先验知识,同时数据通常是高维且包含噪声的。为了解决这一问题,研究者们又提出了「差分混杂因子平衡」(DCB)算法来从高维数据中选择并区分混杂因子,然后通过对样本与混杂因子同时进行重加权来平衡分布。
3.2 分层方法
分层方法,也称为「子分类」(subclassification)或「区组」(blocking),是混杂因子调整的代表性方法。分层方法的核心思想是将整个组划分为同质性的亚组(区组)来调整干预组与对照组之间的偏差。理想情况下,在每个亚组中,干预组和对照组的协变量的分布是类似的,因此来自相同亚组的单元可以近似看作是从随机对照试验数据中进行采样获得的。基于每个亚组的同质性,每个亚组内的干预效应(即 CATE)可以通过面向 RCT 数据的方法进行计算。在计算出每个亚组的 CATE 后,目标组的干预效应可以通过将属于该组的亚组的 CATE 结合起来得到(参考
式)。以计算 ATE 为例,如果我们将整个数据集分为
个区组,则 ATE 可以通过下式进行估计:
其中
和
分别是在第
个区组中干预结果与对照结果的平均。
是第
个区组中单元数量与单元总数的比值。
与普通的差分 ATE 估计器(
)相比(这里原文似乎公式有误),分层方法可以有效地减少 ATE 估计的偏差。具体来说,假定结果与协变量线性相关:
,则普通差分估计器的偏差为:
而分层估计器的偏差为区组内偏差的加权平均:
与差分估计器相比,分层估计器对于每个协变量减少的偏差为:
上式中
是第 k 个协变量在第 j 个区组中的干预组(对照组)的均值,而
是整个干预(对照)组中第 k 个协变量的均值。
分层方法的关键部分就是如何创建区组以及如何将创建的区组结合在一起。创建区组的一种常用方法是「相等频率」法(equal frequency),该方法基于出现的概率(如「倾向评分」)进行区组的划分,使得每个亚组(区组)中的协变量具有相同的出现概率。如
式所示,ATE 可以通过每个区组的 CATE 的「加权平均」求得,权重与区组中的单元数量相关。然而,由于区组中干预组与对照组的重叠性可能不足(倾向评分差异较大导致被划分到不同的组),这种方法可能会存在较高的方差。为了减少这种方差,可以考虑对基于倾向评分划分的区组通过区组特定的干预结果的逆方差进行重加权,不过这种方法虽然可以减少方差,但同时会不可避免地增加估计偏差。
上述划分区组的方法均是基于「预干预变量」(即背景变量)的,而在某些实际的应用中,可能需要基于某些「后干预变量」比较结果,记作
。举例来说,在疾病发展的过程中的某些标记物(如艾滋病中的 CD4 数量)可以视作一种后干预变量,其受到干预的影响。在比较艾滋病患者药物治疗效果的研究中,研究人员可能对 CD4 数量小于 200 个/立方毫米的组的治疗效果感兴趣。然而,如果直接比较
的组中的观察结果可能并不会得到真实的结果,因为该组的两个亚组
与
将存在较大的差异(因为干预对后干预变量的值有影响)。我们可以通过「原则分层」(principle stratification)来解决这个问题,其基于后干预变量的潜在值来构建亚组。我们定义
为干预值 w 下后干预变量的值,基于
的潜在值独立于干预分配的假设,一个亚组的干预效果可以通过比较其对应的干预与对照集合的结果得出:
和
,其中
和
是该亚组中两个后干预变量的值。通过这种方式可以保证两个集合的相似性,以得到真实的干预效应。
3.3 匹配方法
如之前所述,「缺少反事实结果」与「混杂因子偏差」是干预效果分析中的两大关键挑战。基于匹配的方法提供了一种估计反事实结果的方式,同时还能够减少混杂因子带来的偏差。一般来说,通过匹配方法给出第
个单元的潜在结果为:
其中
和
是估计的对照与干预结果,
是单元
的相反组中的匹配邻居。
对匹配样本的分析实际上是一种 RCT 的模仿:在 RCT 中,理想情况下干预组与对照组中协变量的分布是类似的,因此我们可以直接比较两个组之间的结果。匹配方法也是基于这样的思想来减少或消除混杂因子的影响。
3.3.1 距离度量
我们可以通过多种距离来衡量单元之间的接近程度,例如常用的欧式距离与马氏距离。很多的匹配方法都设计了其独有的距离度量,可以将其统一抽象为:
,这些距离度量的主要区别在于「转换」函数
的设计,下面将介绍几种常见的设计。
基于倾向评分的转换函数
首先,可以直接基于表示协变量的「倾向评分」来计算两个单元间的相似度:
,其中
和
分别是单元
和
(
对应该单元的所有协变量)的倾向评分。其次,还可以使用「线性倾向评分」进行距离度量:
,这种方法可以有效地减少偏差。进一步地,还可以将倾向评分度量与其他距离度量方法「结合」起来,进行基于多重准则的比较。例如可以先基于倾向评分筛选较为相似的单元,然后进一步基于某些关键协变量的相似度进一步筛选。
其他转换函数
基于倾向评分的转换函数只考虑了协变量的信息,下面介绍一些利用了结果信息的距离度量方法。第一种方法是基于「预后评分」(prognosis score)的度量,即估计的对照结果(先基于协变量进行估计)。转换函数可以表示为:
。预后评分的表现依赖于对照结果与协变量之间关系的建模,且并没有考虑到干预结果。第二种方法是「基于希尔伯特-施密特独立性标准的最近邻匹配」(HSIC-NNM),其通过学习两个线性的映射分别用于对照结果估计任务与干预结果估计任务,来克服预后评分的不足之处。具体来说,线性映射的参数通过最大化映射子空间与结果的非线性依赖来学习得到:
,其中
分别代表对照组与干预组,
是转换后的子空间(即估计结果),
是观测到的对照/干预结果,
是避免过拟合的正则化参数。上述目标函数可以确保学习到的转换函数将原始协变量投影到了一个相似的单元会具有相似结果的信息子空间中。
与基于倾向评分的距离度量方法聚焦于平衡相比,预后评分与 HSIC-NNM 聚焦于表示观测结果与转换空间关系的表示。还有一些研究尝试将上述两类方法结合在一起,例如「平衡非线性表示方法」(BNR)。BNR 方法将协变量映射到一个平衡的低维度空间,其中非线性变换函数的参数通过联合优化下述两个目标实现:最大化非连续类散点与类内部散点之间的差异,这样具有相同结果预测的单元会在转换后具有相似的表示;最小化转换后的对照组与干预组之间的最大平均差异,以便在转换后获得平衡的空间。此外,还有一些研究使用了类似的目标函数但不同的正则化,例如使用条件性生成对抗网络来确保转换函数屏蔽了干预分配信息。
上述方法均将一种或两种转换分别作用于干预组与对照组,不同于这些方法,「随机性最近邻匹配」(RNNM)方法采用一系列的线性映射作为转换函数,并通过基于每个转换子空间的最近邻匹配得到的中位数干预效果作为估计干预效果。该方法的理论依据是 JL 引理,其保证了高维空间的点的成对相似性信息可以通过随机线性映射来保护。
3.3.2 选择匹配算法
在定义了相似度度量方式后,下一步就是找出相似的邻居。现有的匹配算法可以被分为四类:最近邻匹配、卡钳匹配、分层匹配与核匹配。上图对经典的距离度量与匹配算法进行了总结。最常用的匹配算法是「最近邻匹配」(NNM),具体的步骤是基于相似度得分(例如倾向评分)选择对照组和干预组中最接近的单元进行匹配,干预组单元可以和一个对照组单元进行匹配,称为成对匹配或 1-1 匹配;也可以匹配到两个对照组,称为 1-2 匹配,以此类推。邻居数量的选择是一个权衡,高数量的邻居可能会导致干预效果估计器的高偏差与低方差,而低数量的邻居会导致低偏差与高方差。实际上最佳的结构应该是完全匹配的方式,即一个干预组可能对应多个对照组,而一个对照组可能对应一个或多个干预组。此外,NNM 存在多种变体,如可重置的 NNM(可重复匹配)与不重置的 NNM。
对 NNM 来说,如果最接近的邻居依然相差较远,那么匹配的结果可能会很差。一种可行的方法是设置一个容忍度等级,来限制最大可接受的相似度得分(原文中直接使用了倾向评分)距离,这种方法被称为「卡钳匹配」,其添加了一种共同支持条件。另一种方法是将上述共同支持条件划分为一组区间,然后基于干预组与对照组观测结果的平均差计算每个区间内的影响。这种方法被称为「分层匹配」,也称为区间匹配,分块(blocking)或子分层。
上述匹配方法的共同点在于只使用了对照组中的一小部分观测结果来计算干预组的反事实结果(反之亦然)。「核匹配」和「局部线性匹配」是两种非参数的匹配方法,其使用对照组中观测的加权平均来计算反事实结果。因此,这些方法的一大主要优点是低方差,因为我们利用了更多的信息来创建反事实结果。
此外,还有一种被称为「广义精确匹配」(CEM)的匹配方法。不论是 1-k 匹配或是完全匹配,都没有考虑到外推区域(extrapolation region),该区域的特征是其他的干预组中没有或很少有合理的匹配。为了解决这一问题,CEM 首先对选定的重要协变量进行离散化(粗化),然后针对粗化的协变量进行精确匹配。例如,如果选定的协变量是年龄(年龄大于 50 为 1,否则为 0)和性别(女性为 1,男性为 0),那么干预组中一位年龄是 51 岁的女性患者可以基于粗化协变量表示为
。该名患者只可能匹配到干预组中持有完全相同的粗化协变量的患者(注意是干预组内匹配)。在精确匹配后,整个数据被分为了两个子集,一个子集中每个单元都有其精确匹配的邻居,而另一个子集中则包含了位于外推区域中的单元(即不存在相似的单元接受过干预)。外推区域中单元的结果通过基于匹配子集训练得到的结果预测模型来估计。最后,将两个子集分别计算出的干预结果进行加权平均,得到最终的结果。
综上所述,我们已经介绍了各种不同的匹配算法,最重要的问题在于如何从其中选择一个完美的匹配方法。实际上,当样本量足够大时,所有的匹配方法都会趋向于给出精确的匹配,得出相同的结果。当我们只有较小数量的样本时,需要在偏差与方差之间进行权衡,选择最合适的算法。
3.3.3 纳入的变量
上面两小节说明了匹配过程中的两个关键步骤,本节将简单讨论在匹配中应该考虑哪些变量(即变量选择),以提高匹配性能。很多文献建议尽可能多地纳入与干预分配和结果相关的变量,以满足强可忽略性。然而,受干预分配影响的「后干预变量」应该被排除在外。此外,「工具变量」(instrumental variables)也建议进行排除(只影响干预分配不影响结果的变量),因为其可能会趋向于放大干预结果估计器的偏差。
3.4 基于树的方法
因果推断中的另一种经典方法即基于「决策树学习」的预测性建模。决策树是一种用于分类与回归问题的非参数监督学习方法,其目标是创建一个模型,通过从数据中学习简单的决策规则来预测目标变量的值。
目标变量是离散变量的树被称为「分类树」,其预测误差基于错误分类的损失进行度量。在分类树的结构中,叶子节点代表类的标签,分支则代表通向对应标签的特征的组合。目标变量是连续变量的树被称为「回归树」,其预测误差基于观察值与预测值的平方差进行度量。「分类与回归树」(CART)用于指代上述两个过程,在 CART 模型中,数据会被划分为多个空间并分别拟合一个简单的预测模型,因此每个子空间都可以被单独表示为一个决策树。
为了估计因果效应中的异质性,研究者们基于 CART 提出了一种数据驱动的方法,根据干预效果的差异,将数据划分为多个亚组(子空间)。即使在样本量较小的情况下(协变量数量较多),该方法依旧能够获得有效的干预效果置信空间(无需稀疏假设)。与传统 CART 相比,该方法的区别主要体现在:第一,其专注于估计「条件平均干预效果」,而非直接预测结果;第二,其使用不同的样本来构造分区并针对每个亚组估计效果,这被称为「诚实估计」(honest estimation),而在传统 CART 中,构造分区与估计效果使用的是相同的样本。
总体来看,在 CART 中,只存在一棵树,根据实际需求进行生长与修剪。下面将介绍几种树的集成模型。第一种是「贝叶斯可加回归树」(BART),其与梯度提升树(类似),基于序列性弱学习器的贡献加成进行学习,与对独立估计进行平均的随机森林模型相反。具体来说,BART 模型中的每棵树都是一个弱学习器,其受一个正则化先验约束。相关预测信息可以通过贝叶斯 backfitting MCMC 算法从后验中提取。从形式上看,定义
为一个包含一系列中间节点决策规则与终端节点的二元树,定义
为与
中每
个终端节点相关联的参数。我们使用
来为输入向量
分配参数
,则 BART 模型可以被表示为:
BART 的优点可以概括为:首先,其非常容易实现,只需要确定结果,干预分配与混杂因子即可;其次,其不需要关于这些变量在参数上如何关联的信息,在拟合模型时需要更少的猜测;第三,其可以处理大量的预测变量,产生连贯的不确定性区间,同时适用于连续型干预变量和缺失数据。从研究者给出的结果来看,BART 模型不仅可以在估计平均因果效应上优于倾向评分匹配,倾向评分加权等方法,还可以较容易地估计个体层面的异质干预效果(即CATE)。
与 BART 模型相反,「随机森林」(random forest)则是一系列树预测器的结合,其中每棵树依赖于一个独立采样的随机向量,其对于所有树保持相同分布。随机森林模型通常用于平均治疗效果的估计,而通过 Wager 等人提出的因果森林(causal forest)算法可以将该模型进一步用于估计异质干预效果。
总的来看,基于树(或森林)的算法可以视为一种邻居参数可调整的最近邻方法,其尝试去寻找距离点
最近的训练样本,但是其接近程度通过决策树进行定义。距离
最近的点即为归为相同叶子节点的样本。使用树的好处之一在于其叶子节点的约束可以在信号变化较快的方向上变严格而在其他方向上则适当放宽,从而潜在地适应更大的特征空间。此外,基于树的框架还可以扩展至一维或多维干预。
3.5 表征学习方法
3.5.1 平衡表征学习
在统计学习中,最基本的假设之一就是训练数据与测试数据应当来源于相同的分布,而在大部分的实际应用中,测试集数据只是来源于与训练数据相关(而非相同)的分布。在因果推断中,数据分布的差异体现在:由于干预分配在观察性数据中并不明确,受到潜在混在因子的影响,导致反事实分布与事实分布间通常存在差异。因此,我们需要通过学习事实数据来预测反事实结果,其将因果推断问题转变为了一个「领域适应」(domain adaptation)问题。
对于领域适应问题来说,提取有效的特征表示至关重要。研究者们提出了一种具有泛化约束的模型来从理论上形式化上述直觉,该模型不仅可以明确地最小化源领域与目标领域之间的差异,也可以最大化训练集的作用范围。基于这一模型,分布间的「差异距离」(discrepancy distance)可以通过任意的损失函数与领域适应问题相关联。
在因果推断的领域适应问题中,差异距离扮演着重要的角色。具体来说,一种直观的想法是加强表征空间中不同组别分布之间的相似性,而学习到的表征需要在以下三类目标上进行权衡:(1)事实表征的低误差预测;(2)反事实结果的低误差预测(考虑相关的事实结果);(3)干预组与对照组分布之间的距离。基于上述思路,有研究者给出了一种简单而直觉化的泛化误差约束,其表明表征所对应的期望 ITE 估计误差受该表征的标准化泛化误差之和以及基于表征的干预与对照分布之间的距离所约束。具体来说,该方法使用「积分概率度量」(IPM)来衡量分布之间的距离,以推导 Wasserstein 距离与 MMD 距离所对应的显示边界。其目标是找出一个表征
与假设
以最小化如下目标函数:
其中
,
,权重
用于补偿干预组之间的规模差异,
是模型复杂度项。给定两个定义在
上的概率密度函数
,则对于函数
的函数族
,IPM 定义为:
上述模型可以学习复杂的非线性表征与假设,且具有较高的灵活性。当
的维数较高时,如果将
与
的连接作为输入,则干预对假设的影响可能会消失。为了解决这个问题,上述模型的原作者提出了一种方法,建立了一种包含
与
两个分离头部的联合网络,其中
用于估计干预组的结果,
则用于估计对照组的结果,每个样本只用于更新其实际干预所对应的头部。此外,多个研究表明,该模型还可以被扩展至任意数量的干预,并与其他的方法相结合(此处不作展开)。
总的来看,现有的 ITE 估计方法主要聚焦在平衡对照组与干预组的分布,忽略了为 ITE 估计提供有用约束的局部相似度信息。有研究者基于深度表征学习提出了一种保留局部相似性的 ITE 估计方法(SITE)。SITE 在平衡数据分布的同时保持了局部相似性,其框架包含 5 个主要部件:表征网络、三元组对选择、位置-依赖深度度量(PDDM)、中点距离最小化(MPDM),以及结果预测网络。为了提升模型效率,SITE 以小批量的形式输入单元,从每一批中选择三元组;表征网络从输入单元中学习潜在嵌入;根据所选择的三元组,PDDM 与 MPDM 可以保留局部相似度信息,同时在潜在空间中获得平衡的分布;最终,学习得到的小批量的嵌入被传入结果预测网络中以得到潜在的结果。SITE 的损失函数如下:
其中
是估计与观察事实结果之间的事实损失,
与
分别是 PDDM 与 MPDM 的损失函数,最后一项是对模型参数
的
正则化约束。
另一方面,大部分模型都聚焦在数值变量的协变量,如何在估计干预效果时处理包含文本信息的协变量依旧是一个开放性问题。一个主要的挑战是如何过滤掉接近工具变量的变量(即对干预分配的影响大于结果),以这些变量为条件进行干预效果估计会放大估计偏差。为了应对这一挑战,研究者们提出了一种基于干预对抗学习的匹配方法(CTAM),CTAM 引入干预对抗学习以在学习表征时滤除近似工具变量,并在学习到的表征间进行匹配以估计干预效果。CTAM 包含 3 个主要部件:文本处理、表征学习、条件干预判别器。通过文本处理组件,原始文本会被转化为向量表示
;随后
与非文本协变量
相连接以构建统一的特征向量,其被输入表征神经网络以获得潜在表征
;在学习到表征后,
与潜在结果
一起输入到条件干预判别器中。在训练过程中,表征学习器与条件干预判别器进行最小最大博弈:通过防止判别器分配正确的干预,表征学习器可以滤除与近似工具变量相关的信息。最终的匹配过程在表征空间
中进行。总的来看,条件干预-对抗学习可以帮助减少干预效果估计的偏差。
在表征学习类方法中,部分方法在学习到表征后使用基于回归的方法生成最终结果,而部分方法则采用基于匹配的方法。与回归方法相比,匹配方法的可解释性更强,因为任意样本的反事实结果都直接设置为接受相反干预的组中的最近邻的事实结果,即「最近邻匹配」算法(NNM)。虽然这种方式简单易懂,但其非常容易被与结果无关的变量所误导。为了应对这一挑战,可以在能够同时预测干预组与对照组结果变量的子空间进行匹配。在学习到的子空间应用 NNM 算法可以获得更加精准的反事实结果估计,从而获得更精准的干预效果估计。有研究者通过学习一个最大化子空间与对照样本结果变量之间非线性依赖的映射矩阵来估计干预样本的反事实结果,然后直接将学习到的映射矩阵应用到所有的样本来找出子空间中与每个干预样本相对应的对照样本。
3.6 多任务学习方法
对于干预组与对照组来说,其通常共享一些通用的特征,同时各自保有一些异质性的特征。自然地,因果推断可以被理解为一个「多任务学习」问题,其包含面向干预组与对照组的共享层集合,以及分别面向各组的特定层集合。在多任务学习问题中,选择偏差的影响可以通过一种倾向-dropout 正则化机制进行缓解,该机制通过依赖于相关联倾向评分的 dropout 概率为每个训练样本进行网络结构优化(随机去除单元),如果样本的特征在干预组与对照的特征空间中重叠较低,则其对应的 dropout 概率会偏高。
贝叶斯方法同样可以在多任务模型中得到应用。有研究者提出了一种非参数贝叶斯方法,其使用包含线性共区域化核的多任务高斯过程作为向量化再现核 Hilbert 空间上的先验,能够允许通过逐点可信区间计算估计中的个性化置信度量,实现更加精准的效果预测。选择偏差的影响则可以通过基于风险的经验贝叶斯方法进行缓解,其联合最小化事实结果中的经验误差以及反事实结果中的不确定性。
此外,多任务模型还可以被扩展至多重干预与包含连续性参数的干预。有研究者提出了一种剂量响应网络(DRNet),其具有共享的基础层,
层中间干预层,以及
个用于多重干预设置的头部(及其关联剂量参数
)。共享基础层在所有样本上进行训练,干预层只在其对应的干预类别的样本上进行训练。每个干预层进一步被分为
个头部层,每个头部层被分配一个剂量范围,其将潜在的剂量范围
划分为
个等宽区间。
3.7 元学习方法
在设计异质干预效果(即条件干预效果)估计算法时,应当考虑以下两个关键要素:
- 控制混杂因子,即消除混杂因子与结果之间的伪关联(以及选择偏差)
- 给出 CATE 估计的准确表达式
之前章节所给出的方法尝试去同时满足上述两个要素,而基于「元学习」(meta-learning)的算法会将上述要素分为两个步骤实现:
- 估计条件平均结果
,该步骤中学习得到的预测模型为基学习器(base learner)
- 基于第一步中结果的差异推导 CATE 估计器
现有的用于异质干预效果估计的元学习算法包括 T-learner、S-learner、X-learner、R-learner 等,下面将对这些算法进行详细介绍。
T-learner 采用两棵树来估计条件干预/对照结果,分别记作
与
。令
与
表示针对对照组与干预组训练的树模型(这里原文有一个符号错误)。T-learner 的 CATE 估计可以通过
得到。T-learner 得名的原因是其训练了面向对照组与干预组的两个(two)基础模型,而 S-learner 则将干预分配视为一项特征,估计组合结果:
("S" 表示 single)。
可以是任何基础模型,训练完成的模型记作
。由 S-learner 提供的 CATE 估计器可以表示为:
。
然而,T-learner 与 S-learner 高度依赖于训练得到的基础模型的表现,当干预组与对照组单元数量相差较大时,较小组训练得出的基础模型可能会表现较差。为了解决这一问题,研究者提出了 X-learner,其利用对照组的信息来为干预组进行更好地估计(反之亦然),"X" 表示 cross group。具体来说,X-learner 包含三个关键步骤:第一步与 T-learner 相同,训练处的基学习器记作
与
;第二步中,X-learner 计算观测结果与估计结果之间的差异,将其作为估计干预效果:对于对照组,差异为估计干预结果减去观测对照结果:
;类似地,对于干预组有,差异为:
。计算出差异后,数据集被转化为包含估计干预效果的两组:对照组
与干预组
。基于上述两个估计数据集,分别训练两个干预效果的基学习器
与
,以
(或
)作为输入,以
(或
)作为输出。在最后一步中,通过加权平均将上述两个 CATE 估计器进行结合:
,其中
为范围在 0-1 之间的权重函数。总的来看,通过交叉信息的使用以及两个 CATE 基估计器的加权,X-learner 能够较好地处理干预组与对照组单元数量分布不平衡的情况。
不同于 X-learner 中采用的常规损失函数,R-learner 基于 Robinson 变换进行损失函数设计(其名称也来源于此),Robinson 变换可以通过重写观测结果与条件结果来得到。具体来说,将观测结果重写为:
其中
是训练完成的对照结果估计器(基学习器),
是 CATE 估计器,且
(基于可忽略性假设)。条件平均结果可以被重写为:
其中
是训练完成的倾向评分估计器(基学习器)。Robinson 变换通过上述两式相减得到:
基于 Robinson 变换,一个好的 CATE 估计器应当最小化
与
之间的差异。因此,R-learner 的目标函数如下:
其中
与
分别是预训练结果估计器与倾向评分估计器,
是正则化项。
「未完待续」
参考资料
[1]
Causal inference in statistics: An overview: https://ftp.cs.ucla.edu/pub/stat_ser/r350.pdf