基本概念
- 潜在结果:对于每个研究对象,假设在每种可能的处理状态下都有一个相应的潜在结果。例如,一个病人如果接受某种药物治疗(处理)和不接受治疗(对照)的情况下,分别会有两个潜在的健康状态。
- 处理效应:在处理状态和对照状态下潜在结果的差异,是一个变量(干预/处理)对另一个变量(结果或输出)的因果影响。
- 平均处理效应(ATE):是所有个体处理效应的平均值,表示在总体水平上,处理对结果的平均影响。
- 条件平均处理效应(CATE):在给定某些协变量条件下的平均处理效应,有助于理解在不同子群体中处理效应的异质性。
核心框架
因果推断主要分为两个框架模型:结构因果模型和潜在结果模型。
结构因果模型
结构因果模型(Structure Causal Model):该框架核心是在一个已知的因果图中去做推断,其中因果图一般由专家知识定义,用DAG有向无环图表示,其中顶点代表变量,边代表因果关系。目前已有较为成熟的判断准则如后门准则(Back Door)、前门准则(Front Door)等去除其中的混淆,通过Do-Calculus 干预方式进行因果估计(Causal Estimation)。
一个对应的衍生技术是因果发现(Causal Discovery):基于条件独立性检测和现有的数据去定义因果图,使用现有的变量去频繁地做条件独立性等一系列的独立性判断来组合定义因果图,这是一个NP问题,可能会出现组合爆炸的问题。
潜在结果框架
潜在结果框架(Potential Outcome Framework):也称为Rubin因果模型(Rubin Causal Model,RCM),由统计学家Donald Rubin和经济学家Guido Imbens等人发展。核心是估算不同干预策略下的潜在结果(包括反事实结果),以评估实际的干预效果。该框架不需要明确所有变量的因果结构,无需完整的因果图,只需要知道其中一个关注变量对于输出是否有因果影响。该框架强调随机化实验,通过随机化帮助消除干扰因素的影响。
- A Survey on Causal Inference