一介绍
本系列,我们介绍因果推断的经典综述论文《A Survey on Causal Inference》,上一篇ZZ介绍了本篇综述的第三个因果推断方法:“匹配方法“;匹配方法是针对每一个样本,匹配一些合适的近邻来估计反事实结果,核心部分是样本间距离的衡量。
对于作者介绍的基于前文三个假设下的七个因果推断方法:
(1) 权重更新方法;(2) 分层方法;(3) 匹配方法;(4) 基于树的方法;(5) 基于表示学习的方法;(6) 多任务学习方法;(7) 元学习方法。
本文我们来学习基于树的方法;首先附上上一篇链接:
因果推断文献解析|A Survey on Causal Inference(5)
论文原文点击文末【阅读原文】即可查看。为了区分是原文内容还是ZZ自己的理解,下面ZZ自己的旁白用粗体标出。
二正文解析
3.4 基于树的方法
基于决策树学习的方法也是一种流行的因果推断方法,这是一种预测模型方法。决策树是一种用于分类或者回归的无参数监督学习算法,决策树的目标是通过数据推导出简单的决策规则用以创建一个可以预测目标变量值的模型。
其实之前ZZ有对决策树算啊做过详细的解析,感兴趣的小伙伴可以暂时移步:
如果目标变量是离散变量,那么称为分类树,使用误分类成本来评估预测错误。在树模型的结构中,叶子节点表示类标签,分支节点表示推导出这些类标签的决策特征。如果目标变量是连续变量,那么称为回归树,其预测误差由观测值与预测值的平方差来度量。分类和回归树的总称为 Classification And Regression Tree (CART),用于指代上述两种过程。在CART模型中,对数据空间进行分区,并对每个分区空间拟合一个简单的预测模型,因此每个分区都可以用决策树的图形表示。
为了评估因果效应,原参考文献[9]提供了一种基于CART的数据驱动方法,该方法将数据划分为策略效果不同的子群。即使有许多与样本大小相关的相关变量,并且没有“稀疏性”假设的情况下,这种方法也能为策略效果建立有效的置信区间。
这种方法与传统的CART有两个不同之处:首先,它侧重于估计某些子群下的平均策略效果,而不是像传统CART那样侧重于预测结果。其次,对于构建分区和评估评估每个分区策略效果这个两步任务,该方法使用不同的样本,这样的估计是可靠的;然而,在传统的CART中,这两个任务使用相同的样本。
ZZ解释一下,总体来说,就是我们虽然也是构建决策树,但是不是为了预测一个新的样本的目标变量,只是为了得到树的结构,然后基于这个树的结构自然而然的将整个数据集划分出很多子群,然后评估各个子群的策略效果,最后进行加权平均即可。
在CART中,树是构建过程直到达到一个我们设定的划分阈值。对于一个决策树的结构,可以根据需要继续增加枝叶或者剪枝。然而,BART是一群树,所以它更像随机森林。在原参考文献[28][29]中提出了一种称为贝叶斯加性回归树(BART)的模型。BART模型中的每棵树都是弱学习器,并且受到正则化先验的约束。该模型可以通过贝叶斯后验公式和MCMC模拟进行学习训练。BART是一种非参数贝叶斯回归模型,它使用维度自适应随机的基础元素。
这个介绍的略显抽象,大概意思就是有BART这样一个集成算法,算法的基本元素是贝叶斯回归树,模型的优化过程是使用蒙特卡洛随机模拟和贝叶斯后验来搞定的,而且不用设置参数,是维度自适应的。对于贝叶斯估计ZZ之前也有详细介绍,哈哈,感兴趣的同学又可以移步:
设
是一棵二分类树,其中包含一组内部节点决策规则和终端节点,设
为
的第
个终端节点相关联的规则参数。我们使用
表示输入向量
在规则参数
下的运算结果。加性树模型可以表示为:
BART有几个优势。它很容易实现,只需要输入策略结果,策略分配情况,和混杂相关变量。此外,它不需要知道这些变量之间的相关关系,因此在拟合模型时需要较少的人为设定。此外,它可以通过使很多弱预测器结合的方式,产生合适的不确定性区间,也可以处理连续策略变量和缺失数据[53]。
BART是用来估计平均因果效应的。事实上,它也可以用来估计个体水平的因果效应。与其他方法如倾向得分匹配、倾向得分加权和回归调整等方法相比,BART不仅可以很容易地评估分层策略效应,而且可以更准确地估计平均策略效应[53]。
在以往的方法中,对策略效果的先验分布往往是间接推测的,这是很难获得的。加性回归树(例如,回归森林)的灵活之处在于,它可以通过建模,得到一个关于相关控制变量和策略变量与响应变量的函数关系,来解决这个问题[48]。这种方法介于两个极端之间:分别单独为策略组和对照组建模,或直接放在一起建模,仅将策略分配作为一个变量。这里的相关控制变量含义比较模糊,感兴趣的可以回到原参考文献[48]进行了解。
随机森林是一种由决策树预测器组合而成分类器,其中每棵树依赖于一组随机向量数据,该组随机向量数据是独立采样的,并且对所有决策树来说,这些数据的分布是相同的[20]。该模型还可以扩展到基于Breiman's 随机森林算法的分层处理效果估计[141]。决策树和随机森林是具有自适应邻域度量的最近邻方法,基于决策树的方法寻找接近于样本 x 的训练示例,本质上是基于决策树中的近邻概念来寻找近邻。最接近 X 的点是落在同一片叶子上的点。使用决策树的优点是,它们的叶子可以在信息快速变化的方向上更窄,而在其他方向上更宽,当特征空间的维数相当大时,可能导致计算复杂性的大幅增加。
基于决策树的框架也可以扩展到单维或多维策略[142]。每个策略可以是离散的,也可以是连续的。采用树形结构来指定样本特征与对应对应的策略之间的关系。这种基于树的框架对预设模型的出错有很好的鲁棒性,并且具有高度的灵活性和最小的手动调优。
言而总之,总而言之,作者想表达的意思就是通过决策树的方法,对样本就行了分层,或者说对样本进行了匹配,同一个叶子结点的样本为近邻群体,实现了分层或者匹配紧邻的目的;然后与前两种因果推断方法(分层和匹配)类似的加权求平均来评估ATE。然后上面介绍了好多这种方法的优点,其实主要就是无参数,自适应,集成方法准确度高!那么具体的操作方法,作者没有详细介绍,我们在之后的实践过程中再来体会一下。
三休息一下
本节书接上文,我们介绍第四个处理混杂的方法,决策树方法;总结来说是一种基于树模型的匹配方法,就是定义近邻的方式与匹配方法中不同;匹配方式是通过构造各种样本之间的距离来寻找近邻,基于决策树的方法是通过生成树这个过程来自动生成近邻群体。至于优劣我们最后统一比较,废话不多说了,接下来还是继续学习。