因果推断杂记——因果推断与线性回归、SHAP值理论的关系(十九)

2021-12-15 21:28:25 浏览数 (1)

文章目录

  • 1 因果推断与线性回归的关系
    • 1.1 DML的启发
    • 1.2 特殊的离散回归 = 因果?
  • 2 因果推断中的ITE 与SHAP值理论的思考

1 因果推断与线性回归的关系

第一个问题也是从知乎的这个问题开始:

因果推断(causal inference)是回归(regression)问题的一种特例吗?

其中经济学大佬慧航提到过,回归只是工具,因果推断可以用,其他研究方向也可以用。

在此给出我的看法,

因果推断,是需要考虑干预得(Y|X,T),其中干预效应是主要的差异点; 而一般的多元,只是(Y|X),并没有考量到干预T的影响

1.1 DML的启发

所以,之前在做DML的时候,可以看到整个异质性HTE的求解经过:

因果推断笔记——DML :Double Machine Learning案例学习(十六)

我们首先基于X使用ML获得T的残差和Y的残差,之后使用lr拟合残差,不同的是,这次我们把X和T的交互项加进来,即

Y i − M y ( X i ) = τ ( X i ) ⋅ ( T i − M t ( X i ) ) ϵ i

Y i ~ = α β 1 T i ~ β 2 X i T i ~ ϵ i

然后我们就可以计算CATE的值了:

μ ^ ( ∂ S a l e s i , X i ) = M ( P r i c e = 1 , X i ) − M ( P r i c e = 0 , X i )

其中,M即最后的lr模型。

从以上DML求解无偏异质性CATE的过程看到,如果要得到无偏解,是需要经过一些求解步骤的; 关于残差正交化可得到无偏差因果效应的数学原理:https://zhuanlan.zhihu.com/p/41993542

1.2 特殊的离散回归 = 因果?

当然,这里感觉有个特例, ( Y ∣ X , T ) 中 如果不考虑任何协变量的影响,只有 ( Y ∣ T ) 那么此时,因果关系的ATE,应该就是等于 ( Y ∣ T ) 离散回归的系数

2 因果推断中的ITE 与SHAP值理论的思考

本问题是由 多篇顶会看个体因果推断(ITE)的前世今生

机器学习模型可解释性进行到底 —— SHAP值理论(一)

引发的思考。

ITE代表的是无偏个体效应

再来看一下SHAP值中,可以“量化”不同特征,对个体的影响值,那么这个值,可以认为是RM的ITE吗?

虽然,SHAP值肯定是有偏的,但是也想沿着这个问题来看,SHAP值理论中的SHAP代表的怎么样的 “ITE”?在有偏的结论下,该如何解读?

之后简称sITE (此处应该需要公式推导,笔者水平就解读有限了)

个人理解:

s I T E = P r e d i c t ( Y ∣ X ) − P r e d i c t ( Y ∣ X ) 的 均 值

那么这里的实验组 - 对照组中的对照组就是,模型预测情况下,所有个体的“平均水平”

如果其中有一个特征是,是否有优惠券,

  • 特征SHAP值>0,就代表,优惠券对其的刺激,比大家反应要强烈一些,更能刺激购买
  • 特征SHAP值<0,代表,优惠券对其的刺激,要弱于常人,不利购买,不建议推送优惠券

沿着这个解读,给一个当下 “不负责任” 的结论: 值有偏,正负方向无偏

  • SHAP值量化出来的sITE 是有偏的,具体的值不具有参考意义;
  • 但方向(正负号)代表整体趋势,还是可以借用的。

所以,不知道看到这里的看客,

有木有人,想用SHAP值来直接做“个性化推荐”的?

0 人点赞