因果论文精读与总结(一)
本文重点梳理从因果树到因果森林、再到广义随机森林,正交随机森林,其中不乏涉及相关论文的精读推导.
1. 因果树
- 定义:处理效应的均方误差
- 公式:

- 核心点:"诚实"估计,honest approach
- 定义:①原来的树方法,使用训练样本训练出模型以后,我们用训练样本上各个子集的样本均值做为估计值,然后使用该估计值在测试集(test set)上计算MSE来判断模型的好坏;②修改后的计算方法,将训练样本切割成两部分,一部分仍是训练样本(train set),另一部分是估计样本(estimate set),即在训练样本上训练模型,模型训练好以后放到估计样本上计算估计值,最后使用该估计值在测试集上计算MSE来判断模型的好坏。
- 文章亮点:
- 改为诚实方法: 修改了MSE的表达式, 标准的Rubin因果框架假设样本个体间不存在相关性(SUTVA),保住了此假设.
- 修改了均方误差的计算方法。
变成了
式中的p代表的是处理组在子集中所占的比例, 1−p是对照组所占的比例了.
- 加快收敛速度.
- 原因二是无法观测到反事实结果,减掉 τ² 能够让我们回避无法直接观测到τ这个问题. 如右图所示.

- 诚实预估下的分裂准则:

-
优点:
-
诚实树和子采样保证了估计的结果具有渐近正态性与一致性
-
相对于uplift树的优势在于采用了诚实的方法. 有效避免过拟合.
-
- 公式:
2. 因果森林
- 提出一种非参的方法,相比传统的非参可以破除“维度诅咒”的问题。
- 其次,是在决策树、随机森林的基础上提出的因果森林,可以有效的提高样本的泛化能力
- “诚实树”的保证,处理效应的结果估计是无偏的.
- 除了无偏,作者最后证明因果森林得到的处理效应是渐近正态的。
3. 广义随机森林
泛化性.假设 θ(x) 是我们感兴趣的参数, v(x) 是我们不感兴趣的参数(nuisance parameter); O为观测结果;那么广义随机森林解决的是以下局部矩方程求得我们感兴趣的 θ(x) ,使得
![]()
- 跟因果森林一样:GRF的分裂标准是treatment效应估计的MSE最小,且采用诚实的方法.
- 结果预测:广义随机森林先对样本X与各棵子树计算相似度 ,再加权求得估计值.

- 树分裂准则:最小化感兴趣的参数的误差等价于最大化两个子节点的异质性.


4. 梯度提升树算法

4. 正交随机森林
- 但GRF需要假定unconfoundedness,对Y和T进行局部中心化后,对中心化后的结果进行估计(本质上其实是DML+GRF),可以在存在confounding的情况下识别treatment异质性,去除偏差。

5. 机器学习能为因果做些什么?
总结一句话,就是帮助解决因果推断中的“异质性”问题.
- 在了解所有的异质性处理效应之后,我们可以根据收益/成本最大化的目的,针对不同的群体实施treatment。
- 通过数据驱动的方式识别异质性因果的差异,而不需要预先分析计划。传统的计量经济学在分析异质性的时候,往往需要多次尝试,以了解异质性处理效应的结果。尤其是在连续变量切分的时候,我们往往无从下手。比如年龄段的cohort分析如何切分?房屋的大小,多大是大,多小是小?其中阈值难以知道。而机器学习,采用数据驱动的方式,省去了预先计划分析异质性。
6. QA
1.什么是维数诅咒?
增加维度而不增加训练样本的数量导致分类器性能的降低。不断增加维度,训练数据量需要以指数级增长,以保持相同的训练样本覆盖范围并避免过度拟合。
2.广义随机森林中的得分函数跟工具变量有何关系?
7. 因果的文章总结:
《Recursive Partitioning for Heterogeneous Causal Effects∗》Athey and Imbens (2016)
《Estimation and Inference of Heterogeneous Treatment Effects using Random Forests∗》 Wager and Athey (2018)
《GENERALIZED RANDOM FORESTS》 Athey, Julie and Wager (2019)
8. 引用:
机器学习能为异质性因果做些什么?(一) - 知乎 东海岸的向往
CART与因果推断I: Athey&Imbens(2016) - 知乎 对论文因果异质性切割方法的分析,主要将诚实的算法.
因果推断笔记 | 广义随机森林GRF(Generalized Random Forests) - 知乎 对广义随机森林论文的深度解读