因果论文精读与总结(一)

本文重点梳理从因果树到因果森林、再到广义随机森林,正交随机森林,其中不乏涉及相关论文的精读推导.

1. 因果树

  1. 定义:处理效应的均方误差
    1. 公式:

    2. 核心点:"诚实"估计,honest approach
    3. 定义:①原来的树方法,使用训练样本训练出模型以后,我们用训练样本上各个子集的样本均值做为估计值,然后使用该估计值在测试集(test set)上计算MSE来判断模型的好坏;②修改后的计算方法,将训练样本切割成两部分,一部分仍是训练样本(train set),另一部分是估计样本(estimate set),即在训练样本上训练模型,模型训练好以后放到估计样本上计算估计值,最后使用该估计值在测试集上计算MSE来判断模型的好坏。
    4. 文章亮点:
      1. 改为诚实方法: 修改了MSE的表达式, 标准的Rubin因果框架假设样本个体间不存在相关性(SUTVA),保住了此假设.
      2. 修改了均方误差的计算方法。 ​变成了

        式中的p代表的是处理组在子集中所占的比例, 1−p是对照组所占的比例了. 

        1. 加快收敛速度.
        2. 原因二是无法观测到反事实结果,减掉 τ² 能够让我们回避无法直接观测到τ这个问题. 如右图所示.

        3. 诚实预估下的分裂准则:

          image.png

      3. 优点:

        1. 诚实树和子采样保证了估计的结果具有渐近正态性与一致性

        2. 相对于uplift树的优势在于采用了诚实的方法. 有效避免过拟合.  

2. 因果森林

  1. 提出一种非参的方法,相比传统的非参可以破除“维度诅咒”的问题。
  2. 其次,是在决策树、随机森林的基础上提出的因果森林,可以有效的提高样本的泛化能力
  3. “诚实树”的保证,处理效应的结果估计是无偏的.
  4. 除了无偏,作者最后证明因果森林得到的处理效应是渐近正态的。

3. 广义随机森林

泛化性.假设 θ(x) 是我们感兴趣的参数, v(x) 是我们不感兴趣的参数(nuisance parameter); O为观测结果;那么广义随机森林解决的是以下局部矩方程求得我们感兴趣的 θ(x) ,使得

  1. 跟因果森林一样:GRF的分裂标准是treatment效应估计的MSE最小,且采用诚实的方法.
  2. 结果预测:广义随机森林先对样本X与各棵子树计算相似度 ,再加权求得估计值.

  3. 树分裂准则:最小化感兴趣的参数的误差等价于最大化两个子节点的异质性.

4.  梯度提升树算法

4. 正交随机森林

  1. 但GRF需要假定unconfoundedness,对Y和T进行局部中心化后,对中心化后的结果进行估计(本质上其实是DML+GRF),可以在存在confounding的情况下识别treatment异质性,去除偏差。

5. 机器学习能为因果做些什么?

总结一句话,就是帮助解决因果推断中的“异质性”问题.

  1. 在了解所有的异质性处理效应之后,我们可以根据收益/成本最大化的目的,针对不同的群体实施treatment。
  2. 通过数据驱动的方式识别异质性因果的差异,而不需要预先分析计划。传统的计量经济学在分析异质性的时候,往往需要多次尝试,以了解异质性处理效应的结果。尤其是在连续变量切分的时候,我们往往无从下手。比如年龄段的cohort分析如何切分?房屋的大小,多大是大,多小是小?其中阈值难以知道。而机器学习,采用数据驱动的方式,省去了预先计划分析异质性。

6. QA

1.什么是维数诅咒?

增加维度而不增加训练样本的数量导致分类器性能的降低。不断增加维度,训练数据量需要以指数级增长,以保持相同的训练样本覆盖范围并避免过度拟合。

2.广义随机森林中的得分函数跟工具变量有何关系?

7. 因果的文章总结:

《Recursive Partitioning for Heterogeneous Causal Effects∗》Athey and Imbens (2016)

《Estimation and Inference of Heterogeneous Treatment Effects using Random Forests∗》 Wager and Athey (2018)

《GENERALIZED RANDOM FORESTS》 Athey, Julie and Wager (2019)

8. 引用:

机器学习能为异质性因果做些什么?(一) - 知乎 东海岸的向往

CART与因果推断I: Athey&Imbens(2016) - 知乎 对论文因果异质性切割方法的分析,主要将诚实的算法.

因果推断笔记 | 广义随机森林GRF(Generalized Random Forests) - 知乎 对广义随机森林论文的深度解读