理解Double/debiased machine learning

Posted 2023-02-21 Jie Qiao

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了理解Double/debiased machine learning相关的知识，希望对你有一定的参考价值。

基础：线性回归

考虑一个经典线性高斯模型：

$y = a x + u$

其中U服从标准高斯分布，a是回归系数，那么回归的目的是找到一个a，使得x与u独立，即

$\\beginaligned & cov( y-ax,x) =0\\\\ \\Longrightarrow & cov( y,x) -acov( x,x) =0\\\\ \\Longrightarrow & a=cov( y,x) /cov( x,x) \\endaligned$

这些知识在后面会反复用到。

Double/debiased machine learning

我们首先考虑这个因果模型(Partially Linear Regression)：

$\\beginarray c l Y=D\\theta _0 +g_0 (X)+U, & \\mathrmE [U\\mid X,D]=0,\\\\ D=m_0 (X)+V, & \\mathrmE [V\\mid X]=0, \\endarray$

其中 $Y$ 是outcome, $D$ 是policy/treatment,且X是个高维的变量

$X_1 ,\\dotsc ,X_p)$

在这里，我们最关心的是 $\\displaystyle \\theta _0$ ，因为当我们给定某个X的时候， $\\displaystyle \\theta _0$ 就表示了在这个X的群体中，D这个treatment的因果效应。那么估计 $\\displaystyle \\theta _0$ 最简单的方法就是，用机器学习去估计，这里我们先将数据随机分成两份，分别是 $\\displaystyle I,I^c$ ，不妨假设 $\\displaystyle \\hatg_0$ 是通过ML估计的函数，于是给定 $\\displaystyle \\hatg_0$ ， $\\displaystyle \\hat\\theta _0$ 可以用线性回归得到
$\\hat\\theta _0 =\\fraccov( D,Y-\\hatg_0 (X))var( D) =\\frac\\frac1n\\sum _i\\in I D_i( Y_i -\\hatg_0 (X_i ))\\frac1n\\sum _i\\in I D^2_i \\tag1$
这样的估计量其实很容易有bias，主要原因的它非常依赖于 $\\displaystyle \\hatg_0$ 的准确度，万一它有一点偏差就会产生很大的影响，我们来分析一下：

$\\beginaligned \\sqrtn(\\hat\\theta _0 -\\theta _0) & =\\sqrtn\\frac\\frac1n\\sum _i\\in I D_i( Y_i -\\hatg_0 (X_i ))\\frac1n\\sum _i\\in I D^2_i -\\left(\\sqrtn\\frac\\frac1n\\sum _i\\in I D_i( Y_i -g_0 (X_i ))\\frac1n\\sum _i\\in I D^2_i -\\sqrtn\\frac\\frac1n\\sum _i\\in I D_i U_i\\frac1n\\sum _i\\in I D^2_i\\right)\\\\ & =\\underbrace\\left(\\frac1n\\sum _i\\in I D^2_i\\right)^-1\\frac1\\sqrtn\\sum _i\\in I D_i U_i_:=a +\\underbrace\\left(\\frac1n\\sum _i\\in I D^2_i\\right)^-1\\frac1\\sqrtn\\sum _i\\in I D_i( g_0( X_i) -\\hatg_0( X_i))_:=b . \\endaligned$