理解Double/debiased machine learning

Posted Jie Qiao

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了理解Double/debiased machine learning相关的知识,希望对你有一定的参考价值。

基础:线性回归

考虑一个经典线性高斯模型:

y = a x + u y=ax+u y=ax+u

其中U服从标准高斯分布,a是回归系数,那么回归的目的是找到一个a,使得x与u独立,即

c o v ( y − a x , x ) = 0 ⟹ c o v ( y , x ) − a c o v ( x , x ) = 0 ⟹ a = c o v ( y , x ) / c o v ( x , x ) \\beginaligned & cov( y-ax,x) =0\\\\ \\Longrightarrow & cov( y,x) -acov( x,x) =0\\\\ \\Longrightarrow & a=cov( y,x) /cov( x,x) \\endaligned cov(yax,x)=0cov(y,x)acov(x,x)=0a=cov(y,x)/cov(x,x)

这些知识在后面会反复用到。

Double/debiased machine learning

我们首先考虑这个因果模型(Partially Linear Regression):

Y = D θ 0 + g 0 ( X ) + U , E [ U ∣ X , D ] = 0 , D = m 0 ( X ) + V , E [ V ∣ X ] = 0 , \\beginarray c l Y=D\\theta _0 +g_0 (X)+U, & \\mathrmE [U\\mid X,D]=0,\\\\ D=m_0 (X)+V, & \\mathrmE [V\\mid X]=0, \\endarray Y=Dθ0+g0(X)+U,D=m0(X)+V,E[UX,D]=0,E[VX]=0,

其中 Y Y Y 是outcome, D D D 是policy/treatment,且X是个高维的变量

X = ( X 1 , … , X p ) X=( X_1 ,\\dotsc ,X_p) X=(X1,,Xp)

在这里,我们最关心的是 θ 0 \\displaystyle \\theta _0 θ0,因为当我们给定某个X的时候, θ 0 \\displaystyle \\theta _0 θ0就表示了在这个X的群体中,D这个treatment的因果效应。那么估计 θ 0 \\displaystyle \\theta _0 θ0最简单的方法就是,用机器学习去估计,这里我们先将数据随机分成两份,分别是 I , I c \\displaystyle I,I^c I,Ic,不妨假设 g ^ 0 \\displaystyle \\hatg_0 g^0是通过ML估计的函数,于是给定 g ^ 0 \\displaystyle \\hatg_0 g^0 θ ^ 0 \\displaystyle \\hat\\theta _0 θ^0可以用线性回归得到
θ ^ 0 = c o v ( D , Y − g ^ 0 ( X ) ) v a r ( D ) = 1 n ∑ i ∈ I D i ( Y i − g ^ 0 ( X i ) ) 1 n ∑ i ∈ I D i 2 (1) \\hat\\theta _0 =\\fraccov( D,Y-\\hatg_0 (X))var( D) =\\frac\\frac1n\\sum _i\\in I D_i( Y_i -\\hatg_0 (X_i ))\\frac1n\\sum _i\\in I D^2_i \\tag1 θ^0=var(D)cov(D,Yg^0(X))=n1iIDi2n1iIDi(Yig^0(Xi))(1)
这样的估计量其实很容易有bias,主要原因的它非常依赖于 g ^ 0 \\displaystyle \\hatg_0 g^0的准确度,万一它有一点偏差就会产生很大的影响,我们来分析一下:

n ( θ ^ 0 − θ 0 ) = n 1 n ∑ i ∈ I D i ( Y i − g ^ 0 ( X i ) ) 1 n ∑ i ∈ I D i 2 − ( n 1 n ∑ i ∈ I D i ( Y i − g 0 ( X i ) ) 1 n ∑ i ∈ I D i 2 − n 1 n ∑ i ∈ I D i U i 1 n ∑ i ∈ I D i 2 ) = ( 1 n ∑ i ∈ I D i 2 ) − 1 1 n ∑ i ∈ I D i U i ⏟ : = a + ( 1 n ∑ i ∈ I D i 2 ) − 1 1 n ∑ i ∈ I D i ( g 0 ( X i ) − g ^ 0 ( X i ) ) ⏟ : = b . \\beginaligned \\sqrtn(\\hat\\theta _0 -\\theta _0) & =\\sqrtn\\frac\\frac1n\\sum _i\\in I D_i( Y_i -\\hatg_0 (X_i ))\\frac1n\\sum _i\\in I D^2_i -\\left(\\sqrtn\\frac\\frac1n\\sum _i\\in I D_i( Y_i -g_0 (X_i ))\\frac1n\\sum _i\\in I D^2_i -\\sqrtn\\frac\\frac1n\\sum _i\\in I D_i U_i\\frac1n\\sum _i\\in I D^2_i\\right)\\\\ & =\\underbrace\\left(\\frac1n\\sum _i\\in I D^2_i\\right)^-1\\frac1\\sqrtn\\sum _i\\in I D_i U_i_:=a +\\underbrace\\left(\\frac1n\\sum _i\\in I D^2_i\\right)^-1\\frac1\\sqrtn\\sum _i\\in I D_i( g_0( X_i) -\\hatg_0( X_i))_:=b . \\endaligned n (θ^

(c)2006-2024 SYSTEM All Rights Reserved IT常识