理解Double/debiased machine learning
Posted Jie Qiao
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了理解Double/debiased machine learning相关的知识,希望对你有一定的参考价值。
基础:线性回归
考虑一个经典线性高斯模型:
y = a x + u y=ax+u y=ax+u
其中U服从标准高斯分布,a是回归系数,那么回归的目的是找到一个a,使得x与u独立,即
c o v ( y − a x , x ) = 0 ⟹ c o v ( y , x ) − a c o v ( x , x ) = 0 ⟹ a = c o v ( y , x ) / c o v ( x , x ) \\beginaligned & cov( y-ax,x) =0\\\\ \\Longrightarrow & cov( y,x) -acov( x,x) =0\\\\ \\Longrightarrow & a=cov( y,x) /cov( x,x) \\endaligned ⟹⟹cov(y−ax,x)=0cov(y,x)−acov(x,x)=0a=cov(y,x)/cov(x,x)
这些知识在后面会反复用到。
Double/debiased machine learning
我们首先考虑这个因果模型(Partially Linear Regression):
Y = D θ 0 + g 0 ( X ) + U , E [ U ∣ X , D ] = 0 , D = m 0 ( X ) + V , E [ V ∣ X ] = 0 , \\beginarray c l Y=D\\theta _0 +g_0 (X)+U, & \\mathrmE [U\\mid X,D]=0,\\\\ D=m_0 (X)+V, & \\mathrmE [V\\mid X]=0, \\endarray Y=Dθ0+g0(X)+U,D=m0(X)+V,E[U∣X,D]=0,E[V∣X]=0,
其中 Y Y Y 是outcome, D D D 是policy/treatment,且X是个高维的变量
X = ( X 1 , … , X p ) X=( X_1 ,\\dotsc ,X_p) X=(X1,…,Xp)
在这里,我们最关心的是
θ
0
\\displaystyle \\theta _0
θ0,因为当我们给定某个X的时候,
θ
0
\\displaystyle \\theta _0
θ0就表示了在这个X的群体中,D这个treatment的因果效应。那么估计
θ
0
\\displaystyle \\theta _0
θ0最简单的方法就是,用机器学习去估计,这里我们先将数据随机分成两份,分别是
I
,
I
c
\\displaystyle I,I^c
I,Ic,不妨假设
g
^
0
\\displaystyle \\hatg_0
g^0是通过ML估计的函数,于是给定
g
^
0
\\displaystyle \\hatg_0
g^0,
θ
^
0
\\displaystyle \\hat\\theta _0
θ^0可以用线性回归得到
θ
^
0
=
c
o
v
(
D
,
Y
−
g
^
0
(
X
)
)
v
a
r
(
D
)
=
1
n
∑
i
∈
I
D
i
(
Y
i
−
g
^
0
(
X
i
)
)
1
n
∑
i
∈
I
D
i
2
(1)
\\hat\\theta _0 =\\fraccov( D,Y-\\hatg_0 (X))var( D) =\\frac\\frac1n\\sum _i\\in I D_i( Y_i -\\hatg_0 (X_i ))\\frac1n\\sum _i\\in I D^2_i \\tag1
θ^0=var(D)cov(D,Y−g^0(X))=n1∑i∈IDi2n1∑i∈IDi(Yi−g^0(Xi))(1)
这样的估计量其实很容易有bias,主要原因的它非常依赖于
g
^
0
\\displaystyle \\hatg_0
g^0的准确度,万一它有一点偏差就会产生很大的影响,我们来分析一下:
n ( θ ^ 0 − θ 0 ) = n 1 n ∑ i ∈ I D i ( Y i − g ^ 0 ( X i ) ) 1 n ∑ i ∈ I D i 2 − ( n 1 n ∑ i ∈ I D i ( Y i − g 0 ( X i ) ) 1 n ∑ i ∈ I D i 2 − n 1 n ∑ i ∈ I D i U i 1 n ∑ i ∈ I D i 2 ) = ( 1 n ∑ i ∈ I D i 2 ) − 1 1 n ∑ i ∈ I D i U i ⏟ : = a + ( 1 n ∑ i ∈ I D i 2 ) − 1 1 n ∑ i ∈ I D i ( g 0 ( X i ) − g ^ 0 ( X i ) ) ⏟ : = b . \\beginaligned \\sqrtn(\\hat\\theta _0 -\\theta _0) & =\\sqrtn\\frac\\frac1n\\sum _i\\in I D_i( Y_i -\\hatg_0 (X_i ))\\frac1n\\sum _i\\in I D^2_i -\\left(\\sqrtn\\frac\\frac1n\\sum _i\\in I D_i( Y_i -g_0 (X_i ))\\frac1n\\sum _i\\in I D^2_i -\\sqrtn\\frac\\frac1n\\sum _i\\in I D_i U_i\\frac1n\\sum _i\\in I D^2_i\\right)\\\\ & =\\underbrace\\left(\\frac1n\\sum _i\\in I D^2_i\\right)^-1\\frac1\\sqrtn\\sum _i\\in I D_i U_i_:=a +\\underbrace\\left(\\frac1n\\sum _i\\in I D^2_i\\right)^-1\\frac1\\sqrtn\\sum _i\\in I D_i( g_0( X_i) -\\hatg_0( X_i))_:=b . \\endaligned n(θ^