理解Double/debiased machine learning
Posted Jie Qiao
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了理解Double/debiased machine learning相关的知识,希望对你有一定的参考价值。
基础:线性回归
考虑一个经典线性高斯模型:
y = a x + u y=ax+u y=ax+u
其中U服从标准高斯分布,a是回归系数,那么回归的目的是找到一个a,使得x与u独立,即
c o v ( y − a x , x ) = 0 ⟹ c o v ( y , x ) − a c o v ( x , x ) = 0 ⟹ a = c o v ( y , x ) / c o v ( x , x ) \\beginaligned & cov( y-ax,x) =0\\\\ \\Longrightarrow & cov( y,x) -acov( x,x) =0\\\\ \\Longrightarrow & a=cov( y,x) /cov( x,x) \\endaligned ⟹⟹cov(y−ax,x)=0cov(y,x)−acov(x,x)=0a=cov(y,x)/cov(x,x)
这些知识在后面会反复用到。
Double/debiased machine learning
我们首先考虑这个因果模型(Partially Linear Regression):
Y = D θ 0 + g 0 ( X ) + U , E [ U ∣ X , D ] = 0 , D = m 0 ( X ) + V , E [ V ∣ X ] = 0 , \\beginarray c l Y=D\\theta _0 +g_0 (X)+U, & \\mathrmE [U\\mid X,D]=0,\\\\ D=m_0 (X)+V, & \\mathrmE [V\\mid X]=0, \\endarray Y=Dθ0+g0(X)+U,D=m0(X)+V,E[U∣X,D]=0,E[V∣X]=0,
其中 Y Y Y 是outcome, D D D 是policy/treatment,且X是个高维的变量
X = ( X 1 , … , X p ) X=( X_1 ,\\dotsc ,X_p) X=(X1,…,Xp)
在这里,我们最关心的是
θ
0
\\displaystyle \\theta _0
θ0,因为当我们给定某个X的时候,
θ
0
\\displaystyle \\theta _0
θ0就表示了在这个X的群体中,D这个treatment的因果效应。那么估计
θ
0
\\displaystyle \\theta _0
θ0最简单的方法就是,用机器学习去估计,这里我们先将数据随机分成两份,分别是
I
,
I
c
\\displaystyle I,I^c
I,Ic,不妨假设
g
^
0
\\displaystyle \\hatg_0
g^0是通过ML估计的函数,于是给定
g
^
0
\\displaystyle \\hatg_0
g^0,
θ
^
0
\\displaystyle \\hat\\theta _0
θ^0可以用线性回归得到
θ
^
0
=
c
o
v
(
D
,
Y
−
g
^
0
(
X
)
)
v
a
r
(
D
)
=
1
n
∑
i
∈
I
D
i
(
Y
i
−
g
^
0
(
X
i
)
)
1
n
∑
i
∈
I
D
i
2
(1)
\\hat\\theta _0 =\\fraccov( D,Y-\\hatg_0 (X))var( D) =\\frac\\frac1n\\sum _i\\in I D_i( Y_i -\\hatg_0 (X_i ))\\frac1n\\sum _i\\in I D^2_i \\tag1
θ^0=var(D)cov(D,Y−g^0(X))=n1∑i∈IDi2n1∑i∈IDi(Yi−g^0(Xi))(1)
这样的估计量其实很容易有bias,主要原因的它非常依赖于
g
^
0
\\displaystyle \\hatg_0
g^0的准确度,万一它有一点偏差就会产生很大的影响,我们来分析一下:
n ( θ ^ 0 − θ 0 ) = n 1 n ∑ i ∈ I D i ( Y i − g ^ 0 ( X i ) ) 1 n ∑ i ∈ I D i 2 − ( n 1 n ∑ i ∈ I D i ( Y i − g 0 ( X i ) ) 1 n ∑ i ∈ I D i 2 − n 1 n ∑ i ∈ I D i U i 1 n ∑ i ∈ I D i 2 ) = ( 1 n ∑ i ∈ I D i 2 ) − 1 1 n ∑ i ∈ I D i U i ⏟ : = a + ( 1 n ∑ i ∈ I D i 2 ) − 1 1 n ∑ i ∈ I D i ( g 0 ( X i ) − g ^ 0 ( X i ) ) ⏟ : = b . \\beginaligned \\sqrtn(\\hat\\theta _0 -\\theta _0) & =\\sqrtn\\frac\\frac1n\\sum _i\\in I D_i( Y_i -\\hatg_0 (X_i ))\\frac1n\\sum _i\\in I D^2_i -\\left(\\sqrtn\\frac\\frac1n\\sum _i\\in I D_i( Y_i -g_0 (X_i ))\\frac1n\\sum _i\\in I D^2_i -\\sqrtn\\frac\\frac1n\\sum _i\\in I D_i U_i\\frac1n\\sum _i\\in I D^2_i\\right)\\\\ & =\\underbrace\\left(\\frac1n\\sum _i\\in I D^2_i\\right)^-1\\frac1\\sqrtn\\sum _i\\in I D_i U_i_:=a +\\underbrace\\left(\\frac1n\\sum _i\\in I D^2_i\\right)^-1\\frac1\\sqrtn\\sum _i\\in I D_i( g_0( X_i) -\\hatg_0( X_i))_:=b . \\endaligned n(θ^Convolutional Pose Machines(理解)
机器阅读理解(Neural Machine Reading Comprehension)综述,相关方法及未来趋势
机器阅读理解(Neural Machine Reading Comprehension)综述,相关方法及未来趋势
机器阅读理解(Neural Machine Reading Comprehension)综述,相关方法及未来趋势
Teaching Machines to Understand Us 让机器理解我们 之二 深度学习的历史
Teaching Machines to Understand Us 让机器理解我们 之三 自然语言学习及深度学习的信仰