统一Pearl与Rubin的因果图模型:Single-World Intervention Graphs

Posted Jie Qiao

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了统一Pearl与Rubin的因果图模型:Single-World Intervention Graphs相关的知识,希望对你有一定的参考价值。

本文是Single World Intervention Graphs (SWIGs): Unifying the Counterfactual and Graphical Approaches to Causality论文的笔记

Single World Intervention Graphs

Rubin的potential outcome框架和 Juder peral 的DAG的模型,一直以来都处于割裂状态,这里用一个统一框架来统一两者。

我们知道在Rubin的potential outcome框架下,有很多必要的假设,比如ignorability

X ⊥ Y ( X = 0 ) ∣ L   a n d   X ⊥ Y ( X = 1 ) ∣ L X\\bot Y( X=0) |L\\ and\\ X\\bot Y( X=1) |L XY(X=0)L and XY(X=1)L

这个假设可以理解为,不管我的X的选择是什么,都不会对“潜在”的结果有任何影响,更直白点地说就是, Y ( 0 ) , Y ( 1 ) \\displaystyle Y( 0) ,Y( 1) Y(0),Y(1)是一个世界本来存在的值,X只是选择看哪个而已。然而这样的表述总是很不直观,而且 Y ( 0 ) , Y ( 1 ) \\displaystyle Y( 0) ,Y( 1) Y(0),Y(1)没有出现在图上的。有没有可能用一个图结果来刻画这些“潜在”的假设呢?

当满足ignorability假设我们就可以从观测数据中识别出 Y ( 0 ) , Y ( 1 ) \\displaystyle Y( 0) ,Y( 1) Y(0),Y(1)。然而Pearl也考虑过类似的问题,但他是考虑 P ( Y , d o ( X ) ) \\displaystyle P( Y,do( X)) P(Y,do(X))这样的分布是否可识别。从某种程度上来讲,potential outcome这套框架其实能提供更多的信息,因为使用do操作是没有办法对counterfactual建模的,而potential outcome框架却可以。

但是potential outcome这一框架往往不直观 Y ( 0 ) , Y ( 1 ) \\displaystyle Y( 0) ,Y( 1) Y(0),Y(1)根本没有在图上出现,我们没有办法直观地看到,他跟X到底是否独立。这里介绍一种Single-World Intervention Graphs (SWIGs),他可以帮我们在图上“画出” Y ( 0 ) , Y ( 1 ) \\displaystyle Y( 0) ,Y( 1) Y(0),Y(1)这些本来在DAG上不存在的变量,然后用最基本的D-separated就可以一眼看出其所有的独立性!

SWIG的构造方法就是将干预变量X进行node splitting:

此时,从图上就能看出来, X ⊥ Y ( 0 ) \\displaystyle X\\bot Y( 0) XY(0),于是有

P ( X = x , Y ( 0 ) = y ) = P ( X = x ) P ( Y ( 0 ) = y ) P( X=x,Y( 0) =y) =P( X=x) P( Y( 0) =y) P(X=x,Y(0)=y)=P(X=x)P(Y(0)=y)

其中

P ( Y ( 0 ) = y ) = P ( Y = y ∣ X = 0 ) P( Y( 0) =y) =P( Y=y|X=0) P(Y(0)=y)=P(Y=yX=0)

类似的,X=1也能得到类似的图与结论。你可以发现,这个图每次只能表示一个x的状态(这也是被称为single-world的原因,每次只能观测到一个世界),我们可以引入模板来作为world的选择,

从而不同的 G ( x 0 ) , G ( x 1 ) \\displaystyle \\mathcalG( x_0) ,\\mathcalG( x_1) G(x0),G(x1)可以用来分别表达不同的 x \\displaystyle x x的取值。需要注意的是,这个图只是说明了 X ⊥ Y ( 0 ) \\displaystyle X\\bot Y( 0) XY(0) X ⊥ Y ( 1 ) \\displaystyle X\\bot Y( 1) XY(1)成立,并没有假设 X ⊥ Y ( 0 ) , Y ( 1 ) \\displaystyle X\\bot Y( 0) ,Y( 1) XY(0),Y(1),事实上,这样的写法是不对的,我们需要的就只是 X ⊥ Y ( 0 ) \\displaystyle X\\bot Y( 0) XY(0) X ⊥ Y ( 1 ) \\displaystyle X\\bot Y( 1) XY(1)

用SWIG推导back-door formula

现在我们尝试用SWIG来推导出back-door准则,

从上图可以看到显然, X ⊥ Y ( x ) ∣ L \\displaystyle X\\bot Y( x) |L XY(x)L成立,因此

P ( Y ( x ) = y ) = ∑ l P ( Y ( x ) = y ∣ L = l ) P ( L = l ) = ∑ l P ( Y ( x ) = y ∣ L = l , X = x ) P ( L = l ) = ∑ l P ( Y = y ∣ L = l , X = x ) P ( L = l ) \\beginaligned P( Y( x) =y) & =\\sum _l P( Y( x) =y|L=l) P( L=l)\\\\ & =\\sum _l P( Y( x) =y|L=l,X=x) P( L=l)\\\\ & =\\sum _l P( Y=y|L=l,X=x) P( L=l) \\endaligned P(Y(x)=y)=lP(Y(x)=yL=l)P(L=l)=lP(Y(x)=yL=l,X=x)P(L=l)=lP(Y=yL=l,X=x)P(L=l)

这就推出来了。

这篇文章还提到Rubin这套模型与pearl的SEM模型的优势在于,SEM由于要假设噪声是相互独立的,而这一假设是无法通过随机试验检验的,而Rubin这一套模型是完全可检验的,因此更有优势。

g-formula

g-formula可以看做是一种更加一般化的back-door,它给出了更一般情况下,potential outcome的识别方法,即在干预后的分布中,如何从观测数据中计算出potential outcome。

举个例子,考虑一个sequence treatments的情况:

我们有

P ( Y ( a 0 , a 1 ) = y ) = ∑ l P ( L ( a 0 ) = l , Y ( a 0 , a 1 ) = y ) = ∑ l P ( L = l ∣ A 0 = a 0 ) P ( Y = y ∣ A 0 = a 0 , L = l , A 1 = a 1 ) \\beginaligned P( Y( a_0 ,a_1) =y) & =\\sum _l P( L( a_0) =l,Y( a_0 ,a_1) =y)\\\\ & =\\sum _l P( L=l\\mid A_0 =a_0) P( Y=y\\mid A_0 =a_0 ,L=l,A_1 =a_1) \\endaligned P(Y(a0,a1)=y)=lP(L(a0)=l,Y(a0,a1)=y)=lP(L=lA0=a0)P(Y=yA0=a0,L=l,A1=a1)

这里第二个等于号,其实就是相当于考虑上述推论18中,令 B = L , Y \\displaystyle B=\\L,Y\\ B=L,Y

事实上,在有隐变量的时候也仍然适用,比如

H是隐的,但此时该式子同样适用

P ( Y ( a 0 , a 1 ) = y ) = ∑ l , h p ( l ∣ h , a 0 ) p ( y ∣ a 1 , l , a 0 , h ) p ( h ) ( H ⊥ A 0 ) = ∑ l , h p ( l ∣ h , a 0 ) p ( y ∣ a 1 , l , a 0 , h ) p ( h ∣ a 0

以上是关于统一Pearl与Rubin的因果图模型:Single-World Intervention Graphs的主要内容,如果未能解决你的问题,请参考以下文章

因果推断笔记—— 相关理论:Rubin PotentialPearl倾向性得分与机器学习异同

人工智能以及朱迪亚·珀尔(Judea Pearl)的因果推理误区

人工智能以及朱迪亚·珀尔(Judea Pearl)的因果推理误区

因果推断中期学习小结

因果推断中期学习小结

因果推断笔记——python 倾向性匹配PSM实现示例