Causal effect可识别的一般条件

结论：干预后分布p(v′∣do(x))p(v'|do(x))p(v′∣do(x))，可识别的充要条件是，不存在confounder(隐的共同原因)，连接了X与X的孩子。举个例子，

上图的U1,U2U_1,U_2U1,U2是隐变量，该图p(y,z1,z2∣do(x))p(y,z_1,z_2|do(x))p(y,z1,z2∣do(x))是可识别的，因为不存在隐变量UUU同时指向X与X的孩子，但是如果我们加一个U3→X,U3→Z1U_3\to X,U_3\to Z_1U3→X,U3→Z1那就变成不可识别的了。

但这是为什么呢？干预后的分布又是什么意思？我们从干预这个操作开始讲起。

干预后的分布是什么？

先说下因果图的分布是什么？给定一个因果网络，以及变量v={v1,...,vn,x}\displaystyle v=\{v_{1} ,...,v_{n} ,x\}v={v1,...,vn,x}，假设没有隐变量，对于分布p(v)\displaystyle p( v)p(v)，可以进行概率分解：

P(v)=∏iP(vi∣pai)P( v) =\prod _{i} P( v_{i} |pa_{i}) P(v)=i∏P(vi∣pai)

那如果有隐变量u\displaystyle uu，但是所有隐变量都没有父亲（这种模型也被称为Semi-Markovian model），那么有隐变量的分布就是：

P(v)=∑u∏iP(vi∣pai,ui)p(u)P( v) =\sum _{u}\prod _{i} P\left( v_{i} |pa_{i} ,u^{i}\right) p( u) P(v)=u∑i∏P(vi∣pai,ui)p(u)

那个干预后的分布，我们可以定义为，强制改变
x的状态，但是其他的状态保持不变，记为px(v):=p(v′∣do(x))\displaystyle p_{x}( v) :=p( v'|do( x))px(v):=p(v′∣do(x))，其中v′v'v′表示不包括x的所有结点。那么对x干预的后果，会使得P(v)\displaystyle P( v)P(v)出现两种情况：

Px(v)={∏{i∣Vi∉x}P(vi∣pai)do(x)的取值在v中有概率0do(x)的取值在v中没有概率P_{x}( v) =\begin{cases} \prod _{\left\{i|V_{i}\not{\in } x\right\}} P( v_{i} |pa_{i}) & do( x) 的取值在v中有概率\\ 0 & do( x) 的取值在v中没有概率 \end{cases} Px(v)={∏{i∣Vi∈x}P(vi∣pai)0do(x)的取值在v中有概率do(x)的取值在v中没有概率

这是因为干预相当于让一个变量强制100%发生，那么其发生概率只会等于0或1（0的情况就表示这种干预不能发生）. 注意，虽然p(do(x)∣pax)=1\displaystyle p( do( x) |pa_{x}) =1p(do(x)∣pax)=1，但是p(y∣do(x))\displaystyle p( y|do( x))p(y∣do(x))不一定等于1的.

类似的，在有隐变量的时候，同样也有干预后的分布为

Px(v)={∑u∏{i∣Vi∉x}P(vi∣pai,ui)p(u)do(x)的取值在v中有概率0do(x)的取值在v中没有概率P_{x}( v) =\begin{cases} \sum _{u}\prod _{\left\{i|V_{i}\not{\in } x\right\}} P\left( v_{i} |pa_{i} ,u^{i}\right) p( u) & do( x) 的取值在v中有概率\\ 0 & do( x) 的取值在v中没有概率 \end{cases} Px(v)={∑u∏{i∣Vi∈x}P(vi∣pai,ui)p(u)0do(x)的取值在v中有概率do(x)的取值在v中没有概率

可识别性是什么？–以back door和front door为例

所谓可识别，就是回答以下问题：能不能仅用观测数据就算出Px(v)\displaystyle P_{x}( v)Px(v)，这个问题在没有隐变量的时候是显然的，因为Px(v)=∏{i∣Vi∉x}P(vi∣pai)\displaystyle P_{x}( v) =\prod _{\left\{i|V_{i}\not{\in } x\right\}} P( v_{i} |pa_{i})Px(v)={i∣Vi∈x}∏P(vi∣pai)，全部分布都是可观测的，所以一定可以算的。

练习1: 推导大名鼎鼎的back-door准则，设有因果关系X←Z→Y\displaystyle X\leftarrow Z\rightarrow YX←Z→Y且X→Y\displaystyle X\rightarrow YX→Y，于是

p(do(x),y,z)=p(z)p(do(x)∣z)⏟=1p(y∣z,do(x))⟹∑zp(do(x),y,z)=∑zp(z)p(y∣z,do(x))⟹p(y∣do(x))p(do(x))⏟=1=∑zp(z)p(y∣z,do(x))⟹p(y∣do(x))=∑zp(z)p(y∣z,do(x))\begin{array}{ c c l } & p( do( x) ,y,z) & =p( z)\underbrace{p( do( x) |z)}_{=1} p( y|z,do( x))\\ \Longrightarrow & \sum _{z} p( do( x) ,y,z) & =\sum _{z} p( z) p( y|z,do( x))\\ \Longrightarrow & p( y|do( x))\underbrace{p( do( x))}_{=1} & =\sum _{z} p( z) p( y|z,do( x))\\ \Longrightarrow & p( y|do( x)) & =\sum _{z} p( z) p( y|z,do( x)) \end{array} ⟹⟹⟹p(do(x),y,z)∑zp(do(x),y,z)p(y∣do(x))=1p(do(x))p(y∣do(x))=p(z)=1p(do(x)∣z)p(y∣z,do(x))=∑zp(z)p(y∣z,do(x))=∑zp(z)p(y∣z,do(x))=∑zp(z)p(y∣z,do(x))

显然这个只适用于没有隐变量的情况。但是有隐变量的时候怎么办？

练习2: 推导大名鼎鼎的fount-door准则

比如上图的结构，也有一个著名的准则交fount door准则：

p(y∣do(x))=∑zp(z∣x)∑xp(y∣x,z)p(x)p( y|do( x)) =\sum _{z} p( z|x)\sum _{x} p( y|x,z) p( x) p(y∣do(x))=z∑p(z∣x)x∑p(y∣x,z)p(x)

这个又是怎么来的呢？我们可以看看，首先

p(x,y,z)=p(z∣x)∑up(x∣u)p(y∣z,u)p(u)p( x,y,z) =p( z|x)\sum _{u} p( x|u) p( y|z,u) p( u) p(x,y,z)=p(z∣x)u∑p(x∣u)p(y∣z,u)p(u)

全概率这一步很简单但却是及其关键的，因为我们发现p(z∣x)\displaystyle p( z|x)p(z∣x)可以提出来，于是∑up(x∣u)p(y∣z,u)p(u)=p(x,y,z)p(z∣x)\displaystyle \sum _{u} p( x|u) p( y|z,u) p( u) =\frac{p( x,y,z)}{p( z|x)}u∑p(x∣u)p(y∣z,u)p(u)=p(z∣x)p(x,y,z)，这个的作用我们后面说，接来下do(x)\displaystyle do( x)do(x)，于是有：

p(do(x),y,z)=p(z∣do(x))∑up(y∣z,u)p(u)p( do( x) ,y,z) =p( z|do( x))\sum _{u} p( y|z,u) p( u) p(do(x),y,z)=p(z∣do(x))u∑p(y∣z,u)p(u)

两边同时对z求和：

p(do(x),y)=∑z∑up(z∣do(x))p(y∣z,u)p(u)=∑zp(z∣do(x))∑up(y∣z,u)p(u)p( do( x) ,y) =\sum _{z}\sum _{u} p( z|do( x)) p( y|z,u) p( u) =\sum _{z} p( z|do( x))\sum _{u} p( y|z,u) p( u) p(do(x),y)=z∑u∑p(z∣do(x))p(y∣z,u)p(u)=z∑p(z∣do(x))u∑p(y∣z,u)p(u)

接下来是关键了，我们发现它大概可以分解成两项，首先第一项是p(z∣do(x))=p(z∣x)\displaystyle p( z|do( x)) =p( z|x)p(z∣do(x))=p(z∣x)，因为这个分布概率并不会收到do的影响而变化。那么剩下第二项则是∑up(y∣z,u)p(u)\displaystyle \sum _{u} p( y|z,u) p( u)u∑p(y∣z,u)p(u)，关键的地方来了，我们发现∑up(x∣u)p(y∣z,u)p(u)=p(x,y,z)p(z∣x)\displaystyle \sum _{u} p( x|u) p( y|z,u) p( u) =\frac{p( x,y,z)}{p( z|x)}u∑p(x∣u)p(y∣z,u)p(u)=p(z∣x)p(x,y,z)，用这个表达式是可以消去隐变量的！对比下第二项∑z∑up(y∣z,u)p(u)\displaystyle \sum _{z}\sum _{u} p( y|z,u) p( u)z∑u∑p(y∣z,u)p(u)，很接近！但还差个p(x∣u)\displaystyle p( x|u)p(x∣u)，那么我们能不能凑这一项出来？然后把隐变量干掉？答案是可以！只需要加一个∑xp(x∣u)\displaystyle \sum _{x} p( x|u)x∑p(x∣u)，于是

∑up(y∣z,u)p(u)=∑x∑z∑up(x∣u)p(y∣z,u)p(u)=∑x∑z∑up(x∣u)p(y∣z,u)p(u)=∑x∑zp(x,y,z)p(z∣x)=∑x∑zp(y∣z,x)p(z∣x)p(x)p(z∣x)=∑x∑zp(y∣z,x)p(x)\begin{aligned} \sum _{u} p( y|z,u) p( u) & =\sum _{x}\sum _{z}\sum _{u} p( x|u) p( y|z,u) p( u)\\ & =\sum _{x}\sum _{z}\sum _{u} p( x|u) p( y|z,u) p( u)\\ & =\sum _{x}\sum _{z}\frac{p( x,y,z)}{p( z|x)}\\ & =\sum _{x}\sum _{z}\frac{p( y|z,x) p( z|x) p( x)}{p( z|x)}\\ & =\sum _{x}\sum _{z} p( y|z,x) p( x) \end{aligned} u∑p(y∣z,u)p(u)=x∑z∑u∑p(x∣u)p(y∣z,u)p(u)=x∑z∑u∑p(x∣u)p(y∣z,u)p(u)=x∑z∑p(z∣x)p(x,y,z)=x∑z∑p(z∣x)p(y∣z,x)p(z∣x)p(x)=x∑z∑p(y∣z,x)p(x)

最后总体来看：

p(do(x),y)=∑zp(z∣x)∑x∑zp(y∣z,x)p(x)\begin{aligned} p( do( x) ,y) & =\sum _{z} p( z|x)\sum _{x}\sum _{z} p( y|z,x) p( x) \end{aligned} p(do(x),y)=z∑p(z∣x)x∑z∑p(y∣z,x)p(x)

因为p(do(x),y)=p(y∣do(x))p(do(x))=p(y∣do(x))\displaystyle p( do( x) ,y) =p( y|do( x)) p( do( x)) =p( y|do( x))p(do(x),y)=p(y∣do(x))p(do(x))=p(y∣do(x))，所以我们就得到了front door准则!

p(y∣do(x))=∑zp(z∣x)∑xp(y∣x,z)p(x)p( y|do( x)) =\sum _{z} p( z|x)\sum _{x} p( y|x,z) p( x) p(y∣do(x))=z∑p(z∣x)x∑p(y∣x,z)p(x)

其实这里面最关键的一步是用p(x,y,z)p(z∣x)\displaystyle \frac{p( x,y,z)}{p( z|x)}p(z∣x)p(x,y,z)进行替换。

可识别的一般条件

从back door和front door的推导，我们可以找出一些规律，首先，我们发现全概率是可以替换掉隐变量的分布的，基于此，我们可以给出一个最简单的情况，设V′=V\{X}\displaystyle V'=V\backslash \{X\}V′=V\{X}，考虑px(v′)\displaystyle p_{x}( v')px(v′)的可识别性，这里v;\displaystyle v;v;是除了x的所有贝叶斯网络下的变量.

P(v)=∑u∏iP(vi∣pai,ui)p(u)P( v) =\sum _{u}\prod _{i} P\left( v_{i} |pa_{i} ,u^{i}\right) p( u) P(v)=u∑i∏P(vi∣pai,ui)p(u)
定理1: 如果没有双向边指向X的时候（X这个变量不存在latent confounder），Px(v)\displaystyle P_{x}( v)Px(v)可识别

Px(v′)=P(v′∣x,pax)P(pax)P_{x}( v') =P( v'|x,pa_{x}) P( pa_{x}) Px(v′)=P(v′∣x,pax)P(pax)

证明：
因为X没有latent confounder，因此p(x∣pax,ux)=p(x∣pax)\displaystyle p\left( x|pa_{x} ,u^{x}\right) =p( x|pa_{x})p(x∣pax,ux)=p(x∣pax)（x没有隐变量），于是

P(v)=p(v′∣x)p(x)=P(x∣pax)∑u∏{i∣Vi≠X}P(vi∣pai,ui)P(u)=P(x∣pax)P(v′,do(x))=P(x∣pax)P(v′∣do(x))\left. \begin{array}{ l } P(v)=p( v'|x) p( x)\\ =P(x|pa_{x} )\sum _{u}\prod _{\{i|V_{i} \neq X\}} P(v_{i} |pa_{i} ,u^{i} )P(u)\\ =P(x|pa_{x} )P (v',do( x) )\\ =P(x|pa_{x} )P(v'|do( x) ) \end{array}\right. P(v)=p(v′∣x)p(x)=P(x∣pax)∑u∏{i∣Vi=X}P(vi∣pai,ui)P(u)=P(x∣pax)P(v′,do(x))=P(x∣pax)P(v′∣do(x))

因此

Px(v′)=P(v)P(x∣pax)=P(v′∣x,pax)P(x∣pax)p(pax)P(x∣pax)=P(v′∣x,pax)P(pax)P_{x}( v') =\frac{P(v)}{P(x|pa_{x} )} =\frac{P(v'|x,pa_{x}) P( x|pa_{x}) p( pa_{x})}{P(x|pa_{x} )} =P( v'|x,pa_{x}) P( pa_{x}) Px(v′)=P(x∣pax)P(v)=P(x∣pax)P(v′∣x,pax)P(x∣pax)p(pax)=P(v′∣x,pax)P(pax)

证毕。

如果X有隐变量怎么办？另一个有趣的情况则是，如果没有双向边指向所有X直接孩子的话（意味着X和X的子孙(非直接孩子)都是允许存在双向边），我们也能推出一个可识别的公式。

定理2 如果所有X的直接孩子都没有双向边，则Px(v′)\displaystyle P_{x}( v')Px(v′)可识别，

Px(v′)=(∏{i∣Vi∈Chx}P(vi∣pai))∑xP(v)∏{i∣Vi∈Chx}P(vi∣pai)P_{x} (v')=\left(\prod _{\{i|V_{i} \in Ch_{x} \}} P(v_{i} |pa_{i} )\right)\sum _{x}\frac{P(v)}{\prod _{\{i|V_{i} \in Ch_{x} \}} P(v_{i} |pa_{i} )} Px(v′)=⎝⎛{i∣Vi∈Chx}∏P(vi∣pai)⎠⎞x∑∏{i∣Vi∈Chx}P(vi∣pai)P(v)

证明：
令S=V\(chx∪{X}),A=∏{i∣Vi∈S}P(vi∣pai,ui)\displaystyle S=V\backslash ( ch_{x} \cup \{X\}) ,A=\prod _{\{i|V_{i} \in S\}} P(v_{i} |pa_{i} ,u^{i} )S=V\(chx∪{X}),A={i∣Vi∈S}∏P(vi∣pai,ui). 因为所有X的孩子都没有隐变量，所以全概率可以分解为两部分：

p(v)=∏{i∣Vi∈chx}P(vi∣pai,ui)∑up(x∣pax,ux)⋅∏V\(chx∪{X})P(vi∣pai,ui)⏟A⋅p(u)p( v) =\prod _{\{i|V_{i} \in ch_{x} \}} P(v_{i} |pa_{i} ,u^{i} )\sum _{u} p\left( x|pa_{x} ,u^{x}\right) \cdotp \underbrace{\prod _{V\backslash ( ch_{x} \cup \{X\})} P(v_{i} |pa_{i} ,u^{i} )}_{A} \cdotp p( u) p(v)={i∣Vi∈chx}∏P(vi∣pai,ui)u∑p(x∣pax,ux)⋅AV\(chx∪{X})∏P(vi∣pai,ui)⋅p(u)

一部分是X的孩子(没有隐变量，所以可以提出来)，另一部分是其余的变量。又因为p(do(x)∣pax)=1\displaystyle p( do( x) |pa_{x}) =1p(do(x)∣pax)=1，所以

p(do(x),v′)=∏{i∣Vi∈chx}P(vi∣pai,ui)∑uA⋅p(u)p( do( x) ,v') =\prod _{\{i|V_{i} \in ch_{x} \}} P(v_{i} |pa_{i} ,u^{i} )\sum _{u} A\cdotp p( u) p(do(x),v′)={i∣Vi∈chx}∏P(vi∣pai,ui)u∑A⋅p(u)

好了，关键一步来了，跟之前类似，我们发现干预分布跟全概率分布长得很像，大家都有一个Ap(u)\displaystyle Ap( u)Ap(u)，就是缺了p(x∣pax,ux)\displaystyle p\left( x|pa_{x} ,u^{x}\right)p(x∣pax,ux)，所以自然的，我们可以在干预分布里强行加进去，利用∑xp(x∣pax,ux)=1\displaystyle \sum _{x} p\left( x|pa_{x} ,u^{x}\right) =1x∑p(x∣pax,ux)=1，这样我们就能借助全概率来消掉干预分布的隐变量。而且，因为A是排除了所有X与X的子代的变量，因此A不包含x，于是，

p(do(x),v′)=∏{i∣Vi∈chx}P(vi∣pai,ui)∑x∑up(x∣pax,ux)A⋅p(u)=∏{i∣Vi∈chx}P(vi∣pai,ui)∑xp(v)∏{i∣Vi∈chx}P(vi∣pai,ui)\begin{aligned} p( do( x) ,v') & =\prod _{\{i|V_{i} \in ch_{x} \}} P(v_{i} |pa_{i} ,u^{i} )\sum _{x}\sum _{u} p\left( x|pa_{x} ,u^{x}\right) A\cdotp p( u)\\ & =\prod _{\{i|V_{i} \in ch_{x} \}} P(v_{i} |pa_{i} ,u^{i} )\sum _{x}\frac{p( v)}{\prod _{\{i|V_{i} \in ch_{x} \}} P(v_{i} |pa_{i} ,u^{i} )} \end{aligned} p(do(x),v′)={i∣Vi∈chx}∏P(vi∣pai,ui)x∑u∑p(x∣pax,ux)A⋅p(u)={i∣Vi∈chx}∏P(vi∣pai,ui)x∑∏{i∣Vi∈chx}P(vi∣pai,ui)p(v)

证毕。

总结下，最重要的一步仍然是想办法用全概率将隐变量干掉，我们发现，当X的孩子没有隐变量的时候是可以干掉的，如果X的孩子有隐变量，那么A中就会包含X，这时候就不一定了。所以接来下的问题是什么时候可行，什么时候不可行？

如下图

显然，这个图里面X的孩子是由双向边U2\displaystyle U_{2}U2的，但他却是可以识别的。为什么？我们可以来推导下：

P(v)=∑u1P(x∣u1)P(z2∣z1,u1)P(u1)⏟Q1⋅∑u2P(z1∣x,u2)P(y∣x,z1,z2,u2)P(u2)⏟Q2P(v)=\underbrace{\sum _{u_{1}} P(x|u_{1} )P(z_{2} |z_{1} ,u_{1} )P(u_{1} )}_{Q_{1}} \cdot \underbrace{\sum _{u_{2}} P(z_{1} |x,u_{2} )P(y|x,z_{1} ,z_{2} ,u_{2} )P(u_{2} )}_{Q_{2}} P(v)=Q1u1∑P(x∣u1)P(z2∣z1,u1)P(u1)⋅Q2u2∑P(z1∣x,u2)P(y∣x,z1,z2,u2)P(u2)

我们发现p(v)\displaystyle p( v)p(v)分解成两部分，分别由u1,u2\displaystyle u_{1} ,u_{2}u1,u2两个求和组成，并且，这两部分对应的恰好是隐变量confounder导致的，这两部分，分别被confounder形成的分布，在后文会被称为c-factor. 于是，考虑干预后分布，因为p(do(x)∣u1)=1\displaystyle p( do( x) |u_{1}) =1p(do(x)∣u1)=1, 我们有

Px(v′)=∑u1P(z2∣z1,u1)P(u1)⋅∑u2P(z1∣x,u2)P(y∣x,z1,z2,u2)P(u2)⏟Q2P_{x} (v')=\sum _{u_{1}} P(z_{2} |z_{1} ,u_{1} )P(u_{1} )\cdot \underbrace{\sum _{u_{2}} P(z_{1} |x,u_{2} )P(y|x,z_{1} ,z_{2} ,u_{2} )P(u_{2} )}_{Q_{2}} Px(v′)=u1∑P(z2∣z1,u1)P(u1)⋅Q2u2∑P(z1∣x,u2)P(y∣x,z1,z2,u2)P(u2)

对比全概率公式，我们发现只缺了一项P(x∣u1)\displaystyle P(x|u_{1} )P(x∣u1)所以我们补回去，就有

Px(v′)=∑u2P(z1∣x,u2)P(y∣x,z1,z2,u2)P(u2)⏟Q2⋅∑x∑u1P(x∣u1)P(z2∣z1,u1)P(u1)⏟Q1=Q2∑xQ1\begin{aligned} P_{x} (v') & =\underbrace{\sum _{u_{2}} P(z_{1} |x,u_{2} )P(y|x,z_{1} ,z_{2} ,u_{2} )P(u_{2} )}_{Q_{2}} \cdot \sum _{x}\underbrace{\sum _{u_{1}} P(x|u_{1} )P(z_{2} |z_{1} ,u_{1} )P(u_{1} )}_{Q_{1}}\\ & =Q_{2}\sum _{x} Q_{1} \end{aligned} Px(v′)=Q2u2∑P(z1∣x,u2)P(y∣x,z1,z2,u2)P(u2)⋅x∑Q1u1∑P(x∣u1)P(z2∣z1,u1)P(u1)=Q2x∑Q1

这意味着，如果Q1\displaystyle Q_{1}Q1和Q2\displaystyle Q_{2}Q2这两部分都是可识别的（可从观测数据恢复），他们的整体就是可识别的！实际上，因为p(v)=Q1Q2\displaystyle p( v) =Q_{1} Q_{2}p(v)=Q1Q2，所以只要其中一个，比如Q1\displaystyle Q_{1}Q1可识别，另一个就可以识别Q2=p(v)Q1\displaystyle Q_{2} =\frac{p( v)}{Q_{1}}Q2=Q1p(v). 那Q1\displaystyle Q_{1}Q1要怎么识别呢？我们要想办法把u2\displaystyle u_{2}u2的部分干掉，但是又不能像之前一样用全概率（否则Q2\displaystyle Q_{2}Q2就没法恢复了），怎么办？虽然不能用所有变量的全概率，但是我们可以用部分结点的全概率啊！仔细观察全概率的分解，y\displaystyle yy只出现在Q2\displaystyle Q_{2}Q2中，所以可以通过求和(积分)把y干掉，得到只有3个变量的全概率！：

∑yP(v)=P(x,z1,z2)=∑u1P(x∣u1)P(z2∣z1,u1)P(u1)⏟Q1⋅∑u2P(z1∣x,u2)P(u2)\sum _{y} P(v)=P( x,z_{1} ,z_{2}) =\underbrace{\sum _{u_{1}} P(x|u_{1} )P(z_{2} |z_{1} ,u_{1} )P(u_{1} )}_{Q_{1}} \cdot \sum _{u_{2}} P(z_{1} |x,u_{2} )P(u_{2} ) y∑P(v)=P(x,z1,z2)=Q1u1∑P(x∣u1)P(z2∣z1,u1)P(u1)⋅u2∑P(z1∣x,u2)P(u2)

而且把y干掉之后，我们又发现，z2\displaystyle z_{2}z2只出现在Q1\displaystyle Q_{1}Q1中，所以也可以把他干掉：

∑y∑z2P(v)=P(x,z1)=P(x)⋅∑u2P(z1∣x,u2)P(u2)\sum _{y}\sum _{z_{2}} P(v)=P( x,z_{1}) =P(x) \cdot \sum _{u_{2}} P(z_{1} |x,u_{2} )P(u_{2} ) y∑z2∑P(v)=P(x,z1)=P(x)⋅u2∑P(z1∣x,u2)P(u2)

这样我们就得到两个部分变量的全概率分解。显然，用这两个全概率分解相除，u2\displaystyle u_{2}u2被消干掉了！

P(x,z1,z2)P(x,z1)=Q1P(x)⟹Q1=P(x,z1,z2)P(x,z1)P(x)=P(z2∣z1,x)P(z1∣x)p(x)P(z1∣x)=P(z2∣z1,x)p(x)⟹Q2=P(v)Q1=P(y∣z1,z2,x)P(z2∣z1,x)P(z1∣x)P(x)P(z2∣z1,x)p(x)=P(y∣z1,z2,x)P(z1∣x)\frac{P( x,z_{1} ,z_{2})}{P( x,z_{1})} =\frac{Q_{1}}{P(x)}\\ \Longrightarrow Q_{1} =\frac{P( x,z_{1} ,z_{2})}{P( x,z_{1})} P(x) =\frac{P( z_{2} |z_{1} ,x) P( z_{1} |x) p( x)}{P( z_{1} |x)} =P( z_{2} |z_{1} ,x) p( x)\\ \Longrightarrow Q_{2} =\frac{P( v)}{Q_{1}} =\frac{P( y|z_{1} ,z_{2} ,x) P( z_{2} |z_{1} ,x) P( z_{1} |x) P( x)}{P( z_{2} |z_{1} ,x) p( x)} =P( y|z_{1} ,z_{2} ,x) P( z_{1} |x) P(x,z1)P(x,z1,z2)=P(x)Q1⟹Q1=P(x,z1)P(x,z1,z2)P(x)=P(z1∣x)P(z2∣z1,x)P(z1∣x)p(x)=P(z2∣z1,x)p(x)⟹Q2=Q1P(v)=P(z2∣z1,x)p(x)P(y∣z1,z2,x)P(z2∣z1,x)P(z1∣x)P(x)=P(y∣z1,z2,x)P(z1∣x)

于是，我们终于得到干预后的分布：

Px(v′)=Q2∑xQ1=P(y∣z1,z2,x)P(z1∣x)∑x′P(z2∣z1,x′)p(x′)\begin{aligned} P_{x} (v') & =Q_{2}\sum _{x} Q_{1}\\ & =P( y|z_{1} ,z_{2} ,x) P( z_{1} |x)\sum _{x'} P( z_{2} |z_{1} ,x') p( x') \end{aligned} Px(v′)=Q2x∑Q1=P(y∣z1,z2,x)P(z1∣x)x′∑P(z2∣z1,x′)p(x′)

C-components

从上面可以看出，最关键的地方就是分解成Q1,Q2\displaystyle Q_{1} ,Q_{2}Q1,Q2的两部分，而这两部分从图上就是不重叠的两个confounder组成的，所以v可以分解为多个component的乘积

p(v)=∏j=1kQjp( v) =\prod ^{k}_{j=1} Q_{j} p(v)=j=1∏kQj

其中每个Q都对应一组隐变量的confounder的集合nj\displaystyle n_{j}nj，他们有着重合的孩子Sj\displaystyle S_{j}Sj，于是:

Qj=∑nj∏{i∣Vi∈S}p(vI∣pai,ui)P(nj)Q_{j} =\sum _{n_{j}}\prod _{\{i|V_{i} \in S\}} p\left( v_{I} |pa_{i} ,u^{i}\right) P( n_{j}) Qj=nj∑{i∣Vi∈S}∏p(vI∣pai,ui)P(nj)

我们称SJ\displaystyle S_{J}SJ为c-component (confounded component)，Qj\displaystyle Q_{j}Qj为c-factor. 最重要的是，我们可以证明，所有的Qj\displaystyle Q_{j}Qj都是可识别的！，换句话说，如果我们能将干预后的分布变成Q\displaystyle QQ的组合，那么干预后的分布就是可识别的了！并且每个Q\displaystyle QQ长这样：

Qj=∏{i∣Vi∈S}p(vi∣v(i−1))Q_{j} =\prod _{\{i|V_{i} \in S\}} p\left( v_{i} |v^{( i-1)}\right) Qj={i∣Vi∈S}∏p(vi∣v(i−1))

这里v(i−1)\displaystyle v^{( i-1)}v(i−1)表示的是在causal order排列下，所有排在vi\displaystyle v_{i}vi后的变量。显然，如果整个图只有一个Q\displaystyle QQ，那么Q=p(v1∣v2,...vn)p(v2∣v3,...,vn)...p(vn)\displaystyle Q=p( v_{1} |v_{2} ,...v_{n}) p( v_{2} |v_{3} ,...,v_{n}) ...p( v_{n})Q=p(v1∣v2,...vn)p(v2∣v3,...,vn)...p(vn)就是全概率分解.

那在什么情况下干预的分布可以写成Q的组合呢？论文[1]指出，当且仅当在没有任何双向边将X与X的孩子连起来就足够了。于是这个干预后的分布可以写成：

Px(v′)=QxX∏iQi=QxXp(v)QX=(i)(∑xQX)p(v)QXP(v)=QX∏iQi\begin{aligned} P_{x} (v') & =Q^{X}_{x}\prod _{i} Q_{i} =Q^{X}_{x}\frac{p( v)}{Q^{X}}\overset{( i)}{=}\left(\sum _{x} Q^{X}\right)\frac{p( v)}{Q^{X}}\\ P(v) & =Q^{X}\prod _{i} Q_{i} \end{aligned} Px(v′)P(v)=QxXi∏Qi=QxXQXp(v)=(i)(x∑QX)QXp(v)=QXi∏Qi

其中QX\displaystyle Q^{X}QX是X对应的c-factor，而QxX\displaystyle Q^{X}_{x}QxX是把QX\displaystyle Q^{X}QX中的p(x∣pax,ux)\displaystyle p\left( x|pa_{x} ,u^{x}\right)p(x∣pax,ux)删掉：

QxX=∑nX∏{i∣Vi≠X,Vi∈SX}p(vi∣pai,ui)p(nX)QX=∑nX∏{i∣Vi∈SX}p(vi∣pai,ui)p(nX)Q^{X}_{x} =\sum _{n^{X}}\prod _{\{i|V_{i} \neq X,V_{i} \in S^{X} \}} p\left( v_{i} |pa_{i} ,u^{i}\right) p\left( n^{X}\right)\\ Q^{X} =\sum _{n^{X}}\prod _{\{i|V_{i} \in S^{X} \}} p\left( v_{i} |pa_{i} ,u^{i}\right) p\left( n^{X}\right) QxX=nX∑{i∣Vi=X,Vi∈SX}∏p(vi∣pai,ui)p(nX)QX=nX∑{i∣Vi∈SX}∏p(vi∣pai,ui)p(nX)

注意等式QxXp(v)QX=(i)(∑xQX)p(v)QX\displaystyle Q^{X}_{x}\frac{p( v)}{Q^{X}}\overset{( i)}{=}\left(\sum _{x} Q^{X}\right)\frac{p( v)}{Q^{X}}QxXQXp(v)=(i)(x∑QX)QXp(v)，右边是只有在没有任何双向边将X与X的孩子连起来的时候才成立，但是左边是恒成立的。所以证明的关键就是等式QxX=(∑xQX)\displaystyle Q^{X}_{x} =\left(\sum _{x} Q^{X}\right)QxX=(x∑QX)能否成立。事实上，他们的差别就是一个将p(x∣pax,ux)\displaystyle p\left( x|pa_{x} ,u^{x}\right)p(x∣pax,ux)直接删掉，令一个是对x进行求和/积分，那在什么情况下这两个操作的结果是一致的呢？答案是在QX\displaystyle Q^{X}QX中，所有的p(vi∣pai,ui)\displaystyle p\left( v_{i} |pa_{i} ,u^{i}\right)p(vi∣pai,ui)里面的pai\displaystyle pa_{i}pai都不包括x\displaystyle xx的时候，对x求和，跟直接删掉p(x∣pax,ux)\displaystyle p\left( x|pa_{x} ,u^{x}\right)p(x∣pax,ux)是等价的。换句话说，如果存在一个confounder连接了X跟X的孩子，使得他们出现在同一个c-conponentQX\displaystyle Q^{X}QX中，导致其中的某个结点的父亲pai\displaystyle pa_{i}pai，出现了x\displaystyle xx，这时候求和是没法将p(x∣pax,ux)\displaystyle p\left( x|pa_{x} ,u^{x}\right)p(x∣pax,ux)删掉的，从而导致QX\displaystyle Q^{X}QX这一项不可识别。这就是证明的直观过程。具体过程，有兴趣自己看[1].

参考资料

Tian J, Pearl J. A general identification condition for causal effects[C]//Aaai/iaai. 2002: 567-573.

An Overview of The Back-Door and Front-Door Criteria