Causal effect可识别的一般条件

结论:干预后分布p(v′∣do(x))p(v'|do(x))p(v′∣do(x)),可识别的充要条件是,不存在confounder(隐的共同原因),连接了X与X的孩子。举个例子,

上图的U1,U2U_1,U_2U1​,U2​是隐变量,该图p(y,z1,z2∣do(x))p(y,z_1,z_2|do(x))p(y,z1​,z2​∣do(x))是可识别的,因为不存在隐变量UUU同时指向X与X的孩子,但是如果我们加一个U3→X,U3→Z1U_3\to X,U_3\to Z_1U3​→X,U3​→Z1​那就变成不可识别的了。

但这是为什么呢?干预后的分布又是什么意思?我们从干预这个操作开始讲起。

干预后的分布是什么?

先说下因果图的分布是什么?给定一个因果网络,以及变量v={v1,...,vn,x}\displaystyle v=\{v_{1} ,...,v_{n} ,x\}v={v1​,...,vn​,x},假设没有隐变量,对于分布p(v)\displaystyle p( v)p(v),可以进行概率分解:

P(v)=∏iP(vi∣pai)P( v) =\prod _{i} P( v_{i} |pa_{i}) P(v)=i∏​P(vi​∣pai​)

那如果有隐变量u\displaystyle uu,但是所有隐变量都没有父亲(这种模型也被称为Semi-Markovian model),那么有隐变量的分布就是:

P(v)=∑u∏iP(vi∣pai,ui)p(u)P( v) =\sum _{u}\prod _{i} P\left( v_{i} |pa_{i} ,u^{i}\right) p( u) P(v)=u∑​i∏​P(vi​∣pai​,ui)p(u)

那个干预后的分布,我们可以定义为,强制改变
x的状态,但是其他的状态保持不变,记为px(v):=p(v′∣do(x))\displaystyle p_{x}( v) :=p( v'|do( x))px​(v):=p(v′∣do(x)),其中v′v'v′表示不包括x的所有结点。那么对x干预的后果,会使得P(v)\displaystyle P( v)P(v)出现两种情况:

Px(v)={∏{i∣Vi∉x}P(vi∣pai)do(x)的取值在v中有概率0do(x)的取值在v中没有概率P_{x}( v) =\begin{cases} \prod _{\left\{i|V_{i}\not{\in } x\right\}} P( v_{i} |pa_{i}) & do( x) 的取值在v中有概率\\ 0 & do( x) 的取值在v中没有概率 \end{cases} Px​(v)={∏{i∣Vi​​∈x}​P(vi​∣pai​)0​do(x)的取值在v中有概率do(x)的取值在v中没有概率​

这是因为干预相当于让一个变量强制100%发生,那么其发生概率只会等于0或1(0的情况就表示这种干预不能发生). 注意,虽然p(do(x)∣pax)=1\displaystyle p( do( x) |pa_{x}) =1p(do(x)∣pax​)=1,但是p(y∣do(x))\displaystyle p( y|do( x))p(y∣do(x))不一定等于1的.

类似的,在有隐变量的时候,同样也有干预后的分布为

Px(v)={∑u∏{i∣Vi∉x}P(vi∣pai,ui)p(u)do(x)的取值在v中有概率0do(x)的取值在v中没有概率P_{x}( v) =\begin{cases} \sum _{u}\prod _{\left\{i|V_{i}\not{\in } x\right\}} P\left( v_{i} |pa_{i} ,u^{i}\right) p( u) & do( x) 的取值在v中有概率\\ 0 & do( x) 的取值在v中没有概率 \end{cases} Px​(v)={∑u​∏{i∣Vi​​∈x}​P(vi​∣pai​,ui)p(u)0​do(x)的取值在v中有概率do(x)的取值在v中没有概率​

可识别性是什么?–以back door和front door为例

所谓可识别,就是回答以下问题:能不能仅用观测数据就算出Px(v)\displaystyle P_{x}( v)Px​(v),这个问题在没有隐变量的时候是显然的,因为Px(v)=∏{i∣Vi∉x}P(vi∣pai)\displaystyle P_{x}( v) =\prod _{\left\{i|V_{i}\not{\in } x\right\}} P( v_{i} |pa_{i})Px​(v)={i∣Vi​​∈x}∏​P(vi​∣pai​),全部分布都是可观测的,所以一定可以算的。

练习1: 推导大名鼎鼎的back-door准则,设有因果关系X←Z→Y\displaystyle X\leftarrow Z\rightarrow YX←Z→Y且X→Y\displaystyle X\rightarrow YX→Y,于是

p(do(x),y,z)=p(z)p(do(x)∣z)⏟=1p(y∣z,do(x))⟹∑zp(do(x),y,z)=∑zp(z)p(y∣z,do(x))⟹p(y∣do(x))p(do(x))⏟=1=∑zp(z)p(y∣z,do(x))⟹p(y∣do(x))=∑zp(z)p(y∣z,do(x))\begin{array}{ c c l } & p( do( x) ,y,z) & =p( z)\underbrace{p( do( x) |z)}_{=1} p( y|z,do( x))\\ \Longrightarrow & \sum _{z} p( do( x) ,y,z) & =\sum _{z} p( z) p( y|z,do( x))\\ \Longrightarrow & p( y|do( x))\underbrace{p( do( x))}_{=1} & =\sum _{z} p( z) p( y|z,do( x))\\ \Longrightarrow & p( y|do( x)) & =\sum _{z} p( z) p( y|z,do( x)) \end{array} ⟹⟹⟹​p(do(x),y,z)∑z​p(do(x),y,z)p(y∣do(x))=1p(do(x))​​p(y∣do(x))​=p(z)=1p(do(x)∣z)​​p(y∣z,do(x))=∑z​p(z)p(y∣z,do(x))=∑z​p(z)p(y∣z,do(x))=∑z​p(z)p(y∣z,do(x))​

显然这个只适用于没有隐变量的情况。但是有隐变量的时候怎么办?

练习2: 推导大名鼎鼎的fount-door准则

比如上图的结构,也有一个著名的准则交fount door准则:

p(y∣do(x))=∑zp(z∣x)∑xp(y∣x,z)p(x)p( y|do( x)) =\sum _{z} p( z|x)\sum _{x} p( y|x,z) p( x) p(y∣do(x))=z∑​p(z∣x)x∑​p(y∣x,z)p(x)

这个又是怎么来的呢?我们可以看看,首先

p(x,y,z)=p(z∣x)∑up(x∣u)p(y∣z,u)p(u)p( x,y,z) =p( z|x)\sum _{u} p( x|u) p( y|z,u) p( u) p(x,y,z)=p(z∣x)u∑​p(x∣u)p(y∣z,u)p(u)

全概率这一步很简单但却是及其关键的,因为我们发现p(z∣x)\displaystyle p( z|x)p(z∣x)可以提出来,于是∑up(x∣u)p(y∣z,u)p(u)=p(x,y,z)p(z∣x)\displaystyle \sum _{u} p( x|u) p( y|z,u) p( u) =\frac{p( x,y,z)}{p( z|x)}u∑​p(x∣u)p(y∣z,u)p(u)=p(z∣x)p(x,y,z)​,这个的作用我们后面说,接来下do(x)\displaystyle do( x)do(x),于是有:

p(do(x),y,z)=p(z∣do(x))∑up(y∣z,u)p(u)p( do( x) ,y,z) =p( z|do( x))\sum _{u} p( y|z,u) p( u) p(do(x),y,z)=p(z∣do(x))u∑​p(y∣z,u)p(u)

两边同时对z求和:

p(do(x),y)=∑z∑up(z∣do(x))p(y∣z,u)p(u)=∑zp(z∣do(x))∑up(y∣z,u)p(u)p( do( x) ,y) =\sum _{z}\sum _{u} p( z|do( x)) p( y|z,u) p( u) =\sum _{z} p( z|do( x))\sum _{u} p( y|z,u) p( u) p(do(x),y)=z∑​u∑​p(z∣do(x))p(y∣z,u)p(u)=z∑​p(z∣do(x))u∑​p(y∣z,u)p(u)

接下来是关键了,我们发现它大概可以分解成两项,首先第一项是p(z∣do(x))=p(z∣x)\displaystyle p( z|do( x)) =p( z|x)p(z∣do(x))=p(z∣x),因为这个分布概率并不会收到do的影响而变化。那么剩下第二项则是∑up(y∣z,u)p(u)\displaystyle \sum _{u} p( y|z,u) p( u)u∑​p(y∣z,u)p(u),关键的地方来了,我们发现∑up(x∣u)p(y∣z,u)p(u)=p(x,y,z)p(z∣x)\displaystyle \sum _{u} p( x|u) p( y|z,u) p( u) =\frac{p( x,y,z)}{p( z|x)}u∑​p(x∣u)p(y∣z,u)p(u)=p(z∣x)p(x,y,z)​,用这个表达式是可以消去隐变量的!对比下第二项∑z∑up(y∣z,u)p(u)\displaystyle \sum _{z}\sum _{u} p( y|z,u) p( u)z∑​u∑​p(y∣z,u)p(u),很接近!但还差个p(x∣u)\displaystyle p( x|u)p(x∣u),那么我们能不能凑这一项出来?然后把隐变量干掉?答案是可以!只需要加一个∑xp(x∣u)\displaystyle \sum _{x} p( x|u)x∑​p(x∣u),于是

∑up(y∣z,u)p(u)=∑x∑z∑up(x∣u)p(y∣z,u)p(u)=∑x∑z∑up(x∣u)p(y∣z,u)p(u)=∑x∑zp(x,y,z)p(z∣x)=∑x∑zp(y∣z,x)p(z∣x)p(x)p(z∣x)=∑x∑zp(y∣z,x)p(x)\begin{aligned} \sum _{u} p( y|z,u) p( u) & =\sum _{x}\sum _{z}\sum _{u} p( x|u) p( y|z,u) p( u)\\ & =\sum _{x}\sum _{z}\sum _{u} p( x|u) p( y|z,u) p( u)\\ & =\sum _{x}\sum _{z}\frac{p( x,y,z)}{p( z|x)}\\ & =\sum _{x}\sum _{z}\frac{p( y|z,x) p( z|x) p( x)}{p( z|x)}\\ & =\sum _{x}\sum _{z} p( y|z,x) p( x) \end{aligned} u∑​p(y∣z,u)p(u)​=x∑​z∑​u∑​p(x∣u)p(y∣z,u)p(u)=x∑​z∑​u∑​p(x∣u)p(y∣z,u)p(u)=x∑​z∑​p(z∣x)p(x,y,z)​=x∑​z∑​p(z∣x)p(y∣z,x)p(z∣x)p(x)​=x∑​z∑​p(y∣z,x)p(x)​

最后总体来看:

p(do(x),y)=∑zp(z∣x)∑x∑zp(y∣z,x)p(x)\begin{aligned} p( do( x) ,y) & =\sum _{z} p( z|x)\sum _{x}\sum _{z} p( y|z,x) p( x) \end{aligned} p(do(x),y)​=z∑​p(z∣x)x∑​z∑​p(y∣z,x)p(x)​

因为p(do(x),y)=p(y∣do(x))p(do(x))=p(y∣do(x))\displaystyle p( do( x) ,y) =p( y|do( x)) p( do( x)) =p( y|do( x))p(do(x),y)=p(y∣do(x))p(do(x))=p(y∣do(x)),所以我们就得到了front door准则!

p(y∣do(x))=∑zp(z∣x)∑xp(y∣x,z)p(x)p( y|do( x)) =\sum _{z} p( z|x)\sum _{x} p( y|x,z) p( x) p(y∣do(x))=z∑​p(z∣x)x∑​p(y∣x,z)p(x)

其实这里面最关键的一步是用p(x,y,z)p(z∣x)\displaystyle \frac{p( x,y,z)}{p( z|x)}p(z∣x)p(x,y,z)​进行替换。

可识别的一般条件

从back door和front door的推导,我们可以找出一些规律,首先,我们发现全概率是可以替换掉隐变量的分布的,基于此,我们可以给出一个最简单的情况,设V′=V\{X}\displaystyle V'=V\backslash \{X\}V′=V\{X},考虑px(v′)\displaystyle p_{x}( v')px​(v′)的可识别性,这里v;\displaystyle v;v;是除了x的所有贝叶斯网络下的变量.

P(v)=∑u∏iP(vi∣pai,ui)p(u)P( v) =\sum _{u}\prod _{i} P\left( v_{i} |pa_{i} ,u^{i}\right) p( u) P(v)=u∑​i∏​P(vi​∣pai​,ui)p(u)
定理1: 如果没有双向边指向X的时候(X这个变量不存在latent confounder),Px(v)\displaystyle P_{x}( v)Px​(v)可识别

Px(v′)=P(v′∣x,pax)P(pax)P_{x}( v') =P( v'|x,pa_{x}) P( pa_{x}) Px​(v′)=P(v′∣x,pax​)P(pax​)

证明:
因为X没有latent confounder,因此p(x∣pax,ux)=p(x∣pax)\displaystyle p\left( x|pa_{x} ,u^{x}\right) =p( x|pa_{x})p(x∣pax​,ux)=p(x∣pax​)(x没有隐变量),于是

P(v)=p(v′∣x)p(x)=P(x∣pax)∑u∏{i∣Vi≠X}P(vi∣pai,ui)P(u)=P(x∣pax)P(v′,do(x))=P(x∣pax)P(v′∣do(x))\left. \begin{array}{ l } P(v)=p( v'|x) p( x)\\ =P(x|pa_{x} )\sum _{u}\prod _{\{i|V_{i} \neq X\}} P(v_{i} |pa_{i} ,u^{i} )P(u)\\ =P(x|pa_{x} )P (v',do( x) )\\ =P(x|pa_{x} )P(v'|do( x) ) \end{array}\right. P(v)=p(v′∣x)p(x)=P(x∣pax​)∑u​∏{i∣Vi​​=X}​P(vi​∣pai​,ui)P(u)=P(x∣pax​)P(v′,do(x))=P(x∣pax​)P(v′∣do(x))​

因此

Px(v′)=P(v)P(x∣pax)=P(v′∣x,pax)P(x∣pax)p(pax)P(x∣pax)=P(v′∣x,pax)P(pax)P_{x}( v') =\frac{P(v)}{P(x|pa_{x} )} =\frac{P(v'|x,pa_{x}) P( x|pa_{x}) p( pa_{x})}{P(x|pa_{x} )} =P( v'|x,pa_{x}) P( pa_{x}) Px​(v′)=P(x∣pax​)P(v)​=P(x∣pax​)P(v′∣x,pax​)P(x∣pax​)p(pax​)​=P(v′∣x,pax​)P(pax​)

证毕。

如果X有隐变量怎么办?另一个有趣的情况则是,如果没有双向边指向所有X直接孩子的话(意味着X和X的子孙(非直接孩子)都是允许存在双向边),我们也能推出一个可识别的公式。

定理2 如果所有X的直接孩子都没有双向边,则Px(v′)\displaystyle P_{x}( v')Px​(v′)可识别,

Px(v′)=(∏{i∣Vi∈Chx}P(vi∣pai))∑xP(v)∏{i∣Vi∈Chx}P(vi∣pai)P_{x} (v')=\left(\prod _{\{i|V_{i} \in Ch_{x} \}} P(v_{i} |pa_{i} )\right)\sum _{x}\frac{P(v)}{\prod _{\{i|V_{i} \in Ch_{x} \}} P(v_{i} |pa_{i} )} Px​(v′)=⎝⎛​{i∣Vi​∈Chx​}∏​P(vi​∣pai​)⎠⎞​x∑​∏{i∣Vi​∈Chx​}​P(vi​∣pai​)P(v)​

证明:
令S=V\(chx∪{X}),A=∏{i∣Vi∈S}P(vi∣pai,ui)\displaystyle S=V\backslash ( ch_{x} \cup \{X\}) ,A=\prod _{\{i|V_{i} \in S\}} P(v_{i} |pa_{i} ,u^{i} )S=V\(chx​∪{X}),A={i∣Vi​∈S}∏​P(vi​∣pai​,ui). 因为所有X的孩子都没有隐变量,所以全概率可以分解为两部分:

p(v)=∏{i∣Vi∈chx}P(vi∣pai,ui)∑up(x∣pax,ux)⋅∏V\(chx∪{X})P(vi∣pai,ui)⏟A⋅p(u)p( v) =\prod _{\{i|V_{i} \in ch_{x} \}} P(v_{i} |pa_{i} ,u^{i} )\sum _{u} p\left( x|pa_{x} ,u^{x}\right) \cdotp \underbrace{\prod _{V\backslash ( ch_{x} \cup \{X\})} P(v_{i} |pa_{i} ,u^{i} )}_{A} \cdotp p( u) p(v)={i∣Vi​∈chx​}∏​P(vi​∣pai​,ui)u∑​p(x∣pax​,ux)⋅AV\(chx​∪{X})∏​P(vi​∣pai​,ui)​​⋅p(u)

一部分是X的孩子(没有隐变量,所以可以提出来),另一部分是其余的变量。又因为p(do(x)∣pax)=1\displaystyle p( do( x) |pa_{x}) =1p(do(x)∣pax​)=1,所以

p(do(x),v′)=∏{i∣Vi∈chx}P(vi∣pai,ui)∑uA⋅p(u)p( do( x) ,v') =\prod _{\{i|V_{i} \in ch_{x} \}} P(v_{i} |pa_{i} ,u^{i} )\sum _{u} A\cdotp p( u) p(do(x),v′)={i∣Vi​∈chx​}∏​P(vi​∣pai​,ui)u∑​A⋅p(u)

好了,关键一步来了,跟之前类似,我们发现干预分布跟全概率分布长得很像,大家都有一个Ap(u)\displaystyle Ap( u)Ap(u),就是缺了p(x∣pax,ux)\displaystyle p\left( x|pa_{x} ,u^{x}\right)p(x∣pax​,ux),所以自然的,我们可以在干预分布里强行加进去,利用∑xp(x∣pax,ux)=1\displaystyle \sum _{x} p\left( x|pa_{x} ,u^{x}\right) =1x∑​p(x∣pax​,ux)=1,这样我们就能借助全概率来消掉干预分布的隐变量。而且,因为A是排除了所有X与X的子代的变量,因此A不包含x,于是,

p(do(x),v′)=∏{i∣Vi∈chx}P(vi∣pai,ui)∑x∑up(x∣pax,ux)A⋅p(u)=∏{i∣Vi∈chx}P(vi∣pai,ui)∑xp(v)∏{i∣Vi∈chx}P(vi∣pai,ui)\begin{aligned} p( do( x) ,v') & =\prod _{\{i|V_{i} \in ch_{x} \}} P(v_{i} |pa_{i} ,u^{i} )\sum _{x}\sum _{u} p\left( x|pa_{x} ,u^{x}\right) A\cdotp p( u)\\ & =\prod _{\{i|V_{i} \in ch_{x} \}} P(v_{i} |pa_{i} ,u^{i} )\sum _{x}\frac{p( v)}{\prod _{\{i|V_{i} \in ch_{x} \}} P(v_{i} |pa_{i} ,u^{i} )} \end{aligned} p(do(x),v′)​={i∣Vi​∈chx​}∏​P(vi​∣pai​,ui)x∑​u∑​p(x∣pax​,ux)A⋅p(u)={i∣Vi​∈chx​}∏​P(vi​∣pai​,ui)x∑​∏{i∣Vi​∈chx​}​P(vi​∣pai​,ui)p(v)​​

证毕。

总结下,最重要的一步仍然是想办法用全概率将隐变量干掉,我们发现,当X的孩子没有隐变量的时候是可以干掉的,如果X的孩子有隐变量,那么A中就会包含X,这时候就不一定了。所以接来下的问题是什么时候可行,什么时候不可行?

如下图

显然,这个图里面X的孩子是由双向边U2\displaystyle U_{2}U2​的,但他却是可以识别的。为什么?我们可以来推导下:

P(v)=∑u1P(x∣u1)P(z2∣z1,u1)P(u1)⏟Q1⋅∑u2P(z1∣x,u2)P(y∣x,z1,z2,u2)P(u2)⏟Q2P(v)=\underbrace{\sum _{u_{1}} P(x|u_{1} )P(z_{2} |z_{1} ,u_{1} )P(u_{1} )}_{Q_{1}} \cdot \underbrace{\sum _{u_{2}} P(z_{1} |x,u_{2} )P(y|x,z_{1} ,z_{2} ,u_{2} )P(u_{2} )}_{Q_{2}} P(v)=Q1​u1​∑​P(x∣u1​)P(z2​∣z1​,u1​)P(u1​)​​⋅Q2​u2​∑​P(z1​∣x,u2​)P(y∣x,z1​,z2​,u2​)P(u2​)​​

我们发现p(v)\displaystyle p( v)p(v)分解成两部分,分别由u1,u2\displaystyle u_{1} ,u_{2}u1​,u2​两个求和组成,并且,这两部分对应的恰好是隐变量confounder导致的,这两部分,分别被confounder形成的分布,在后文会被称为c-factor. 于是,考虑干预后分布,因为p(do(x)∣u1)=1\displaystyle p( do( x) |u_{1}) =1p(do(x)∣u1​)=1, 我们有

Px(v′)=∑u1P(z2∣z1,u1)P(u1)⋅∑u2P(z1∣x,u2)P(y∣x,z1,z2,u2)P(u2)⏟Q2P_{x} (v')=\sum _{u_{1}} P(z_{2} |z_{1} ,u_{1} )P(u_{1} )\cdot \underbrace{\sum _{u_{2}} P(z_{1} |x,u_{2} )P(y|x,z_{1} ,z_{2} ,u_{2} )P(u_{2} )}_{Q_{2}} Px​(v′)=u1​∑​P(z2​∣z1​,u1​)P(u1​)⋅Q2​u2​∑​P(z1​∣x,u2​)P(y∣x,z1​,z2​,u2​)P(u2​)​​

对比全概率公式,我们发现只缺了一项P(x∣u1)\displaystyle P(x|u_{1} )P(x∣u1​)所以我们补回去,就有

Px(v′)=∑u2P(z1∣x,u2)P(y∣x,z1,z2,u2)P(u2)⏟Q2⋅∑x∑u1P(x∣u1)P(z2∣z1,u1)P(u1)⏟Q1=Q2∑xQ1\begin{aligned} P_{x} (v') & =\underbrace{\sum _{u_{2}} P(z_{1} |x,u_{2} )P(y|x,z_{1} ,z_{2} ,u_{2} )P(u_{2} )}_{Q_{2}} \cdot \sum _{x}\underbrace{\sum _{u_{1}} P(x|u_{1} )P(z_{2} |z_{1} ,u_{1} )P(u_{1} )}_{Q_{1}}\\ & =Q_{2}\sum _{x} Q_{1} \end{aligned} Px​(v′)​=Q2​u2​∑​P(z1​∣x,u2​)P(y∣x,z1​,z2​,u2​)P(u2​)​​⋅x∑​Q1​u1​∑​P(x∣u1​)P(z2​∣z1​,u1​)P(u1​)​​=Q2​x∑​Q1​​

这意味着,如果Q1\displaystyle Q_{1}Q1​和Q2\displaystyle Q_{2}Q2​这两部分都是可识别的(可从观测数据恢复),他们的整体就是可识别的!实际上,因为p(v)=Q1Q2\displaystyle p( v) =Q_{1} Q_{2}p(v)=Q1​Q2​,所以只要其中一个,比如Q1\displaystyle Q_{1}Q1​可识别,另一个就可以识别Q2=p(v)Q1\displaystyle Q_{2} =\frac{p( v)}{Q_{1}}Q2​=Q1​p(v)​. 那Q1\displaystyle Q_{1}Q1​要怎么识别呢?我们要想办法把u2\displaystyle u_{2}u2​的部分干掉,但是又不能像之前一样用全概率(否则Q2\displaystyle Q_{2}Q2​就没法恢复了),怎么办?虽然不能用所有变量的全概率,但是我们可以用部分结点的全概率啊!仔细观察全概率的分解,y\displaystyle yy只出现在Q2\displaystyle Q_{2}Q2​中,所以可以通过求和(积分)把y干掉,得到只有3个变量的全概率!:

∑yP(v)=P(x,z1,z2)=∑u1P(x∣u1)P(z2∣z1,u1)P(u1)⏟Q1⋅∑u2P(z1∣x,u2)P(u2)\sum _{y} P(v)=P( x,z_{1} ,z_{2}) =\underbrace{\sum _{u_{1}} P(x|u_{1} )P(z_{2} |z_{1} ,u_{1} )P(u_{1} )}_{Q_{1}} \cdot \sum _{u_{2}} P(z_{1} |x,u_{2} )P(u_{2} ) y∑​P(v)=P(x,z1​,z2​)=Q1​u1​∑​P(x∣u1​)P(z2​∣z1​,u1​)P(u1​)​​⋅u2​∑​P(z1​∣x,u2​)P(u2​)

而且把y干掉之后,我们又发现,z2\displaystyle z_{2}z2​只出现在Q1\displaystyle Q_{1}Q1​中,所以也可以把他干掉:

∑y∑z2P(v)=P(x,z1)=P(x)⋅∑u2P(z1∣x,u2)P(u2)\sum _{y}\sum _{z_{2}} P(v)=P( x,z_{1}) =P(x) \cdot \sum _{u_{2}} P(z_{1} |x,u_{2} )P(u_{2} ) y∑​z2​∑​P(v)=P(x,z1​)=P(x)⋅u2​∑​P(z1​∣x,u2​)P(u2​)

这样我们就得到两个部分变量的全概率分解。显然,用这两个全概率分解相除,u2\displaystyle u_{2}u2​被消干掉了!

P(x,z1,z2)P(x,z1)=Q1P(x)⟹Q1=P(x,z1,z2)P(x,z1)P(x)=P(z2∣z1,x)P(z1∣x)p(x)P(z1∣x)=P(z2∣z1,x)p(x)⟹Q2=P(v)Q1=P(y∣z1,z2,x)P(z2∣z1,x)P(z1∣x)P(x)P(z2∣z1,x)p(x)=P(y∣z1,z2,x)P(z1∣x)\frac{P( x,z_{1} ,z_{2})}{P( x,z_{1})} =\frac{Q_{1}}{P(x)}\\ \Longrightarrow Q_{1} =\frac{P( x,z_{1} ,z_{2})}{P( x,z_{1})} P(x) =\frac{P( z_{2} |z_{1} ,x) P( z_{1} |x) p( x)}{P( z_{1} |x)} =P( z_{2} |z_{1} ,x) p( x)\\ \Longrightarrow Q_{2} =\frac{P( v)}{Q_{1}} =\frac{P( y|z_{1} ,z_{2} ,x) P( z_{2} |z_{1} ,x) P( z_{1} |x) P( x)}{P( z_{2} |z_{1} ,x) p( x)} =P( y|z_{1} ,z_{2} ,x) P( z_{1} |x) P(x,z1​)P(x,z1​,z2​)​=P(x)Q1​​⟹Q1​=P(x,z1​)P(x,z1​,z2​)​P(x)=P(z1​∣x)P(z2​∣z1​,x)P(z1​∣x)p(x)​=P(z2​∣z1​,x)p(x)⟹Q2​=Q1​P(v)​=P(z2​∣z1​,x)p(x)P(y∣z1​,z2​,x)P(z2​∣z1​,x)P(z1​∣x)P(x)​=P(y∣z1​,z2​,x)P(z1​∣x)

于是,我们终于得到干预后的分布:

Px(v′)=Q2∑xQ1=P(y∣z1,z2,x)P(z1∣x)∑x′P(z2∣z1,x′)p(x′)\begin{aligned} P_{x} (v') & =Q_{2}\sum _{x} Q_{1}\\ & =P( y|z_{1} ,z_{2} ,x) P( z_{1} |x)\sum _{x'} P( z_{2} |z_{1} ,x') p( x') \end{aligned} Px​(v′)​=Q2​x∑​Q1​=P(y∣z1​,z2​,x)P(z1​∣x)x′∑​P(z2​∣z1​,x′)p(x′)​

C-components

从上面可以看出,最关键的地方就是分解成Q1,Q2\displaystyle Q_{1} ,Q_{2}Q1​,Q2​的两部分,而这两部分从图上就是不重叠的两个confounder组成的,所以v可以分解为多个component的乘积

p(v)=∏j=1kQjp( v) =\prod ^{k}_{j=1} Q_{j} p(v)=j=1∏k​Qj​

其中每个Q都对应一组隐变量的confounder的集合nj\displaystyle n_{j}nj​,他们有着重合的孩子Sj\displaystyle S_{j}Sj​,于是:

Qj=∑nj∏{i∣Vi∈S}p(vI∣pai,ui)P(nj)Q_{j} =\sum _{n_{j}}\prod _{\{i|V_{i} \in S\}} p\left( v_{I} |pa_{i} ,u^{i}\right) P( n_{j}) Qj​=nj​∑​{i∣Vi​∈S}∏​p(vI​∣pai​,ui)P(nj​)

我们称SJ\displaystyle S_{J}SJ​为c-component (confounded component),Qj\displaystyle Q_{j}Qj​为c-factor. 最重要的是,我们可以证明,所有的Qj\displaystyle Q_{j}Qj​都是可识别的!,换句话说,如果我们能将干预后的分布变成Q\displaystyle QQ的组合,那么干预后的分布就是可识别的了!并且每个Q\displaystyle QQ长这样:

Qj=∏{i∣Vi∈S}p(vi∣v(i−1))Q_{j} =\prod _{\{i|V_{i} \in S\}} p\left( v_{i} |v^{( i-1)}\right) Qj​={i∣Vi​∈S}∏​p(vi​∣v(i−1))

这里v(i−1)\displaystyle v^{( i-1)}v(i−1)表示的是在causal order排列下,所有排在vi\displaystyle v_{i}vi​后的变量。显然,如果整个图只有一个Q\displaystyle QQ,那么Q=p(v1∣v2,...vn)p(v2∣v3,...,vn)...p(vn)\displaystyle Q=p( v_{1} |v_{2} ,...v_{n}) p( v_{2} |v_{3} ,...,v_{n}) ...p( v_{n})Q=p(v1​∣v2​,...vn​)p(v2​∣v3​,...,vn​)...p(vn​)就是全概率分解.

那在什么情况下干预的分布可以写成Q的组合呢?论文[1]指出,当且仅当在没有任何双向边将X与X的孩子连起来就足够了。于是这个干预后的分布可以写成:

Px(v′)=QxX∏iQi=QxXp(v)QX=(i)(∑xQX)p(v)QXP(v)=QX∏iQi\begin{aligned} P_{x} (v') & =Q^{X}_{x}\prod _{i} Q_{i} =Q^{X}_{x}\frac{p( v)}{Q^{X}}\overset{( i)}{=}\left(\sum _{x} Q^{X}\right)\frac{p( v)}{Q^{X}}\\ P(v) & =Q^{X}\prod _{i} Q_{i} \end{aligned} Px​(v′)P(v)​=QxX​i∏​Qi​=QxX​QXp(v)​=(i)(x∑​QX)QXp(v)​=QXi∏​Qi​​

其中QX\displaystyle Q^{X}QX是X对应的c-factor,而QxX\displaystyle Q^{X}_{x}QxX​是把QX\displaystyle Q^{X}QX中的p(x∣pax,ux)\displaystyle p\left( x|pa_{x} ,u^{x}\right)p(x∣pax​,ux)删掉:

QxX=∑nX∏{i∣Vi≠X,Vi∈SX}p(vi∣pai,ui)p(nX)QX=∑nX∏{i∣Vi∈SX}p(vi∣pai,ui)p(nX)Q^{X}_{x} =\sum _{n^{X}}\prod _{\{i|V_{i} \neq X,V_{i} \in S^{X} \}} p\left( v_{i} |pa_{i} ,u^{i}\right) p\left( n^{X}\right)\\ Q^{X} =\sum _{n^{X}}\prod _{\{i|V_{i} \in S^{X} \}} p\left( v_{i} |pa_{i} ,u^{i}\right) p\left( n^{X}\right) QxX​=nX∑​{i∣Vi​​=X,Vi​∈SX}∏​p(vi​∣pai​,ui)p(nX)QX=nX∑​{i∣Vi​∈SX}∏​p(vi​∣pai​,ui)p(nX)

注意等式QxXp(v)QX=(i)(∑xQX)p(v)QX\displaystyle Q^{X}_{x}\frac{p( v)}{Q^{X}}\overset{( i)}{=}\left(\sum _{x} Q^{X}\right)\frac{p( v)}{Q^{X}}QxX​QXp(v)​=(i)(x∑​QX)QXp(v)​,右边是只有在没有任何双向边将X与X的孩子连起来的时候才成立,但是左边是恒成立的。所以证明的关键就是等式QxX=(∑xQX)\displaystyle Q^{X}_{x} =\left(\sum _{x} Q^{X}\right)QxX​=(x∑​QX)能否成立。事实上,他们的差别就是一个将p(x∣pax,ux)\displaystyle p\left( x|pa_{x} ,u^{x}\right)p(x∣pax​,ux)直接删掉,令一个是对x进行求和/积分,那在什么情况下这两个操作的结果是一致的呢?答案是在QX\displaystyle Q^{X}QX中,所有的p(vi∣pai,ui)\displaystyle p\left( v_{i} |pa_{i} ,u^{i}\right)p(vi​∣pai​,ui)里面的pai\displaystyle pa_{i}pai​都不包括x\displaystyle xx的时候,对x求和,跟直接删掉p(x∣pax,ux)\displaystyle p\left( x|pa_{x} ,u^{x}\right)p(x∣pax​,ux)是等价的。换句话说,如果存在一个confounder连接了X跟X的孩子,使得他们出现在同一个c-conponentQX\displaystyle Q^{X}QX中,导致其中的某个结点的父亲pai\displaystyle pa_{i}pai​,出现了x\displaystyle xx,这时候求和是没法将p(x∣pax,ux)\displaystyle p\left( x|pa_{x} ,u^{x}\right)p(x∣pax​,ux)删掉的,从而导致QX\displaystyle Q^{X}QX这一项不可识别。这就是证明的直观过程。具体过程,有兴趣自己看[1].

参考资料

Tian J, Pearl J. A general identification condition for causal effects[C]//Aaai/iaai. 2002: 567-573.

An Overview of The Back-Door and Front-Door Criteria

Causal effect可识别的一般条件相关推荐

  1. 人工智能的未来———因果推理:Causal Inference: What If chapter1 A DEFINITION OF CAUSAL EFFECT 文章解读

    目录 Chapter 1 A DEFINITION OF CAUSAL EFFECT 1.1 Individual causal effects 1.a formal definition of a ...

  2. Long-Tailed Classification by Keeping the Good and Removing the Bad Momentum Causal Effect

    The data will be inevitably long-tailed. For example, if we target at increasing the images of tail ...

  3. 因果推断(二)-Causal effect 因果效应推理

    1.因果效应推理定义 套用一个发券和购买转化率的关系,已知发优惠券与购买转化率有因果关系,发优惠券是因,购买转化率是果,我们想知道,当发券的情况下,购买转化率会增加多少? 2.因果效应推理估计对象 估 ...

  4. 用卷积神经网络识别实际田间条件下茶叶病虫害(自然环境下拍摄的数据集不用太多预处理)

    Abstract 茶叶病变对茶树生长不利.它们的不利影响包括茶叶的进一步病害以及产量和利润的直接下降.因此,茶叶病变的早期检测和现场监测对于有效控制感染和防止产量进一步损失是必要的.在这项研究中,1, ...

  5. 条件随机场实现命名实体识别

    前言 NLP 被很多人称为人工智能皇冠上的明珠,可见其在 AI 领域的重要性,而命名实体识别(NER)又一直是 NLP 领域的研究热点,所以这块任务是 NLP 必谈的. NER 早期的实现主要是基于词 ...

  6. 因果推理(causal inference)初步调研

    因果推理(causal inference)初步调研 NIPS相关论文 NIPS有相关的causal inference板块,但总体来看,相比于较为成型的visual板块显得更加五花八门,少有一个统一 ...

  7. 【因果推断与机器学习】Causal Inference: Chapter_1

    机器学习与因果推断 Chapter 1:the introduction of Causal Reasoning Introduction 机器学习算法越来越多的被应用到生活的方方面面,其中很大一部分 ...

  8. 【论文导读】(AAAI)Achieving Counterfactual Fairness for Causal Bandit

    因果强化学习! [注意bandit algorithms的前置知识,理解"手臂"arm."强盗"bandit] [摘要] 在在线推荐中,顾客从一个基本分布以顺序 ...

  9. Causal Reasoning from Meta-reinforcement Learning(自用笔记)

    Abstract novel situations:元强化学习框架,agent 在新环境下能够有效 The agent can select informative interventions , d ...

最新文章

  1. java子类对象不能调用父类protected方法和域的原因。
  2. KMeans聚类算法Hadoop实现
  3. sql注入***原理
  4. C++ 析构函数设为虚函数的好处
  5. Qt工作笔记-使用QpropertyAnimation实现控件上下滑动的效果
  6. ios7中的UILabel自适决定大小
  7. 使用 SoundSource 取代Mac系统内置的音量控制器
  8. android 手柄,Android平台使用PS3无线手柄攻略
  9. 离散数学---循环群,左陪集,子群
  10. 计算机桌面文字重影,电脑桌面图标有重影是什么问题?
  11. 用ps轻松更改嘴唇颜色
  12. python中np是什么意思_了解python中np是做什么的
  13. kubernetes配置kubeconfig访问集群
  14. 10 个 Flutter 优秀组件
  15. NGFW的Portal认证实验
  16. 【计算机网络】计算机网络核心知识点
  17. ECDH算法与mbedTLS
  18. 自然科学计算机技术ppt,[自然科学]图像处理.ppt
  19. MFC 的 Picture Control 加载 BMP/PNG 图片的方法
  20. transparent(指定透明度)

热门文章

  1. Ecosway奖金制度
  2. [原创]从智能产品防丢器看中外差别
  3. 安装配置Android Studio集成开发环境详细安装教程
  4. 上海浦东文华东方酒店携小猪佩奇玩趣世界打造一站式亲子旅居攻略
  5. 高德新版全类别AOI采集与分析
  6. 微机原理学习笔记-二进制转化为十进制
  7. [KM算法]hdoj 3722:Card Game
  8. Photoshop: Customizing Brushes 如何自定义Photoshop的笔刷 Lynda课程中文字幕
  9. 什么车最适合跑滴滴——数据化思维小记
  10. 仿腾讯手机管家火箭发射