因果推理（二）：潜在结果（Potential Outcomes）

1. 什么是潜在结果

潜在结果是指接受潜在治疗的个体的结果。对于该个体，治疗的因果关系是个体接受治疗的潜在结果与未接受治疗的潜在结果之间的差异。

2. 因果推理的基本问题

数据缺失。

以药丸对头痛的治疗效果为例，因果关系为：

Yi(1)−Yi(0)Y_i(1)-Y_i(0)Yi(1)−Yi(0) ，

其中，Yi(1)Y_i(1)Yi(1)代表吃药的潜在结果，Yi(0)Y_i(0)Yi(0)代表不吃药的潜在结果。但通常，对于特定的一个人，吃药时只能得到Yi(1)Y_i(1)Yi(1)，不吃药时只能得到Yi(0)Y_i(0)Yi(0)，与之对应的反事实并不会被观察到。这就产生了因果推理中的数据缺失，如下图：

3. 解决因果推理中的基本问题（数据缺失）

在第一节中介绍过，关联不等同于因果。当存在混杂因子是，平均治疗效果ATE（Average Treatment Effect）：

E[Yi(1)−Yi(0)]=E[Y(1)]−E[Y(0)]≠E[Y∣T=1]−E[Y∣T=0]E[Y_i(1)-Y_i(0)]=E[Y(1)]-E[Y(0)]\neq{E[Y|T=1]-E[Y|T=0]}E[Yi(1)−Yi(0)]=E[Y(1)]−E[Y(0)]=E[Y∣T=1]−E[Y∣T=0]，

我们观察到的关联差异（association of difference）不等于平均治疗效果。为了使用关联差异来计算平均治疗效果来，需要做出下面的一些假设。

（1）可忽略性（ignorability）

可忽略性是指潜在结果Y(1)和潜在结果Y(0)都独立于治疗T：

（2）可交换性（exchangeability）

可交换性和可忽略性在本质上都是一样的，只是在不同的方面解释了这件事。可交换性是指不同分组中的观察对象或实验对象可以进行交换，而不会影响潜在结果。

上面两个途中，group A 和 group B 进行了交换，但E[Y∣T=1]E[Y|T=1]E[Y∣T=1]和E[Y∣T=0]E[Y|T=0]E[Y∣T=0]的结果都不会因此而改变，这就是可交换性。

（3）可辨识性（identifiability）

在下图的式子中，平均治疗效果是两个因果量之间的差异，而关联差异是两个统计量之间的差异。可辨识性是从因果量到统计量的过程。如果一个因果量可以通过纯粹的统计量而计算得到，那它就是可辨识的。

上面三条假设在解决因果推理的数据缺失问题时是非常重要的，能够使上述三条假设满足的是随机对照试验（randomized control trial, RCT）。随机对照试验用抛硬币（随机）的方式决定每个个体去到哪个分组。

使用随机对照试验可以使两个分组变得有可比性。如下面两个图，第一个图中的两组是没有可比性的，而用随机对照实验决定的两组，也就是第二个图中的两组，是具有可比性的。随机对照试验消除了混杂因素。

上述介绍的可交换性假设因果图中没有混杂因素，但通常在因果图中都是存在混杂因素的，因此我们引入条件可交换性（conditional exchangeability）。条件可交换性是指Y(0)和Y(1)都独立于条件X下的T。

因此，我们可以计算条件平均治疗效果：

然后通过对上述公式进行调整可得到ATE：

条件可忽略性（conditonal ignorability）和条件可交换性（conditional exchangeability）也叫unconfoundedness。

unconfoundedness是一个重要的假设，另一个重要的假设是正定性（positivity）。

正定性是指，对于任意协变量x，0<P(T=1∣X=x)<10<P(T=1|X=x)<10<P(T=1∣X=x)<1。从数学从层面解释这一假设，就是ATE计算公式利用贝叶斯规则进行变换之后P(T=1∣X=x)P(T=1|X=x)P(T=1∣X=x)会出现在分母上（如下图），为了保证公式的正确定，需要规定P(T=1∣X=x)P(T=1|X=x)P(T=1∣X=x)不为零。

从另一个层面解释positivity：如果所有X=xX=xX=x的人都接受了T=1T=1T=1的治疗（P(T=1∣X=x)=1P(T=1|X=x)=1P(T=1∣X=x)=1），或所有X=xX=xX=x的人都接受了T=0T=0T=0的治疗（P(T=1∣X=x)=0P(T=1|X=x)=0P(T=1∣X=x)=0），就会使T=1T=1T=1和T=0T=0T=0这两组的分配使不公平的，就使结果受到混杂因素的影响。

Positivity的另一种表示是overlap。Overlap是指P(X∣T=0)P(X|T=0)P(X∣T=0)和P(X∣T=1)P(X|T=1)P(X∣T=1)之间的重叠。为了消除混杂因素，这个重叠应该越多越好。重叠越多，表示两组对X的取值越平均（随机），X对T的影响就越小。

事实上，unconfoundedness和positivity之间是存在某种对立关系的。通常来说，协变条件越多，就会越满足unconfoundedness，而越不满足positivity。因此需要对两者做一个平衡。

推断：如果完全没有重叠的话，就会出现下图的情况。对于一个特定的x值，只能得到f1(x)f_1(x)f1(x)或f0(x)f_0(x)f0(x)，不能同时得到两者，因此无法计算ATE。

又一个重要假设：no interference:

consistency: