文章目录

  • 15.1 Outcome regression
  • 15.2 Propensity scores
  • 15.3 Propensity stratification and standardization
  • 15.4 Propensity matching
  • 15.5 Propensity models, structural models, predictive models
  • Fine Point
    • Nuisance parameters
    • Effect modification and the propensity score
  • Technical Point
    • Balancing scores and prognostic scores

HernKaTeX parse error: Can't use function '\'' in math mode at position 1: \̲'̲{a}n M. and Robins J. Causal Inference: What If.

这一章讲一种新的方法: propensity scores.

15.1 Outcome regression

在满足条件可交换性下,
E [ Y a = 1 , c = 0 ∣ L = l ] = E [ Y ∣ A = 1 , C = 0 , L = l ] . \mathbb{E} [Y^{a=1, c=0}|L=l] = \mathbb{E} [Y|A=1, C=0, L=l]. E[Ya=1,c=0∣L=l]=E[Y∣A=1,C=0,L=l].
之前的模型都是对等式左端进行建模, 倘若我们对等式右端进行建模呢?
E [ Y ∣ A , C = 0 , L ] = α 0 + α 1 A + α 2 A L + α 3 L . \mathbb{E} [Y|A,C=0, L] = \alpha_0 + \alpha_1 A + \alpha_2 AL + \alpha_3L. E[Y∣A,C=0,L]=α0​+α1​A+α2​AL+α3​L.

15.2 Propensity scores

在IP weighting 和 g-estimation的使用过程中, 我们需要估计条件概率 P r [ A = 1 ∣ L ] \mathrm{Pr}[A=1|L] Pr[A=1∣L], 记为 π ( L ) \pi (L) π(L).
π ( L ) \pi (L) π(L) 就是所谓的propensity scores, 其反应了特定 L L L的一种倾向.
首先我们要证明,
Y a ⨿ A ∣ L ⇒ Y a ⨿ A ∣ π ( L ) . Y^a \amalg A | L \Rightarrow Y^a \amalg A | \pi(L). Ya⨿A∣L⇒Ya⨿A∣π(L).

不妨假设 π ( L ) = s ⇔ L ∈ { l i } \pi(L) = s \Leftrightarrow L \in \{l_i\} π(L)=s⇔L∈{li​}, 则
P r [ Y a ∣ π ( L ) = s ] = P r [ Y a ∣ L ∈ { l i } ] = ∑ i P r [ Y a , L = l i ] ∑ i P r [ L = l i ] = ∑ i P r [ Y ∣ A = a , L = l i ] P r [ L = l i ] ∑ i P r [ L = l i ] = P r [ A = a ∣ L = l ] ⋅ ∑ i P r [ Y ∣ A = a , L = l i ] P r [ L = l i ] P r [ A = a ∣ L = l ] ∑ i P r [ L = l i ] = ⋅ ∑ i P r [ Y ∣ A = a , L = l i ] P r [ A = a , L = l i ] ∑ i P r [ A = a , L = l i ] = ⋅ ∑ i P r [ Y , A = a , L = l i ] ∑ i P r [ A = a , L = l i ] = ⋅ P r [ Y , A = a , π ( L ) = s ] P r [ A = a , π ( L ) ] = P r [ Y ∣ A = a , π ( L ) = s ] . \begin{array}{ll} \mathrm{Pr}[Y^a|\pi(L)=s] &= \mathrm{Pr} [Y^a|L \in \{l_i\}] \\ &= \frac{\sum_i\mathrm{Pr}[Y^a,L=l_i]}{\sum_i \mathrm{Pr} [L=l_i]}\\ &= \frac{\sum_i\mathrm{Pr}[Y|A=a, L=l_i]\mathrm{Pr}[L=l_i]}{\sum_i \mathrm{Pr} [L=l_i]}\\ &= \frac{\mathrm{Pr}[A=a|L=l] \cdot \sum_i\mathrm{Pr}[Y|A=a, L=l_i]\mathrm{Pr}[L=l_i]}{\mathrm{Pr}[A=a|L=l]\sum_i \mathrm{Pr} [L=l_i]}\\ &= \frac{\cdot \sum_i\mathrm{Pr}[Y|A=a, L=l_i]\mathrm{Pr}[A=a, L=l_i]}{\sum_i \mathrm{Pr} [A=a, L=l_i]}\\ &= \frac{\cdot \sum_i\mathrm{Pr}[Y, A=a, L=l_i]}{\sum_i \mathrm{Pr} [A=a, L=l_i]}\\ &= \frac{\cdot \mathrm{Pr}[Y, A=a, \pi(L)=s]}{\mathrm{Pr} [A=a, \pi(L)]}\\ &= \mathrm{Pr} [Y|A=a, \pi(L)=s]. \end{array} Pr[Ya∣π(L)=s]​=Pr[Ya∣L∈{li​}]=∑i​Pr[L=li​]∑i​Pr[Ya,L=li​]​=∑i​Pr[L=li​]∑i​Pr[Y∣A=a,L=li​]Pr[L=li​]​=Pr[A=a∣L=l]∑i​Pr[L=li​]Pr[A=a∣L=l]⋅∑i​Pr[Y∣A=a,L=li​]Pr[L=li​]​=∑i​Pr[A=a,L=li​]⋅∑i​Pr[Y∣A=a,L=li​]Pr[A=a,L=li​]​=∑i​Pr[A=a,L=li​]⋅∑i​Pr[Y,A=a,L=li​]​=Pr[A=a,π(L)]⋅Pr[Y,A=a,π(L)=s]​=Pr[Y∣A=a,π(L)=s].​
注意: π ( l i ) = π ( l j ) = π ( l ) = s \pi(l_i) = \pi(l_j) = \pi(l) = s π(li​)=π(lj​)=π(l)=s.

注意到, 上面有很重要的一步, 我们上下同时乘以 P r [ A = a ∣ L = l ] \mathrm{Pr}[A=a|L=l] Pr[A=a∣L=l], 实际上只有当 A ∈ { 0 , 1 } A \in \{0, 1\} A∈{0,1}的时候才能成立, 因为二元, 加之 π ( L ) = s \pi(L)=s π(L)=s, 所以
P r [ A = a ∣ L = l i ] = P r [ A = a ∣ L = l j ] . \mathrm{Pr}[A=a|L=l_i] = \mathrm{Pr}[A=a|L=l_j]. Pr[A=a∣L=li​]=Pr[A=a∣L=lj​].
也就是说当 A A A不是二元的时候, 上面的推导就是错误的了.
怪不得书上说, propensity scores这个方法是很难推广的非二元treatments的情况的.

15.3 Propensity stratification and standardization

此时, 我们可以把 π ( L ) \pi(L) π(L)看成一个新的中间变量 L L L(confounder?), 如下图:

要知道, 原来的 L L L可能是一个高维向量, 现在压缩为一维, 这意味着我们的可以将
E [ Y ∣ A , C = 0 , π ( L ) ] \mathbb{E}[Y|A, C=0, \pi(L)] E[Y∣A,C=0,π(L)]
假设地更加精简.
估计或许更加牢靠(直接无参数模型?).

但是需要指出是, 不同个体的 π ( L ) \pi(L) π(L)往往都是不同的, 这就导致我们想要估计
E [ Y ∣ A = 1 , C = 0 ∣ π ( L ) = s ] − E [ Y ∣ A = 0 , C = 0 ∣ π ( L ) = s ] \mathbb{E} [Y|A=1, C=0|\pi(L)=s] - \mathbb{E} [Y|A=0, C=0|\pi(L)=s] E[Y∣A=1,C=0∣π(L)=s]−E[Y∣A=0,C=0∣π(L)=s]
几乎是不可能的.
一种比较好的做法是, 分成一段段区间, 考虑
E [ Y ∣ A = 1 , C = 0 ∣ π ( L ) ∈ Δ s ] − E [ Y ∣ A = 0 , C = 0 ∣ π ( L ) ∈ Δ s ] . \mathbb{E} [Y|A=1, C=0|\pi(L)\in \Delta_s] - \mathbb{E} [Y|A=0, C=0|\pi(L)\in \Delta_s]. E[Y∣A=1,C=0∣π(L)∈Δs​]−E[Y∣A=0,C=0∣π(L)∈Δs​].
比如书上推荐的10分位.
当然这种做法会在一定程度上破化条件可交换性, 但是可以认为如果区间取得比较合适, 结果应该是比较合理的.

另外需要指出的, 我们往往会陷入一个误区, 觉得 π ( L ) \pi(L) π(L), 即条件概率 P r [ A = 1 ∣ L ] \mathrm{Pr}[A=1|L] Pr[A=1∣L]的估计越准确越好, 实际上不是.
我们需要保证的仅仅是满足条件可交换性, 实际上准确度无关紧要.
有些时候过分追求准确度会适得其反, 因为这时我们往往会引入很多的变量, 导致我们的条件可交换性被大大破坏了.
所以不要仅仅当成是回归问题来看.

15.4 Propensity matching

看就是就是matching的翻版, 不过我matching也没搞懂哦.

15.5 Propensity models, structural models, predictive models

就主要是15.3里讲过的.

Fine Point

Nuisance parameters

Effect modification and the propensity score

Technical Point

Balancing scores and prognostic scores

Chapter 15 Outcome Regression and Propensity Scores相关推荐

  1. halcon算子盘点:Chapter 15灰度分割

    Chapter 15:Segmentation 15.1 Classification 1. add_samples_image_class_gmm  功能:将从图像中获取的测试样本添加到高斯混合模型的 ...

  2. 1.15. Isotonic regression(保序回归)

    1.15. Isotonic regression(保序回归) 一.描述 保序回归,正如它的名字,是一种对预测值施加了"保序"约束的一种回归分析."保序"的严格 ...

  3. Propensity Scores

    文章目录 基本的概念 重要的结果 X ⊥ Z ∣ b ( X ) X \perp Z | b(X) X⊥Z∣b(X) ( r 0 , r 1 ) ⊥ Z ∣ b ( X ) (r_0, r_1) \p ...

  4. chapter 15 运算符详解

    15.1位运算符 1.位运算符都是要做Usual Arithmetic Conversion(其中有一步是Integer Promotion),所以在c语言中并不存在8为整数的位运算,操作数在进行运算 ...

  5. python--从入门到实践--chapter 15 16 17 生成数据/下载数据/web API

    1.随机漫步 random_walk.py from random import choice class RandomWalk():def __init__(self, num_points=500 ...

  6. 《C++ Primer》 chapter 15 TextQuery

    <C++ Primer>中第15章为了讲解面向对象编程,举了一个例子:设计一个小程序,能够处理查询给定word在文件中所在行的任务,并且能够处理"非"查询," ...

  7. Part 2 Linux programming:chapter 15:套接字和标准I/O

    第十五章:套接字和标准I/O 15.1 标准I/O函数 这里需要熟练掌握一些文件操作时使用的函数(fopen.feof.fgetc.fputs等) 啥是标准I/O函数呢? 下面列出一些常用的 fope ...

  8. MLaPP Chapter 8 Logistic Regression 逻辑斯特回归

    8.1 Introduction LR 是一个非常重要的模型,几乎所有的机器学习职位面试都会问到.因此这章是重点,一定要看懂. 8.2 Model specification 把线性回归的高斯分布,换 ...

  9. 《A Graduate Course in Applied Cryptography》Chapter 15 Elliptic curve cryptography and pairings (1)

    原文教材 与 参考资料: Boneh Dan , Shoup Victor . A Graduate Course in Applied Cryptography[J]. 该书项目地址(可以免费获取) ...

最新文章

  1. iso镜像文件烧写到U盘
  2. Android--向SD卡读写数据
  3. html点击隐藏点击出现,点击按钮,内容隐藏,再点击一下,然后内容又显示了,这种效果怎么做?然后默认的是隐藏的...
  4. CSS成长之路----知识点篇
  5. DELPHI的DBGRID有两个难点
  6. sklearn自学指南(part42)--使用手册的目录
  7. dep指定版本 go_Go 1.12 版本的新特性
  8. MongoDB 教程五: MongoDB固定集合和性能优化
  9. java 查询后 jsonobject key 排序_商品品牌业务之后台Java代码的编写
  10. 升级思科WLC firmware详细步骤
  11. HDU2570 迷瘴【贪心】
  12. 使用CSVDE批量创建和修改域用户
  13. distinct返回null报错_在Java中如何避免“!=null”式的判空语句?
  14. 【渝粤教育】国家开放大学2018年秋季 0633-21T化工CAD 参考试题
  15. 滴滴开源基于 React 的移动端开发组件库-Pile.js
  16. jQuery做的自定义选项卡
  17. 购物车一个Adaper,可以删除,全选反选,数量加减
  18. 旭辉完成2020年销售目标:还要加码广西,却在北京违规被通报
  19. 更改Ubuntu 18.04的时区
  20. 如何更新微软的html,如何升级微软2018 Windows 10更新四月正式版17134系统?

热门文章

  1. linux下的ehci控制器调试
  2. TCP三次握手和四次挥手简述
  3. html5画布时钟cnsd,天地图分省图源之作教程—-(山东-环保-征程)友情提供
  4. TCP三次握手过程,如果两次握手会怎么样?
  5. 【方法】怎么做产品调研?
  6. CSS学习笔记4:文本样式
  7. Python连接mysql数据库出错解决方案
  8. Gateway断言工厂配置
  9. MFC+DuiVision结合VLC播放器开发直播客户端
  10. PyCharm设置(注释风格、Pylint等)