背景

这篇文章考虑了一个新的causal inference设定:treatment不是简单的二元变量{0,1}\left\{0,1\right\}{0,1},而是二元变量的组合{0,1}k\left\{0,1\right\}^k{0,1}k。这个设定也比较好理解,还用医生治病的例子来说,通常医生使用的是多种药的组合。如果总共涉及到三种药物,而病人使用了第一种和第三种,则对应的k=3k=3k=3,treatment就是[1,0,1][1,0,1][1,0,1]

挑战

这个设定的挑战在于如何设计针对多个treatment的网络结构。在经典的TARnet和Dragonnet中,作者针对p(y∣t=0,x)p(y|t=0,x)p(yt=0,x)p(y∣t=1,x)p(y|t=1,x)p(yt=1,x)都设计了不同的网络,如果本文也沿用这个方法,就会出现网络结构冗余的问题。比如例子中涉及到3个treatment的组合,那就要相应设计23=82^3=823=8个网络,非常不高效,还会出现因为数据分布不均匀网络训练不准确的问题。

方法

整体的框架还是套用的CEVAE(可以参见笔者写的上一篇文章),创新之处在于引入了一个可学习的embedding matrix。

Encoder

网络结构如下图所示:

前向传播:首先输入xxx会经过网络g1g_1g1得到q(t∣x)=∏i=1kBern(qt,i)q(t|x)=\prod_{i=1}^k Bern(q_{t,i})q(tx)=i=1kBern(qt,i),然后从q(t∣x)q(t|x)q(tx)中采样得到t′t't(这里有个问题就是怎么反向传播?采样得到t′t't没法反向传播吧),接下来t′t't会和一个embedding matrix WWW相乘得到新的表示τ=W⋅t′\tau=W\cdot t'τ=Wt。新表示τ\tauτ经过网络g2g_2g2得到q(y∣t,x)=N(g2,1)q(y|t,x)=N(g_2,1)q(yt,x)=N(g2,1),这里方差设为1也是为了简单防止过拟合吧,避免网络中要学习太多变量。之后,作者把τ,x,g2\tau, x, g_2τ,x,g2concatenate到一起得到g3g_3g3g4g_4g4的输入,g3g_3g3g4g_4g4的输出恰好是q(z∣x,t,y)q(z|x,t,y)q(zx,t,y)的均值和方差。

Decoder

网络结构如下图所示:
前向传播:这里作者没写清楚decoder的输入zzz怎么来的(吐槽一句,作者有很多细节都没写清楚),我猜测就是从encoder的输出采样得到。接下来先看下面四个网络f1,f2,f3,f4f_1,f_2,f_3,f_4f1,f2,f3,f4,其实是针对xxx的三种可能情形:二元变量、目录变量、连续变量,这里只以连续变量为例进行说明。f1f_1f1f2f_2f2的输出分别是p(x∣z)p(x|z)p(xz)的均值和方差。f5f_5f5的设计和g1g_1g1基本一致,输出就是p(t∣z)=∏i=1kBern(pt,i)p(t|z)=\prod_{i=1}^k Bern(p_{t,i})p(tz)=i=1kBern(pt,i),然后继续采样得到t~\widetilde{t}t

t~\widetilde{t}t

再与embedding matrix相乘得到τ~=W⋅t~\widetilde{\tau}=W \cdot \widetilde{t}τ

=
Wt

。之后作者在文章里说把τ~,x,z\widetilde{\tau},x,zτ

,x,z
concatanate到一起作为f6f_6f6的输入,但根据流程图似乎没有xxx?(这个作者写作有点不认真啊,文章居然和图对不上)
作者没具体写出训练的目标函数(很迷,这么重要的东西居然文章里没有明确写出来),只是说利用和VAE类似的变分推断的方法,估计是和CEVAE差不多,先验分布也是标准正态分布。

总结

文章的亮点在于提出了multiple treatment的范式和embedding的解决思路,缺点在于作者写作实在太不严谨了,很多细节没交代清楚(当然也可能是我读的还不够细),类似于采样ttt怎么反向传播、目标函数之类的都没有具体写出来。

【论文笔记】2019-WWW-Multiple Treatment Effect Estimation using Deep Generative Model with Task Embedding相关推荐

  1. 2019 ICCV best paper:sinGAN: Learning a Generative Model from a Single Natural Image解读

    sinGAN: Learning a Generative Model from a Single Natural Image 论文地址: https://arxiv.org/abs/1905.011 ...

  2. 论文笔记-Towards Scene Understanding-Unsupervised Monocular Depth Estimation

    论文信息 标题: Towards Scene Understanding: Unsupervised Monocular Depth Estimation with Semantic-aware Re ...

  3. 论文笔记-Digging Into Self-Supervised Monocular Depth Estimation

    论文信息 标题: Digging Into Self-Supervised Monocular Depth Estimation 作者:Clement Godard, Oisin Mac Aodha, ...

  4. 论文笔记之:Multiple Feature Fusion via Weighted Entropy for Visual Tracking

    Multiple Feature Fusion via Weighted Entropy for Visual Tracking ICCV 2015 本文主要考虑的是一个多特征融合的问题.如何有效的进 ...

  5. 论文笔记(五)【DENSITY ESTIMATION USING REAL NVP】

    本文主要针对流模型中的RealNVP模型论文进行记录. 论文地址:DENSITY ESTIMSTION USING REAL NVP 非常不错的博客:苏剑林. (2018, Aug 26). < ...

  6. 【论文笔记】MultiPath: Multiple Probabilistic Anchor TrajectoryHypotheses for Behavior Prediction

    摘要:人类行为预测是运动规划中一个困难而又关键的任务.这在很大程度上具有挑战性,因为在自动驾驶等现实世界的领域中,可能的结果具有高度的不确定性和多模态集合.除了单一MAP轨迹预测[1,2],获得未来的 ...

  7. 论文笔记:Jointly Multiple Events Extraction via Attention-based GraphInformation Aggregation

    作 者:崔金满 单 位:燕山大学 Abstract 在现实世界中,经常存在一个句子中包含多个事件的现象,提取多个事件比提取单个事件要困难,本文提出一种联合多事件提取框架,通过引入syntactic s ...

  8. 论文笔记:《Network Dissection: Quantifying Interpretability of Deep Visual Representations》

    CVPR 2017 的 MIT 论文<Network Dissection: Quantifying Interpretability of Deep Visual Representation ...

  9. 【论文笔记】(JSMA)The Limitations of Deep Learning in Adversarial Settings

    引流:https://www.cnblogs.com/setdong/p/16414390.html 本文是早期的对抗文章,发表于 EuroS&P 2016会议,最主要的工作是:提出了一个生成 ...

最新文章

  1. (转)分享一个SQLSERVER脚本(计算数据库中各个表的数据量和每行记录所占用空间)...
  2. android studio编译找不到程序包,【图片】哥哥们,android studio 打包的安装包手机无法识别怎么破【androidstudio吧】_百度贴吧...
  3. 微信开发者工具:Failed to load font ************** net::ERR_CONNECTION_RESET问题解决办法
  4. 安徽关节式焊接机器人_机器人自动焊接技术的优势及应用介绍
  5. linux管理之磁盘信息和进程管理
  6. 内存分配(malloc()和free())
  7. python输出命令_Python 输出命令行进度条
  8. flutter 判断字符创_Flutter面经算法篇
  9. cisco 2610 2950 单臂路由得一些心得
  10. 带有控制器,方法,标题,参数,@ RequestParam,@ PathVariable的Spring MVC @RequestMapping注释示例
  11. php utf8 正则中文表达式
  12. html5 Ajax 访问.net WebApi获取视频流
  13. 全球与中国电动车PTC辅助加热器市场深度研究分析报告
  14. NIK插件-托马斯教程1-color efex pro 4
  15. 指数波段划分以及底部反弹行业特征统计分析
  16. %02x与%2x 区别
  17. python对sqlite增删改查_Python操作sqlite3数据库 增删改查
  18. 打印skb内容的一小段代码
  19. SwiftUI 精品项目之完整MOOC幕课iOS项目 含服务端 轮播欢迎页面(教程含源码)
  20. mysql 查找小写字母_MYSQL数据库MySQL中查询的有关英文字母大小写问题的分析

热门文章

  1. Mysql导出数据库设计文档
  2. 圆里面画一个最大的正方形_在圆里画一个最大的正方形发现了什么
  3. QMainWindow
  4. 国务院拟出台职工带薪年休假规定
  5. 【iptables】bluetooth自组网
  6. Python 实现延时队列
  7. Java代码实现MD5加密的两种方式
  8. pwn-进阶-forgot
  9. 【JavaWeb】JSP(172-190)
  10. Java基础入门第二章