文章目录

  • 所解决的问题?
  • 背景
  • 所采用的方法?
    • 概率图模型
    • Domain Shift
  • 取得的效果?
  • 所出版信息?作者信息?
  • 参考资料
  • 论文题目:Learning Predictive Models From Observation and Interaction

所解决的问题?

  作者在这里所关心的是,智能体采样很难采样到那些表现性能比较好的样本,就是说有些状态动作对根本就采不到,因为很难去学习这么好的策略,但是人类可以很轻松的采样得到这些样本。但是这些样本也是存在一些问题的,比如是没有带注释的,他不会有描述说为什么这么做,如果像模仿学习那样利用这些样本的话,还会存在分布漂移的问题(distributional shift)。对于第一个问题作者用图模型做,第二个问题用domain-dependent prior做。

背景

  人类是很容易从别人的trajectory中进行学习,但是由于个体之间的差异,从observation学习action其实是很困难的,比如对于同一个重物,成年人可以很轻松拿起来,而对于婴儿就不是那么容易了。而作者结合历史的观测来解决这个问题。基于模型的强化学习基本上都是要学一个状态-动作的条件概率分布,如果只给observation,其实是很难学习的。而现实生活中却又存在这样大量地数据,你只能获取observation,并不知道具体所采取的动作是什么。比如一个机器人捡东西的视频,你是不可能知道当前时刻输出的电流,扭矩这些东西的。

  作者提出了一种既能够从有动作标注的信息中学,也能从只有观测信息总学习model的方法。也就是action是否给定,都能学。当然了学状态转移的概率太多了,也不一一列举,今年争取做个相关的综述, 以后放在公众号的菜单栏吧,方便大家寻找.

  除此之外,为了能够处理observational 和interaction data , 作者还需要解决Domain adaptation的问题. 对跨域的不变性进行正则化( regularizing for invariance across domains )是不够理想的。例如,如果人类的观察数据涉及到复杂的操作(例如,工具使用),而交互数据只涉及到简单的操作,我们不希望模型对这些差异保持不变。因此,我们采取了一种不同的方法:我们不对跨域的不变性进行正则化,而是明确地对每个域中的(潜伏)行动变量的分布进行建模( model the distributions over (latent) action variables in each of the domains)。

所采用的方法?

  对于作者的设定,手中是有两类数据[x1,a1,x2,⋯][x_{1},a_{1}, x_{2},\cdots][x1​,a1​,x2​,⋯]和[x1,x2,⋯][x_{1},x_{2},\cdots][x1​,x2​,⋯]. 而这种数据是存在domain shift的,比如从人类的视频数据和从机器人的交互数据学习. 目的就是为了学一个model,预测未来p(xc+1:T∣x1:c,a1:T)p(x_{c+1:T}|x_{1:c},a_{1:T})p(xc+1:T​∣x1:c​,a1:T​).

概率图模型

  为了能够从观测和交互数据中都能学习,作者提出的概率图模型框架如下图所示:

  生成模型可以表示为:

zt∼p(zt∣d)at∼p(at∣zt)xt+1∼p(xt+1∣x1:t,z1:t)\begin{aligned} \mathbf{z}_{t} & \sim p\left(\mathbf{z}_{t} | d\right) \\ \mathbf{a}_{t} & \sim p\left(\mathbf{a}_{t} | \mathbf{z}_{t}\right) \\ \mathbf{x}_{t+1} & \sim p\left(\mathbf{x}_{t+1} | \mathbf{x}_{1: t}, \mathbf{z}_{1: t}\right) \end{aligned}zt​at​xt+1​​∼p(zt​∣d)∼p(at​∣zt​)∼p(xt+1​∣x1:t​,z1:t​)​

  zt\mathbf{z}_{t}zt​用高斯分布进行拟合,动作解码 p(at∣zt)p\left(\mathbf{a}_{t} | \mathbf{z}_{t}\right)p(at​∣zt​)和状态转移模型都基于高斯分布的输出,用神经网络做. 转移模型用zt\mathbf{z}_{t}zt​作为输入,因此需要后验分布 p(zt∣at)p(\mathbf{z}_{t} | \mathbf{a}_{t})p(zt​∣at​)去生成action-conditioned的隐变量,比如满足这个采样:p(xt+1∣x1:t,a1:t)=Ep(z1:t∣a1:t)[p(xt+1∣x1:t,z1:t)]p\left(\mathbf{x}_{t+1} | \mathbf{x}_{1: t}, \mathbf{a}_{1: t}\right)=\mathbb{E}_{p\left(\mathbf{z}_{1: t} | \mathbf{a}_{1: t}\right)}\left[p\left(\mathbf{x}_{t+1} | \mathbf{x}_{1: t}, \mathbf{z}_{1: t}\right)\right]p(xt+1​∣x1:t​,a1:t​)=Ep(z1:t​∣a1:t​)​[p(xt+1​∣x1:t​,z1:t​)]. 由于有没有action的数据,所以需要p(zt∣xt,xt+1)p\left(\mathbf{z}_{t} | \mathbf{x}_{t}, \mathbf{x}_{t+1}\right)p(zt​∣xt​,xt+1​)。

  由于模型高度复杂和非线性原因,上述这两个后验分布是非常难算的。所以作者设计了两个分布,其网络结构如下所示:

  当动作可观察时,依据evidence lower bound (ELBO)进行优化,同时还需要优化网络框架,和动作编解码框架:

log⁡p(x1:T,a1:T)≥Eqad(z1:t∣a1:t)[∑tlog⁡p(xt+1∣x1:t,z1:t)]+Eqacd(zt∣at)[∑tlog⁡p(at∣zt)]−∑tDKL(qact(zt∣at)∥p(zt))=−Li(x1:T,a1:T)\begin{aligned} \log p\left(\mathbf{x}_{1: T}, \mathbf{a}_{1: T}\right) \geq & \mathbb{E}_{q_{\mathrm{ad}}\left(\mathbf{z}_{1: t} | \mathbf{a}_{1: t}\right)}\left[\sum_{t} \log p\left(\mathbf{x}_{t+1} | \mathbf{x}_{1: t}, \mathbf{z}_{1: t}\right)\right] \\ &+\mathbb{E}_{q_{\mathrm{acd}}\left(\mathbf{z}_{t} | \mathbf{a}_{t}\right)}\left[\sum_{t} \log p\left(\mathbf{a}_{t} | \mathbf{z}_{t}\right)\right] \\ &-\sum_{t} D_{K L}\left(q_{\mathrm{act}}\left(\mathbf{z}_{t} | \mathbf{a}_{t}\right) \| p\left(\mathbf{z}_{t}\right)\right) \\ =&-\mathcal{L}_{i}\left(\mathbf{x}_{1: T}, \mathbf{a}_{1: T}\right) \end{aligned}logp(x1:T​,a1:T​)≥=​Eqad​(z1:t​∣a1:t​)​[t∑​logp(xt+1​∣x1:t​,z1:t​)]+Eqacd​(zt​∣at​)​[t∑​logp(at​∣zt​)]−t∑​DKL​(qact​(zt​∣at​)∥p(zt​))−Li​(x1:T​,a1:T​)​

  当动作未知时,优化目标只需要去优化框架,和ELBO就可以:

log⁡p(x1:T)≥Eqinv (zt∣xt,xt+1)[∑tlog⁡p(xt+1∣xt,zt)]−∑tDKL(qinv (zt∣xt,xt+1)∥p(zt))=−Lo(x1:T)\begin{aligned} \log p\left(\mathbf{x}_{1: T}\right) \geq & \mathbb{E}_{q_{\text {inv }}\left(\mathbf{z}_{t} | \mathbf{x}_{t}, \mathbf{x}_{t+1}\right)}\left[\sum_{t} \log p\left(\mathbf{x}_{t+1} | \mathbf{x}_{t}, \mathbf{z}_{t}\right)\right] \\ &-\sum_{t} D_{K L}\left(q_{\text {inv }}\left(\mathbf{z}_{t} | \mathbf{x}_{t}, \mathbf{x}_{t+1}\right) \| p\left(\mathbf{z}_{t}\right)\right) \\ =&-\mathcal{L}_{o}\left(\mathbf{x}_{1: T}\right) \end{aligned}logp(x1:T​)≥=​Eqinv ​(zt​∣xt​,xt+1​)​[t∑​logp(xt+1​∣xt​,zt​)]−t∑​DKL​(qinv ​(zt​∣xt​,xt+1​)∥p(zt​))−Lo​(x1:T​)​

  两部分连立得到优化目标:

J=∑(x1;r,a1;r)∼DiLi(x1:T,a1:T)+∑x1,r∼D∘Lo(x1:T)\mathcal{J}=\sum_{\left(\mathrm{x}_{1} ; \mathrm{r}, \mathrm{a}_{1} ; \mathrm{r}\right) \sim D^{i}} \mathcal{L}_{i}\left(\mathrm{x}_{1: T}, \mathrm{a}_{1: T}\right)+\sum_{\mathrm{x}_{1}, \mathrm{r} \sim D^{\circ}} \mathcal{L}_{o}\left(\mathrm{x}_{1: T}\right)J=(x1​;r,a1​;r)∼Di∑​Li​(x1:T​,a1:T​)+x1​,r∼D∘∑​Lo​(x1:T​)

  除此之外还设计了一个辅助损失函数,用于衡量两种方式提取的提取隐变量是否相同,用JS散度定义:

LJS=∑(x1:T,a1:T)∼DiDJS(qact(zt∣at)∥qinv(zt∣xt,xt+1))\mathcal{L}_{J S}=\sum_{\left(\mathbf{x}_{1: T}, \mathbf{a}_{1: T}\right) \sim D^{i}} D_{J S}\left(q_{\mathrm{act}}\left(\mathbf{z}_{t} | \mathbf{a}_{t}\right) \| q_{\mathrm{inv}}\left(\mathbf{z}_{t} | \mathbf{x}_{t}, \mathbf{x}_{t+1}\right)\right)LJS​=(x1:T​,a1:T​)∼Di∑​DJS​(qact​(zt​∣at​)∥qinv​(zt​∣xt​,xt+1​))

  最终的损失函数可以表示为:

F=J+αLJS\mathcal{F}=\mathcal{J}+\alpha \mathcal{L}_{J S}F=J+αLJS​

Domain Shift

  由于数据集是两种类型,所以作者这里还做了Domain Shift。具体做法如下图所示:

  将隐变量zzz分成两部分:zsharesz^{shares}zshares和zdomainz^{domain}zdomain。通过给不同的先验分布(prior distributions)来让网络能够学地不同。zsharesz^{shares}zshares的先验分布给相同的。

取得的效果?

所出版信息?作者信息?

  论文是2019年12月三十号上传到arXiv上面的,估计今年就能知道投到那了。

参考资料

  • 论文主页:https://sites.google.com/view/lpmfoai
  • 论文链接:https://arxiv.org/abs/1912.12773

伯克利,斯坦福,宾大联合发表:从观察和交互中学习预测模型相关推荐

  1. 你就是你自己paper最好的审稿人:宾大苏炜杰提出peer review新机制

    [专栏:前沿进展]近年来,机器学习顶会论文数目井喷,审稿压力巨大,其同行评审制度备受质疑.宾大教授针对此挑战提出了由论文作者协助的新型同行评审机制. 你是否已经受够了NeurIPS,ICLR,ICML ...

  2. 中国科学院、东南大学等联合发表最新的视觉 Transformer 综述

    作者丨闪闪红星闪闪@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p/433048484 编辑丨极市平台 导读 中国科学院.东南大学等单位联合发表最新的视觉 Transf ...

  3. 宾大计算机网络课程,【图片】CIS学员专访|那个被康奈尔、哥大、宾大、CMU等8所名校录取的女孩【康乃尔大学吧】_百度贴吧...

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 李同学(Yolanda) 2018届CIS暑期科研项目学员 CIS指导教授:加州大学伯克利分校计算机系终身教授Brian Barsky 录取学校:康奈尔大 ...

  4. 录音降噪哪家强?搜狗西工大联合团队DNS挑战赛夺冠

    边策 发自 凹非寺  量子位 报道 | 公众号 QbitAI 近日,全球语音顶级会议Interspeech 2020公布了"深度降噪挑战赛"(Deep Noise Suppress ...

  5. 普林斯顿和宾大沃顿早申录取公布,常青藤精英教育一举拿下

    近日美国藤校早申录取,终于在全球瞩目之中放榜.历经巅峰对决常青藤精英教育(Ivy Elite)杀出重围,拿下了普林斯顿大学和宾夕法尼亚大学沃顿商学院2个早申录取的重磅Offer! 普林斯顿大学,创建于 ...

  6. 9位院士及12位专家联合发表长文:人工智能的进展、挑战与未来

    FUTURE | 远见 2023年1月3日,海内外9位院士及12位专家在Science<科学>合作期刊Intelligent Computing发表长篇综述论文<智能计算的最新进展. ...

  7. 9位院士及12位专家联合发表长文:智能计算的新进展、挑战与未来

    2023年1月3日,海内外9位院士及12位专家在Science<科学>合作期刊Intelligent Computing发表长篇综述论文<智能计算的最新进展.挑战和未来>.文章 ...

  8. 汤晓鸥与MIT、宾大教授共话AI:热潮终将退去,人工智能的中国式文艺复兴

    "<前任3>票房赚了18亿,那是一个前任6亿啊!" 香港中文大学信息工程系教授.商汤科技联合创始人汤晓鸥昨天在<麻省理工科技评论>与DeepTech深科技主 ...

  9. 深度学习与自然语言处理(4)_斯坦福cs224d 大作业测验1与解答

    深度学习与自然语言处理(4)_斯坦福cs224d 大作业测验1与解答 作业内容翻译:@胡杨(superhy199148@hotmail.com) && @胥可(feitongxiaok ...

  10. AI给植物看病,宾大用TensorFlow做的这款应用造福坦桑尼亚农民

    郭一璞 发自 麦拜德  量子位 报道 | 公众号 QbitAI 虽然关于AI医疗的研究并不少见,但是,实际用在医疗场景中的AI还不多见. 不过,帮植物看病的AI应用已经出现了.  坦桑尼亚的农民正 ...

最新文章

  1. Swift学习:自动引用计数
  2. javaScript一些函数--Math()
  3. struts2处理请求流程详解
  4. 观后感,读了几篇博文
  5. Name node is in safe mode解决
  6. 太阳能计算机作文500字,自制太阳能热水器
  7. Java基于springMVC的验证码案例
  8. [转]Xvid参数详解
  9. 小菜:Java异常处理的10个最佳实践
  10. 漫话:如何给女朋友解释华为鸿蒙OS是怎样实现跨平台的?
  11. 李彦宏:百度今年全员涨薪,比去年还多;谷歌暂停Chrome浏览器更新;Eclipse 4.15发布 | 极客头条...
  12. MapReduce精髓
  13. 设计模式之——单例模式
  14. 关于英特尔® 处理器显卡技术
  15. TestStand2014 使用过程中message Popup遗失test and buttons
  16. python中的ln函数_python3中涉及数字的各种函数
  17. 数学专项counting:LA 5846
  18. 设计师思维 工程师思维_从设计思维到设计行为
  19. 解决Ueditor编辑器图片保存路径问题
  20. flex布局之flex-direction

热门文章

  1. 系统监控技术 -- 主机监控,信息转发,前台显示
  2. Android ViewPager多页面滑动切换以及动画效果
  3. 小米架构调整:将销售与服务部改组为中国区 王川任总裁
  4. 读书笔记 之《Thinking in Java》(对象、集合、异常)
  5. 【网络文件共享】04、rsync基础
  6. 第十七周项目2-引用作形参
  7. CSting的GetBuffer()和ReleaseBuffer()
  8. clone ubuntu 启动不能启动网卡
  9. 如何求matlab的in(2.0375),东南大学Matlab作业1.doc
  10. mysql云上迁移_MySQL迁移上云最佳实践