读RL论文:Efficient Sampling-Based Maximum Entropy Inverse Reinforcement Learning


通过极大似然公式:找到reward使得trajectory能产生尽可能多的reward (logZ起到归一化,限制reward不能无限大的作用)。
直观上看,L的梯度是在expert policy下梯度的期望与在当前reward下梯度期望的差。增加从expert trajectory中的reward,减小从当前policy中采样的trajectory中的当前reward成分。

最大熵IRL意义是在尽可能随机条件下最大化特证,对expert数据无法支持的其他动作不做过多推断(避免进行未做动作假设)。
推导过程其实用到的是控制推论(inference)中的前向和后向信息,其实没有直接用到最大熵。但它与最大熵却有着相似原理:在最大熵RL,所有的东西都有一个概率,这样做能够增加探索(exploration)。目的是最大化次优性以减小expert中模糊成分,潜在地产生可以解释expert次优性动作(去除随机性模糊性成分)的最好reward。利用expert随机性去除IRL问题中的歧义,我们并不在意expert随机动作,认为他们对expert是同样可能(同样好)的,但我们想最大化能激发expert重复性动作的reward。

详细L求导推导公式在Berkeley CS285课程里讲IRL的三节:https://www.bilibili.com/video/BV1oK4y1m7xX?p=87。前向后向信息推导:https://www.bilibili.com/video/BV1oK4y1m7xX?p=83。RLChina中也有推导和最大熵RL:https://blog.csdn.net/weixin_39059031/article/details/113978978。

希望能帮到大家,多交流

Inverse Reinforcement Learning深层理解相关推荐

  1. Inverse Reinforcement Learning 总结

    目录​​​​​​​ 文献 Imitation Learning IRL Maximum Entropy Inverse Reinforcement Learning Generative Advers ...

  2. 强化学习Reinforcement Learning概念理解篇(一)

    在学习强化学习之前,应该对强化学习有一个大致的了解,即去分析一下强化学习的结构或者组成元素: 什么是强化学习?所谓强化学习,就是在与环境的互动当中,为了达到某一个目标而精心的学习过程,因此称之为Goa ...

  3. 模仿学习:逆向强化学习(Inverse Reinforcement Learning, IRL)

    1 逆向强化学习的基本设定 1.1 智能体&奖励 IRL 假设智能体可以与环境交互,环境会根据智能体的动作更新状态,但是不会给出奖励.         这种设定非常符合物理世界的实际情况.   ...

  4. 2020文献积累:计算机 [1] Reinforcement learning in Economics and Finance

    2020文献积累 - 计算机方向 [1] Reinforcement learning in Economics and Finance 1. Introduction 1.1 An Historic ...

  5. Reinforcement Learning

    https://www.bilibili.com/video/av9770302/?p=24 https://www.bilibili.com/video/av24724071/?p=3 https: ...

  6. 纯干货-5Deep Reinforcement Learning深度强化学习_论文大集合

    本文罗列了最近放出来的关于深度强化学习(Deep Reinforcement Learning,DRL)的一些论文.文章采用人工定义的方式来进行组织,按照时间的先后进行排序,越新的论文,排在越前面.希 ...

  7. 18 Issues in Current Deep Reinforcement Learning from ZhiHu

    深度强化学习的18个关键问题 from: https://zhuanlan.zhihu.com/p/32153603 85 人赞了该文章 深度强化学习的问题在哪里?未来怎么走?哪些方面可以突破? 这两 ...

  8. 【李宏毅2020 ML/DL】P107-109 Deep Reinforcement Learning | Scratching the surface

    我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 关于强化学习,我专门花半年时间学习实践过,因此这里笔记只记录李老师的 outline .我的强化学习资源仓库: ...

  9. Deep Reinforcement Learning: Pong from Pixels翻译和简单理解

    原文链接: http://karpathy.github.io/2016/05/31/rl/ 文章目录 原文链接: 前言 Policy-Gradient结构流程图 Deep Reinforcement ...

最新文章

  1. hdu 4263(有限制的生成树)
  2. Windows API一日一练(70)GetSystemTime和GetLocalTime函数
  3. 【错误记录】Android Studio 编译报错 ( Invalid Gradle JDK configuration found )
  4. Python应用实战案例-Python实现K线图绘制
  5. 机器学习中的数据集划分问题
  6. 陶瓷气体放电管型号大全
  7. 把度分秒的经纬度转换成十进制的经纬度的工具类
  8. 音视频技术开发周刊 | 225
  9. ubuntu android设备 no permissions
  10. 【linux】Linux查看服务器登陆用户信息命令(w、last、who)详解
  11. JavaScript中的正则表达式详解
  12. 青岛大学计算机科学技术学院官网,田呈亮 - 青岛大学 - 计算机科学技术学院
  13. VB一个可以改变箭头方向的气泡提示
  14. qwidget show 是否有信号_c++笔记(信号集处理函数)
  15. 5.2 分类器的评价指标—accuracy、precision、recall、F1、Fβ、AUC与ROC
  16. UVALive - 7147 (数学)
  17. Hive sql 行列转换(行转列,列转行)
  18. 计算机能力测试在线题库,全国计算机应用能力考试题库及答案2017
  19. 适合新手入门—嵌入式C语言
  20. Unity手游实战:从0开始SLG——本地化篇(一)聊聊游戏本地化

热门文章

  1. 2D-3D游戏资产合集包 Craftpix 2D-3D Game Assets Collection
  2. 公牛集团|落地采购商城,吃第一只SaaS螃蟹
  3. Android -- Facebook -- HashKey散列的生成
  4. Sublime Text 升级后报错‘kill_previous‘问题解决
  5. ISO11898/ISO14229/ISO14230/ISO15031/ISO15765标准对比简介
  6. 2015融博面试总结
  7. ASTM D4169-16运输包装箱
  8. 第九章 在网页中创建超链接
  9. PowerPoint 2007 如何把背景音乐嵌入到PPt文件当中
  10. 搞流量的小道道(扶摇生财思维)