Inverse Reinforcement Learning深层理解
读RL论文:Efficient Sampling-Based Maximum Entropy Inverse Reinforcement Learning
通过极大似然公式:找到reward使得trajectory能产生尽可能多的reward (logZ起到归一化,限制reward不能无限大的作用)。
直观上看,L的梯度是在expert policy下梯度的期望与在当前reward下梯度期望的差。增加从expert trajectory中的reward,减小从当前policy中采样的trajectory中的当前reward成分。
最大熵IRL意义是在尽可能随机条件下最大化特证,对expert数据无法支持的其他动作不做过多推断(避免进行未做动作假设)。
推导过程其实用到的是控制推论(inference)中的前向和后向信息,其实没有直接用到最大熵。但它与最大熵却有着相似原理:在最大熵RL,所有的东西都有一个概率,这样做能够增加探索(exploration)。目的是最大化次优性以减小expert中模糊成分,潜在地产生可以解释expert次优性动作(去除随机性模糊性成分)的最好reward。利用expert随机性去除IRL问题中的歧义,我们并不在意expert随机动作,认为他们对expert是同样可能(同样好)的,但我们想最大化能激发expert重复性动作的reward。
详细L求导推导公式在Berkeley CS285课程里讲IRL的三节:https://www.bilibili.com/video/BV1oK4y1m7xX?p=87。前向后向信息推导:https://www.bilibili.com/video/BV1oK4y1m7xX?p=83。RLChina中也有推导和最大熵RL:https://blog.csdn.net/weixin_39059031/article/details/113978978。
希望能帮到大家,多交流
Inverse Reinforcement Learning深层理解相关推荐
- Inverse Reinforcement Learning 总结
目录 文献 Imitation Learning IRL Maximum Entropy Inverse Reinforcement Learning Generative Advers ...
- 强化学习Reinforcement Learning概念理解篇(一)
在学习强化学习之前,应该对强化学习有一个大致的了解,即去分析一下强化学习的结构或者组成元素: 什么是强化学习?所谓强化学习,就是在与环境的互动当中,为了达到某一个目标而精心的学习过程,因此称之为Goa ...
- 模仿学习:逆向强化学习(Inverse Reinforcement Learning, IRL)
1 逆向强化学习的基本设定 1.1 智能体&奖励 IRL 假设智能体可以与环境交互,环境会根据智能体的动作更新状态,但是不会给出奖励. 这种设定非常符合物理世界的实际情况. ...
- 2020文献积累:计算机 [1] Reinforcement learning in Economics and Finance
2020文献积累 - 计算机方向 [1] Reinforcement learning in Economics and Finance 1. Introduction 1.1 An Historic ...
- Reinforcement Learning
https://www.bilibili.com/video/av9770302/?p=24 https://www.bilibili.com/video/av24724071/?p=3 https: ...
- 纯干货-5Deep Reinforcement Learning深度强化学习_论文大集合
本文罗列了最近放出来的关于深度强化学习(Deep Reinforcement Learning,DRL)的一些论文.文章采用人工定义的方式来进行组织,按照时间的先后进行排序,越新的论文,排在越前面.希 ...
- 18 Issues in Current Deep Reinforcement Learning from ZhiHu
深度强化学习的18个关键问题 from: https://zhuanlan.zhihu.com/p/32153603 85 人赞了该文章 深度强化学习的问题在哪里?未来怎么走?哪些方面可以突破? 这两 ...
- 【李宏毅2020 ML/DL】P107-109 Deep Reinforcement Learning | Scratching the surface
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 关于强化学习,我专门花半年时间学习实践过,因此这里笔记只记录李老师的 outline .我的强化学习资源仓库: ...
- Deep Reinforcement Learning: Pong from Pixels翻译和简单理解
原文链接: http://karpathy.github.io/2016/05/31/rl/ 文章目录 原文链接: 前言 Policy-Gradient结构流程图 Deep Reinforcement ...
最新文章
- hdu 4263(有限制的生成树)
- Windows API一日一练(70)GetSystemTime和GetLocalTime函数
- 【错误记录】Android Studio 编译报错 ( Invalid Gradle JDK configuration found )
- Python应用实战案例-Python实现K线图绘制
- 机器学习中的数据集划分问题
- 陶瓷气体放电管型号大全
- 把度分秒的经纬度转换成十进制的经纬度的工具类
- 音视频技术开发周刊 | 225
- ubuntu android设备 no permissions
- 【linux】Linux查看服务器登陆用户信息命令(w、last、who)详解
- JavaScript中的正则表达式详解
- 青岛大学计算机科学技术学院官网,田呈亮 - 青岛大学 - 计算机科学技术学院
- VB一个可以改变箭头方向的气泡提示
- qwidget show 是否有信号_c++笔记(信号集处理函数)
- 5.2 分类器的评价指标—accuracy、precision、recall、F1、Fβ、AUC与ROC
- UVALive - 7147 (数学)
- Hive sql 行列转换(行转列,列转行)
- 计算机能力测试在线题库,全国计算机应用能力考试题库及答案2017
- 适合新手入门—嵌入式C语言
- Unity手游实战:从0开始SLG——本地化篇(一)聊聊游戏本地化
热门文章
- 2D-3D游戏资产合集包 Craftpix 2D-3D Game Assets Collection
- 公牛集团|落地采购商城,吃第一只SaaS螃蟹
- Android -- Facebook -- HashKey散列的生成
- Sublime Text 升级后报错‘kill_previous‘问题解决
- ISO11898/ISO14229/ISO14230/ISO15031/ISO15765标准对比简介
- 2015融博面试总结
- ASTM D4169-16运输包装箱
- 第九章 在网页中创建超链接
- PowerPoint 2007 如何把背景音乐嵌入到PPt文件当中
- 搞流量的小道道(扶摇生财思维)