Inverse Reinforcement Learning深层理解

读RL论文：Efficient Sampling-Based Maximum Entropy Inverse Reinforcement Learning

通过极大似然公式：找到reward使得trajectory能产生尽可能多的reward (logZ起到归一化，限制reward不能无限大的作用)。
直观上看，L的梯度是在expert policy下梯度的期望与在当前reward下梯度期望的差。增加从expert trajectory中的reward，减小从当前policy中采样的trajectory中的当前reward成分。

最大熵IRL意义是在尽可能随机条件下最大化特证,对expert数据无法支持的其他动作不做过多推断(避免进行未做动作假设)。
推导过程其实用到的是控制推论(inference)中的前向和后向信息，其实没有直接用到最大熵。但它与最大熵却有着相似原理：在最大熵RL，所有的东西都有一个概率，这样做能够增加探索(exploration)。目的是最大化次优性以减小expert中模糊成分，潜在地产生可以解释expert次优性动作(去除随机性模糊性成分)的最好reward。利用expert随机性去除IRL问题中的歧义,我们并不在意expert随机动作，认为他们对expert是同样可能(同样好)的，但我们想最大化能激发expert重复性动作的reward。

详细L求导推导公式在Berkeley CS285课程里讲IRL的三节：https://www.bilibili.com/video/BV1oK4y1m7xX?p=87。前向后向信息推导：https://www.bilibili.com/video/BV1oK4y1m7xX?p=83。RLChina中也有推导和最大熵RL：https://blog.csdn.net/weixin_39059031/article/details/113978978。

希望能帮到大家，多交流

Inverse Reinforcement Learning深层理解相关推荐

Inverse Reinforcement Learning 总结
目录文献 Imitation Learning IRL Maximum Entropy Inverse Reinforcement Learning Generative Advers ...
强化学习Reinforcement Learning概念理解篇(一)
在学习强化学习之前,应该对强化学习有一个大致的了解,即去分析一下强化学习的结构或者组成元素: 什么是强化学习?所谓强化学习,就是在与环境的互动当中,为了达到某一个目标而精心的学习过程,因此称之为Goa ...
模仿学习：逆向强化学习(Inverse Reinforcement Learning， IRL)
1 逆向强化学习的基本设定 1.1 智能体&奖励 IRL 假设智能体可以与环境交互,环境会根据智能体的动作更新状态,但是不会给出奖励. 这种设定非常符合物理世界的实际情况. ...
2020文献积累：计算机 [1] Reinforcement learning in Economics and Finance
2020文献积累 - 计算机方向 [1] Reinforcement learning in Economics and Finance 1. Introduction 1.1 An Historic ...
Reinforcement Learning
https://www.bilibili.com/video/av9770302/?p=24 https://www.bilibili.com/video/av24724071/?p=3 https: ...
纯干货-5Deep Reinforcement Learning深度强化学习_论文大集合
本文罗列了最近放出来的关于深度强化学习(Deep Reinforcement Learning,DRL)的一些论文.文章采用人工定义的方式来进行组织,按照时间的先后进行排序,越新的论文,排在越前面.希 ...
18 Issues in Current Deep Reinforcement Learning from ZhiHu
深度强化学习的18个关键问题 from: https://zhuanlan.zhihu.com/p/32153603 85 人赞了该文章深度强化学习的问题在哪里?未来怎么走?哪些方面可以突破? 这两 ...
【李宏毅2020 ML/DL】P107-109 Deep Reinforcement Learning | Scratching the surface
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 关于强化学习,我专门花半年时间学习实践过,因此这里笔记只记录李老师的 outline .我的强化学习资源仓库: ...
Deep Reinforcement Learning: Pong from Pixels翻译和简单理解
原文链接: http://karpathy.github.io/2016/05/31/rl/ 文章目录原文链接: 前言 Policy-Gradient结构流程图 Deep Reinforcement ...

Inverse Reinforcement Learning深层理解

Inverse Reinforcement Learning深层理解相关推荐

最新文章

热门文章