Policy invariance under reward transformations: Theory and application to reward shaping

这篇文章是奖励塑造的重要理论基础，对奖励函数的设计具有指导作用，作者有吴恩达，地址http://luthuli.cs.uiuc.edu/~daf/courses/games/AIpapers/ng99policy.pdf

主要内容：

奖励塑造是强化学习中常用的人为设计附加的奖励来指导智能体训练的方法，但是一些问题中人为设计的奖励函数常常导致智能体学习到非最优的策略。

文章主要研究保证reward shaping最优策略不变的条件，结论是当附加奖励值可以表示为任意一个状态的势函数（Potential-based functino，势函数被定义为状态到实数的映射 ϕ:S→R\phi: S \rightarrow Rϕ:S→R ）的差分形式的时候，能保证最优策略不变。

文章最后设计了基于距离和基于子目标的启发式奖励函数，并实验证明了其对缩减训练时间有很大作用。

两个典型问题：

（1）自动车从A到B的问题，当智能体向B走就给予正奖励，其余奖励0，可能会导致智能体学到在A附近“兜圈”的策略，原因是智能体远离B没有给予负奖励，当智能体“兜圈”时，凭借靠近B的部分就能持续获得奖励；
（2）为了学会足球控球，当智能体碰到球就给予正奖励，可能导致智能体学习到在球附近“震荡”，快速靠近球然后远离再靠近，这样智能体也能持续不断获得奖励。

从问题（1）我们可以知道，如果智能体远离目标给予负奖励的话，就不会出现这个问题。联想到**物理知识中势能的概念**，当物体运动回到原位置时势能不变，于是引出了势函数（Potential-based function）的概念——势函数被定义为状态到实数的映射ϕ:S→R\phi: S \rightarrow Rϕ:S→R。同理当物体运动回原位置时势函数值不变，那么运动中的奖励函数就可以表示为势函数的差分形式，保证累积奖励值不变。

理论证明

首先需要知道强化学习中一些基本概念的含义，比如MDP五元组（S，A，R，P，γ\gammaγ）、值函数、策略，以及在强化学习中五元组一旦确定，最优策略就确定了（确定但不唯一）。记原MDP问题为M，新的MDP问题为M‘，可以通过M的奖励值加上附加奖励函数的值得到M’的奖励值。
本文主要证明了，附加值函数表示为势函数的差分形式F(s,a,s′)=γΦ(s′)−Φ(s)F(s,a,s')=\gamma \Phi(s') - \Phi(s)F(s,a,s′)=γΦ(s′)−Φ(s)时，是最优策略不变的充分必要条件，其中必要性是在不了解状态转移概率矩阵和原奖励函数的基础上，证明在附录，我在这里不介绍。充分性证明：

根据贝尔曼方程，最优值函数具有如下形式：

两边减去势能函数，作简单变换有：

引入新的变量做替换，后面将证明新引入的变量也是值函数：

然后根据F(s,a,s′)=γΦ(s′)−Φ(s)F(s,a,s')=\gamma \Phi(s') - \Phi(s)F(s,a,s′)=γΦ(s′)−Φ(s)，得到：

也就是新的变量Q^\hat QQ^就是M‘的动作值函数。
当达到M‘的最优策略时，满足如下等式：

注意上式第二行到第三行成立是因为势能函数只跟状态s有关，对同一状态下选择动作没影响，因此不影响最优策略。也就是说，M‘下的最优策略和M的相同，充分性得证。

两个推论

鲁棒性：注意到不仅对贝尔曼最优方程有以上结论，对贝尔曼方程同样有类似的结论，也就是当策略接近最优策略时，值函数接近最优值函数；
当原奖励函数也具有势能函数差分形式的时候，也就是R=0+F，最优策略与奖励值为0的问题相同，也就是所有策略均为最优策略。

另外，当F（s，a，s‘）=V*（s），为最优值函数的时候，M’的值函数均为0，只需要学习不为0的动作值函数Q（s，a），能明显降低学习难度，因此能加快学习速度。

实验

实验主要证明在格子任务中按势能函数设计附加奖励函数能加快学习速度。

实验设计了这样的问题，如下图所示，需要从左下角走到右上角。

实验一根据曼哈顿距离设计了附加奖励函数F，极大加快了巡训练速度，使用0.5*F的实验组比F的慢一些。对照组的曲线不太清楚。

实验二设计了需要按照格子上数字的顺序访问到终点，设计了没访问一个子目标就给予一部分奖励的附加奖励函数，我在这里不详细说明。

总结

总的来说本文证明主干很简洁明了，得到的结果很优美，建议大家都看一看原论文。

强化学习论文——Policy invariance under reward transformations: Theory and application to reward shaping相关推荐

必看，61篇NeurIPS深度强化学习论文解读都这里了
作者 | DeepRL 来源 | 深度强化学习实验室(ID: Deep-RL) NeurIPS可谓人工智能年度最大盛会.每年全球的人工智能爱好者和科学家都会在这里聚集,发布最新研究,并进行热烈探讨,大 ...
【重磅】61篇NIPS2019深度强化学习论文及部分解读
深度强化学习报道来源:NIPS2019 编辑:DeepRL NeurIPS(前称NIPS)可谓人工智能年度最大盛会.每年全球的人工智能爱好者和科学家都会在这里聚集,发布最新研究,并进行热烈探讨,大会 ...
个人强化学习论文导航
这里整理我笔记过的强化学习论文持续更新中- 关于问题范数的介绍图解 RL/IL 问题范式(On-Policy.Off-policy.Offline/Batch.IL-) Offline/Batch ...
《强化学习周刊》第69期：ICLR2023强化学习论文推荐、MIT实现自动调整内在奖励的强化学习...
No.69 智源社区强化学习组强化学习研究观点资源活动周刊订阅告诉大家一个好消息,<强化学习周刊>已经开启"订阅功能",以后我们会向您自动推送最 ...
【强化学习】Policy Gradient算法详解
DeepMind公开课https://sites.google.com/view/deep-rl-bootcamp/lectures David Silver教程 http://www0.cs.ucl ...
2020ICML多智能体强化学习论文简介
强化学习最新论文汇总如有错误,欢迎指正所引用内容链接 Multi-Agent RL 1. Kernel Methods for Cooperative Multi-Agent Learning w ...
模型预测控制与强化学习-论文阅读（一）Integration of reinforcement learning and model predictive
模型预测控制与强化学习-论文阅读(一)Integration of reinforcement learning and model predictive 最近才把初步的研究方向定下来,导师放养,实验 ...
【强化学习论文解读 1】 NAF
[强化学习论文解读 1] NAF 1. 引言 2. 论文解读 2.1 背景 2.2 NAF算法原理 2.3 Imagination Rollouts方法 3. 总结 1. 引言本文介绍一篇2016年 ...
【强化学习论文合集】三十三.2021国际人工智能联合会议论文(IJCAI2021)
欢迎订阅本专栏:<强化学习论文合集> 专栏介绍: 本专栏整理了2017~2022年(后面会持续更新)强化学习领域国际顶级会议已录用的论文,会议包括但不限于:ICML.NeurIPS.AAA ...

强化学习论文——Policy invariance under reward transformations: Theory and application to reward shaping