#Sparse reward

解决sparse reward的方法有reward shaping、curiosity driven reward、(reverse)curriculum learning、Hierarchical Reinforcement learning等等。

reward shaping:在agent与environment交互时,人为设置的reward,从而指挥agent,告诉其采取哪一个action最优,而这个reward不是environment对应的reward,这样可以提高estimate Q-function时的准确性。

存在的问题:认为设计的reward需要domain knowledge,需要自己设计出符合environment与agent更好的交互的reward,这需要不少经验,需根据实际情况调整。

ICM:(intrinsic curiosity module)代表curiosity driven这个技术中的增加新的reward function后的reward function。

curriculum learning:一种广义的用在RL训练agent的方法,其在input训练数据的时候,采取由易到难的顺序进行input,也就是认识设计它的学习过程。

reverse curriculum learning:从最终理想的state出发,依次寻找距离gold state 最近的state作为想让agent达到的阶段性理想state,在此过程中去掉一些极端的case。总而言之,是从目标反推。

hierarchical reinforcement learning:将一个大型task,横或纵拆解成多个agent去执行。

#模仿学习

模仿学习包含两种方法,行为克隆(behavior cloning)和逆强化学习(inverse reinforcement learning)。

行为克隆:类似ML中的监督学习,通过收集expert的state与action 的对应信息,训练我们的network。在使用input state时,得到对应的output action。

……

Sparse Reward相关推荐

  1. 【李宏毅2020 ML/DL】P115-117 Actor-Critic Sparse Reward Imitation Learning

    我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 关于强化学习,我专门花半年时间学习实践过,因此这里笔记只记录李老师的 outline .我的强化学习资源仓库: ...

  2. 强化学习中Sparse Reward问题该怎么解决?

    Sparse Reward 是指稀疏回报,在很多强化学习场景中,大多数情况下是没有回报的,举个例子来说: 假设你要训练一个机器手臂,然后桌上有一个螺丝钉跟螺丝起子,那你要训练它用螺丝起子把螺丝钉栓进去 ...

  3. 【李宏毅机器学习课程笔记】深度强化学习(五)—— Sparse Reward

    文章目录 Introduction Reward Shaping Curiosity Curriculum Learning Hierarchical Reinforcement Learning I ...

  4. 【强化学习笔记】2020 李宏毅 强化学习课程笔记(PPO、Q-Learning、Actor + Critic、Sparse Reward、IRL)

    前言 如果你对这篇文章感兴趣,可以点击「[访客必读 - 指引页]一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接. 文章目录 前言 Introduction Two Learning Mod ...

  5. 深度强化学习系列: “奖励函数”的设计和设置(reward shaping)

    概述 前面已经讲了好几篇关于强化学习的概述.算法(DPG->DDPG),也包括对环境OpenAI gym的安装,baseline算法的运行和填坑,虽然讲了这么多,算法也能够正常运行还取得不错的效 ...

  6. 机器学习-55-RL-07-Sparse Reward(强化学习-稀疏奖励:Reward Shaping,Curriculum Learning,Hierarchical RL)

    文章目录 Sparse Reward Reward Shaping(奖励塑造) Reward Shaping Curiosity(ICM) Curriculum Learning Curriculum ...

  7. 详解GCN、GAT、凸优化、贝叶斯、MCMC、LDA

    如果你准备发AI方向的论文,或准备从事科研工作或已在企业中担任AI算法岗的工作.那么我真诚的向大家推荐,贪心学院<高阶机器学习研修班>,目前全网上应该找不到类似体系化的课程.课程精选了四大 ...

  8. 《强化学习周刊》第18期:ICML-2021强化学习的最新研究与应用

    No.18 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.并且诸多研究成果发表于ICML-2021学 ...

  9. 深度强化学习的现在,将来与未来

    1 前言 从2013年Deepmind提出DQN开始,深度强化学习(Deep Reinforcement Learning)作为一种面向决策控制的革命性技术,已经发展了8年之久,在这8年中,涌现了Al ...

最新文章

  1. 何必分个孰优孰劣呢?!
  2. iPhoneX快速适配,简单到你想哭。
  3. jQuery.parseJSON()函数详解
  4. Shell运算符:Shell算数运算符、关系运算符、布尔运算符、字符串运算符等
  5. linux下实用工具,Linux下的实用工具(持续更新)
  6. 【电子相册制作软件】名编辑电子杂志大师教程 | 如何在翻页电子相册中添加动态的flash背景?
  7. svn 分支上新增文件合并发生冲突_SVN使用:分支合并及解决冲突详解
  8. matlab边角网间接平差计算,第21讲间接平差实例.ppt
  9. 计算机核心期刊加拿大,ssci或cssci期刊北京大学图书馆版核心期刊国外学术.doc...
  10. maker mv rpg 源码_rpgmakermv插件
  11. 注册亚马逊网站云服务器,免费午餐:亚马逊免费云主机注册使用全攻略
  12. po层和vo层中po和vo是什么意思
  13. 在线音频剪辑、编辑工具
  14. Unity ML-Agents 之 平衡球案例的实现整理(内含实现步骤)
  15. C++ 惯用法之 Nifty Counter
  16. 5118站长工具箱:SEO数据分析浏览器插件 - 叶涛的博客
  17. 邀请码:20111221235047_092555,有效期至2011-12-21 23:50:45
  18. 计算机怎么连不上打印机,电脑和打印机连接不上怎么回事
  19. 手机的imei号的获取
  20. threejs使用精灵图添加图片贴图

热门文章

  1. webstorm字体字号设置
  2. centos关闭防火墙命令(centos重启防火墙命令)
  3. 在线markdown编辑器_Beegit初探:协作在线Markdown编辑器
  4. 水果店(库)管理系统 —— 实现了管理员模式与顾客模式 JAVA
  5. 通信原理绪论测试题·
  6. 宝藏网站系列:这个网站号称万能
  7. linux系统如何关闭程序,关闭和重启Linux系统
  8. R语言使用plot函数可视化数据散点图,使用cex.lab参数自定义设置坐标轴标签字体的大小(axis labels)
  9. 一位国企员工的离职文:单位不黄,都对不起秋天!
  10. ArcGIS engine中Display类库 (局部刷新)