Sparse Reward

#Sparse reward

解决sparse reward的方法有reward shaping、curiosity driven reward、（reverse）curriculum learning、Hierarchical Reinforcement learning等等。

reward shaping:在agent与environment交互时，人为设置的reward，从而指挥agent，告诉其采取哪一个action最优，而这个reward不是environment对应的reward，这样可以提高estimate Q-function时的准确性。

存在的问题：认为设计的reward需要domain knowledge，需要自己设计出符合environment与agent更好的交互的reward，这需要不少经验，需根据实际情况调整。

ICM：（intrinsic curiosity module）代表curiosity driven这个技术中的增加新的reward function后的reward function。

curriculum learning：一种广义的用在RL训练agent的方法，其在input训练数据的时候，采取由易到难的顺序进行input，也就是认识设计它的学习过程。

reverse curriculum learning：从最终理想的state出发，依次寻找距离gold state 最近的state作为想让agent达到的阶段性理想state，在此过程中去掉一些极端的case。总而言之，是从目标反推。

hierarchical reinforcement learning：将一个大型task，横或纵拆解成多个agent去执行。

#模仿学习

模仿学习包含两种方法，行为克隆（behavior cloning）和逆强化学习（inverse reinforcement learning）。

行为克隆：类似ML中的监督学习，通过收集expert的state与action 的对应信息，训练我们的network。在使用input state时，得到对应的output action。

……

Sparse Reward相关推荐

【李宏毅2020 ML/DL】P115-117 Actor-Critic Sparse Reward Imitation Learning
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 关于强化学习,我专门花半年时间学习实践过,因此这里笔记只记录李老师的 outline .我的强化学习资源仓库: ...
强化学习中Sparse Reward问题该怎么解决？
Sparse Reward 是指稀疏回报,在很多强化学习场景中,大多数情况下是没有回报的,举个例子来说: 假设你要训练一个机器手臂,然后桌上有一个螺丝钉跟螺丝起子,那你要训练它用螺丝起子把螺丝钉栓进去 ...
【李宏毅机器学习课程笔记】深度强化学习（五）—— Sparse Reward
文章目录 Introduction Reward Shaping Curiosity Curriculum Learning Hierarchical Reinforcement Learning I ...
【强化学习笔记】2020 李宏毅强化学习课程笔记（PPO、Q-Learning、Actor + Critic、Sparse Reward、IRL）
前言如果你对这篇文章感兴趣,可以点击「[访客必读 - 指引页]一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接. 文章目录前言 Introduction Two Learning Mod ...
深度强化学习系列: “奖励函数”的设计和设置（reward shaping）
概述前面已经讲了好几篇关于强化学习的概述.算法(DPG->DDPG),也包括对环境OpenAI gym的安装,baseline算法的运行和填坑,虽然讲了这么多,算法也能够正常运行还取得不错的效 ...
机器学习-55-RL-07-Sparse Reward(强化学习-稀疏奖励:Reward Shaping,Curriculum Learning,Hierarchical RL)
文章目录 Sparse Reward Reward Shaping(奖励塑造) Reward Shaping Curiosity(ICM) Curriculum Learning Curriculum ...
详解GCN、GAT、凸优化、贝叶斯、MCMC、LDA
如果你准备发AI方向的论文,或准备从事科研工作或已在企业中担任AI算法岗的工作.那么我真诚的向大家推荐,贪心学院<高阶机器学习研修班>,目前全网上应该找不到类似体系化的课程.课程精选了四大 ...
《强化学习周刊》第18期：ICML-2021强化学习的最新研究与应用
No.18 智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.并且诸多研究成果发表于ICML-2021学 ...
深度强化学习的现在，将来与未来
1 前言从2013年Deepmind提出DQN开始,深度强化学习(Deep Reinforcement Learning)作为一种面向决策控制的革命性技术,已经发展了8年之久,在这8年中,涌现了Al ...

Sparse Reward

Sparse Reward相关推荐

最新文章

热门文章