最近用TD3做一个仿真,不论我怎么修改参数,总是前期奖励比较正常地在增大,到后面奖励就开始下降(这张图是迭代次数比较少的情况,不算特别明显,有时候一直迭代到>1000次,奖励都是下降的趋势)

我参考了一些建议,有博主分析可能是学习率太大或者奖励设置不合理,我后面修改过学习率和奖励,但没什么变化,最后是想起TD3有引入噪声,我之前那版没有噪声是没有衰减的,加入噪声衰减然后得到了下面的效果,基本达到了我需要的收敛效果,当然这个图里面收敛比较快,因为输入数据不一样,有时候收敛也比较慢

总结:
当然,我觉得噪声衰减这个方法可能有一定的前提,首先我的学习率是设置了衰减,奖励也是在我反复调整很多次之后得到的,所以总体效果还可以,如果其他参数还很有问题的情况下,不一定会有这个效果。

我也只是新手,至于用在其他模型上的效果怎么样我不太好说,但可以作为一个尝试的手段;
另外就是,我引用的他人的代码,对于网络结构和初始化参数基本没修改,但跑出来效果还行,然后针对具体问题微调,最重要的可能还是你自己的模型是否合理,比如我有好几次遇到瓶颈都是因为我将自己的模型环境套进去时,有几处小错误,而不是学习算法本身的参数问题

TD3学习算法,reward到后期开始减小相关推荐

  1. Twin Delayed DDPG(TD3)-强化学习算法

    文章目录 Background Quick Facts Key Equations Exploration vs. Exploitation Pseudocode Documentation Back ...

  2. 只用1/500数据就打败人类!一种采样高效的强化学习算法 | 报告详解

    [栏目:前沿进展]近日,清华大学交叉信息研究院高阳研究组在强化学习领域中取得突破,研究组所提出的模型EfficientZero首次在雅达利(Atari )游戏数据上超过同等游戏时长的人类平均水平.Ef ...

  3. 一文梳理深度学习算法演进

    来源:https://zhuanlan.zhihu.com/p/464515049 作者:Peter潘欣 编辑:蘑菇先生 学习记涉及语音.图像.nlp.强化学习.隐私保护.艺术创作.目标检测.医疗.压 ...

  4. 【强化学习】什么是强化学习算法?

    [强化学习]什么是强化学习算法? 一.强化学习解决什么问题? 二.强化学习如何解决问题? 2.1.强化学习的基本框架 2.2.强化学习系统的要素 2.3.强化学习与监督学习的区别 2.4.强化学习与非 ...

  5. 回顾6年深度学习算法实践和演进

    作者:Peter(滑铁卢大学 计算机) 原文链接:https://zhuanlan.zhihu.com/p/464515049 本文转载自知乎,著作权归属原作者,如有侵权,请联系删文. 01 前言 如 ...

  6. 如何提高强化学习算法模型的泛化能力?

    深度强化学习实验室 官网:http://www.neurondance.com/ 来源:https://zhuanlan.zhihu.com/p/328287119 作者:网易伏羲实验室 编辑:Dee ...

  7. 强化学习经典算法笔记(十九):无监督策略学习算法Diversity Is All You Need

    强化学习经典算法笔记19:无监督策略学习算法Diversity Is All You Need DIAYN核心要点 模型定义 目标函数的构造 DIAYN算法细节 目标函数的优化 SAC的训练 判别器的 ...

  8. 深度强化学习算法调参

    深度强化学习调参技巧:以D3QN.TD3.PPO.SAC算法为例 这个参考链接. 如何选择深度强化学习算法? 参考链接. 影响PPO算法性能的10个关键技巧(附PPO算法简洁Pytorch实现) 主要 ...

  9. 通俗讲解集成学习算法!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:黄星源,Datawhale优秀学习者 本文以图文的形式对模型算法中 ...

最新文章

  1. Linux 创建子进程执行任务
  2. arduino出现java错误_arduino在上传的时候出现这样的错误,在线求助大神!!!
  3. python中的装饰器、装饰器模式_python 设计模式之装饰器模式 Decorator Pattern
  4. 计算机网络---分层结构、协议、接口、服务
  5. mysql 查询缓存设置_MySQL查询缓存设置 提高MySQL查询性能
  6. Facebook的智能音箱跳,票,了
  7. python视频免费百度云-Python开发视频百度云分享
  8. java包装经验_java中基本类型和包装类型实践经验
  9. ubuntu下vscode字体高与缩进不成比
  10. 构建五种机器学习模型作比较(某金融数据集)
  11. Mac可以把html做成壁纸吗,「iWall」Mac动态桌面软件就用这款,还可使用网页作为桌面背景...
  12. 微星B550M迫击炮,设备管理器 声卡不显示Realtek解决办法
  13. SIM868获取NTP时间
  14. 人生感悟-人生需学会放下
  15. 崩坏三8月20号服务器维修,崩坏3手游8月20日更新了什么
  16. Sikuli+Selenium查询百度地图线路
  17. 我最希望成最没成的屏幕情侣....
  18. DSP基本序列MATLAB代码
  19. 使用Java开发一个自己的区块链产品、联盟链
  20. 老外的个人网站原来是这样设计的:17个最佳范例给你灵感

热门文章

  1. Origin2021科研绘图神器
  2. 机器学习 —— Stacking算法
  3. ConcurrentLinkedQueue非阻塞无界链表队列
  4. c语言中不能将字符串赋值给字符数组
  5. 使用talnet [ip] [port] 命令,在命令窗口下,让输入的字符回显。
  6. SQLyog远程连接mysql
  7. 音乐播放器的实现(五)—— 音量的加减和静音
  8. IT只忍者龟Photoshop简单人像的头发抠图过程
  9. 入侵防御系统IPS,网络设计的5大原则
  10. 多闪删掉的作品怎么恢复_快手删了作品怎么恢复