要不就是遗传(初始化),要不就是模仿人学习(教师模型),环境学习(强化学习)

和环境的交互学习,又分为已知环境和未知环境的学习

学习路线,论文复现后就是前沿论文的追踪阅读

经典教材

就是跟环境的交互而已

两部分,三要素。state(全局状态)和observation(局部)在多智能体中

Flappy bird

乒乓球

有奖励延迟

走迷宫

运动与平衡

个性化推荐

股票市场

交通治理

强化学习应用路线

关系,和deep learning有交集

对比,监督,任务驱动(回归分类),无监督,数据驱动(数据的区别和联系),强化学习(环境驱动,算法要适配环境)


强化学习直接跨越了,认知到决策的过程,直接到决策

监督学习,认知
强化学习,决策

围棋,星际争霸,DOTA2

比人类勤奋

探索和利用

会探索也要会学习,两种学习策略
基于价值和基于策略

两种策略的算法方案

基于模型和无模型

强化学习,主流算法库,可以做比对

仿真平台

交互接口

PARL介绍

快速搭建分布式并行

对比试验,并行策略

强化学习总结

1-强化学习(RL)初印象相关推荐

  1. 强化学习RL学习笔记2-概述(2)

    强化学习笔记专栏传送 上一篇:强化学习RL学习笔记1-概述(1) 下一篇:强化学习RL学习笔记3-gym了解与coding实践 目录 强化学习笔记专栏传送 前言 Major Components of ...

  2. 主要内容: 本文提出了一种基于(ppo)的微电网最优调度方法。 该方法采用强化学习(RL)来学习调度策略,并积累相应的调度知识。 同时,引入ppo模型,将微电网调度策略动作从离散动作空间扩展到连续动作

    MATLAB代码:微电网 强化学习 关键词:微电网 强化学习 RL Reinforcement Learning 参考文档:<Optimal Scheduling of Microgrid Ba ...

  3. 从零实践强化学习之RL初印象(GYM+PARL)

    昨天听了曾两度夺得NeurIPS强化学习赛事冠军的飞桨强化学习PARL团队核心成员科老师的课程,不得不说,满满的干货,于是今天打算再看一遍回放,并好好地做一下笔记. 在学习强化学习之前,我们先思考一下 ...

  4. 强化学习(RL)中的Q-learning在拿奖杯游戏的表现

    RL中的Q-learning在拿奖杯游戏的表现 强化学习与Q-learning 拿奖杯游戏与建模 代码分析 运行结果 强化学习与Q-learning 随着知识的学习AI的面纱也被慢慢揭开,强化学习的详 ...

  5. David Silver《强化学习RL》第八讲 整合学习与规划

    本课程之前所有的内容都没有提及到个体如何构建一个模拟环境的模型,自然也没有讲解个体构建一个模拟环境的模型对于解决MDP问题有何帮助.本讲即关注这两个问题.通过构建一个模型,个体具备了一定程度的独立思考 ...

  6. 强化学习(六) - 连续空间中的强化学习(RL in Continuous Spaces)及相关实例

    强化学习(六) - 连续空间中的强化学习 6.1 连续空间中的强化学习 6.2 离散空间和连续空间 6.3 离散化 实例:小车上山 6.3.1 相关程序 6.3.2 程序注解 (1) 环境测试 (2) ...

  7. QUANT[14]强化学习RL论文1:通过深度强化学习实现人的层次控制

    论文<通过深度强化学习实现人的层次控制>解读 目录 1. 摘要 2.模型 3. 实验设置 4. 结果 5. 结论 6.正文翻译 1. 摘要 The theory of reinforcem ...

  8. bandit agent下棋AI(python编写) 通过强化学习RL 使用numpy

    PS:首先声明是学校的作业= = 我喊它贝塔狗(原谅我不要脸),因为一直觉得阿法狗很厉害但离我很遥远,终于第一次在作业驱动下尝试写了一个能看的AI,有不错的胜率还是挺开心的 正文 对战随机agent的 ...

  9. 走向开放世界强化学习、IJCAI2022论文精选、机器人 RL 工具、强化学习招聘、《强化学习周刊》第73期...

    No.73 智源社区 强化学习组 强 化 学  习 周刊订阅 <强化学习周刊>已经开启"订阅功能",扫描下面二维码,进入主页,选择"关注TA",我们 ...

最新文章

  1. SQL与NoSQL区别-存储方式
  2. 在MAC下搭建JSP开发环境
  3. 列表和range、元组
  4. YbtOJ#20235-[冲刺NOIP2020模拟赛Day9]公共序列【dp】
  5. 光纤中继器的防雷及日常维护方法介绍
  6. CImage类的用法(转帖)
  7. wince中的BSP工程的相关文件介绍
  8. Netty实现原理分析
  9. golang延时,在golang中使用延迟
  10. 2015春浙江省二级c语言,2015-2015年浙江省高校计算机等级考试二级C试题.doc
  11. 安卓桌面壁纸_安卓视频桌面哪个好用 让手机桌面更炫酷
  12. Spring IOC源码笔记(二)
  13. (简单有效)vivo手机怎么不root激活Xposed框架
  14. Phil Coulson
  15. 工作经验分享|你在工作中应该注意什么?
  16. 怎么用python画四叶草_如何使用python绘图四叶草
  17. libero soc 11.9 modelsim仿真
  18. 使用GoldenGate完成MySQL到MySQL的同步
  19. 精准关键词获取-行业搜索词分析
  20. 2020TI省级大学生电子竞赛推荐芯片简介

热门文章

  1. 如何使用“tuned”来应用调整配置文件?
  2. 绘画未来的计算机的图片,小学生未来科技绘画作品欣赏
  3. python程序员面试宝典 陈屹_Python 面试宝典
  4. 精神分裂症的一般治疗原则
  5. 江南爱软装十大品牌 软装包含的元素你知道多少
  6. oracle数值型函数大全(不包含三角函数)
  7. ccxprocess启动项可以禁用么_Mac怎么禁用Adobe无用自启动项 Mac禁用Adobe无用自启动项方法...
  8. 数据挖掘第三版课后题答案
  9. 学顶教育:执业药师证书的作用!
  10. Mac在终端修改环境变量