一、前述

本文通过一个案例来讲解Q-Learning

二、具体

1、案例

假设我们需要走到5房间。

转变为如下图:先构造奖励,达到5,即能够走得5的action则说明奖励比较高设置成100,没有达到5说明奖励比较低,设置成0。

Q-learning实现步骤:

 2、案例详解:

第一步的Q(1,5):最开始的Q矩阵都是零矩阵,迭代完之后Q(1,5)是100

第二次迭代:依旧是随机

收敛的意思是最后Q基本不变了,然后归一化操作,所有值都除以500,然后计算百分比。

则最后的分值填充如下:

【强化学习篇】--强化学习案例详解一相关推荐

  1. Java NIO学习篇之缓冲区ByteBuffer详解

    定义: ByteBuffer是Buffer的实现类之一,是一个通用的缓冲区,功能要比其他缓冲区子类多.支持直接内存.是一个抽象类.子类实现是HeapByteBuffer(非直接缓冲区子类),Direc ...

  2. [网络安全学习篇2]:IP详解及简单的DOS命令(千峰网络安全视频笔记 2 day)

    引言:我的系列博客[网络安全学习篇]上线了,小编也是初次创作博客,经验不足:对千峰网络信息安全开源的视频公开课程的学习整理的笔记整理的也比较粗糙,其实看到目录有300多集的时候,讲道理,有点怂了,所以 ...

  3. J2EE学习篇之--JQuery技术详解

    前面我们讲解了的J2EE的技术都是服务端的技术,下面我们来看一下前端的一些开发技术,这一篇我们来看一下jQuery技术 简介: jQuery由美国人John Resig创建,至今已吸引了来自世界各地的 ...

  4. Java NIO学习篇之通道FileChannel详解

    定义: FileChannel是Java NIO对应于磁盘等存储设备文件操作的通道. 常用API详解: 获取FileChannel的API /** * 打开一个与文件的连接通道,用于进行文件操作. * ...

  5. Java NIO学习篇之缓冲区CharSet详解

    定义: CharSet是对java nio编码解码的解决方案,专门负责字符的编码和解码. 编码:字符数组.字符串 ===> 字节数组. 解码:字节数组 ==> 字符数组.字符串 API详解 ...

  6. 【redis学习篇】哨兵架构详解

    一.哨兵架构概要 sentinel哨兵是特殊的redis服务,不提供读写服务,主要用来监控redis实例节点. sentinel实时监视主从集群,能实时知道哪个节点是主节点,哪些是从节点,哨兵架构下c ...

  7. Java NIO学习篇之通道Channel详解

    定义: Channel:通道,运输的介质,可以大致比喻成铁路的铁轨,连接着两个车站,而channel用于打开与IO设备的连接,比如磁盘,套接字等. 通道使用完需要关闭. 与传统IO的Stream比较: ...

  8. Java NIO学习篇之缓冲区Buffer详解

    定义 缓冲区Buffer在java nio中负责数据的存储,缓冲区就是数组,用于存储不同类型数据的数组. jdk为java七大基本类型数据都准备了响应的缓冲区(boolean值除外): ByteBuf ...

  9. 【强化学习】Policy Gradient算法详解

    DeepMind公开课https://sites.google.com/view/deep-rl-bootcamp/lectures David Silver教程 http://www0.cs.ucl ...

最新文章

  1. cmd 查看端口占用情况
  2. C读取配置文件,然后写入结构体的方法
  3. ACM中java的使用
  4. 行走方案问题(动态规划实现)
  5. Java SecurityManager checkAccess()方法与示例
  6. (11)Verilog HDL变量:wire型
  7. ActionScript3文本框字体调整一法
  8. 基于相关向量机RVM的分类算法
  9. 精伦身份证阅读器php_精伦IDR210台式身份证读卡器
  10. 三星android智能手机usb驱动程序,三星手机驱动官方下载
  11. 怎么解决文件正在使用无法删除----资源监视器
  12. 2013年微博营销最成功案例
  13. Kubernetes Egress 网络策略指南
  14. 微信小程序font-family中提供的十四种字体
  15. 生成函数多项式操作合集
  16. Unity地图分割组合时出现接缝的处理办法
  17. 四路监控物联卡赋能卡友行车安全
  18. 【正点原子FPGA连载】 第十七章 RS485串口通信实验 -摘自【正点原子】领航者ZYNQ之FPGA开发指南_V2.0
  19. [译]Flutter缓存管理库flutter_cache_manager
  20. 华为上半年手机销量_霸气侧漏,如何看待小米和华为的上半年手机销量

热门文章

  1. iOS14.7beta版更新内容 iOS14.7beta版升级方法
  2. 腾讯需要的不是国行NS,它需要的是《动森》
  3. 【兼容性解决】页面滚动距离document.documentElement.scrollTop兼容性问题
  4. jieba 同义词_Jieba库实现词性标注及小说人物角色抽取
  5. 地表最强排版公式编辑器---Latex教程笔记
  6. python图像处理——图片区域颜色替换小工具
  7. 如何查到连接你计算机的网络,如何从电脑上查到本地连接的网络密码
  8. 2019软工实践_作业3_2(团队介绍博客)
  9. 转录组GO富集与微生物相关性分析
  10. 在arXiv下载论文的LaTeX源码