Q-Learning决策过程




Q-learning 小例子

-o---T
# T 就是宝藏的位置, o 是探索者的位置

每一次移动,状态发生改变的反馈

def get_env_feedback(S, A):# This is how agent will interact with the environmentif A == 'right':    # move rightif S == N_STATES - 2:   # terminateS_ = 'terminal'R = 1else:S_ = S + 1R = 0else:   # move leftR = 0if S == 0:S_ = S  # reach the wallelse:S_ = S - 1return S_, R

RL算法:选择、更新

def rl():q_table = build_q_table(N_STATES, ACTIONS)  # 初始 q tablefor episode in range(MAX_EPISODES):     # 回合step_counter = 0S = 0   # 回合初始位置is_terminated = False   # 是否回合结束update_env(S, episode, step_counter)    # 环境更新while not is_terminated:A = choose_action(S, q_table)   # 选行为S_, R = get_env_feedback(S, A)  # 实施行为并得到环境的反馈q_predict = q_table.loc[S, A]    # 估算的(状态-行为)值if S_ != 'terminal':q_target = R + GAMMA * q_table.iloc[S_, :].max()   #  实际的(状态-行为)值 (回合没结束)else:q_target = R     #  实际的(状态-行为)值 (回合结束)is_terminated = True    # terminate this episodeq_table.loc[S, A] += ALPHA * (q_target - q_predict)  #  q_table 更新S = S_  # 探索者移动到下一个 stateupdate_env(S, episode, step_counter+1)  # 环境更新step_counter += 1return q_table

莫烦python 强化学习 (Reinforcement Learning)相关推荐

  1. 强化学习(Reinforcement Learning)入门学习--01

    强化学习(Reinforcement Learning)入门学习–01 定义 Reinforcement learning (RL) is an area of machine learning in ...

  2. 强化学习 (Reinforcement Learning)

    强化学习: 强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益.其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能 ...

  3. 强化学习 Reinforcement Learning(三)——是时候用 PARL 框架玩会儿 DOOM 了!!!(下)

    强化学习 Reinforcement Learning(三)-- 是时候用 PARL 框架玩会儿 DOOM 了!!!(下) 本文目录 强化学习 Reinforcement Learning(三)-- ...

  4. 强化学习(Reinforcement Learning)入门知识

    强化学习(Reinforcement Learning) 概率统计知识 1. 随机变量和观测值 抛硬币是一个随机事件,其结果为**随机变量 X ** 正面为1,反面为0,若第 i 次试验中为正面,则观 ...

  5. 强化学习 (Reinforcement Learning) 基础及论文资料汇总

    持续更新中... 书籍 1. <Reinforcement Learning: An Introduction>Richard S. Sutton and Andrew G.Barto , ...

  6. Deep QLearning算法详解(强化学习 Reinforcement Learning)

    一.算法详解 文章最后附有博主自己实现的深度qlearning玩space invader游戏 本文介绍的是基于神经网络的qlearning算法.我们知道传统的qlearning算法只能处理状态和动作 ...

  7. 莫烦Python NumpyPandas 学习笔记

    莫烦Python Numpy&Pandas 学习笔记 原文(视频)地址:https://www.bilibili.com/video/BV1Ex411L7oT 1. 安装 numpy官方网站: ...

  8. 永恒python强化材料_强化学习 Reinforcement Learning (莫烦 Python 教程)

    https://www.bilibili.com/video/BV13W411Y75P?p=9 Q-Learning 说到不一定做到 Sarsa:说到做到 Q-learning 是一个更勇敢的算法 q ...

  9. 强化学习Reinforcement Learning

    Abstract Abstract 背景 强化学习算法概念 背景 (1) 强化学习的历史发展 1956年Bellman提出了动态规划方法. 1977年Werbos提出只适应动态规划算法. 1988年s ...

  10. 强化学习(Reinforcement Learning)

    背景 当我们思考学习的本质时,我们首先想到的可能是我们通过与环境的互动来学习.无论是在学习开车还是在交谈,我们都清楚地意识到环境是如何回应我们的行为的,我们试图通过行为来影响后续发生的事情.从互动中学 ...

最新文章

  1. Erlang服务端开发(无需Erlang基础)笔试题
  2. 华为最强自研NPU问世,麒麟810“抛弃”寒武纪
  3. python跨文件全局变量_Python跨文件全局变量的实现方法示例
  4. 2021 年4月数据库流行度排行榜出炉!Snowflake 和 Clickhouse上升迅速!
  5. elasticsearch collapse折叠聚合
  6. Pivotal发布Spring Cloud Data Flow 1.5版本
  7. 华为三层交换机路由配置案例_{华为HCNP-RS}三层交换机的配置实例
  8. 响应式布局html像素值计算,CSS Calc():制作响应式网格布局的锋利武器
  9. Servlet使用适配器模式进行增删改查案例(EmpServiceImpl.java)
  10. 为什么Java开发人员都带眼镜 | 程序员搞笑段子合集
  11. mysql foreign key_MYSQL外键(Foreign Key)的使用
  12. 基于JAVA+Servlet+JSP+MYSQL的交通罚单管理系统
  13. 机器学习与计算机视觉(数据集的选择)
  14. html语言中表格由什么组成,html表格基本结构是什么?html表格的完整代码详解
  15. 数据集转josion
  16. GAN变种介绍 - DCGAN、InfoGAN、CycleGAN、WGAN、Self-Attention GAN、BigGAN
  17. 开氏温度与摄氏度换算_8789 单位换算小技巧
  18. java拼音汉字转换
  19. Spring boot 自定义banner的在线制作
  20. TL-R473P-AC【搭配面板式AP组网设置方法】

热门文章

  1. foobar android 目录,最强手机音乐播放器?Foobar2K安卓版体验
  2. 大智慧公式系统:语法
  3. 影楼修片走下神坛 PS磨皮技巧大揭秘
  4. linux模拟器如何使用教程,Linux下实现思科实验-模拟器使用[图文]
  5. 一、如何下载安卓系统源码
  6. 萤火虫算法_一种优化方法:蜂鸟优化算法
  7. IMSettings 1.5.1 发布,输入法设置工具
  8. 计算机cad查询,电脑端如何快速查阅CAD图纸
  9. 语音计算机怎么切换音乐模式,怎么实现一个设备播放一个程序的声音呢?
  10. 彗星撞地球-Warez组织的经典力作(15G动画压缩成64Kb的那个,2004年的第一名)