Q-Learning决策过程

Q-learning 小例子

-o---T
# T 就是宝藏的位置, o 是探索者的位置

每一次移动，状态发生改变的反馈

def get_env_feedback(S, A):# This is how agent will interact with the environmentif A == 'right':    # move rightif S == N_STATES - 2:   # terminateS_ = 'terminal'R = 1else:S_ = S + 1R = 0else:   # move leftR = 0if S == 0:S_ = S  # reach the wallelse:S_ = S - 1return S_, R

RL算法：选择、更新

def rl():q_table = build_q_table(N_STATES, ACTIONS)  # 初始 q tablefor episode in range(MAX_EPISODES):     # 回合step_counter = 0S = 0   # 回合初始位置is_terminated = False   # 是否回合结束update_env(S, episode, step_counter)    # 环境更新while not is_terminated:A = choose_action(S, q_table)   # 选行为S_, R = get_env_feedback(S, A)  # 实施行为并得到环境的反馈q_predict = q_table.loc[S, A]    # 估算的(状态-行为)值if S_ != 'terminal':q_target = R + GAMMA * q_table.iloc[S_, :].max()   #  实际的(状态-行为)值 (回合没结束)else:q_target = R     #  实际的(状态-行为)值 (回合结束)is_terminated = True    # terminate this episodeq_table.loc[S, A] += ALPHA * (q_target - q_predict)  #  q_table 更新S = S_  # 探索者移动到下一个 stateupdate_env(S, episode, step_counter+1)  # 环境更新step_counter += 1return q_table

莫烦python 强化学习 (Reinforcement Learning)相关推荐

强化学习(Reinforcement Learning)入门学习--01
强化学习(Reinforcement Learning)入门学习–01 定义 Reinforcement learning (RL) is an area of machine learning in ...
强化学习 (Reinforcement Learning)
强化学习: 强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益.其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能 ...
强化学习 Reinforcement Learning（三）——是时候用 PARL 框架玩会儿 DOOM 了！！！（下）
强化学习 Reinforcement Learning(三)-- 是时候用 PARL 框架玩会儿 DOOM 了!!!(下) 本文目录强化学习 Reinforcement Learning(三)-- ...
强化学习(Reinforcement Learning)入门知识
强化学习(Reinforcement Learning) 概率统计知识 1. 随机变量和观测值抛硬币是一个随机事件,其结果为**随机变量 X ** 正面为1,反面为0,若第 i 次试验中为正面,则观 ...
强化学习 (Reinforcement Learning) 基础及论文资料汇总
持续更新中... 书籍 1. <Reinforcement Learning: An Introduction>Richard S. Sutton and Andrew G.Barto , ...
Deep QLearning算法详解（强化学习 Reinforcement Learning）
一.算法详解文章最后附有博主自己实现的深度qlearning玩space invader游戏本文介绍的是基于神经网络的qlearning算法.我们知道传统的qlearning算法只能处理状态和动作 ...
莫烦Python NumpyPandas 学习笔记
莫烦Python Numpy&Pandas 学习笔记原文(视频)地址:https://www.bilibili.com/video/BV1Ex411L7oT 1. 安装 numpy官方网站: ...
永恒python强化材料_强化学习 Reinforcement Learning (莫烦 Python 教程)
https://www.bilibili.com/video/BV13W411Y75P?p=9 Q-Learning 说到不一定做到 Sarsa:说到做到 Q-learning 是一个更勇敢的算法 q ...
强化学习Reinforcement Learning
Abstract Abstract 背景强化学习算法概念背景 (1) 强化学习的历史发展 1956年Bellman提出了动态规划方法. 1977年Werbos提出只适应动态规划算法. 1988年s ...
强化学习(Reinforcement Learning)
背景当我们思考学习的本质时,我们首先想到的可能是我们通过与环境的互动来学习.无论是在学习开车还是在交谈,我们都清楚地意识到环境是如何回应我们的行为的,我们试图通过行为来影响后续发生的事情.从互动中学 ...

莫烦python 强化学习 (Reinforcement Learning)

Q-Learning决策过程

Q-learning 小例子

莫烦python 强化学习 (Reinforcement Learning)相关推荐

最新文章

热门文章