Q-learning算法实现1（matlab）

算法伪代码：

得到Q表后，根据如下算法选择最优策略：

以机器人走房间为例，代码实现如下：

原文链接如下：https://www.jianshu.com/p/29db50000e3f

注：原文中的房间状态0-5分别对应代码中1-6

%机器人走房间Q-learning的实现
%% 基本参数
episode=100; %探索的迭代次数
alpha=1;%更新步长
gamma=0.8;%折扣因子
state_num=6;
action_num=6;
final_state=6;%目标房间
Reward_table = [
-1 -1 -1 -1 0 -1; %1
-1 -1 -1 0 -1 100; %2
-1 -1 -1 0 -1 -1; %3
-1 0 0 -1 0 -1; %4
0 -1 -1 0 -1 100; %5
-1 0 -1 -1 0 100 %6
];
%% 更新Q表
%initialize Q(s,a)
Q_table=zeros(state_num,action_num);
for i=1:episode%randomly choose a statecurrent_state=randperm(state_num,1);while current_state~=final_state%randomly choose an action from current stateoptional_action=find(Reward_table(current_state,:)>-1);chosen_action=optional_action(randperm(length(optional_action),1));%take action, observe reward and next stater=Reward_table(current_state,chosen_action);next_state=chosen_action;%update Q-tablenext_possible_action=find(Reward_table(next_state,:)>-1);maxQ=max(Q_table(next_state,next_possible_action));Q_table(current_state,chosen_action)=Q_table(current_state,chosen_action)+alpha*(r+gamma*maxQ-Q_table(current_state,chosen_action));current_state=next_state;end
end%% 选择最优路径%randomly choose a state
currentstate=randperm(state_num,1);
fprintf('Initialized state %d\n',currentstate);
%choose action which satisfies Q(s,a)=max{Q(s,a')}
while currentstate~=final_state[maxQtable,index]=max(Q_table(currentstate,:));chosenaction=index;nextstate=chosenaction;fprintf('the robot goes to %d\n',nextstate);currentstate=nextstate;
end

代码输出：

Q表：

最优策略：

Q-learning算法实现1（matlab）相关推荐

强化学习（二）：Q learning 算法
强化学习(一):基础知识强化学习(二):Q learning算法 Q learning 算法是一种value-based的强化学习算法,Q是quality的缩写,Q函数 Q(state,action ...
【强化学习笔记】从 “酒鬼回家” 认识Q Learning算法
1.背景现在笔者来讲一个利用Q-learning 方法帮助酒鬼回家的一个小例子, 例子的环境是一个一维世界, 在世界的右边是酒鬼的家.这个酒鬼因为喝多了,根本不记得回家的路,只是根据自己的直觉一会向 ...
Deep Q Network 算法
Deep Q Network 算法前置基础知识: Reinforcement Learning 基本概念 Q Leaning算法原理深度学习神经网络知识 Tensorflow.Pytorch.Py ...
强化学习入门：一文入门强化学习（Sarsa、Q learning、Monte-carlo learning、Deep-Q-Network等）
最近博主在看强化学习的资料,找到这两个觉得特别适合入门,一个是"一文入门深度学习",一个是"莫烦PYTHON". 建议:看资料的时候可以多种资料一起参考,一边调 ...
q learning matlab,用Matlab实现简单的Q-learning算法（学习走出房间）
看到一个简单有趣的Q learning例子,写了段matlab代码实现一下.有兴趣的请先阅读原文链接 dbstop if error%stop at the error if it happens ...
【Matlab】强化Q学习算法求解迷宫问题
本篇博客向大家介绍一个利用强化Q学习求解迷宫问题的实例. 在这个问题中,机器人只能向上下左右四个方向移动.在每一步,基于机器人动作的结果,它被教导和再教导是否是一个好的动作,最终整个过程被一次又一次地 ...
matlab 投票法_SVM算法原理及其Matlab应用
<SVM算法原理及其Matlab应用>由会员分享,可在线阅读,更多相关<SVM算法原理及其Matlab应用(18页珍藏版)>请在人人文库网上搜索. 1.SVM 算法及其 Mat ...
Q学习（Q learning）强化学习
Q学习(Q learning) 强化学习的简单例子 Matlab实现可视化_Morty 的挖坑记录-CSDN博客强化学习(MATLAB) - 叮叮当当sunny - 博客园
卡尔曼滤波器求速度matlab,卡尔曼滤波器算法浅析及matlab实战
原标题:卡尔曼滤波器算法浅析及matlab实战作者:Liu_LongPo 出处:Liu_LongPo的博客卡尔曼滤波器是一种利用线性系统状态方程,通过系统输入输出观测数据,对系统状态进行最优估计的 ...
Online Learning算法理论与实践
Online Learning是工业界比较常用的机器学习算法,在很多场景下都能有很好的效果.本文主要介绍Online Learning的基本原理和两种常用的Online Learning算法:FTRL ...

Q-learning算法实现1（matlab）

Q-learning算法实现1（matlab）相关推荐

最新文章

热门文章