确定的数值用小写字母表示,还不知道的就是大写字母

state:当前的状态

state transition:状态转移,做出动作后state(状态)变了的过程。

有状态转移函数:p(s’|s,a)=p(S'=s’|S=s,A=a)表示原本状态为s,做出a的动作,得到为s'的新状态的概率。

action:动作

agent:做动作的个体

reward:奖励,做完一个动作就会有一个奖励,会影响强化学习的好坏。eg:打超级马里奥,吃金币有金币+1,赢游戏有金币+10000,死了金币-100那这样的奖励就可以更加激励ai去赢游戏,而不是吃路途中的金币。

environment:环境,也就是程序

policy:根据state决定agent做什么动作

policy function:policy对应的函数。eg:π(a|s)为在s状态时做a动作的概率。

强化学习就是学policy function,让电脑自动操作任务打赢游戏。

状态转移可以是随机也可以是确定,随机性取决于环境。

eg:

up往上跳之后,状态还取决于w.p,取决于下面的小蘑菇运动方向,而他的运动方向是有概率的,所以新s是随机的。

(state,action,reward)trajectory:循环s,a,r。(state,action,reward)

return:(aka cumulative future reward)未来的每次奖励

Ut=Rt + Rt+1 + Rt+2 + Rt+3....。表示将t时刻开始的每次奖励都加起来

由于未来具有不确定性,因此给未来的reward带上权重。

所以有discounted return 折扣回报。

discounted return:

Ut=Rt + yRt+1 + y平方Rt+2 + y三次方Rt+3....。由未来的奖励的重要程度决定y的取值,1

为和该时刻同样重要。

Value function(价值函数)Qπ:

因为未来的动作发生有概率,你也不知道会做哪一个动作,所以用Qπ来表示,做期望。

Qπ(st,at)=E[Ut|St=st,At=at]。表示根据未来每个动作发生的概率做期望

对policy function和state function做积分,积掉At+1,At+2...,就可以得到基于当前st,at并对未来发生各动作的平均情况的期望,得到未来的平均价值,这就是价值函数。就可以知道当前状态下做哪个动作好与不好。这跟policy function有关。

Optimal action-value function:最优价值函数

当前st,at的max的Qπ。

state-value function(状态价值函数):

表示Qπ的期望。可以把A作为随机变量,对A求期望,把A消掉。也就是基于目前状态做任何动作的期望,可以衡量目前的胜率,情况。π只和s有关。

对Qπ求期望也就是累加或积分每个权重乘Qπ,在这里权重就是概率,也就是π函数(决策函数)。

深度学习-强化学习专业术语解释相关推荐

  1. 最新!李飞飞提出深度进化强化学习新框架

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:新智元 AI博士笔记系列推荐 周志华<机器学习> ...

  2. 深度进化强化学习第一弹~

    hello,这是鑫鑫鑫的论文分享站,今天分享的文章是Embodied Intelligence via Learning and Evolution ,这是一篇李飞飞等提出深度进化RL,我们一起看看吧 ...

  3. 李飞飞提出深度进化强化学习新框架:创建具身智能体学会动物进化法则

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 转自 | 新智元 来源 | 外媒 编辑 | Yaxin, LQ 6亿 ...

  4. 2020人工智能课程超级大列表:深度学习-强化学习-图神经网络-自然语言处理等...

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 本篇博文主要为大家介绍一个课程网站,汇集了机器学习,深度学习.强化学习的各个方面, ...

  5. 2022主流Nivida显卡深度学习/强化学习/AI算力汇总

    2022主流Nivida显卡深度学习/强化学习/AI算力汇总一览表 总结自国外多个网站

  6. 深度学习强化学习进化计算 入门资源整理

    深度学习&强化学习&进化计算 入门资源整理 深度学习 在线课程 在线书籍 学习Python 强化学习 在线课程 在线书籍 更多资源 进化计算 后记 深度学习 在线课程 深度学习是机器学 ...

  7. 深度学习 - 强化学习 -迁移学习(杨强教授报告)

    李宏毅机器学习课程-Transfer Learning 深度学习 -> 强化学习 ->迁移学习(杨强教授报告) 链接: http://pan.baidu.com/s/1nu6DMRn 密码 ...

  8. 强化学习q学习求最值_通过Q学习更深入地学习强化学习

    强化学习q学习求最值 by Thomas Simonini 通过托马斯·西蒙尼(Thomas Simonini) 通过Q学习更深入地学习强化学习 (Diving deeper into Reinfor ...

  9. AI 自动研发机器学习系统,DeepMind 让算法学习强化学习

    人工智能研发的一个大方向是用AI系统来自动化开发AI系统.虽然这一目标尚未实现,但目前的进展让已足够令人人震惊.本文介绍了最新的一些进展,包括伯克利让算法自我优化.MIT自动生成神经网络架构,以及在这 ...

  10. 强化学习——强化学习概述

    文章目录 1. 强化学习 2. 序列决策(Sequential decision making) 3. 动作空间 4. 智能体的组成和类型 4.1 策略 问题:比较随机性策略和确定性策略的优缺点 4. ...

最新文章

  1. Java线上问题排障:Linux内核bug引发JVM死锁导致线程假死
  2. Kosaraju 算法检测有向图的强连通性
  3. 菜鸟的DUBBO进击之路(二):Dubbo初识
  4. comparator java_java:Comparator比较器
  5. 寒假每日一题(入门组)【week3 完结】
  6. 怎么给web 服务器 传文件,web文件传到服务器
  7. springMVC通过spring.xml对属性注入bean值(工厂模式)
  8. vue seo关键词设置_SEO关键词优化排名的几个技巧
  9. Visual Studio调试之避免单步跟踪调试模式
  10. cocos2d-x-3.x 配置(1)win环境搭建
  11. 基于MIMO讲解信道估计基本原理
  12. 【技巧】如何给CSDN上的每篇原创文章添加版权声明
  13. 一文说清长安链ChainMaker同步模块
  14. 0611 auto sorting and resend script
  15. 误删除文件怎么找回 数据恢复用这些方法
  16. 一些著名软件的开发语言概述
  17. mysql 时间格式转换年月日时分秒
  18. html颜色代码对照表
  19. str和repr显示格式
  20. 东小店南少:让你终身收益的三个营销思维,看完不再迷茫!

热门文章

  1. 源程序管理软件与项目管理软件
  2. 武汉理工大学《软件工程》复习总括一
  3. 猪圈密码python脚本实现
  4. 联想ideapad 700 加固态(三星pm981)
  5. 易维触摸屏手写输入系统
  6. cvs100e_施耐德塑壳断路器CVS100ETMD3P100
  7. oracle 11.2 on hpunix 挂起
  8. 2021年你读了哪些觉得比较好的计算机书籍?
  9. 高速光耦合器及其开关特性H11LxM、H11NxM
  10. 托尔斯泰经典语录:没有风暴,船帆不过是一块破布