深度学习-强化学习专业术语解释

确定的数值用小写字母表示，还不知道的就是大写字母

state：当前的状态

state transition：状态转移，做出动作后state（状态）变了的过程。

有状态转移函数：p（s’|s，a）=p（S'=s’|S=s，A=a）表示原本状态为s，做出a的动作，得到为s'的新状态的概率。

action：动作

agent：做动作的个体

reward：奖励，做完一个动作就会有一个奖励，会影响强化学习的好坏。eg：打超级马里奥，吃金币有金币+1，赢游戏有金币+10000，死了金币-100那这样的奖励就可以更加激励ai去赢游戏，而不是吃路途中的金币。

environment：环境，也就是程序

policy：根据state决定agent做什么动作

policy function：policy对应的函数。eg：π（a|s）为在s状态时做a动作的概率。

强化学习就是学policy function，让电脑自动操作任务打赢游戏。

状态转移可以是随机也可以是确定，随机性取决于环境。

eg：

up往上跳之后，状态还取决于w.p，取决于下面的小蘑菇运动方向，而他的运动方向是有概率的，所以新s是随机的。

（state，action，reward）trajectory：循环s，a，r。（state，action，reward）

return：（aka cumulative future reward）未来的每次奖励

Ut=Rt + Rt+1 + Rt+2 + Rt+3....。表示将t时刻开始的每次奖励都加起来

由于未来具有不确定性，因此给未来的reward带上权重。

所以有discounted return 折扣回报。

discounted return：

Ut=Rt + yRt+1 + y平方Rt+2 + y三次方Rt+3....。由未来的奖励的重要程度决定y的取值，1

为和该时刻同样重要。

Value function（价值函数）Qπ：

因为未来的动作发生有概率，你也不知道会做哪一个动作，所以用Qπ来表示，做期望。

Qπ（st，at）=E[Ut|St=st，At=at]。表示根据未来每个动作发生的概率做期望

对policy function和state function做积分，积掉At+1，At+2...，就可以得到基于当前st，at并对未来发生各动作的平均情况的期望，得到未来的平均价值，这就是价值函数。就可以知道当前状态下做哪个动作好与不好。这跟policy function有关。

Optimal action-value function：最优价值函数

当前st，at的max的Qπ。

state-value function（状态价值函数）：

表示Qπ的期望。可以把A作为随机变量，对A求期望，把A消掉。也就是基于目前状态做任何动作的期望，可以衡量目前的胜率，情况。π只和s有关。

对Qπ求期望也就是累加或积分每个权重乘Qπ，在这里权重就是概率，也就是π函数（决策函数）。

深度学习-强化学习专业术语解释相关推荐

最新！李飞飞提出深度进化强化学习新框架
点上方蓝字计算机视觉联盟获取更多干货在右上方 ··· 设为星标 ★,与你不见不散仅作学术分享,不代表本公众号立场,侵权联系删除转载于:新智元 AI博士笔记系列推荐周志华<机器学习> ...
深度进化强化学习第一弹~
hello,这是鑫鑫鑫的论文分享站,今天分享的文章是Embodied Intelligence via Learning and Evolution ,这是一篇李飞飞等提出深度进化RL,我们一起看看吧 ...
李飞飞提出深度进化强化学习新框架：创建具身智能体学会动物进化法则
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达转自 | 新智元来源 | 外媒编辑 | Yaxin, LQ 6亿 ...
2020人工智能课程超级大列表：深度学习-强化学习-图神经网络-自然语言处理等...
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 本篇博文主要为大家介绍一个课程网站,汇集了机器学习,深度学习.强化学习的各个方面, ...
2022主流Nivida显卡深度学习/强化学习/AI算力汇总
2022主流Nivida显卡深度学习/强化学习/AI算力汇总一览表总结自国外多个网站
深度学习强化学习进化计算入门资源整理
深度学习&强化学习&进化计算入门资源整理深度学习在线课程在线书籍学习Python 强化学习在线课程在线书籍更多资源进化计算后记深度学习在线课程深度学习是机器学 ...
深度学习 - 强化学习 -迁移学习（杨强教授报告）
李宏毅机器学习课程-Transfer Learning 深度学习 -> 强化学习 ->迁移学习(杨强教授报告) 链接: http://pan.baidu.com/s/1nu6DMRn 密码 ...
强化学习q学习求最值_通过Q学习更深入地学习强化学习
强化学习q学习求最值 by Thomas Simonini 通过托马斯·西蒙尼(Thomas Simonini) 通过Q学习更深入地学习强化学习 (Diving deeper into Reinfor ...
AI 自动研发机器学习系统，DeepMind 让算法学习强化学习
人工智能研发的一个大方向是用AI系统来自动化开发AI系统.虽然这一目标尚未实现,但目前的进展让已足够令人人震惊.本文介绍了最新的一些进展,包括伯克利让算法自我优化.MIT自动生成神经网络架构,以及在这 ...
强化学习——强化学习概述
文章目录 1. 强化学习 2. 序列决策(Sequential decision making) 3. 动作空间 4. 智能体的组成和类型 4.1 策略问题:比较随机性策略和确定性策略的优缺点 4. ...

深度学习-强化学习专业术语解释

深度学习-强化学习专业术语解释相关推荐

最新文章

热门文章