南京大学俞扬：环境模型学习——让强化学习走出游戏

俞扬，博士，南京大学教授，国家万人计划青年拔尖人才，南栖仙策创始人。主要研究领域为机器学习、强化学习，近期专注于开放环境强化学习的理论、技术、与落地应用。获 2020 CCF-IEEE“青年科学家奖”，入选 2018 IEEE Intelligent Systems 杂志评选的“国际人工智能10大新星”，获2018亚太数据挖掘"青年成就奖”，受邀在 IJCAI’18 作关于强化学习的"青年亮点"报告。获 2013 年全国优秀博士学位论文奖、2011 年 CCF 优秀博士学位论文奖。

报告内容：强化学习研究大多被限制在游戏环境中，尚处于“好看不好用”的境地。基于环境模型的强化学习被认为是有望解救强化学习样本效率低下的主要途径。一旦有了良好环境模型，强化学习的大量试错可在环境模型中完成，从而极大的减少了在真实环境的试错采样的数量，使得强化学习更具可用性。然而，以往环境模型学习的理论与实验均难以支持这一想法，使得研究主流逐渐抛弃对学习良好环境模型的期待。报告人在实践需求中看到，环境模型具有难以替代的应用优势，并在环境模型学习上开展了研究。本次报告将汇报环境模型学习的研究进展，及其在真实强化学习应用中的效用。

俞扬作《环境模型学习——让强化学习走出游戏》主题分享

下方有文字版总结哦

如何让强化学习用起来

俞扬首先引出“我们怎么样能让强化学习用起来？”作为切入点，在整个人工智能领域,不同的分支存在不同的阶段，对于强化学习来说目前主要的任务是实现决策过程。

近几年非常出名的案例就是AI在围棋和游戏领域都能够取得比较好的结果，围棋AI战胜了几乎所有人类高手，在游戏领域也可以达到人类顶尖高手的水平，从另一个方面来说，同一套方法、同一套算法可以在很多不同的环境下取得比较好的结果，在决策AI领域，这样的方法可能具有一定的通用性。在序列决策（Sequential Decision）任务中，环境收到决策后，其本身会发生变化，智能体（Agent）在环境中不断观测环境状态的变化然后来做出下一步决策。这样的序列决策背后数学模型可以描述为一个马尔可夫决策过程（MDP），在这个模型中如果知道其中的全部变量，那么求解最优策略会变得非常清晰。简单来说，今天所看得到的动态规划算法，都可以用在马尔可夫决策过程上迭代求解最优策略。

俞扬表示，在现实世界中，当我们想分析一个策略（Policy）的效果时，不会像围棋那样把所有路径的全部信息都收集到再进行判断。对于强化学习来说，它并不清楚这个环境（Environment）完整的数学模型，只能通过与环境的交互能得到结果，在实际应用时往往只能选取比较保险的动作（Action）执行。

退回到强化学习的目标，需要找到的是更优决策，那就要跳出原来已经尝试过的决策和数据，这样才有可能找到更优的决策。

强化学习的应用难点及对策--环境模型学习

从根本上说，强化学习和我们以往做监督学习做感知类算法的区别就在于所面临的数据没有独立同分布的假定，强化学习算法所面临的难度相比于感知类算法会更大，在真实的业务场景内是没有完整模型的。人类更多的时候是在构建这样一个马尔可夫决策过程的模型，因为很多决策一旦做错，带来的是灾难性的后果，所以我们不能完全基于试错方式在真实环境下使用。

offline-RL方向更多的是DQN或Q-Learing等value-base算法，但是这样也会限制我们进行策略提升的范围，在这一领域最近出现了一些Benchmark，这些Benchmark的建设基本上还是基于游戏的场景，而且这些Benchmark的设定也有一些问题，比如D4RL提供的数据是非常大的，有很多探索性的策略产生的数据，但在我们真实的环境上很难遇到。另一方面，在上线之前没有办法了解策略的性能。针对这些不足，俞扬团队提出了NeoRL，作为一个新的Benchmark，一部分采用游戏环境，另一部分采用更接近于工业场景的环境。为此也同步开源了算法库和数据集，用于强调做线下验证的观点。如果能在只有数据信息的条件下还原模型，我们就可以打通学到的环境模型和真实的环境，做到这一步，强化学习的技术才是一个可以走出游戏环境的技术。

随后俞扬分析了累积误差的数学模型，从理论方向为减小累积误差问题提供了方案。并且解读了“NeurIPS2019” Michael Janner等人的工作和“NeurIPS2020”俞扬团队的工作，俞扬及其团队在2016-2019年期间一直在进行关于学习环境模型的问题研究，并且在与淘宝、滴滴出行、菜鸟仓库合作的过程中进一步得到了验证。直到今天，其团队仍在构建基于数据实现决策过程的平台，应用于不同的任务和不同的任务场景，从营销到智能制造再到能源，多方面进行落地尝试，为决策AI赋予更多可能。俞扬认为像强化学习这样的技术，未来一定是一个能够改变世界的技术。

扫码即可了解更多开源信息～

南京大学俞扬：环境模型学习——让强化学习走出游戏相关推荐

《强化学习周刊》第25期：DeepMind提出无模型风险敏感强化学习、谷歌发布 RLDS数据集生态系统...
No.25 智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...
【入门教程】TensorFlow 2 模型：深度强化学习
文 / 李锡涵,Google Developers Expert 本文节选自<简单粗暴 TensorFlow 2> 本文将介绍在 OpenAI 的 gym 环境下,使用 TensorFl ...
【论文阅读】保守和适应性惩罚+基于模型的安全强化学习
[论文阅读]保守和适应性惩罚+基于模型的安全强化学习 Conservative and Adaptive Penalty for Model-Based Safe Reinforcement Lear ...
模型预测控制与强化学习-论文阅读（一）Integration of reinforcement learning and model predictive
模型预测控制与强化学习-论文阅读(一)Integration of reinforcement learning and model predictive 最近才把初步的研究方向定下来,导师放养,实验 ...
人群环境中基于深度强化学习的移动机器人避障算法
摘要: 为了控制移动机器人在人群密集的复杂环境中高效友好地完成避障任务,本文提出了一种人群环境中基于深度强化学习的移动机器人避障算法.首先,针对深度强化学习算法中值函数网络学习能力不足的情况,基于行人 ...
dpg learning 和q_深度学习和强化学习之间的差别有多大？
我是做深度强化学习的(Deep Reinforcement Learning)的,这个问题有趣.我对@张馨宇他在此问题下的简洁回答非常认同:"可以用深度学习这个工具来做强化学习这个任务,也可 ...
EnforceLearning-在线学习-被动强化学习/评价学习
前言: 画图挺好:深度学习进阶之路-从迁移学习到强化学习固定知识系统:专家系统给出了知识节点和规则.专家系统一次性构建成型.运行方式为基于知识的推理. 专家系统使用粒度描述准确性,依靠分解粒度解决矛 ...
深度强化学习和强化学习_深度强化学习：从哪里开始
深度强化学习和强化学习 by Jannes Klaas 简尼斯·克拉斯(Jannes Klaas) 深度强化学习:从哪里开始 (Deep reinforcement learning: where t ...
八千字长文深度解读，迁移学习在强化学习中的应用及最新进展
点击我爱计算机视觉标星,更快获取CVML新技术本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载. 机器之心原创作者:Luo Sainan 编辑:H4O 迁移学习通 ...
AI小白必读：深度学习、迁移学习、强化学习别再傻傻分不清
摘要:诸多关于人工智能的流行词汇萦绕在我们耳边,比如深度学习 (Deep Learning).强化学习 (Reinforcement Learning).迁移学习 (Transfer Learning ...

南京大学俞扬：环境模型学习——让强化学习走出游戏

南京大学俞扬：环境模型学习——让强化学习走出游戏相关推荐

最新文章

热门文章