UCL 教授汪军：多智能体强化学习的两大挑战

2017 年 7 月 7 日，由中国计算机学会（CCF）主办，雷锋网(公众号：雷锋网)与香港中文大学（深圳）承办的 CCF - GAIR 大会，在深圳大中华喜来登酒店开幕。在 AI 学术前沿专场的第三场， 伦敦大学学院 UCL 的汪军教授带来了以《群体智能的社会》为主题的报告。报告内容请看本篇雷锋网的现场速记。

汪军，伦敦大学学院（UCL）计算机系教授、互联网科学与大数据分析专业主任。主要研究智能信息系统，主要包括数据挖掘，计算广告学，推荐系统，机器学习，强化学习，生成模型等等。他发表了100多篇学术论文，多次获得最佳论文奖。是国际公认的计算广告学和智能推荐系统杰出华人专家。

汪军：潘院士今天早上讲了人工智能 2.0。其中的一个方向，是多个智能体之间的协作与竞争。我们还可以从社会学角度，把多智能体看作是一个群体；研究整个群体、动态系统的特性是什么。对于该话题，我希望给大家做一个介绍。

大家都了解 AlphaoGo，它的一项核心技术就是强化学习。相比模式识别和监督学习，它在缺乏训练数据集的情况下仍然可以工作。强化学习系统能够直接和环境交互，得到反馈信息，在此过程中不断学习，因此更加自然、灵活。强化学习的一项主要特性，是以收益（reward）定义目标方程，生成优化策略。

多智能体的强化学习

今天重点讲的，是多智能体的强化学习。它们单独的和环境进行交互。在一种情况下它们各自优化自己的目标，但这些目标之间有约束；另一种情况下，它们联合起来优化一个主要的目标方程。根据具体的情况会有不同的变化。

案例 1：互联网广告

过去，我们再互联网广告领域做了很多工作，比较早得应用了强化学习方法：在环境交互的情况下，根据投放广告以后用户的反馈，系统不断地进行学习。

目前我们可以在 10 毫秒之内做好决策，在每天 10 亿流量的情况下进行分析，帮助广告主精准投放。

案例 2：星际争霸

我们通过对星际争霸单位的控制，找到多智体的规律。研究它们在游戏里怎么合作、竞争与通讯。近几个月，我们和阿里巴巴合作开发了一套玩星际争霸的 AI 系统。该项目中，我们最想解决的是 AI 智体之间的通讯问题——当它们想合作起来攻打对方的时候，必须要有效地合作。我们希望在计算的时候，计算量相对较小，同时又达到智体的协同目的；于是采用了一种双向连通方式，效果非常明显。

目前，多智体强化学习的研究仍处于非常初步的阶段。这里，有两个方面的关键问题：

问题 1：多智体协同研究中，智体数量少

目前的研究，主要集中于少量多智体之间的协同。在有上万个智体的情况下，（应用研究成果的）效果就不是很明显。而许多现实场景中的多智体数量，可以达到百万、甚至千万级。

案例 3：智能打车 APP

一个很明显的例子是Uber、滴滴等智能打车应用。

这类例子中，每个用户手上的终端、每个司机手上的终端，你都可以把它们想象成智能体。它们可以做出决定：到底什么样的价钱我可以接受。系统层面甚至可以有一套机制合理分配资源。比如，出行高峰出租车比较少，但是需求量又比较大。而在其它的一些时候，可能出租车很多，但是需求量不大。系统怎么调配，这其实需要一个非常大的人工智能协作系统来分析。

案例 4：共享单车

共享单车的情况更加明显。你可以想象，如果给每个自行车装了芯片或者计算机，它就是一个很智能的东西，可以根据目前的情况，优化车辆的地理位置分布。

今天，如果要做一个强化学习的模型，这个模型必须要可以处理百万级的智体。只有在这个量级，我们才可以把人工智体组成的群体和生物群落做对比，观察宏观层面的活动规律。

应该怎么去做？我们可以从自然界里面获得一些启发。比如生态学的 self-organisation （“自组织”）理论：一些个体行为的简单规则，能造成种群层面的宏观规律。我们研究的课题之一，是探索多智能体组成的群体，和自然界中的动物群体，是否有相通之处？其活动模式是否遵循同一套规律？

案例 5： Lotka-Volterra 模型

这里，有一个动物界的著名模型名为 Lotka-Volterra （LV）模型。该模型描述的是：相互竞争的两个种群，它们种群数量之间的动态关系。我们根据该模型的理论，用深度学习和强化学习做了一个老虎和羊的多智体生态模型。我们发现，如果关掉智体的学习能力（比如老虎），它们无法适应新环境，生态系统很快崩溃。

而给智体学习能力之后，模型出现的现象，与 LV 模型中猞猁抓兔子的动态现象十分相似。模拟出来的多智体生态，和自然世界的生态圈都遵循一种动态的平衡，就好比多个 AI 智体形成了一个动物种群。这让我们十分惊奇，人工智能体和生物群体可能有许多共同规律。

这个研究很有意思的一点是，我们发现有这样的场景：智体之间可以联合在一起优化某一个目标，或者单独优化它们自己的目标。当出现这两种情况的时候，作为一个群体，他们就有了内在的规律。如果把这些规律找到，对于我们去开发一些新的模型、新的计算机人工智能的方法，是非常有帮助的。

问题 2：缺乏对多智体环境控制的研究

案例 6：宜家

传统强化学习没有深入探索过多智体环境问题，而往往把它作为一个假设前提：要么假设这个环境是不变的，要么假设这个环境有一定的概率在不断变化。而这个概率是不变的（not designable），意味着无法设计这个环境，而是更加适应这个环境。但是实际情况下发现，很多场景下，环境本身也需要一个适应的过程。在宜家的热力图上，我们可以看出谷歌在商场里的活动是非常平均的，这是一个非常好的现象。我们可以开发一个强化学习算法，让环境（商品摆放）根据顾客的变化而变化。鉴于此，我们在 UCL 的团队首创了对多智体环境的控制，并研究如何学习环境的深层因素。

这是一个建筑系教授进行的研究，他做了一个地图模拟人在店铺里面走的情况，根据热力图反馈到铺面设计，来优化用户在这里面待的时间，或者说最大化用户可能消费的情况。

案例 7：分拣机器人

单个智体（机器人）要进行优化，以最快的路径分拣快递包裹。这个环境未必是最优的，我们根据货物的统计特性，设计我把发往南京的包裹通道放在北京旁边还是放在上海旁边。所以环境也需要很好的考量和设计。

案例 8：迷宫

一个人工智体，需要以最快的效率找到出口。而环境知道其智能水平，根据情况来设计迷宫，使得智体有最困难或者最小的概率可以出去。这是一个竞争的关系。

怎么优化呢？你会发现，该系统在两个不同的维度进行。在人工智体的情况下，它会说给定一个环境，我想以最快的效率、最优的策略走出来。当你把这个人工智体学到的东西定住以后，就可以在另外一个维度优化环境：现在这个智体是这样的属性，能不能据此使得环境更困难？这两个维度互相竞争、互相迭代，就可以达到优化的情况。雷锋网雷锋网

CMU教授金出武雄演讲：户外机器人系统 | CCF-GAIR 2017

中科院院士谭铁牛：模式识别研究的回顾与展望 | CCF-GAIR 2017

AAAI主席Subbarao：机器的学习过程与人类不一样 | CCF - GAIR2017

第二届 CCF-GAIR 开幕！中国 AI、机器人行业产学研跨界整合进入新时期｜ CCF-GAIR 2017

本文作者：三川

本文转自雷锋网禁止二次转载，原文链接

UCL 教授汪军：多智能体强化学习的两大挑战 | CCF-GAIR 2017相关推荐

《强化学习周刊》第16期：多智能体强化学习的最新研究与应用
No.16 智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一,多智能强化学习的研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领 ...
上海交大开源训练框架，支持大规模基于种群多智能体强化学习训练
机器之心专栏作者:上海交大和UCL多智能体强化学习研究团队基于种群的多智能体深度强化学习(PB-MARL)方法在星际争霸.王者荣耀等游戏AI上已经得到成功验证,MALib 则是首个专门面向 PB- ...
多智能体强化学习与博弈论-博弈论基础4
多智能体强化学习与博弈论-博弈论基础4 本篇文章主要讲的是贝叶斯博弈(Bayesian Games,也称作不完全信息博弈)和拍卖理论.不完全信息博弈在我们生活中经常出现,比如拍卖,在市场和别人讨价还价 ...
多智能体强化学习与博弈论-博弈论基础2
多智能体强化学习与博弈论-博弈论基础2 Repeated Games(重复博弈) 之前我们介绍了一些单次博弈的例子,除了单次博弈外,重复博弈也是经常在我们生活中出现的.在重复博弈中智能体有机会在单次的 ...
王树森强化学习笔记——多智能体强化学习
多智能体强化学习想要了解更多强化学习的内容,推荐观看王树森教授的教学视频深度强化学习(王树森) 设定在之前的学习当中,我们讨论的都是单个智能体如何进行决策,然而现实中还存在需要同时控制多个智能体 ...
2020ICML多智能体强化学习论文简介
强化学习最新论文汇总如有错误,欢迎指正所引用内容链接 Multi-Agent RL 1. Kernel Methods for Cooperative Multi-Agent Learning w ...
Multiple Landmark Detection using Multi-AgentReinforcement Learning基于多智能体强化学习的多重地标检测
目录摘要介绍贡献相关工作方法协作代理实验数据集训练测试讨论计算性能结论 References 摘要解剖标志的检测是医学图像分析和诊断.解释和指导应用的重要步骤. 对地标进行 ...
《强化学习周刊》第40期：PMIC多智能体强化学习、Lazy-MDPs、CTDS
No.40 智源社区强化学习组强化学习研究观点资源活动周刊订阅告诉大家一个好消息,<强化学习周刊>已经开启"订阅功能",以后我们会向您自动推送最 ...
《强化学习周刊》第2期：多智能体强化学习（MARL）赋能“AI智能时代”
No.02 智源社区强化学习组 R L 学习研究观点资源活动关于周刊随着强化学习研究的不断成熟,如何将其结合博弈论的研究基础,解决多智能体连续决策与优化问题成为了新的研究领域,为了帮 ...

UCL 教授汪军：多智能体强化学习的两大挑战 | CCF-GAIR 2017

问题 1：多智体协同研究中，智体数量少

问题 2：缺乏对多智体环境控制的研究

UCL 教授汪军：多智能体强化学习的两大挑战 | CCF-GAIR 2017相关推荐

最新文章

热门文章