2017 年 7 月 7 日,由中国计算机学会(CCF)主办,雷锋网(公众号:雷锋网)与香港中文大学(深圳)承办的 CCF - GAIR 大会,在深圳大中华喜来登酒店开幕。在 AI 学术前沿专场的第三场, 伦敦大学学院 UCL 的汪军教授带来了以《群体智能的社会》为主题的报告。报告内容请看本篇雷锋网的现场速记。

汪军, 伦敦大学学院(UCL)计算机系教授、互联网科学与大数据分析专业主任。主要研究智能信息系统,主要包括数据挖掘,计算广告学,推荐系统,机器学习,强化学习,生成模型等等。他发表了100多篇学术论文,多次获得最佳论文奖。是国际公认的计算广告学和智能推荐系统杰出华人专家。

汪军:潘院士今天早上讲了人工智能 2.0。其中的一个方向,是多个智能体之间的协作与竞争。我们还可以从社会学角度,把多智能体看作是一个群体;研究整个群体、动态系统的特性是什么。对于该话题,我希望给大家做一个介绍。

大家都了解 AlphaoGo,它的一项核心技术就是强化学习。相比模式识别和监督学习,它在缺乏训练数据集的情况下仍然可以工作。强化学习系统能够直接和环境交互,得到反馈信息,在此过程中不断学习,因此更加自然、灵活。强化学习的一项主要特性,是以收益(reward)定义目标方程,生成优化策略。

多智能体的强化学习

今天重点讲的,是多智能体的强化学习。它们单独的和环境进行交互。在一种情况下它们各自优化自己的目标,但这些目标之间有约束;另一种情况下,它们联合起来优化一个主要的目标方程。根据具体的情况会有不同的变化。

  • 案例 1:互联网广告

过去,我们再互联网广告领域做了很多工作,比较早得应用了强化学习方法:在环境交互的情况下,根据投放广告以后用户的反馈,系统不断地进行学习。

目前我们可以在 10 毫秒之内做好决策,在每天 10 亿流量的情况下进行分析,帮助广告主精准投放。

  • 案例 2:星际争霸

我们通过对星际争霸单位的控制,找到多智体的规律。研究它们在游戏里怎么合作、竞争与通讯。近几个月,我们和阿里巴巴合作开发了一套玩星际争霸的 AI 系统。该项目中,我们最想解决的是 AI 智体之间的通讯问题——当它们想合作起来攻打对方的时候,必须要有效地合作。我们希望在计算的时候,计算量相对较小,同时又达到智体的协同目的;于是采用了一种双向连通方式,效果非常明显。

目前,多智体强化学习的研究仍处于非常初步的阶段。这里,有两个方面的关键问题:

问题 1:多智体协同研究中,智体数量少

目前的研究,主要集中于少量多智体之间的协同。在有上万个智体的情况下,(应用研究成果的)效果就不是很明显。而许多现实场景中的多智体数量,可以达到百万、甚至千万级。

  • 案例 3:智能打车 APP

一个很明显的例子是Uber、滴滴等智能打车应用。

这类例子中,每个用户手上的终端、每个司机手上的终端,你都可以把它们想象成智能体。它们可以做出决定:到底什么样的价钱我可以接受。系统层面甚至可以有一套机制合理分配资源。比如,出行高峰出租车比较少,但是需求量又比较大。而在其它的一些时候,可能出租车很多,但是需求量不大。系统怎么调配,这其实需要一个非常大的人工智能协作系统来分析。

  • 案例 4:共享单车

共享单车的情况更加明显。你可以想象,如果给每个自行车装了芯片或者计算机,它就是一个很智能的东西,可以根据目前的情况,优化车辆的地理位置分布。

今天,如果要做一个强化学习的模型,这个模型必须要可以处理百万级的智体。只有在这个量级,我们才可以把人工智体组成的群体和生物群落做对比,观察宏观层面的活动规律。

应该怎么去做?我们可以从自然界里面获得一些启发。比如生态学的 self-organisation (“自组织”)理论:一些个体行为的简单规则,能造成种群层面的宏观规律。我们研究的课题之一,是探索多智能体组成的群体, 和自然界中的动物群体,是否有相通之处?其活动模式是否遵循同一套规律?

  • 案例 5: Lotka-Volterra 模型

这里,有一个动物界的著名模型名为 Lotka-Volterra (LV)模型。该模型描述的是:相互竞争的两个种群,它们种群数量之间的动态关系。我们根据该模型的理论,用深度学习和强化学习做了一个老虎和羊的多智体生态模型。我们发现,如果关掉智体的学习能力(比如老虎),它们无法适应新环境,生态系统很快崩溃。

而给智体学习能力之后,模型出现的现象,与 LV 模型中猞猁抓兔子的动态现象十分相似。模拟出来的多智体生态,和自然世界的生态圈都遵循一种动态的平衡,就好比多个 AI 智体形成了一个动物种群。这让我们十分惊奇,人工智能体和生物群体可能有许多共同规律。

这个研究很有意思的一点是,我们发现有这样的场景:智体之间可以联合在一起优化某一个目标,或者单独优化它们自己的目标。当出现这两种情况的时候,作为一个群体,他们就有了内在的规律。如果把这些规律找到,对于我们去开发一些新的模型、新的计算机人工智能的方法,是非常有帮助的。

问题 2:缺乏对多智体环境控制的研究

  • 案例 6:宜家

传统强化学习没有深入探索过多智体环境问题,而往往把它作为一个假设前提:要么假设这个环境是不变的,要么假设这个环境有一定的概率在不断变化。而这个概率是不变的(not designable),意味着无法设计这个环境,而是更加适应这个环境。但是实际情况下发现,很多场景下,环境本身也需要一个适应的过程。在宜家的热力图上,我们可以看出谷歌在商场里的活动是非常平均的,这是一个非常好的现象。我们可以开发一个强化学习算法,让环境(商品摆放)根据顾客的变化而变化。鉴于此,我们在 UCL 的团队首创了对多智体环境的控制,并研究如何学习环境的深层因素。

这是一个建筑系教授进行的研究,他做了一个地图模拟人在店铺里面走的情况,根据热力图反馈到铺面设计,来优化用户在这里面待的时间,或者说最大化用户可能消费的情况。

  • 案例 7:分拣机器人

单个智体(机器人)要进行优化,以最快的路径分拣快递包裹。这个环境未必是最优的,我们根据货物的统计特性,设计我把发往南京的包裹通道放在北京旁边还是放在上海旁边。所以环境也需要很好的考量和设计。

  • 案例 8:迷宫

一个人工智体,需要以最快的效率找到出口。而环境知道其智能水平,根据情况来设计迷宫,使得智体有最困难或者最小的概率可以出去。这是一个竞争的关系。

怎么优化呢?你会发现,该系统在两个不同的维度进行。在人工智体的情况下,它会说给定一个环境,我想以最快的效率、最优的策略走出来。当你把这个人工智体学到的东西定住以后,就可以在另外一个维度优化环境:现在这个智体是这样的属性,能不能据此使得环境更困难?这两个维度互相竞争、互相迭代,就可以达到优化的情况。雷锋网雷锋网

相关文章:

CMU教授金出武雄演讲:户外机器人系统 | CCF-GAIR 2017

中科院院士谭铁牛:模式识别研究的回顾与展望 | CCF-GAIR 2017

AAAI主席Subbarao:机器的学习过程与人类不一样 | CCF - GAIR2017

第二届 CCF-GAIR 开幕!中国 AI、机器人行业产学研跨界整合进入新时期| CCF-GAIR 2017

本文作者:三川

本文转自雷锋网禁止二次转载,原文链接

UCL 教授汪军:多智能体强化学习的两大挑战 | CCF-GAIR 2017相关推荐

  1. 《强化学习周刊》第16期:多智能体强化学习的最新研究与应用

    No.16 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,多智能强化学习的研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领 ...

  2. 上海交大开源训练框架,支持大规模基于种群多智能体强化学习训练

    机器之心专栏 作者:上海交大和UCL多智能体强化学习研究团队 基于种群的多智能体深度强化学习(PB-MARL)方法在星际争霸.王者荣耀等游戏AI上已经得到成功验证,MALib 则是首个专门面向 PB- ...

  3. 多智能体强化学习与博弈论-博弈论基础4

    多智能体强化学习与博弈论-博弈论基础4 本篇文章主要讲的是贝叶斯博弈(Bayesian Games,也称作不完全信息博弈)和拍卖理论.不完全信息博弈在我们生活中经常出现,比如拍卖,在市场和别人讨价还价 ...

  4. 多智能体强化学习与博弈论-博弈论基础2

    多智能体强化学习与博弈论-博弈论基础2 Repeated Games(重复博弈) 之前我们介绍了一些单次博弈的例子,除了单次博弈外,重复博弈也是经常在我们生活中出现的.在重复博弈中智能体有机会在单次的 ...

  5. 王树森强化学习笔记——多智能体强化学习

    多智能体强化学习 想要了解更多强化学习的内容,推荐观看王树森教授的教学视频 深度强化学习(王树森) 设定 在之前的学习当中,我们讨论的都是单个智能体如何进行决策,然而现实中还存在需要同时控制多个智能体 ...

  6. 2020ICML多智能体强化学习论文简介

    强化学习最新论文汇总 如有错误,欢迎指正 所引用内容链接 Multi-Agent RL 1. Kernel Methods for Cooperative Multi-Agent Learning w ...

  7. Multiple Landmark Detection using Multi-AgentReinforcement Learning基于多智能体强化学习的多重地标检测

    目录 摘要 介绍 贡献 相关工作 方法 协作代理 实验 数据集 训练 测试 讨论 计算性能 结论 References 摘要 解剖标志的检测是医学图像分析和诊断.解释和指导应用的重要步骤. 对地标进行 ...

  8. 《强化学习周刊》第40期:PMIC多智能体强化学习、Lazy-MDPs、CTDS

    No.40 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 周刊订阅 告诉大家一个好消息,<强化学习周刊>已经开启"订阅功能",以后我们会向您自动推送最 ...

  9. 《强化学习周刊》第2期:多智能体强化学习(MARL)赋能“AI智能时代”

    No.02 智源社区 强化学习组 R L 学  习 研究 观点 资源 活动 关于周刊 随着强化学习研究的不断成熟,如何将其结合博弈论的研究基础,解决多智能体连续决策与优化问题成为了新的研究领域,为了帮 ...

最新文章

  1. AngularJS基本知识点
  2. 如何有效防止DEDE织梦系统被挂木马安全设置(仅供参考)
  3. matlab ac电源,MATLAB对AC/DC/AC电源的死区效应谐波仿真
  4. 会议论文_InVisor会议论文辅导发表
  5. 【渝粤题库】陕西师范大学292391 金融机构管理 作业(专升本)
  6. windows 获取系统CPU和进程CPU 内存等信息
  7. day24-抽象类与接口类
  8. oracle基础学习---------1
  9. OpenCV入门教程,超详细OpenCV入门教程!10小时让你轻松掌握opencv的使用
  10. vue中SM4加密解密(js部分)
  11. LeetCode-21. 合并两个有序链表_JavaScript
  12. 单交换机的VLAN的配置
  13. PTA:7-32 计算天数
  14. python中正实数怎么表示_是的”数学地板(x) “和”int(x)“在Python中对正实数产生不同的结果?...
  15. BurpSuite实战——合天网安实验室学习笔记
  16. 互联网创业公司黑话指南 | 嘿嘿嘿……
  17. 数据分析36计(19):美国生鲜配送平台【Instacart】如何实现按时配送——使用分位数回归...
  18. SPI总线的特点、工作方式及常见错误解答重点是SCK时钟频率时间
  19. python中random.choice()函数
  20. Java基础-方法的使用

热门文章

  1. 用JS,编写函数,求圆的面积
  2. 用CSS画一个针线包效果的边框
  3. 找不到模块“axios”或其相应的类型声明(vite)
  4. utorrent开机自启动
  5. gmail账户_在弹出窗口中打开您的Gmail帐户
  6. OpenStack私有云安配置
  7. 数据要素:以数据安全保护为前提的新型生产要素
  8. 英文登录验证码php,php 中英文验证码程序
  9. 操作系统 、人、 宇宙
  10. c语言 printf分栏输出,Exce表格分栏打印输出的两种巧妙方法