相比传统方式需要工程人员手动设计机器人每个动作的精确参数,AI 时代的研究人员有全自动化、广阔前景的新学习方式:深度强化学习可让机器人从经验、与世界的互动直接学习行为,因为可藉助通用化的神经网络表示,处理复杂的传感器输入。然而,许多现有的强化学习算法都需要几天、几周甚至更久时间的真实世界数据,才能收敛到比较理想的动作。更重要的是,这样的系统很难在复杂的机器人系统使用(比如多足机器人)。系统的探索学习过程很容易会损伤到机器人的零件,同时还难以调节超参数,许多安全方面的考虑也可能带来更多限制。近期,网络大厂AI 与加州大学柏克莱分校合作研发一种新的强化学习算法 Soft Actor-Critic(SAC)。这是一种稳定、高效的深度强化学习算法,高度符合机器人实验的需求,也非常适合真实世界的机器人技能学习。重点是,SAC 的学习效率够高,可在数小时内学会解决真实世界的机器人问题,且同一套超参数可在多种不同环境工作。网络大厂AI 撰写部落格文章介绍了 SAC 背后的研究工作,也介绍了相关实验结果。

在真实世界学习机器人的要求 真实世界的机器人实验有一些重大挑战,比如硬件失效和人工重置会导致数据流中断,以及需要让探索学习过程平滑,避免快速机械磨损或撞击破坏,这都对算法理论和算法实现增加额外的限制,包括以下(但不限于):

有较高的样本效率,以降低学习时间。 需要调节的超参数数量尽量少。 能在不同的场景重复使用已采集的数据(也称为「无策略学习」)。 确保探索学习过程不损坏硬件。

Soft Actor-Critic Soft Actor-Critic 是基于最大熵强化学习开发的,这是一种尝试让预期回报最大化(标准的强化学习目标),同时也让策略的熵最大化的框架。熵更高的策略有更高随机性,直觉看来,这意味着最大熵强化学习会学习取得高回报的策略中,具最高随机性的策略。为什么在机器人学习这是件好事呢?明显的原因是,最大熵优化的策略会更强健:如果策略在训练过程中能允许高度随机的动作,那么它在测试时候也就更有可能顺利应付预期外的扰动。不过更稳当的理由是,最大熵训练不仅提高算法对超参数的强健性,也可以提高采样效率。Soft Actor-Critic 会学习一个随机策略,这个策略会把状态映像到动作及一个 Q 函数,Q 函数会估计当前策略的目标价值,并透过逼近动态编程优化它们。透过这样的方式,Soft Actor-Critic 可让经过熵强化的回报最大化。在这个过程中,SAC 会把目标看作一个绝对真的方法来导出更好的强化学习算法,它们的表现稳定,而且有够高的样本效率,可以用在真实世界的机器人应用中。

SAC 的表现 研究人员用两个任务评估算法的表现:1. Ghost Robotics 环境中 Minitaur 四足机器人的行走;2. 用一个三指动力爪转动阀门。学习行走这件事当然是不小的挑战,由于机器人欠驱动力,所以机器人需要学会如何在四条腿之间平衡接触力的大小,这样才能持续往前走。未经训练的策略会让机器人失去平衡摔倒,如果摔太多次,最终有可能把机器人摔坏。样本高效学习在这时候也就非常关键。虽然研究人员是在平地训练机器人的行走策略,但稍后的测试阶段是在多种不同的地面状况和障碍物上进行。理论来说,透过 SAC 学习到的策略在测试时遇到扰动的时候,也应当强健。实际上研究人员观察到,透过他们的方法学习到的策略,不需要任何额外学习就可应付干扰。 下面这个操控任务需要机器手臂转动一个类似阀门的物体,目标是让蓝色的一面朝向右侧。这个任务尤其有挑战性,不仅任务的理解感知有难度,而且还需要控制这个有 9 个自由度的机器手臂。为了感知阀门,机器人必须使用来自镜头的原始 RGB 图像输入(如图右下角)。对于每一轮尝试,阀门的位置都会重新设定到一个随机角度,迫使策略学习如何根据 RGB 图像,输入感知当前的阀门角度。

对于这两个任务,SAC 都能很快地解决:前一个四足机器人任务学了 2 个小时,后一个观察图像、转动阀门的任务学习了 20 个小时。研究人员也为转动阀门任务学习了一个无需图像输入的策略,他们把其他方式采集到的阀门角度当作观察结果输入策略,在这种简单的设置下,SAC 只需要 3 个小时就可以学会解决这个任务。相比之下,更早使用自然策略梯度的研究,学习同一个无需图像输入的任务需花 7.4 个小时。

结论 这项研究展示基于熵最大化框架的深度强化学习,可用来在有挑战性的真实世界环境学习机器人技能。由于这些策略是直接在真实世界学到的,它们对环境变化表现出强健性,这透过其他方式很难获得。研究人员也展示了可直接从高维图像观察学习,这对经典机器人控制来说,也是很大的挑战。研究人员希望 SAC 的发表帮助其他研究团队,更把深度强化学习应用在未来更多复杂真实世界的任务。内文信息参考来源于:乐彩爱公益 pctchp.org.tw/

网络大厂与加州大学分校开发出Actor-Critic算法相关推荐

  1. UCSB与UCI计算机专业,美国UC加州大学十所分校对比分析之最强专业篇

    中国学生在选择学校时,美国加州大学系统的学校是非常受欢迎的.美国加州大学系统(University of California)是美国最好的公立大学之一.不但地理位置优越,而且教育质量优良.其中美国加 ...

  2. 加州伯克利本科学计算机好吗,美国加州大学伯克利分校和卡耐基梅隆大学计算机科学CS专业哪个好?...

    近些年,网络已成为人们日常生活中不可或缺的一部分,计算机技术也成为了各行各业中的核心,从而对计算机科学人才的需求量持续上涨,美国可以说是计算机领域的鼻祖,拥有着非常先进的互联网技术,且开设计算机科学专 ...

  3. 加州伯克利本科学计算机好吗,加州大学伯克利分校计算机科学专业详解!

    加利福尼亚大学伯克利分校(University of California - Berkeley,简称UCB) 创建于1868年,是一所美国公立研究型大学,也是世界上最负盛名且是最顶尖的公立大学.加州 ...

  4. 美国三院院士、加州大学伯克利分校统计系主任Michael I. Jordan介绍[推荐的机器学习书单等] (公号可下载PDF)

    美国三院院士.加州大学伯克利分校统计系主任Michael I. Jordan介绍[推荐的机器学习书单等] (公号可下载PDF) 原创: 秦陇纪 科学Sciences 今天 科学Sciences导读:论 ...

  5. 美国加州大学圣克鲁兹分校王鑫教授招收NLP/CV方向全奖博士生

    来源:AI求职 加州大学圣克鲁兹分校 UC Santa Cruz is one of America's Public Ivy universities and a member of the pre ...

  6. uci大学教育转计算机,UCI加州大学尔湾分校计算机科学硕士M.S. Computer Science

    计算机科学硕士M.S. Computer Science是加州大学尔湾分校研究生申请的热门专业,下面由美英港新教育重点介绍计算机科学硕士研究生的课程设置.培养目标.申请要求及学费. 培养目标 加州欧文 ...

  7. 美国伯克利大学计算机研究生学几年,美国加州大学伯克利分校计算机CS研究生申请条件一览...

    一.美国加州大学伯克利分校大学介绍 美国加州大学伯克利分校作为加州大学中比较好的综合性公立大学之外.他还在具备优秀的教学质量和良好的声誉,众多优秀学生竞相争取进入这个大学. 二.美国计算机科学主要研究 ...

  8. 加州大学欧文计算机工程硕士,UCI加州大学尔湾分校软件工程硕士Master of Software Engineering...

    软件工程硕士Master of Software Engineering是加州大学尔湾分校研究生申请的热门专业,下面由美英港新教育重点介绍软件工程硕士研究生的课程设置.培养目标.申请要求及学费. 培养 ...

  9. 加州大学欧文分校 计算机专业,加州大学欧文分校计算机工程专业怎么样?

    回复时间:2020-05-26 21:35:32 加州大学欧文分校计算机工程专业: 计算机工程专业的学生在计算机系统的设计,开发和评估方面为学生提供了坚实的基础.重点领域包括计算机体系结构,软件和嵌入 ...

最新文章

  1. Linux进程ID号--Linux进程的管理与调度(三)
  2. mysql search yum_centos7通过yum安装mysql的方法
  3. php 存储多选项_php高并发之opcache详解
  4. .net core 文件流保存图片_Java--利用TCP实现文件上传
  5. c语言strchr的用法,C 库函数 - strchr()
  6. (算法)宝石升级问题
  7. java textvaluechanged 全选删除不触发_具有TextChanged事件的AutoCompleteBox未正确选择
  8. 190308每日一句
  9. BZOJ3925: [Zjoi2015]地震后的幻想乡
  10. 对于代理服务器的理解
  11. HYSPLIT 模型 传输轨迹 使用指南
  12. 笔记本电脑桌面便签哪个软件好用,桌面便签软件下载
  13. Redis 集群可用性测试
  14. web服务器也是端系统么,Web服务器和游戏服务器的那些事儿
  15. 在互联网上传输文件 —— FTP协议
  16. linux查看某个端口的流量_linux流量查看工具汇总
  17. RabbitMQ之消息的自动应答、手动应答和消息持久化(Java开发)
  18. 苹果越狱手机知识大全
  19. windows xp下如何添加开机自启动的程序
  20. Django对接支付宝Alipay支付接口

热门文章

  1. 2020/11/05随记 基于jini的C++和Java交互
  2. sdk烧写flash报error:given target do not exis处理方式
  3. 量子计算机和神威计算机哪个快,神威 计算机 IBM的量子计算机真的可以秒杀中国超算吗?(2)...
  4. 基于卷积神经网络的猫狗识别
  5. 聚观早报 | 抖音推出可颂App;马斯克终止收购 Twitter
  6. Android解析服务器Json数据实例
  7. JAVA编写Word
  8. STM32CubeMX学习(一) USB HID 双向通信
  9. 将ShellCode注入进程内存
  10. 青岛租房 不知道租哪儿,手动做的租房地图。