【论文】Closing the Sim-to-Real Loop: Adapting Simulation Randomization with Real World Experience
本文主要介绍了对机器手臂动力学参数的分布进行学习,能更有效率的适应真实环境,从而缩小sim to real gap。论文原址:
Closing the Sim-to-Real Loop: Adapting Simulation Randomization with Real World Experience
sim to real 问题在强化学习中被广泛研究,目前主要有以下几种研究方向:系统辨识(system identification)、领域适应(domain adaption)、参数随机化(parameters randomization)、元强化学习(meta-rl learning)。本文主要是对传统的参数随机化方法进行改进。作者认为可以使用一小部分的真实环境的数据来优化模拟环境的参数分布,从而使得模拟环境能够更好的 match 真实环境,这样训练出来的策略就更好。
传统的参数随机化
传统的参数随机化可以OpenAI这篇论文,(有钱、有设备、有技术做的东西就是不一样。
主要思想就是我有一个prior知识——对目标环境(真实环境)的一个模拟,比如机器人手臂的动力学建模。但是这个建模不精确,比如用一个 3D 物理引擎来渲染,它可能无法 cover 真实环境中的各种干扰,如摩擦力、惯性阻力等等。因此就想对模拟环境的动力学参数进行随机化处理,增强它的泛化性。
具体来说就是给每个动力学参数一个分布,比如手指关节力矩加一点阻力、目标物体重量给一个均匀分布的范围等等(如下图),然后根据参数分布来排列组合生成一系列模拟环境(M_source),可能有上千个,但是在计算机里可以并行处理,这就是 sim 的优势。
但是这样做有两个问题不好解决,一是为哪些参数做随机化处理?二是参数的随机分布范围怎么设定?第一个问题可以无脑解决,就是越多越好,把能想到的参数都给他随机化一下;但是第二个问题就比较难了,因为你不知道你的目标环境,也就是真实环境的参数到底是怎么样的。可能真实环境下的参数分布的均值是5,但是你在模拟环境下的均值设的是10,你只有扩大方差 Σ\SigmaΣ 才有可能 cover 到,这就导致了很多参数设定是不合理的,训练也是没有必要的;而且有时候还存在在你设定的参数范围内生成的动力学模型,根本就是违反物理规律的,这就更不可取了。
因此本文主要解决如何学习更有适应性的随机化参数的分布。
本文的算法
目标
常规的马尔可夫定义,没有什么特别的:
由于是在参数随机化的设定下做的研究,所以我必须有一个系统动力学 P(st+1|st,at),这个动力学可能是从机械工程角度得到的,也可能是从真实环境中拟合得到的。
然后就是定义一个模拟环境参数的分布,将这个分布加入系统动力学,就变成了一个概率动力学模型:
因此,目标就是如何设计这一参数分布。我们相信在这个设计良好的参数分布中训练得到的 policy 一定可以在真实动力学分布中表现良好。
学习方法
如何学习这一参数分布呢?作者的动机是希望在模拟环境下策略执行的轨迹和在真实环境下策略执行的轨迹越相似越好,这样就证明两个环境没有什么区别,此时的参数分布就是最优的表示真实环境的分布。
直接模拟需要大量样本,这里采用迭代方法来近似优化,并加入一个 KL 约束来保证不发散:
用简单的一范式和二范式来计算距离:
本文采用的基础强化学习算法是PPO,并用多维高斯分布来作为模拟参数的分布。由于本文使用的是一个不可微分的模拟器,因此不需要计算梯度,可以把模拟环境当成一个黑盒。而如果是微分模拟环境,则需要计算梯度。
下面是本文的架构和伪代码,这里感觉写的不是很细,一些细节不清楚,也没有源码,理解的不是很深刻,可能需要结合后面实验才能真正理解:
实验
作者进行了两个实验,一个是让系着绳子的机器人手臂将绳子末端的小球放入指定洞中;二是让机器人手臂去开抽屉。
作者首先比较了标准的领域随机化方法在这两个任务上的表现,发现领域随机化方法对方差的设定非常敏感,方差设定的较小才有可能完成实验,而方差过大就学不到东西。
然后利用 simopt 方法,从下图的位置均值可以明显的看到适应真实环境的过程:
作者在附录提供了部分均值参数和方差的变化,可以看到使用 simopt 算法之后均值发生明显变化,这就说明模拟环境和真实环境存在差异,并且 simopt 可以很好地修正模拟环境的参数分布,使其能够更好地表示真实环境:
【论文】Closing the Sim-to-Real Loop: Adapting Simulation Randomization with Real World Experience相关推荐
- 每日论文打卡十 LCDNet: Deep Loop Closure Detection for LiDAR SLAM based on Unbalanced Optimal Transport
论文题目 LCDNet: Deep Loop Closure Detection for LiDAR SLAM based on Unbalanced Optimal Transport arxiv ...
- 表征学习、图神经网络、可解释的 AI,ML 机器人七大研究进展一览
2020-01-21 05:41:47 作者 | Gregory J Stein编译 | 翻译官balala 编辑 | 丛末 随着每一年的结束,麻省理工学院电气工程与计算机科学系博士 Gregory ...
- Golang中的GoPath和GoModule
文章目录 什么是GoPath? 什么是GoModule? GoModule的设置 GoModule无法下载国外的依赖包问题 在Golang中,有两个概念非常容易弄错,第一个就是GoPath,第二个则是 ...
- 干货 | 浅谈机器人强化学习--从仿真到真机迁移
" 对于机器人的运动控制,强化学习是广受关注的方法.本期技术干货,我们邀请到了小米工程师--刘天林,为大家介绍机器人(以足式机器人为主)强化学习中的sim-to-real问题及一些主流方法. ...
- LIO-SAM: 论文翻译
目录 LIO-SAM: Tightly-coupled Lidar Inertial Odometry via Smoothing and Mapping Abstract I. Introducti ...
- KDD‘22推荐系统论文梳理(24篇研究36篇应用论文)
2022推荐系统论文梳理系列 推荐系统相关顶会整理 AAAI'22推荐系统论文梳理 IJCAI'22 推荐系统论文梳理 ICML/ICLR'22 推荐系统论文梳理 WWW'22 推荐系统论文之序列推荐 ...
- 扫雷游戏设计c语言论文,扫雷游戏的设计与开发(论文+程序)
我们可以清楚的看到,游戏界面主要分为两个主要部分:1. 计数及状态区:2.地雷区. 内容来自论文无忧网 www.paper51.com 首先我利用PictureBox组件,PictureBox为容器类 ...
- AI讲话总爱“结巴”?这篇NeurIPS论文找到了病因,结巴率已接近人类!
文 | 智商掉了一地 如何让机器生成更接近人类的结果?第一步--停止复读 "人类的本质是复读机","重要的事情说三遍!!!",这些年我们总能听到这样的梗,可是在 ...
- 从这篇YouTube论文,剖析强化学习在工业级场景推荐系统中的应用
作者 | 吴海波 转载自知乎用户吴海波 [导读]本文作者根据两篇工业界背景的论文解答了 RL 在推荐场景需要解决的问题与困难,以及入门需要学习得相关知识点. 2 个月前,业界开始流传 youtube ...
最新文章
- Android 之Tasks和Back Stack(任务和返回栈)
- Python编程入门到实践 - 笔记( 4 章)
- MySQL 查询重复记录
- 双活数据中心对企业的帮助
- Rainbond最佳实践:Tomcat配置Redis实现Session共享
- Creating Apps With Material Design —— Creating Lists and Cards
- 手把手教你用Python给小姐姐美个颜
- 信息学奥赛C++语言: 商品排序
- mac下使用brew安装java等应用
- php用户同步,ucenter同步用户登录【转】
- 杭州师范大学计算机考研难度,杭州师范大学网络空间安全考研难吗
- 我们都被监控了?揭秘全球电信网络7号信令(SS7)漏洞
- php 验证码不正确,php验证码提示错误
- 移动硬盘损坏提示“文件或目录损坏且无法读取”解决方法
- 旋转立方体相册HTML+CSS
- Web渗透测试----4、常见解析漏洞
- 已经无限接近于真实!EA下一代寒霜引擎展示令人惊叹的毛发效果
- 电子取证volatility
- lineageos没有信号解决方法
- Nginx入门学习笔记
热门文章
- 计算机win10+上锁,老司机应对win10系统给电脑屏幕上锁的方案
- MFC 判断网络通断IsNetworkAlive
- 单目视觉里程计--基于视差角的单目视觉里程计MPVO
- 中国还有几家达到CMM5了?
- Pixologic ZBrush 中文版
- 让经纬度数据带矢量方向_惊艳!这样处理可得到细至可用于交通模型的路网数据丨城市数据派...
- 2022最新养生打卡健康小程序(云开发)
- Unity官方性能检测工具UPR使用心得
- 深度增强学习DDPG(Deep Deterministic Policy Gradient)算法源码走读
- VR全景智慧园区,沉浸式数字化体验,720度全视角展示