文章目录

  • 摘要
    • 关键词
  • 0 引言
  • 1 空间连续型机器人动力学模型
    • 1.1 场景假设
      • (1) 环境假设
      • (2) 模型假设
    • 1.2 公式分析
  • 2 空间连续型机器人滑模控制器
  • 3 基于强化学习的滑模控制器
  • 4 仿真校验
  • 5 结论

摘要

针对问题】空间主动碎片清除操作连续型三臂节机器人系统跟踪
提出方法】一种基于强化学习的自适应滑模控制算法(强化学习 + 滑模控制)
具体内容】(1)基于数据驱动的建模方法,采用 BP 神经网络对三臂节连续型机械臂进行建
模;(2)神经网络作为预测模型指导强化学习实时调节所提出滑模控制器的控制参数,从而实现连续型机器人运动的实时跟踪控制。
得出效果】高精度、更低的超调量和更短的调节时间

关键词

  • 空间连续型机器人;
  • 强化学习;
  • 预测控制;
  • 滑模控制;
  • 轨迹跟踪;

0 引言

问题背景
(1)逐渐增多的空间碎片对在轨航天器构成了重大的威胁 →\rightarrow→ 空间主动碎片清除技术的重要性;
(2)连续型机械臂具有占用空间小柔软灵活等特点 →\rightarrow→ 通过主动变形在有限的工作空间内完成复杂的动作 →\rightarrow→ 呈现出高度非线性的动力学特征 →\rightarrow→ 传统建模方法在参数摄动外部干扰等不确定因素下性能表现差

前人研究
(1)基于神经网络的建模及控制方法:

学者 工作 效果
Grassmann RLai J 前馈神经网络分别拟合连续型机械臂的正逆运动学模型 较高的精度
Thuruthel 前馈神经网络递归神经网络学习连续型机械臂的动力学模型,用以拟合机械臂的动态响应并进行评估,并据此构建开环控制策略 大量的监督数据;限制了机械臂的运动轨迹

不足之处:由于拟合模型的精度依赖于监督数据的完备性,导致模型仍不可避免的会受到过拟合问题的影响 + 开环控制策略进一步限制运动轨迹
(2)模型预测控制方法:

学者 工作 效果
Li 提出了一种机器人运动规划网络 MPC-MPNet;网络生成可行路径 + 模型预测控制实现避障 执行正向路径扩展,不适合在动态障碍物环境中进行实时规划
Ouyang 一种具有指数加权预测范围的模型预测控制器;建立接触过程中机器人驱动空间变形空间的线性近似模型,来实现在接触力作用下的连续型机器人主动变形控制 依赖接触变形近似模型的精度
Tang 一种迭代学习模型预测控制方法;通过伪刚体模型对执行器的变形进行初步预测,利用迭代学习不断降低模型误差,最后由模型预测控制实现机器人变形 适用于具有一定刚度的软管式连续型机器人,对弯曲特性较明显的表现较差

不足之处:容易局部最优;不具有外部探索的能力 →\rightarrow→ 无法对外部的反馈信息做进一步处理;不能拓展到大型机器人中
(3)将深度强化学习引入模型预测控制滚动优化的奖励策略

学者 工作 效果
Frazelle 采用 Actor-Critic 框架的策略搜索方法实现运动学控制 对状态和动作进行了离散化 →\rightarrow→ 造成了一些损失;难以扩展到更复杂的环境中
Shin 采用神经网络学习视觉空间下软组织受力时的动力学模型 →\rightarrow→ 预测其动态响应 →\rightarrow→ 基于模型预测控制的强化学习来对机械臂进行操纵(针对手术机器人与软体组织接触的问题) 离散数据影响;演示数据影响
Thuruthel 基于模型的连续型机器人机械手闭环预测控制的策略学习算法;采用递归神经网络拟合前向模型 + 采用强化学习进行轨迹优化 + 推导出闭环策略 随机打靶法进行轨迹采样的方法需要大量的数据,且不具有完备性,无法在大范围跟踪运动控制中获得合理解

本文工作

  1. 提出一种数据驱动的多层前馈神经网络模型;
  2. 设计了变结构控制器;
  3. 在双延迟深度确定性策略梯度算法的基础上,引入模型预测控制原理;

1 空间连续型机器人动力学模型

1.1 场景假设

(1) 环境假设

  1. 机器人已被送至碎片附近;
  2. 位姿调整使得机械臂进入可以捕获碎片的范围内;
  3. 末端装有用于实时监测的传感器 + 执行器;

(2) 模型假设

  1. 节盘与驱动线之间光滑无摩擦;
  2. 柔性支撑处无外部碰撞
  3. 各臂节变形服从等曲率假设

1.2 公式分析

广义坐标描述机器人运动:q=[α1,α2,α3]T\pmb{q}=[\alpha_{1},\alpha_{2},\alpha_{3}]^{T}qq=[α1​,α2​,α3​]T
当前臂节 iii 对应的局部坐标系相对于全局坐标系的转角:βi\beta_{i}βi​
当前臂节 iii 对应的局部坐标系相对于全局坐标系的坐标:(xi,yi)(x_{i},y_{i})(xi​,yi​)
当前臂节 iii 的弯曲形变角度:αi\alpha_{i}αi​

  1. 机器人系统动能TTT:
    T=Td+Ts=12q˙TMq˙(1)T=T^{d}+T^{s}=\frac{1}{2} \dot{q}^{T}M\dot{q} \tag{1} T=Td+Ts=21​q˙​TMq˙​(1)
    Td→T^{d} \rightarrowTd→ 节盘动能;
    Ts→T^{s} \rightarrowTs→ 柔性支撑动能;
    M→\pmb{M} \rightarrowMM→ 机器人系统的质量阵;
  2. 连续型机器人系统弹性力Qe\pmb{Q_{e}}Qe​Qe​对应的虚功:
    δWe=−∫0l∫AEϵδϵdAds=−QeTδq(2)\delta W_{e}=-\int_{0}^{l} \int_{A} E\epsilon \delta \epsilon dAds=-Q_{e}^{T}\delta q \tag{2}δWe​=−∫0l​∫A​EϵδϵdAds=−QeT​δq(2)
    E→E \rightarrowE→ 柔性支撑的弹性模量;
    A→A \rightarrowA→ 截面面积;
    l→l \rightarrowl→ 长度;
    ϵ→\epsilon \rightarrowϵ→ 中性层的弯曲应变;
    s→s \rightarrows→ 局部坐标系下弹性力作用点到原点的弧长;
  3. 机器人系统驱动力Qa\pmb{Q_{a}}Qa​Qa​对应的虚功:
    δWa=QaTδq(3)\delta W_{a}=Q_{a}^{T}\delta q \tag{3}δWa​=QaT​δq(3)
  4. 系统的动力学方程:
    Mq¨=−Qe+Qa+Qv(4)M\ddot{q} = -Q_{e}+Q_{a}+Q_{v} \tag{4}Mq¨​=−Qe​+Qa​+Qv​(4)
    其中:Qv=−M˙q˙+(∂T∂q)TQ_{v}=-\dot{M}\dot{q}+(\frac{\partial T}{\partial q})^{T}Qv​=−M˙q˙​+(∂q∂T​)T
  5. f(t)f(t)f(t)表征外部干扰和建模误差的列向量:
    f(t)=d(t)+△M0q¨+△C0qf(t)=d(t)+\triangle M_{0}\ddot{q}+\triangle C_{0}q f(t)=d(t)+△M0​q¨​+△C0​q

2 空间连续型机器人滑模控制器



(对滑模控制不了解呜呜呜。。。

3 基于强化学习的滑模控制器

TD3介绍:

  1. 两个由 θQk(k=1,2)\theta^{Q_{k}}(k=1,2)θQk​(k=1,2) 参数化的 Critic 网络 Q(s,a∣θQk)Q(s,a|\theta^{Q_{k}})Q(s,a∣θQk​);
  2. 及一个由 θμ\theta^{\mu}θμ 参数化的 Actor 网络μ(s∣θμ)\mu(s|\theta^{\mu})μ(s∣θμ);
  3. 惩罚系数 ρ\rhoρ 通过滑动平均法更新目标网络参数:θ′=ρθ+(1−ρ)θ′\theta^{\prime}=\rho\theta+(1-\rho)\theta^{\prime}θ′=ρθ+(1−ρ)θ′
  4. 始终选取两个 Critic 网络中的最小值,进行延迟策略更新;
  5. 引入随机噪声来进一步增加智能体探索环境的能力

产生问题:

  1. 传统强化学习的动作策略无法在短期内表现出明显的奖励差异
  2. 每个时间步,不适合频繁调用此类非线性系统动力学方程,容易造成计算负担

解决问题:引入了数据驱动的学习方法

  1. 计算量小;
  2. 不需要精确的动力学模型信息;
  3. 可针对不同的环境采用对应的数据进行训练;
  4. 具有良好的环境实时交互和迁移能力;
  5. 适用于仿真计算及地面实验;

本文选用δ\deltaδ和kkk作为强化学习的自适应优化参数。

4 仿真校验

过度冗余的网络输入会导致网络输出对系统状态变化不敏感,降低学习网络的性能;
而关键输入信息的缺失则导致网络不能有效地反映系统动态变化。

动作向量 →\rightarrow→ 滑模控制器的控制参数δ\deltaδ和KKK;
状态向量sss →\rightarrow→ 信息包含各节角度角速度角度跟踪误差角速度跟踪误差及下一时刻预期上述信息,来合理地表征机械臂系统目标轨迹的动态信息
奖励函数rrr →\rightarrow→ r=de+hgoalr=d_{e}+h_{goal}r=de​+hgoal​;



设计的预测模型训练过程中代价值快速下降,经 70 代训练后已趋于稳定。
所设计的基于 BP 网络的预测模型可以将拟合的各臂节弯曲角度的相对误差保持在 +/−1%+/-1\%+/−1% 以内
验证了该预测模型的准确性

  • 每代评估时的平均奖励值在逐步提升,策略在逐步优化
  • 由于f\pmb{f}ff的影响,在每代中的每个 step 对应的奖励值尤其是取得额外奖励的时间会存在差异,导致平均奖励值会存在小幅震荡


约于 1.7 s 时便达到稳定跟踪状态
本文提出的控制器明显具有更低的超调量和更短的调节时间
本文算法对外部扰动和建模误差具有更强的抑制能力

5 结论

【论文笔记】基于强化学习的连续型机械臂自适应跟踪控制相关推荐

  1. 基于深度学习的旋翼无人机机械臂抓取

    基于深度学习的旋翼无人机机械臂抓取 摘要:随着空中机器人技术的快速发展与日益成熟,无人机在越来越多的领域得到了广泛的应用.而多旋翼无人机作为最常用的无人机之一,以其体积小.运动灵活.定点悬停等优势广泛 ...

  2. 华为诺亚ICLR 2020满分论文:基于强化学习的因果发现算法

    2019-12-30 13:04:12 人工智能顶会 ICLR 2020 将于明年 4 月 26 日于埃塞俄比亚首都亚的斯亚贝巴举行,不久之前,大会官方公布论文接收结果:在最终提交的 2594 篇论文 ...

  3. 读书笔记 - 基于强化学习的城市交通信号控制方法研究 - 西电MaxPlus

    <基于强化学习的城市交通信号控制方法研究> 针对TC-GAC交通信号控制方法中只考虑局部拥堵因子的缺陷,引入车辆目的车道的全局拥堵因子,实现了多交叉口控制器Agent之间的简单协作. 由于 ...

  4. 柔性机械臂_CSR论文精选 | 基于视觉的双连杆柔性机械臂末端位置跟踪控制

    05基于视觉的双连杆柔性机械臂末端位置跟踪控制 Umesh Kumar Sahu; Dipti Patra; Bidyadhar Subudhi 文章精读 英文标题: Vision-based tip ...

  5. 【论文笔记】强化学习论文阅读-Model-Based RL 9篇

    简要介绍了一下Model-Based RL领域的经典论文(2018年以前). 文章目录 引子 a. Model is learned Imagination-Augmented Agents for ...

  6. 论文笔记 | 基于深度学习的乳腺转移瘤识别(Deep Learning for Identifying Metastatic Breast Cancer)

    论文阅读笔记:原文链接 摘要 生物医学图像国际研讨会(International Symposium on Biomedical Imaging,ISBI)举办了一个在前哨淋巴节点全幻灯图中自动检测转 ...

  7. 基于深度学习的自动识别夹取机械臂

    实现功能 可以实现对指定目标的自动搜索夹取工作具体效果 https://www.bilibili.com/video/BV1h64y1h7Yj/ 优势和不足 在目标检测中使用的是基于深度学习的yolo ...

  8. 【神经网络】基于RBF神经网络的六关节机械臂无模型控制

    前言:最近在搞神经网络,看到有用神经网络逼近未建模动态的,也有用神经网络来逼近整个模型的,后者即是无模型控制.无模型控制它不需要知道系统的名义模型,直接用神经网络来逼近整个系统,感觉这个方法还蛮厉害的 ...

  9. 论文浅尝-综述 | 基于强化学习的知识图谱综述

    转载公众号 | 人工智能前沿讲习 论文来源:https://crad.ict.ac.cn/CN/10.7544/issn1000-1239.20211264 摘要:知识图谱是一种用图结构建模事物及事物 ...

最新文章

  1. Java 加密解密 对称加密算法 非对称加密算法 MD5 BASE64 AES RSA
  2. Django--分页器(paginator)
  3. 学习WINDOWS内核好书
  4. 201771010118马昕璐《面向对象程序设计java》第八周学习总结
  5. python关联分析引擎_PowerBI x Python 之关联分析(上)
  6. 每日程序C语言34-利用指针将输入的三个数排序
  7. 让威胁管理跟上数据中心奔跑的速度
  8. springboot 工程启动报错之Consider defining a bean of type ‘XXX’ in your configuration.
  9. 触摸屏开发_Microchip推出新型电容触摸式控制器,加速汽车触摸屏EMI认证
  10. Android官方命令深入分析之虚拟机
  11. 部署Symantec Antivirus 10.0网络防毒服务器之三
  12. HTTP协议基本原理简介(一)
  13. Mac上最好用的HTML文本编辑器BBEdit下载安装教程
  14. log4j2 使用详解 (转)
  15. 平面直角坐标系中的旋转公式_巧用隐圆求解旋转中的最值问题
  16. fgui快速接入到一个laya实例项目中
  17. 随意发软件如何自动发帖已更新2022
  18. 递归算法求n个数字的全排列
  19. 第13周项目1—动物这样叫2.3
  20. 为什么java中的时间是从1970年1月1日开始的?

热门文章

  1. dnf用什么计算机语言,DNF垫刀与概率学、统计学、计算机语言
  2. 如何查看bios版本号?
  3. Uncaught SyntaxError: Cannot use import statement outside a module的解决方法
  4. linux没有权限操作文件
  5. Input和label
  6. 港大计算机系教授中科大毕业的吗,中科大回顾:那些压抑、纠结、煎熬和开心的经历...
  7. 计算机考研英语词汇,考研英语词汇:常见词缀大全
  8. 物联网毕设 人体定位智能调速风扇系统
  9. 改进建议 计算机组成原理,“计算机组成原理”教学方法的探讨及教学质量的改进...
  10. 视觉SLAM中,本质矩阵、基础矩阵、单应性矩阵自由度和秩分析