200731本篇是应用数学之动态最优化理论的笔记,欢迎各位交流!今天是第七部分:连续时间动态规划~

目录

  • 7. 连续时间动态规划
    • 7.1 确定性动态规划
    • 7.2 随机动态规划

7. 连续时间动态规划

7.1 确定性动态规划

  • 优化问题为

max ⁡ ∫ 0 T f ( t , x , u ) d t + φ ( x ( T ) , T ) s.t.  x ˙ = g ( t , x , u ) x ( 0 ) = a \begin{array}{l}\max \int_{0}^{T} f(t, x, u) \mathrm{d} t+\varphi(x(T), T) \\ \text { s.t. } \quad \dot{x}=\mathrm{g}(t, x, u) \\ \quad x(0)=a\end{array} max∫0T​f(t,x,u)dt+φ(x(T),T) s.t. x˙=g(t,x,u)x(0)=a​

则定义值函数为
J ( t 0 , x 0 ) = max ⁡ ∫ t 0 T f ( t , x , u ) d t + φ ( x ( T ) , T ) J\left(t_{0}, x_{0}\right)=\max \int_{t_{0}}^{T} f(t, x, u) \mathrm{d} t+\varphi(x(T), T) J(t0​,x0​)=max∫t0​T​f(t,x,u)dt+φ(x(T),T)

  • 有包络定理

0 = max ⁡ u { f ( t , x , u ) + J t ( t , x ) + J x ( t , x ) g ( t , x , u ) } 0=\max _{u}\left\{f(t, x, u)+J_{t}(t, x)+J_{x}(t, x) g(t, x, u)\right\} 0=umax​{f(t,x,u)+Jt​(t,x)+Jx​(t,x)g(t,x,u)}

和最优性条件
0 = f u ( t , x , u ) + J x ( t , x ) g u ( t , x , u ) 0=f_{u}(t, x, u)+J_{x}(t, x) g_{u}(t, x, u) 0=fu​(t,x,u)+Jx​(t,x)gu​(t,x,u)

  • 得到Hamilton-Jacob-Bellman方程(HJB方程)

0 = max ⁡ u { f u ( t , x , u ( x ) ) + J t ( t , x ) + J x ( t , x ) g ( t , x , u ( x ) ) } 0=\max _{u}\left\{f_{u}(t, x, u(x))+J_{t}(t, x)+J_{x}(t, x) g(t, x, u(x))\right\} 0=umax​{fu​(t,x,u(x))+Jt​(t,x)+Jx​(t,x)g(t,x,u(x))}

可以证明,只有控制变量与状态变量是线性关系时,才能得到显示解。

事实上,令 λ = J x \lambda = J_x λ=Jx​,最优性条件变为 0 = f u ( t , x , u ) + λ g u ( t , x , u ) 0=f_{u}(t, x, u)+\lambda g_{u}(t, x, u) 0=fu​(t,x,u)+λgu​(t,x,u)。对HJB方程求导得到 λ ˙ = − f x − λ g x \dot{\lambda}=-f_{x}-\lambda g_{x} λ˙=−fx​−λgx​,与最优控制结果相同。

  • 因此求解过程为:
    ​ 第一步,最优性条件:

0 = f u ( t , x , u ) + J x ( t , x ) g u ( t , x , u ) 0=f_{u}(t, x, u)+J_{x}(t, x) g_{u}(t, x, u) 0=fu​(t,x,u)+Jx​(t,x)gu​(t,x,u)

​ 第二步,代入HJB方程:
0 = max ⁡ u { f u ( t , x , u ( x ) ) + J t ( t , x ) + J x ( t , x ) g ( t , x , u ( x ) ) } 0=\max _{u}\left\{f_{u}(t, x, u(x))+J_{t}(t, x)+J_{x}(t, x) g(t, x, u(x))\right\} 0=umax​{fu​(t,x,u(x))+Jt​(t,x)+Jx​(t,x)g(t,x,u(x))}
​ 第三步,依可行性条件求解。

7.2 随机动态规划

  • 先定义随机微分方程

d x = g ( t , x , u ) d t + σ ( t , x , u ) d z \mathrm{d} x=\mathrm{g}(t, x, u) \mathrm{d} t+\sigma(t, x, u) \mathrm{d} z dx=g(t,x,u)dt+σ(t,x,u)dz

  • Ito公式

d y = f t ( t , z ) d t + f z ( t , z ) d z + 1 2 f z z ( t , z ) d t \mathrm{d} y=f_{t}(t, z) \mathrm{d} t+f_{z}(t, z) \mathrm{d} z+\frac{1}{2} f_{z z}(t, z) \mathrm{d} t dy=ft​(t,z)dt+fz​(t,z)dz+21​fzz​(t,z)dt

  • 对于随机优化问题

max ⁡ x , u E ∫ 0 T f ( t , x , u ) d t + φ ( x ( T ) , T ) s.t.  d x = g ( t , x , u ) d t + σ ( t , x , u ) d z x ( 0 ) = a \begin{array}{ll}\max _{x, u} & E \int_{0}^{T} f(t, x, u) \mathrm{d} t+\varphi(x(T), T) \\ \text { s.t. } & \mathrm{d} x=\mathrm{g}(t, x, u) \mathrm{d} t+\sigma(t, x, u) \mathrm{d} z \\ & x(0)=a\end{array} maxx,u​ s.t. ​E∫0T​f(t,x,u)dt+φ(x(T),T)dx=g(t,x,u)dt+σ(t,x,u)dzx(0)=a​

  • 如上使用动态规划,得到
    第一步,依最优化条件得到 u ( x ) u(x) u(x):

0 = f u ( t , x , u ) + J x ( t , x ) g u ( t , x , u ) 0=f_{u}(t, x, u)+J_{x}(t, x) g_{u}(t, x, u) 0=fu​(t,x,u)+Jx​(t,x)gu​(t,x,u)

​ 第二步,代回得到 HJB 方程:
0 = f ( t , x , u ( x ) ) + J t ( t , x ) + J x ( t , x ) g ( t , x , u ( x ) ) + 1 2 J x x ( t , x ) σ 2 ( t , x , u ( x ) ) 0=f(t, x, u(x))+J_{t}(t, x)+J_{x}(t, x) g(t, x, u(x))+\frac{1}{2} J_{x x}(t, x) \sigma^{2}(t, x, u(x)) 0=f(t,x,u(x))+Jt​(t,x)+Jx​(t,x)g(t,x,u(x))+21​Jxx​(t,x)σ2(t,x,u(x))
​ 第三步,加入可行性条件求解:
d x = g ( t , x , u ) d t + σ ( t , x , u ) d z x ( 0 ) = a \begin{array}{c}\mathrm{d} x=g(t, x, u) \mathrm{d} t+\sigma(t, x, u) \mathrm{d} z \\ x(0)=a\end{array} dx=g(t,x,u)dt+σ(t,x,u)dzx(0)=a​

【应用数学】动态最优化(7):连续时间动态规划相关推荐

  1. 线性连续时间状态空间模型的离散化及实例

    线性连续时间状态空间模型的离散化(Discretization of Linear Continuous-Time State-Space Models) 1 .状态空间模型 非线性连续时间状态空间模 ...

  2. 马尔可夫决策过程 Markov decision process MDP, 连续时间Markov chain, CMDP(全)

    引言 在概率论及统计学中,马尔可夫过程(英语:Markov process)是一个具备了马尔可夫性质的随机过程,因为俄国数学家安德雷·马尔可夫得名.马尔可夫过程是不具备记忆特质的(memoryless ...

  3. CLINS: 基于激光-惯性系统的连续时间轨迹估计(IROS 2021)

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨paopaoslam 来源丨 泡泡机器人SLAM 标题:CLINS: Continuous-Ti ...

  4. matlab实现周期阶跃函数,连续时间信号傅利叶变换与MATLAB实现.doc

    Matlab应用实践课程设计 PAGE PAGE 22 - 课程设计任务书 学生姓名: 潘少俊 专业班级:电子科学与技术0701 班 指导教师:梁小宇 工作单位:信息工程学院 题 目: 连续时间信号的 ...

  5. 连续时间傅里叶变换的性质(简介及推导)

    连续时间傅里叶变换的共轭以及共轭对称性在这篇博文中单独拿出来了,下面是傅里叶变换的一些常用性质的简单介绍以及推导. 性质的描述以手稿的形式给出: 线性性质 时移 这个性质说明:信号在时间上移位,并不改 ...

  6. 5. 连续时间马氏过程-强Markov族

    5. 连续时间马氏过程-强Markov族 上回主要介绍了有关马氏过程的两个部分内容,即 连续时间的马氏过程的定义及其等价命题: 构造从一个单点出发的Markov过程的两种方法,即「活动概率空间」和「M ...

  7. 4. 连续时间鞅(REN)

    4. 连续时间鞅(REN) 前情提要 闭区间上的鞅(终端值必然存在) 鞅的定义 鞅与停时(Doob停止定理) 下鞅极值的终值控制不等式(Doob极大值不等式) 左闭右开区间的鞅(终端值未必存在) 鞅的 ...

  8. 第6章-一阶多智体系统一致性-->6.3 连续时间含时滞多智能体系统一致性

    第5章 回到目录 第7章 6 一阶多智体系统一致性 6.3 连续时间含时滞系统一致性 6.3.1 协议分析 6.3.2 仿真实验 6.3 连续时间含时滞系统一致性 最大时滞 π 2 λ n \frac ...

  9. 第6章-一阶多智体系统一致性-->6.1 连续时间多智能体系统一致性

    第5章 回到目录 第7章 6 一阶多智体系统一致性 6.1 连续时间多智能体系统一致性 6.1.1 协议分析 6.1.2 仿真实验 6.1 连续时间多智能体系统一致性 6.1.1 协议分析

最新文章

  1. Centos7安装Elasticsearch
  2. 哥伦比亚大学「机械手」无需提前了解抓握物体,也能灵活适应形状!
  3. Activiti实战. 1.5Activiti架构与组件
  4. 每天一道LeetCode-----以字符串的形式输出二叉树所有从根节点到叶子节点的路径
  5. 静态RAM(2K * 8位)6116介绍(抄自原理图)
  6. pdf阅读器与迅捷pdf编辑器的使用方法
  7. Linux 优秀软件资源大全中文版
  8. 丹尼带你入坑无人机3 - 四轴飞行原理
  9. 生如夏花之绚烂,Lisp风格的Lialang诞生了!
  10. 详解百度快照劫持,小白必看篇
  11. 部分双机热备软件详细介绍-行云管家
  12. python爬取海量PPT模板,再也不用辛苦地找模板了
  13. 发那科sub_PMC功能指令之定时器TMR(SUB3)
  14. 数据结构:串(String)【详解】
  15. 有道linux安装路径,Ubuntu 16.04下安装有道词典出错的解决方法
  16. c语言中 x20是什么意思,vivo X20的这些功能,我想给满分。
  17. 结绳编程【布局】重点
  18. 端午福福福福福福福福福福福福福福福福利
  19. ckeditor5使用
  20. prism 创建ViewModel

热门文章

  1. doxygen教程-5-编写注释
  2. ICPCCamp2017 Day 4 A The Catcher in the Rye(二分+光的折射定律)
  3. db2与mysql编目_编目DB2数据库(原创)
  4. 柴皇城一家人口家私 水浒传
  5. 好的服务如何开发设计
  6. 雷达实测数据处理流程
  7. 这就是搜索引擎(三)——搜索引擎优化
  8. 螺旋折线(推公式,找规律)
  9. c语言期末总结1000,C语言期末考试总结,看完保你过.ppt
  10. word敲空格文字不后退,用word来打文字的时候,为什么敲一下空格后面的文字就消失????...