【应用数学】动态最优化:合集
200731
经过长时间的打公式终于把这个系列更新完毕了。本篇是动态最优化的一个合集,欲看章节可以进入此目录查看~
章节目录
- 1. 确定性差分方程
- 1.1 一阶线性差分方程
- 1.1.1 齐次方程
- 1.1.2 非齐次自治方程
- 1.1.3 非自治系统
- 1.2 二阶线性差分方程
- 1.2.1 齐次系统
- 1.2.2 非齐次自治系统
- 1.2.3 非线性动态系统
- 2. 随机差分方程
- 2.1 随机差分方程
- 2.2 脉冲响应函数
- 2.3 二次型的几何和
- 2.4 谱
- 2.5 不变子空间方法
- 2.6 线性理性预期模型
- 3. 动态规划与二次规划
- 3.1 动态规划
- 3.1.1 确定性离散动态规划
- 3.1.2 随机动态规划
- 3.2 二次规划
- 3.2.1 确定性最优线性调节器
- 3.2.2 随机线性二次规划
- 4. 微分动力系统
- 4.1 线性齐次系统
- 4.2 非线性系统
- 5. 变分法
- 5.1 欧拉方程
- 5.2 横截条件
- 6. 确定性最优控制
- 6.1 自由端点问题
- 6.2 固定边界问题
- 6.3 各种终点受约束情形
- 6.4 含代数约束的控制问题
- 6.5 比较静态分析
- 7. 连续时间动态规划
- 7.1 确定性动态规划
- 7.2 随机动态规划
- 8. 卡尔曼滤波
1. 确定性差分方程
1.1 一阶线性差分方程
x t = a x t − 1 + b t x_t = ax_{t-1} + b_t xt=axt−1+bt
1.1.1 齐次方程
- 对于齐次方程
x t = a x t − 1 x_t = ax_{t-1} xt=axt−1
- 有稳定性结论
(1)当 0 < a < 1 0 < a < 1 0<a<1 时,解单调收敛于 x = 0 x = 0 x=0,均衡点是稳定的;
(2)当 − 1 < a < 0 -1 < a < 0 −1<a<0 时,解振荡收敛于 x = 0 x = 0 x=0,均衡点是稳定的;
(3)当 a > 1 a > 1 a>1 时,单调发散到无穷大,均衡点不稳定;
(4)当 a < − 1 a < -1 a<−1 时,振荡发散到无穷大,均衡点不稳定。
1.1.2 非齐次自治方程
- 设方程中 b t b_t bt为常数序列,则解为
x t g = x ˉ + c a t x_t^g = \bar{x} + ca^t xtg=xˉ+cat
- 有稳定性结论
(1)当 ∣ a ∣ < 1 | a | < 1 ∣a∣<1 时,对任意 c c c,方程的解收敛到均衡点,均衡点是稳定的。
(2)当 ∣ a ∣ > 1 | a | > 1 ∣a∣>1 时,除去 c = 0 c = 0 c=0 外,方程的解不收敛到均衡点,均衡点是不稳定的。
(3) a a a 的符号决定解是单调的还是振荡的。
1.1.3 非自治系统
- 将其后向迭代得到解为
x t = a n x t − n + ∑ i = 0 n − 1 a i b t − i x_{t}=a^{n} x_{t-n}+\sum_{i=0}^{n-1} a^{i} b_{t-i} xt=anxt−n+i=0∑n−1aibt−i
- 当 ∣ a ∣ < 1 |a|<1 ∣a∣<1时后向解是稳定的,为
x t = c a t + ∑ i = 0 ∞ a i b t − i x_{t}=c a^{t}+\sum_{i=0}^{\infty} a^{i} b_{t-i} xt=cat+i=0∑∞aibt−i
- 当 ∣ a ∣ > 1 |a|>1 ∣a∣>1时前向解是稳定的,为
x t = c a t − 1 a ∑ i = 0 ∞ ( 1 a ) i b t + 1 + i x_{t}=c a^{t}-\frac{1}{a} \sum_{i=0}^{\infty}\left(\frac{1}{a}\right)^{i} b_{t+1+i} xt=cat−a1i=0∑∞(a1)ibt+1+i
1.2 二阶线性差分方程
x t + 2 = a x t + 1 + b x t + d t + 2 x_{t+2}=a x_{t+1}+b x_{t}+d_{t+2} xt+2=axt+1+bxt+dt+2
1.2.1 齐次系统
[ x t + 1 y t + 1 ] = [ 0 1 b a ] [ x t y t ] \left[\begin{array}{l}x_{t+1} \\ y_{t+1}\end{array}\right]=\left[\begin{array}{ll}0 & 1 \\ b & a\end{array}\right]\left[\begin{array}{l}x_{t} \\ y_{t}\end{array}\right] [xt+1yt+1]=[0b1a][xtyt]
- 设 A A A 的两个特征根和特征向量为 λ 1 , λ 2 , ( e 11 , e 12 ) ′ , ( e 21 , e 22 ) ′ \lambda_{1}, \lambda_{2},\left(e_{11}, e_{12}\right)^{\prime},\left(e_{21}, e_{22}\right)^{\prime} λ1,λ2,(e11,e12)′,(e21,e22)′。作特征根分解,可得
[ x t y t ] = [ e 11 e 12 e 21 e x 2 ] [ c 1 λ 1 t c 2 λ 2 t ] \left[\begin{array}{l}x_{t} \\ y_{t}\end{array}\right]=\left[\begin{array}{ll}e_{11} & e_{12} \\ e_{21} & e_{x 2}\end{array}\right]\left[\begin{array}{l}c_{1} \lambda_{1}^{t} \\ c_{2} \lambda_{2}^{t}\end{array}\right] [xtyt]=[e11e21e12ex2][c1λ1tc2λ2t]
- 有结论
(1)特征根为实根,如果所有特征根均小于 1,则收敛于均衡点。若有一个特征根绝对值大于1,则解发散,除非初始条件使该解为常数,出现鞍点情形。鞍点稳定要求一个特征根 1,另一特征根小于1。
(2)特征根为复根,出现周期解;
(3)重根和不能对角化的系统较复杂。
1.2.2 非齐次自治系统
- 经变换可得
z t + 1 = A z t + b z_{t+1}=A z_{t}+b zt+1=Azt+b
- 其解为
[ x t y t ] = [ e 11 e 12 e 21 e 22 ] [ c 1 λ 1 t c 2 λ 2 f ] + [ x ˉ y ˉ ] \left[\begin{array}{l}x_{t} \\ y_{t}\end{array}\right]=\left[\begin{array}{ll}e_{11} & e_{12} \\ e_{21} & e_{22}\end{array}\right]\left[\begin{array}{l}c_{1} \lambda_{1}^{t} \\ c_{2} \lambda_{2}^{\mathrm{f}}\end{array}\right]+\left[\begin{array}{l}\bar{x} \\ \bar{y}\end{array}\right] [xtyt]=[e11e21e12e22][c1λ1tc2λ2f]+[xˉyˉ]
- 稳定性结论:
(1)两个特征根模长均小于 1,则均衡点稳定;
(2) 两个特征根模长均大于 1,则均衡点不稳定,仅在 c 1 = 0 c_1 = 0 c1=0 和 c 2 = 0 c_2 = 0 c2=0 时初始就在均衡点;
(3)特征根一个大于 1,另一特征根小于 1(不妨设第二个特征根大于 1),则大多数时间下不稳定,当且仅当 c 2 = 0 c_2 = 0 c2=0 时是鞍点稳定的,此时鞍点路径为
x t − x ˉ = e 11 e 12 ( y t − y ˉ ) x_{t}-\bar{x}=\frac{e_{11}}{e_{12}}\left(y_{t}-\bar{y}\right) xt−xˉ=e12e11(yt−yˉ)
1.2.3 非线性动态系统
- 考虑下面的系统
x t = f ( x t − 1 , y t − 1 ) y t = g ( x t − 1 , y t − 1 ) x_{t}=f\left(x_{t-1}, y_{t-1}\right)\\ y_{t}=g\left(x_{t-1}, y_{t-1}\right) xt=f(xt−1,yt−1)yt=g(xt−1,yt−1)
- 均衡点
x ˉ = f ( x ˉ , y ˉ ) y ˉ = g ( x ˉ , y ˉ ) \bar{x}=f(\bar{x}, \bar{y})\\ \bar{y}=g(\bar{x}, \bar{y}) xˉ=f(xˉ,yˉ)yˉ=g(xˉ,yˉ)
- 将其在均衡点附近作一阶展开并局部线性化,得到式
x i + 1 − x ˉ = f x ( x ˉ , y ˉ ) ( x i − x ˉ ) + f y ( x ˉ , y ˉ ) ( y t − y ˉ ) y t + 1 − y ˉ = g x ( x ˉ , y ˉ ) ( x t − x ˉ ) + g y ( x ˉ , y ˉ ) ( y t − y ˉ ) x_{i+1}-\bar{x}=f_{x}(\bar{x}, \bar{y})\left(x_{i}-\bar{x}\right)+f_{y}(\bar{x}, \bar{y})\left(y_{t}-\bar{y}\right)\\ y_{t+1}-\bar{y}=g_{x}(\bar{x}, \bar{y})\left(x_{t}-\bar{x}\right)+g_{y}(\bar{x}, \bar{y})\left(y_{t}-\bar{y}\right) xi+1−xˉ=fx(xˉ,yˉ)(xi−xˉ)+fy(xˉ,yˉ)(yt−yˉ)yt+1−yˉ=gx(xˉ,yˉ)(xt−xˉ)+gy(xˉ,yˉ)(yt−yˉ)
- 记其系数矩阵 A A A为
A = [ f x f y g x g y ] A=\left[\begin{array}{ll}f_{x} & f_{y} \\ g_{x} & g_{y}\end{array}\right] A=[fxgxfygy]
- 稳定性结论:
(1)两个特征根模均小于1,则均衡点稳定;
(2)两个特征根模均大于1,则均衡点不稳定,仅在 c 1 = 0 c_1 = 0 c1=0 和 c 2 = 0 c_2 = 0 c2=0 时初始就在均衡点;
(3)特征根一个大于 1,另一特征根小于 1(不妨设第二个特征根大于 1),则大多数时间下不稳定,当且仅当 c 2 = 0 c_2 = 0 c2=0 时是鞍点稳定的。
2. 随机差分方程
2.1 随机差分方程
假定初始分 M M M布 π 0 ( x 0 ) ∼ N ( u 0 , ∑ 0 ) , π ( x ′ ∣ x ) ∼ N ( A 0 x , C C ′ ) \pi_{0}\left(x_{0}\right) \sim N\left(u_{0}, \sum_{0}\right), \quad \pi\left(x^{\prime} \mid x\right) \sim N\left(A_{0} x, C C^{\prime}\right) π0(x0)∼N(u0,∑0),π(x′∣x)∼N(A0x,CC′) ,差分方程
x t + 1 = A 0 x t + C ω t + 1 x_{t+1}=A_{0} x_{t}+C \omega_{t+1} xt+1=A0xt+Cωt+1
其中 x t x_t xt是一个 n × 1 n×1 n×1 的状态向量, x 0 x_0 x0 是一个给定的初始状态, A 0 A_0 A0 是一个 n × n n×n n×n 矩阵, C C C 是一个 n × m n ×m n×m 矩阵, ω t + 1 \omega_{t+1} ωt+1是一个 m × 1 m×1 m×1 的随机向量,且有假定假定A1 ω t + 1 ∼ N ( 0 , 1 ) , i . i . d . \omega_{t+1} \sim \mathrm{N}(0,1), i . i .d. ωt+1∼N(0,1),i.i.d.
假定A2 E ω t + 1 ∣ J t = 0 , E ω t + 1 ω t + 1 ′ ∣ J t = 0 E \omega_{t+1} \mid J_{t}=0,E \omega_{t+1}\omega_{t+1}^\prime \mid J_{t}=0 Eωt+1∣Jt=0,Eωt+1ωt+1′∣Jt=0
假定A3足此条件的为白噪声 E ω t + 1 = 0 E \omega_{t+1}=0 Eωt+1=0且
E ω t ω t j ′ = { I , j = 0 0 , j ≠ 0 E \omega_{t} \omega_{t j}^{\prime}=\left\{\begin{array}{l}I, j=0 \\ 0, j \neq 0\end{array}\right. Eωtωtj′={I,j=00,j=0加入观测系统
x t + 1 = A 0 x t + C ω t + 1 y t = G x t \begin{array}{l}x_{t+1}=A_{0} x_{t}+C \omega_{t+1} \\ y_{t}=G x_{t}\end{array} xt+1=A0xt+Cωt+1yt=Gxt
定义 一个实值方阵 A A A 是稳定的,如果 A A A 所有特征值实部都严格小于 1。
假定系统有如下的特殊形式,其中 A ~ \tilde{A} A~是稳定的。
[ x 1 , t + 1 x 2 , t + 1 ] = [ 1 0 0 A ~ ] [ x 1 , t x 2 , t ] + [ 0 c ˉ ] ω t + 1 \left[\begin{array}{c}x_{1, t+1} \\ x_{2, t+1}\end{array}\right]=\left[\begin{array}{cc}1 & 0 \\ 0 & \tilde{A}\end{array}\right]\left[\begin{array}{c}x_{1, t} \\ x_{2, t}\end{array}\right]+\left[\begin{array}{c}0 \\ \bar{c}\end{array}\right] \omega_{t+1} [x1,t+1x2,t+1]=[100A~][x1,tx2,t]+[0cˉ]ωt+1
则下面任何条件都保证存在一个初始条件,使 x t x_t xt 是协方差平稳的。条件 A1 A A A 所有特征值都严格小于 1。
条件 A2 状态空间有如上的特殊形式且 A ~ \tilde{A} A~所有特征值的模严格小于 1。取期望,
μ t + 1 = A 0 μ t C x ( 0 ) = E ( x t − μ ) ( x t − μ ) ′ = A 0 C x ( 0 ) A 0 ′ + C C ′ \begin{array}{c}\mu_{t+1}=A_{0} \mu_{t} \\ C_{x}(0)=E\left(x_{t}-\mu\right)\left(x_{t}-\mu\right)^{\prime}=A_{0} C_{x}(0) A_{0}^{\prime}+C C^{\prime}\end{array} μt+1=A0μtCx(0)=E(xt−μ)(xt−μ)′=A0Cx(0)A0′+CC′自协方差序列满足
C x ( j ) = E ( x t + j − μ ) ( x t − μ ) ′ = A 0 j C x ( 0 ) C_{x}(j)=E\left(x_{t+j}-\mu\right)\left(x_{t}-\mu\right)^{\prime}=A_{0}^{j} C_{x}(0) Cx(j)=E(xt+j−μ)(xt−μ)′=A0jCx(0)加入观测方程
E ( y t + j − μ y ) ( x t − μ y ) ′ = G C x ( j ) G ′ E\left(y_{t+j}-\mu_{y}\right)\left(x_{t}-\mu_{y}\right)^{\prime}=G C_{x}(j) G^{\prime} E(yt+j−μy)(xt−μy)′=GCx(j)G′则预测和贴现为
E t x t + j = A 0 j x t E t ∑ j = 0 ∞ β j y t + j = G ( I − β A 0 ) − 1 x t \begin{array}{l}E_{t} x_{t+j}=A_{0}^{j} x_{t} \\ E_{t} \sum_{j=0}^{\infty} \beta^{j} y_{t+j}=G\left(I-\beta A_{0}\right)^{-1} x_{t}\end{array} Etxt+j=A0jxtEt∑j=0∞βjyt+j=G(I−βA0)−1xt
2.2 脉冲响应函数
有系统
( I − A 0 L ) x t + 1 = C w t + 1 ⇒ x t + 1 = ∑ j = 0 ∞ A 0 j C w t + 1 − j \begin{array}{l}\left(I-A_{0} L\right) x_{t+1}=C w_{t+1} \\ \Rightarrow x_{t+1}=\sum_{j=0}^{\infty} A_{0}^{j} C w_{t+1-j}\end{array} (I−A0L)xt+1=Cwt+1⇒xt+1=∑j=0∞A0jCwt+1−j向前迭代得到
x t = A 0 t x 0 + ∑ j = 0 t − 1 A 0 j C w t − j y t = G A 0 t x 0 + G ∑ j = 0 t − 1 A 0 j C w t − j \begin{array}{l}x_{t}=A_{0}^{t} x_{0}+\sum_{j=0}^{t-1} A_{0}^{j} C w_{t-j} \\ y_{t}=G A_{0}^{t} x_{0}+G \sum_{j=0}^{t-1} A_{0}^{j} C w_{t-j}\end{array} xt=A0tx0+∑j=0t−1A0jCwt−jyt=GA0tx0+G∑j=0t−1A0jCwt−j其中 h j = A 0 j C , h ~ j = G A 0 j C h_{j}=A_{0}^{j} C, \tilde{h}_{j}=G A_{0}^{j} C hj=A0jC,h~j=GA0jC 被称为脉冲响应函数。
2.3 二次型的几何和
对方程
a t = E t ∑ j = 0 ∞ β j x t + j ′ Y x t + j a_{t}=E_{t} \sum_{j=0}^{\infty} \beta^{j} x_{t+j}^{\prime} Y x_{t+j} at=Etj=0∑∞βjxt+j′Yxt+j猜测有解形式
a t = x t ′ v x t + σ a_{t}=x_{t}^{\prime} v x_{t}+\sigma at=xt′vxt+σ待定系数法解得
a t = x t ′ ( Y + β A 0 ′ x A 0 ) x t + β trace ( v O C ′ ) + β σ a_{t}=x_{t}^{\prime}\left(Y+\beta A_{0}^{\prime} x A_{0}\right) x_{t}+\beta \operatorname{trace}\left(v O C^{\prime}\right)+\beta \sigma at=xt′(Y+βA0′xA0)xt+βtrace(vOC′)+βσ可知有解为
v = ( Y + β A 0 ′ x A 0 ) x t σ = β trace ( v C C ′ ) + β σ \begin{aligned} v &=\left(Y+\beta A_{0}^{\prime} x A_{0}\right) x_{t} \\ \sigma &=\beta \operatorname{trace}\left(v C C^{\prime}\right)+\beta \sigma \end{aligned} vσ=(Y+βA0′xA0)xt=βtrace(vCC′)+βσ
2.4 谱
谱密度矩阵 S x S_x Sx 被定义为关于 x t x_t xt 的协方差图的傅立叶变换:
S x ( ω ) = ∑ τ = − ∞ ∞ C x ( τ ) e − i n m S x ( ω ) = [ I − A 0 e − i ω ] − 1 C C ′ [ I − A 0 e − tia ] − 1 \begin{array}{c}S_{x}(\omega)=\sum_{\tau=-\infty}^{\infty} C_{x}(\tau) e^{-\mathrm{inm}} \\ S_{x}(\omega)=\left[I-A_{0} e^{-i \omega}\right]^{-1} C C^{\prime}\left[I-A_{0} e^{-\operatorname{tia}}\right]^{-1}\end{array} Sx(ω)=∑τ=−∞∞Cx(τ)e−inmSx(ω)=[I−A0e−iω]−1CC′[I−A0e−tia]−1可以通过以下的傅立叶逆变换公式揭示出来:
C x = 1 2 π ∫ − π π S x ( ω ) e + i u r d ω C_{x}=\frac{1}{2 \pi} \int_{-\pi}^{\pi} S_{x}(\omega) e^{+\mathrm{i} \mathrm{ur}} \mathrm{d} \omega Cx=2π1∫−ππSx(ω)e+iurdω
2.5 不变子空间方法
考虑系统
[ b t + 1 z t + 1 c t + 1 ] = A ~ [ b t z t c t ] + C ˉ w t + 1 \left[\begin{array}{l}b_{t+1} \\ z_{t+1} \\ c_{t+1}\end{array}\right]=\tilde{A}\left[\begin{array}{l}b_{t} \\ z_{t} \\ c_{t}\end{array}\right]+\bar{C} w_{t+1} ⎣⎡bt+1zt+1ct+1⎦⎤=A~⎣⎡btztct⎦⎤+Cˉwt+1先对其作特征向量分解
A ˉ = V Λ V − 1 V − 1 = [ V 11 V 12 V 2 V 22 ] \begin{aligned} \bar{A} &=V \Lambda V^{-1} \\ V^{-1} &=\left[\begin{array}{cc}V_{11} & V_{12} \\ V_{2} & V_{22}\end{array}\right] \end{aligned} AˉV−1=VΛV−1=[V11V2V12V22]则有解
c t = − ( V 22 ) − 1 V 2 [ b t z t ] c_{t}=-\left(V^{22}\right)^{-1} V^{2}\left[\begin{array}{l}b^{t} \\ z_{t}\end{array}\right] ct=−(V22)−1V2[btzt]
2.6 线性理性预期模型
形式为
X t + s , t ∗ = E t [ X t + s ] X_{t+s, t}^{*}=E_{t}\left[X_{t+s}\right] Xt+s,t∗=Et[Xt+s]则理性预期可以表示为如下差分方程的解,通常假设 { z t } \{z_t\} {zt} 是一个外生给定的稳定序列,
A E t x t + 1 = B x t + C z t A E_{t} x_{t+1}=B x_{t}+C z_{t} AEtxt+1=Bxt+Czt
3. 动态规划与二次规划
3.1 动态规划
3.1.1 确定性离散动态规划
对于无限期问题
max ∑ t = 0 ∞ β t r ( x t , u t ) s . t . u t = h ( x t ) x t + 1 = g ( x t , u t ) \max \sum_{t=0}^{\infty} \beta^{t} r\left(x_{t}, u_{t}\right)\\ s.t. u_{t}=h\left(x_{t}\right)\\ \quad \quad x_{t+1}=g\left(x_{t}, u_{t}\right) maxt=0∑∞βtr(xt,ut)s.t.ut=h(xt)xt+1=g(xt,ut)
定义值函数为
v ( x 0 ) = max { u t } t = 0 ∞ ∑ t = 0 ∞ β t r ( x t , u t ) v\left(x_{0}\right)=\max _{\left\{u_{t}\right\}_{t=0}^{\infty}} \sum_{t=0}^{\infty} \beta^{t} r\left(x_{t}, u_{t}\right) v(x0)={ut}t=0∞maxt=0∑∞βtr(xt,ut)
则贝尔曼方程为
v ( x ) = max u { r ( x , u ) + β v [ g ( x , u ) ] } v(x)=\max _{u}\{r(x, u)+\beta v[g(x, u)]\} v(x)=umax{r(x,u)+βv[g(x,u)]}
此时对控制变量 u u u求导得到一阶条件,对状态变量 x x x求导得到包络定理,亦称为Benveniste-Scheinkman方程:
r u ( x , u ) + β v ′ [ g ( x , u ) ] g u ( x , u ) = 0 v ′ ( x ) = r x ( x , u ) + β v ′ [ g ( x , u ) ] g x ( x , u ) = 0 r_{u}(x, u)+\beta v^{\prime}[g(x, u)] g_{u}(x, u)=0\\ v^{\prime}(x)=r_{x}(x, u)+\beta v^{\prime}[g(x, u)] g_{x}(x, u)=0 ru(x,u)+βv′[g(x,u)]gu(x,u)=0v′(x)=rx(x,u)+βv′[g(x,u)]gx(x,u)=0
综合以上两条件,得到欧拉方程,其中第二个方程为横截条件。
r u ( x t , x t + 1 ) + β r x ( x t + 1 , x t + 2 ) = 0 lim t → ∞ β t r x ( x t , x t + 1 ) x t = 0 r_{u}\left(x_{t}, x_{t+1}\right)+\beta r_{x}\left(x_{t+1}, x_{t+2}\right)=0\\ \lim _{t \rightarrow \infty} \beta^{t} r_{x}\left(x_{t}, x_{t+1}\right) x_{t}=0 ru(xt,xt+1)+βrx(xt+1,xt+2)=0t→∞limβtrx(xt,xt+1)xt=0
3.1.2 随机动态规划
对于问题
max E 0 ∑ t = 0 ∞ β t r ( x t , u t ) s . t . x t + 1 = g ( x t , u t , ε t + 1 ) \max \quad E_{0} \sum_{t=0}^{\infty} \beta^{t} r\left(x_{t}, u_{t}\right)\\ s.t. \quad x_{t+1}=g\left(x_{t}, u_{t}, \varepsilon_{t+1}\right) maxE0t=0∑∞βtr(xt,ut)s.t.xt+1=g(xt,ut,εt+1)
则贝尔曼方程为
v ( x ) = max u { r ( x , u ) + β E [ v ( g ( x , u , ε ) ) ∣ x ] } v(x)=\max _{u}\{r(x, u)+\beta E[v(g(x, u, \varepsilon)) \mid x]\} v(x)=umax{r(x,u)+βE[v(g(x,u,ε))∣x]}
此方程右端问题的一阶必要条件
r u ( x , u ) + β E [ g u ( x , u , ε ) v ′ [ g ( x , u , ε ) ] ∣ x ] = 0 E [ v ( g ( x , u , ε ) ) ∣ x ] } = ∫ v [ g ( x , u , ε ) ] d F ( ε ) r_{u}(x, u)+\beta E\left[g_{u}(x, u, \varepsilon) v^{\prime}[g(x, u, \varepsilon)] \mid x\right]=0\\ E[v(g(x, u, \varepsilon)) \mid x]\}=\int v[g(x, u, \varepsilon)] \mathrm{d} F(\varepsilon) ru(x,u)+βE[gu(x,u,ε)v′[g(x,u,ε)]∣x]=0E[v(g(x,u,ε))∣x]}=∫v[g(x,u,ε)]dF(ε)
可依一阶条件和包络定理得随机欧拉方程
r u ( x , u ) + β E [ g u ( x , u , ε ) r x ( x ~ , u ~ ) ∣ x ] = 0 r_{u}(x, u)+\beta E\left[g_{u}(x, u, \varepsilon) r_{x}(\tilde{x}, \tilde{u}) \mid x\right]=0 ru(x,u)+βE[gu(x,u,ε)rx(x~,u~)∣x]=0
3.2 二次规划
3.2.1 确定性最优线性调节器
不带贴现的最优线性调节器:
优化问题
max ∑ t = 0 ∞ { x t ′ R x t + u t ′ Q u t } s . t . x t + 1 = A x t + B u t \max \sum_{t=0}^{\infty}\left\{x_{t}^{\prime} R x_{t}+u_{t}^{\prime} Q u_{t}\right\}\\ s.t. x_{t+1}=A x_{t}+B u_{t} maxt=0∑∞{xt′Rxt+ut′Qut}s.t.xt+1=Axt+But
其中 R R R 为半负定对称矩阵, Q Q Q 为负定对称矩阵。
− x ′ P x = max u { − x ′ R x − u ′ Q u − ( A x + B u ) ′ P ( A x + B u ) } -x^{\prime} P x =\max _{u}\left\{-x^{\prime} R x-u^{\prime} Q u-(A x+B u)^{\prime} P(A x+B u)\right\} −x′Px=umax{−x′Rx−u′Qu−(Ax+Bu)′P(Ax+Bu)}
有一阶条件
F.O.C. ( Q + B ′ P B ) u = − B ′ P A x ⇒ u = − ( Q + B ′ P B ) − 1 B ′ P A x ⇒ P = R + A ′ P A − A ′ P B ( Q + B ′ P B ) − 1 B ′ P A \begin{aligned} &\text { F.O.C. } \quad\left(Q+B^{\prime} P B\right) u=-B^{\prime} P A x \\ & \Rightarrow u=-\left(Q+B^{\prime} P B\right)^{-1} B^{\prime} P A x \\ & \Rightarrow P=R+A^{\prime} P A-A^{\prime} P B\left(Q+B^{\prime} P B\right)^{-1} B^{\prime} P A \end{aligned} F.O.C. (Q+B′PB)u=−B′PAx⇒u=−(Q+B′PB)−1B′PAx⇒P=R+A′PA−A′PB(Q+B′PB)−1B′PA
一般使用值函数迭代算法求解。
P j + 1 = R + A ′ P j A − A ′ P j B ( Q + B ′ P j B ) − 1 B ′ P j A F j + 1 = ( Q + B ′ P j B ) − 1 B ′ P j A x P_{j+1}=R+A^{\prime} P_{j} A-A^{\prime} P_{j} B\left(Q+B^{\prime} P_{j} B\right)^{-1} B^{\prime} P_{j} A\\ F_{j+1}=\left(Q+B^{\prime} P_{j} B\right)^{-1} B^{\prime} P_{j} A x Pj+1=R+A′PjA−A′PjB(Q+B′PjB)−1B′PjAFj+1=(Q+B′PjB)−1B′PjAx
- 带贴现的最优线性调节器
max − ∑ t = 0 ∞ β t { x t ′ R x t + u t ′ Q u t } s . t . x t + 1 = A x t + B u t \max -\sum_{t=0}^{\infty}\beta^t\left\{x_{t}^{\prime} R x_{t}+u_{t}^{\prime} Q u_{t}\right\}\\ s.t. x_{t+1}=A x_{t}+B u_{t} max−t=0∑∞βt{xt′Rxt+ut′Qut}s.t.xt+1=Axt+But
则改使用如下的值函数迭代算法
P j + 1 = R + β A ′ P j A − β 2 A ′ P j B ( Q + β B ′ P j B ) − 1 B ′ P j A F j + 1 = β ( Q + β B ′ P j B ) − 1 B ′ P j A x P_{j+1}=R+\beta A^{\prime} P_{j} A-\beta^2A^{\prime} P_{j} B\left(Q+\beta B^{\prime} P_{j} B\right)^{-1} B^{\prime} P_{j} A\\ F_{j+1}=\beta \left(Q+\beta B^{\prime} P_{j} B\right)^{-1} B^{\prime} P_{j} A x Pj+1=R+βA′PjA−β2A′PjB(Q+βB′PjB)−1B′PjAFj+1=β(Q+βB′PjB)−1B′PjAx
3.2.2 随机线性二次规划
优化问题为
max E 0 ∑ t = 0 ∞ β t { x t ′ R x t + u t ′ Q u t } s . t . x t + 1 = A x t + B u t + ε t + 1 E t ε t ε t ′ = Σ \max \quad E_{0} \sum_{t=0}^{\infty} \beta^{t}\left\{x_{t}^{\prime} R x_{t}+u_{t}^{\prime} Q u_{t}\right\}\\ s.t. \quad x_{t+1}=A x_{t}+B u_{t}+\varepsilon_{t+1}\\ E_t\varepsilon_t\varepsilon_t^\prime = \Sigma maxE0t=0∑∞βt{xt′Rxt+ut′Qut}s.t.xt+1=Axt+But+εt+1Etεtεt′=Σ
则 P P P 满足代数黎卡提方程且
v ( x ) = x ′ P x + d d = β 1 − β tr ( P Σ ) F = β ( Q + β B ′ P ′ B ) − 1 B ′ P A v(x)=x^{\prime} P x+d\\ d=\frac{\beta}{1-\beta} \operatorname{tr}(P \Sigma)\\ F=\beta\left(Q+\beta B^{\prime} P^{\prime} B\right)^{-1} B^{\prime} P A v(x)=x′Px+dd=1−ββtr(PΣ)F=β(Q+βB′P′B)−1B′PA
定理(确定性等价原理): 求解随机线性问题的反馈法则和相应确定性的问题得到的反馈问题是恒等的。
4. 微分动力系统
4.1 线性齐次系统
- 对于齐次系统
[ x ˙ ( t ) y ˙ ( t ) ] = [ a 11 a 12 a 21 a 22 ] [ x ( t ) y ( t ) ] \left[\begin{array}{l}\dot{x}(t) \\ \dot{y}(t)\end{array}\right]=\left[\begin{array}{ll}a_{11} & a_{12} \\ a_{21} & a_{22}\end{array}\right]\left[\begin{array}{l}x(t) \\ y(t)\end{array}\right] [x˙(t)y˙(t)]=[a11a21a12a22][x(t)y(t)]
均衡点为 ( x ∗ , y ∗ ) = ( 0 , 0 ) (x^\ast,y^\ast)=(0,0) (x∗,y∗)=(0,0) ,从而
(1) r 1 r_1 r1, r 2 r_2 r2为实根,则
a. r 1 r_1 r1, r 2 > 0 r_2 > 0 r2>0,那么均衡点是不稳定的;
b. r 1 r_1 r1, r 2 < 0 r_2 < 0 r2<0,那么均衡点是稳定的;
c. r 1 r_1 r1和 r 2 r_2 r2中一个为正,一个为负,那么是鞍点稳定的。(2) r 1 r_1 r1, r 2 r_2 r2为复根,则记为 r = a ± b i r = a±bi r=a±bi
a. a > 0 a > 0 a>0,那么均衡点是不稳定的;
b. a < 0 a < 0 a<0,那么均衡点是稳定的;
c. a = 0 a = 0 a=0,特征根为虚根,则为椭圆轨道,出现周期解。
4.2 非线性系统
- 对于非线性系统
x ˙ ( t ) = f ( x ( t ) , y ( t ) ) y ˙ ( t ) = g ( x ( t ) , y ( t ) ) \begin{aligned} \dot{x}(t) &=f(x(t), y(t)) \\ \dot{y}(t) &=g(x(t), y(t)) \end{aligned} x˙(t)y˙(t)=f(x(t),y(t))=g(x(t),y(t))
在均衡点有
f ( x ∗ , y ∗ ) = g ( x ∗ , y ∗ ) = 0 f\left(x^{*}, y^{*}\right)=g\left(x^{*}, y^{*}\right)=0 f(x∗,y∗)=g(x∗,y∗)=0
则在均衡点做一阶展开,得到
x ˙ ( t ) = f x ( x ∗ , y ∗ ) ( x − x ∗ ) + f y ( x ∗ , y ∗ ) ( y − y ∗ ) y ˙ ( t ) = g x ( x ∗ , y ∗ ) ( x − x ∗ ) + g y ( x ∗ , y ∗ ) ( y − y ∗ ) \begin{array}{l}\dot{x}(t)=f_{x}\left(x^{*}, y^{*}\right)\left(x-x^{*}\right)+f_{y}\left(x^{*}, y^{*}\right)\left(y-y^{*}\right) \\ \dot{y}(t)=g_{x}\left(x^{*}, y^{*}\right)\left(x-x^{*}\right)+g_{y}\left(x^{*}, y^{*}\right)\left(y-y^{*}\right)\end{array} x˙(t)=fx(x∗,y∗)(x−x∗)+fy(x∗,y∗)(y−y∗)y˙(t)=gx(x∗,y∗)(x−x∗)+gy(x∗,y∗)(y−y∗)
5. 变分法
5.1 欧拉方程
- 考虑优化问题
max v [ y ] = ∫ 0 ∞ F [ t , y ( t ) , y ′ ( t ) ] d t s.t. y ( 0 ) = A y ( T ) = Z \begin{array}{l}\max & v[y]=\int_{0}^{\infty} F\left[t, y(t), y^{\prime}(t)\right] \mathrm{d} t \\\text {s.t.} \quad &y(0) =A \\& y(T)=Z\end{array} maxs.t.v[y]=∫0∞F[t,y(t),y′(t)]dty(0)=Ay(T)=Z
- 有欧拉方程
F y − d d t F y ′ = 0 F y y y ′ ′ ( t ) + F y y ′ y ′ ( t ) + F t y ′ − F y = 0 \begin{array}{c} F_{y}-\frac{\mathrm{d}}{\mathrm{d} t} F_{y^{\prime}}=0 \\ F_{y y} y^{\prime \prime}(t)+F_{y y^{\prime}} y^{\prime}(t)+F_{t y^{\prime}}-F_{y}=0 \end{array} Fy−dtdFy′=0Fyyy′′(t)+Fyy′y′(t)+Fty′−Fy=0
5.2 横截条件
- 对于约束
s . t . y ( 0 ) = A y ( T ) = y T s.t. \quad y(0)=A\quad \quad y(T)=y_{T} s.t.y(0)=Ay(T)=yT
- 有一般的横截条件
[ F − y ′ F y ′ ] t = T Δ T + [ F y ′ ] t = T Δ y T = 0 \left[F-y^{\prime} F_{y^{\prime}}\right]_{t=T} \Delta T+\left[F_{y^{\prime}}\right]_{t=T} \Delta y_{T}=0 [F−y′Fy′]t=TΔT+[Fy′]t=TΔyT=0
- 情形 a.垂直终结线(固定时间水平问题)
[ F y ′ ] t = T = 0 \left[F_{y^{\prime}}\right]_{t=T}=0 [Fy′]t=T=0
- 情形 b.水平终结线(固定端点问题)
[ F − y ′ F y ′ ] t = T = 0 \left[F-y^{\prime} F_{y^{\prime}}\right]_{t=T}=0 [F−y′Fy′]t=T=0
- 情形 c.终结曲线
[ F − y ′ F y + F y ′ φ ′ ] t = T Δ T = 0 \left[F-y^{\prime} F_{y}+F_{y^{\prime}} \varphi^{\prime}\right]_{t=T} \Delta T=0 [F−y′Fy+Fy′φ′]t=TΔT=0
6. 确定性最优控制
- 定义哈密顿方程
H ( t , x , u , λ ) = f ( t , x , u ) + λ g ( t , x , u ) H(t, x, u, \lambda)=f(t, x, u)+\lambda g(t, x, u) H(t,x,u,λ)=f(t,x,u)+λg(t,x,u)
6.1 自由端点问题
- 最优控制问题为
max ∫ t 0 t 1 f ( t , x ( t ) , u ( t ) ) d t s.t. x ˙ ( t ) = g ( t , x ( t ) , u ( t ) ) x ( t 0 ) = x 0 \begin{aligned} \max \quad &\int_{t_{0}}^{t_{1}} f(t, x(t), u(t)) \mathrm{d} t\\ \text { s.t. } \quad &\dot{x}(t)=g(t, x(t), u(t))\\ \quad &x\left(t_{0}\right)=x_{0} \end{aligned} max s.t. ∫t0t1f(t,x(t),u(t))dtx˙(t)=g(t,x(t),u(t))x(t0)=x0
其中 u ( t ) u(t) u(t)为控制变量, x ( t ) x(t) x(t)为状态变量。最优化条件需要满足最优性条件(a)、欧拉方程(b)、可行性条件(c)、横截条件(d)和二阶条件(e),分别为
a . H u ( t , x , u , λ ) = f u ( t , x , u ) + λ g u ( t , x , u ) = 0 b . d λ d t = − H x ( t , x , u , λ ) = − f x ( t , x , u ) − λ g x ( t , x , u ) c . d x d t = H λ ( t , x , u , λ ) = g ( t , x , u ) , x ( t 0 ) = x 0 d . λ ( t 1 ) = 0 e . H u u ( t , x , u , λ ) ⩽ 0 ( 最 大 化 问 题 ) H u u ( t , x , u , λ ) ⩾ 0 ( 最 小 化 问 题 ) \begin{array}{l} a. &H_{u}(t, x, u, \lambda)=f_{u}(t, x, u)+\lambda g_{u}(t, x, u)=0\\ b. &\frac{\mathrm{d} \lambda}{\mathrm{d} t}=-H_{x}(t, x, u, \lambda)=-f_{x}(t, x, u)-\lambda g_{x}(t, x, u)\\ c. &\frac{\mathrm{d} x}{\mathrm{d} t}=H_{\lambda}(t, x, u, \lambda)=g(t, x, u), x\left(t_{0}\right)=x_{0}\\ d. &\lambda\left(t_{1}\right)=0\\ e.&H_{u u}(t, x, u, \lambda) \leqslant 0 \quad (最大化问题)\\ &H_{u u}(t, x, u, \lambda) \geqslant 0 \quad (最小化问题) \end{array} a.b.c.d.e.Hu(t,x,u,λ)=fu(t,x,u)+λgu(t,x,u)=0dtdλ=−Hx(t,x,u,λ)=−fx(t,x,u)−λgx(t,x,u)dtdx=Hλ(t,x,u,λ)=g(t,x,u),x(t0)=x0λ(t1)=0Huu(t,x,u,λ)⩽0(最大化问题)Huu(t,x,u,λ)⩾0(最小化问题)
若目标函数变为
∫ t 0 t 1 f ( t , x ( t ) , u ( t ) ) d t + φ ( x ( t 1 ) ) \int_{t_{0}}^{t_{1}} f(t, x(t), u(t)) \mathrm{d} t+\varphi\left(x\left(t_{1}\right)\right) ∫t0t1f(t,x(t),u(t))dt+φ(x(t1))只需将横截条件变为
λ ( t 1 ) = φ ′ ( x 1 ) \lambda\left(t_{1}\right)=\varphi^{\prime}\left(x_{1}\right) λ(t1)=φ′(x1)若带贴现
∫ t 0 t 1 e − r t f ( t , x ( t ) , u ( t ) ) d t + φ ( x ( t 1 ) ) \int_{t_{0}}^{t_{1}} e^{-r t} f(t, x(t), u(t)) \mathrm{d} t+\varphi\left(x\left(t_{1}\right)\right) ∫t0t1e−rtf(t,x(t),u(t))dt+φ(x(t1))则哈密顿方程变为
H ( t , x , u , λ ) = e − r t [ f ( t , x , u ) + μ g ( t , x , u ) ] = e − r t H ~ , μ = e r t λ H(t, x, u, \lambda)=e^{-r t}[f(t, x, u)+\mu g(t, x, u)]=e^{-r t} \tilde{H} \quad, \mu=e^{r t} \lambda H(t,x,u,λ)=e−rt[f(t,x,u)+μg(t,x,u)]=e−rtH~,μ=ertλ称为现值哈密顿方程
最优性条件和欧拉方程分别为
H ~ u = 0 μ ˙ = r μ − H ~ x \begin{array}{l} \tilde{H}_{u}=0 \\ \dot{\mu}=r \mu-\tilde{H}_{x} \end{array} H~u=0μ˙=rμ−H~x
6.2 固定边界问题
- 约束条件变为
max ∫ t 0 t 1 f ( t , x ( t ) , u ( t ) ) d t s.t. x ˙ ( t ) = g ( t , x ( t ) , u ( t ) ) x ( t 0 ) = x 0 x ( t 1 ) = x 1 \begin{array}{l} \max &\int_{t_{0}}^{t_{1}} f(t, x(t), u(t)) \mathrm{d} t \\ \text {s.t.} \quad &\dot{x}(t)=g(t, x(t), u(t)) \\ &x\left(t_{0}\right)=x_{0} \quad x\left(t_{1}\right)=x_{1} \end{array} maxs.t.∫t0t1f(t,x(t),u(t))dtx˙(t)=g(t,x(t),u(t))x(t0)=x0x(t1)=x1
需要满足最优性条件(a)、欧拉方程(b)、可行性条件(c)、横截条件(d)和二阶条件(e),分别为
a . H u ( t , x , u , λ ) = f u ( t , x , u ) + λ g u ( t , x , u ) = 0 b . d λ d t = − H x ( t , x , u , λ ) = − f x ( t , x , u ) − λ g x ( t , x , u ) c . d x d t = H λ ( t , x , u , λ ) = g ( t , x , u ) , x ( t 0 ) = x 0 , x ( t 1 ) = x 1 d . 无 横 截 条 件 e . H u u ( t , x , u , λ ) ⩽ 0 ( 最 大 化 问 题 ) H u u ( t , x , u , λ ) ⩾ 0 ( 最 小 化 问 题 ) \begin{array}{l} a. &H_{u}(t, x, u, \lambda)=f_{u}(t, x, u)+\lambda g_{u}(t, x, u)=0\\ b. &\frac{\mathrm{d} \lambda}{\mathrm{d} t}=-H_{x}(t, x, u, \lambda)=-f_{x}(t, x, u)-\lambda g_{x}(t, x, u)\\ c. &\frac{\mathrm{d} x}{\mathrm{d} t}=H_{\lambda}(t, x, u, \lambda)=g(t, x, u), x\left(t_{0}\right)=x_{0},x(t_1)=x_1\\ d. &无横截条件\\ e.&H_{u u}(t, x, u, \lambda) \leqslant 0 \quad (最大化问题)\\ &H_{u u}(t, x, u, \lambda) \geqslant 0 \quad (最小化问题) \end{array} a.b.c.d.e.Hu(t,x,u,λ)=fu(t,x,u)+λgu(t,x,u)=0dtdλ=−Hx(t,x,u,λ)=−fx(t,x,u)−λgx(t,x,u)dtdx=Hλ(t,x,u,λ)=g(t,x,u),x(t0)=x0,x(t1)=x1无横截条件Huu(t,x,u,λ)⩽0(最大化问题)Huu(t,x,u,λ)⩾0(最小化问题)
- 如果解不存在,旁特亚里金给出另外的说明。此时定义哈密顿方程
H 0 ( t , x , u , λ ) = λ 0 f ( t , x , u ) + λ g ( t , x , u ) H^{0}(t, x, u, \lambda)=\lambda_{0} f(t, x, u)+\lambda g(t, x, u) H0(t,x,u,λ)=λ0f(t,x,u)+λg(t,x,u)
需要满足最优性条件(a)、欧拉方程(b)、可行性条件(c)、横截条件(d)、二阶条件(e)和正则条件(f),分别为
a . H u 0 ( t , x , u , λ ) = λ 0 f u ( t , x , u ) + λ g u ( t , x , u ) = 0 b . d λ d t = − λ 0 f x ( t , x , u ) − λ g x ( t , x , u ) c . 无 可 行 性 条 件 d . λ ( t 1 ) = 0 e . H u u ( t , x , u , λ ) ⩽ 0 ( 最 大 化 问 题 ) H u u ( t , x , u , λ ) ⩾ 0 ( 最 小 化 问 题 ) f . λ 0 = 1 ( 正 则 ) 或 者 λ 0 = 0 ( 不 正 则 ) \begin{array}{l} a. &H_{u}^{0}(t, x, u, \lambda)=\lambda_{0} f_{u}(t, x, u)+\lambda g_{u}(t, x, u)=0\\ b.&\frac{\mathrm{d} \lambda}{\mathrm{d} t}=-\lambda_{0} f_{x}(t, x, u)-\lambda g_{x}(t, x, u)\\ c.&无可行性条件\\ d. &\lambda\left(t_{1}\right)=0\\ e. &H_{u u}(t, x, u, \lambda) \leqslant 0 \quad (最大化问题)\\ &H_{u u}(t, x, u, \lambda) \geqslant 0 \quad (最小化问题)\\ f. &\lambda_{0}=1 (正则) 或者 \lambda_{0}=0 (不正则) \end{array} a.b.c.d.e.f.Hu0(t,x,u,λ)=λ0fu(t,x,u)+λgu(t,x,u)=0dtdλ=−λ0fx(t,x,u)−λgx(t,x,u)无可行性条件λ(t1)=0Huu(t,x,u,λ)⩽0(最大化问题)Huu(t,x,u,λ)⩾0(最小化问题)λ0=1(正则)或者λ0=0(不正则)
6.3 各种终点受约束情形
这里给出的是一个综合的情形,其中也包含了之前的自由端点问题和固定边界问题。
基本问题为
max ∫ t 0 t 1 f ( t , x ( t ) , u ( t ) ) d t + φ ( x ( t 1 ) , t 1 ) s.t. x ˙ ( t ) = g ( t , x ( t ) , u ( t ) ) x ( t 0 ) = x 0 \begin{array}{l} \max & \int_{t_{0}}^{t_{1}} f(t, x(t), u(t)) \mathrm{d} t+\varphi\left(x\left(t_{1}\right), t_{1}\right) \\ \text { s.t. } \quad &\dot{x}(t)=g(t, x(t), u(t)) \\ & x\left(t_{0}\right)=x_{0} \end{array} max s.t. ∫t0t1f(t,x(t),u(t))dt+φ(x(t1),t1)x˙(t)=g(t,x(t),u(t))x(t0)=x0和下面的约束条件:
情形 a. x ( t 1 ) = x 1 x(t_1)=x_1 x(t1)=x1;
情形 b. x ( t 1 ) x(t_1) x(t1)自由 ;
情形 c. x ( t 1 ) ⩾ 0 x(t_1)\geqslant 0 x(t1)⩾0;
情形 d. K ( x ( t 1 ) , t 1 ) ⩾ 0 K(x(t_1),t_1) \geqslant 0 K(x(t1),t1)⩾0;
情形 e. t 1 t_1 t1 自由。则他们都要满足如下的最优性条件(a)、欧拉方程(b)和可行性条件(c)和二阶条件(e):
a. H u ( t , x , u , λ ) = f u ( t , x , u ) + λ g u ( t , x , u ) = 0 b. d λ d t = − H x ( t , x , u , λ ) = − f x ( t , x , u ) − λ g x ( t , x , u ) c. d x d t = H λ ( t , x , u , λ ) = g ( t , x , u ) , x ( t 0 ) = x 0 e. H u u ( t , x , u , λ ) ⩽ 0 ( 最 大 化 问 题 ) H u u ( t , x , u , λ ) ⩾ 0 ( 最 小 化 问 题 ) \begin{array}{l} \text { a. } &H_{u}(t, x, u, \lambda)=f_{u}(t, x, u)+\lambda g_{u}(t, x, u)=0 \\ \text { b. } &\frac{\mathrm{d} \lambda}{\mathrm{d} t}=-H_{x}(t, x, u, \lambda)=-f_{x}(t, x, u)-\lambda g_{x}(t, x, u) \\ \text { c. } &\frac{\mathrm{d} x}{\mathrm{d} t}=H_{\lambda}(t, x, u, \lambda)=g(t, x, u), x\left(t_{0}\right)=x_{0}\\ \text { e. } &H_{uu}(t,x,u,\lambda)\leqslant 0 (最大化问题)\\ &H_{uu}(t,x,u,\lambda)\geqslant 0 (最小化问题) \end{array} a. b. c. e. Hu(t,x,u,λ)=fu(t,x,u)+λgu(t,x,u)=0dtdλ=−Hx(t,x,u,λ)=−fx(t,x,u)−λgx(t,x,u)dtdx=Hλ(t,x,u,λ)=g(t,x,u),x(t0)=x0Huu(t,x,u,λ)⩽0(最大化问题)Huu(t,x,u,λ)⩾0(最小化问题)其中横截条件复杂一些,具体如下
d . 情形a. x ( t 1 ) = x 1 , 不 存 在 横 截 条 件 情形b. λ ( t 1 ) = φ x ( x ( t 1 ) , t 1 ) 情形c. x ( t 1 ) ⩾ 0 , λ ( t 1 ) ⩾ φ x ( x ( t 1 ) , t 1 ) x ( t 1 ) [ λ ( t 1 ) − φ x ( x ( t 1 ) , t 1 ) ] = 0 情形d. 存 在 p ⩾ 0 , K ( x 1 , t 1 ) ⩾ 0 , p K ( x 1 , t 1 ) = 0 λ ( t 1 ) = φ x ( x ( t 1 ) , t 1 ) + p K x 1 ( x 1 , t 1 ) [ f ( t , x , u ) + λ g ( t , x , u ) ] ∣ t 1 + φ t + p K x 1 ( x 1 , t 1 ) = 0 如 果 条 件 为 t 1 ⩽ T , [ f ( t , x , u ) + λ g ( t , x , u ) ] ∣ t 1 + φ t ( x ( t 1 ) , t 1 ) ⩾ 0 则 ( T − t 1 ) { [ f ( t , x , u ) + λ g ( t , x , u ) ] ∣ t 1 + φ t ( x ( t 1 ) , t 1 ) } = 0 情形e. [ f ( t , x , u ) + λ g ( t , x , u ) ] ∣ t 1 + φ t ( x ( t 1 ) , t 1 ) = 0 \begin{array}{l} d.\\ \text { 情形a. } &x\left(t_{1}\right)=x_{1},不存在横截条件 \\ \text { 情形b. } &\lambda\left(t_{1}\right)=\varphi_{x}\left(x\left(t_{1}\right), t_{1}\right) \\ \text { 情形c. } &x\left(t_{1}\right) \geqslant 0 \quad, \lambda\left(t_{1}\right) \geqslant \varphi_{x}\left(x\left(t_{1}\right), t_{1}\right)\\ &x\left(t_{1}\right)\left[\lambda\left(t_{1}\right)-\varphi_{x}\left(x\left(t_{1}\right), t_{1}\right)\right]=0\\ \text { 情形d. } &存在p \geqslant 0, K\left(x_{1}, t_{1}\right) \geqslant 0, p K\left(x_{1}, t_{1}\right)=0\\ &\lambda\left(t_{1}\right)=\varphi_{x}\left(x\left(t_{1}\right), t_{1}\right)+p K_{x_{1}}\left(x_{1}, t_{1}\right)\\ &\left.[f(t, x, u)+\lambda g(t, x, u)]\right|_{t_{1}}+\varphi_{t}+p K_{x_{1}}\left(x_{1}, t_{1}\right)=0\\ &如果条件为t _{1} \leqslant T \quad,\left.[f(t, x, u)+\lambda g(t, x, u)]\right|_{t_{1}}+\varphi_{t}\left(x\left(t_{1}\right), t_{1}\right) \geqslant 0\\ &则\left(T-t_{1}\right)\left\{\left.[f(t, x, u)+\lambda g(t, x,u)]\right|_{t_{1}}+\varphi_{t}\left(x\left(t_{1}\right), t_{1}\right)\right\}=0\\ \text { 情形e. } &\left.[f(t, x, u)+\lambda g(t, x, u)] \right|_{t_{1}}+\varphi_{t}\left(x\left(t_{1}\right), t_{1}\right)=0 \end{array} d. 情形a. 情形b. 情形c. 情形d. 情形e. x(t1)=x1,不存在横截条件λ(t1)=φx(x(t1),t1)x(t1)⩾0,λ(t1)⩾φx(x(t1),t1)x(t1)[λ(t1)−φx(x(t1),t1)]=0存在p⩾0,K(x1,t1)⩾0,pK(x1,t1)=0λ(t1)=φx(x(t1),t1)+pKx1(x1,t1)[f(t,x,u)+λg(t,x,u)]∣t1+φt+pKx1(x1,t1)=0如果条件为t1⩽T,[f(t,x,u)+λg(t,x,u)]∣t1+φt(x(t1),t1)⩾0则(T−t1){[f(t,x,u)+λg(t,x,u)]∣t1+φt(x(t1),t1)}=0[f(t,x,u)+λg(t,x,u)]∣t1+φt(x(t1),t1)=0
6.4 含代数约束的控制问题
对于这样的不等式的代数约束
max ∫ t 0 t 1 f ( t , x ( t ) , u ( t ) ) d t s.t. x ˙ ( t ) = g ( t , x ( t ) , u ( t ) ) h ( t , x ( t ) , u ( t ) ) ≥ 0 x ( t 0 ) = x 0 \begin{array}{l} \max &\int_{t_{0}}^{t_{1}} f(t, x(t), u(t)) \mathrm{d} t \\ \text { s.t. } &\dot{x}(t)=g(t, x(t), u(t)) \\ &h(t, x(t), u(t)) \geq 0 \\ &x\left(t_{0}\right)=x_{0} \end{array} max s.t. ∫t0t1f(t,x(t),u(t))dtx˙(t)=g(t,x(t),u(t))h(t,x(t),u(t))≥0x(t0)=x0定义哈密顿方程
H ( t , x , u , λ , μ ) = f ( t , x , u ) + λ g ( t , x , u ) + μ h ( t , x , u ) H(t, x, u, \lambda, \mu)=f(t, x, u)+\lambda g(t, x, u)+\mu h(t, x, u) H(t,x,u,λ,μ)=f(t,x,u)+λg(t,x,u)+μh(t,x,u)
需要满足最优性条件(a)、欧拉方程(b)、可行性条件(c)、横截条件(d)二阶条件(e)和松弛条件(f),分别为
a . H u ( t , x , u , λ , μ ) = f u ( t , x , u ) + λ g u ( t , ∣ x , u ) + μ h u ( t , x , u ) = 0 b . d λ d t = − H x ( t , x , u , λ , μ ) = − f x ( t , x , u ) − λ g x ( t , x , u ) − μ h x ( t , x , u ) c . d x d t = H λ ( t , x , u , λ ) = g ( t , x , u ) , x ( t 0 ) = x 0 d . λ ( t 1 ) = 0 e . H u u ( t , x , u , λ , μ ) ⩽ 0 ( 最 大 化 问 题 ) H u u ( t , x , u , λ , μ ) ⩾ 0 ( 最 小 化 问 题 ) f . μ ⩾ 0 , h ( t , x , u ) ⩾ 0 , μ h ( t , x , u ) = 0 \begin{array}{l} a. &H_{u}(t, x, u, \lambda, \mu)=f_{u}(t, x, u)+\lambda g_{u}(t, \mid x, u)+\mu h_{u}(t, x, u)=0\\ b. &\frac{\mathrm{d} \lambda}{\mathrm{d} t}=-H_{x}(t, x, u, \lambda, \mu)=-f_{x}(t, x, u)-\lambda g_{x}(t, x, u)-\mu h_{x}(t, x, u)\\ c. &\frac{\mathrm{d} x}{\mathrm{d} t}=H_{\lambda}(t, x, u, \lambda)=g(t, x, u), x\left(t_{0}\right)=x_{0}\\ d. &\lambda\left(t_{1}\right)=0\\ e. &H_{u u}(t, x, u, \lambda, \mu) \leqslant 0 \quad (最大化问题)\\ &H_{u u}(t, x, u, \lambda, \mu) \geqslant 0 \quad (最小化问题)\\ f.&\mu \geqslant 0 \quad, h(t, x, u) \geqslant 0 \quad, \mu h(t, x, u)=0 \end{array} a.b.c.d.e.f.Hu(t,x,u,λ,μ)=fu(t,x,u)+λgu(t,∣x,u)+μhu(t,x,u)=0dtdλ=−Hx(t,x,u,λ,μ)=−fx(t,x,u)−λgx(t,x,u)−μhx(t,x,u)dtdx=Hλ(t,x,u,λ)=g(t,x,u),x(t0)=x0λ(t1)=0Huu(t,x,u,λ,μ)⩽0(最大化问题)Huu(t,x,u,λ,μ)⩾0(最小化问题)μ⩾0,h(t,x,u)⩾0,μh(t,x,u)=0
6.5 比较静态分析
- 用于比较状态改变前后的定性变化
v ( r ) = max ∫ t 0 t 1 f ( t , x ( t ) , u ( t ) , r ) d t s.t. x ˙ ( t ) = g ( t , x ( t ) , u ( t ) , r ) x ( t 0 ) = x 0 \begin{array}{l} &v(r) =\max \int_{t_{0}}^{t_{1}} f(t, x(t), u(t), r) \mathrm{d} t \\ \text { s.t. } \quad & \dot{x}(t)=g(t, x(t), u(t), r) \\ & x\left(t_{0}\right)=x_{0} \end{array} s.t. v(r)=max∫t0t1f(t,x(t),u(t),r)dtx˙(t)=g(t,x(t),u(t),r)x(t0)=x0
哈密顿方程变为
H ( t , x , u , λ , r ) = f ( t , x , u , r ) + λ g ( t , x , u , r ) H(t, x, u, \lambda, r)=f(t, x, u, r)+\lambda g(t, x, u, r) H(t,x,u,λ,r)=f(t,x,u,r)+λg(t,x,u,r)
- 则结论为
v ( r ) = ∫ t 0 t 1 H r ( t , x ( t , r ) , u ( t , r ) , λ ( t , r ) , r ) d t v(r)=\int_{t_{0}}^{t_{1}} H_{r}(t, x(t, r), u(t, r), \lambda(t, r), r) \mathrm{d} t v(r)=∫t0t1Hr(t,x(t,r),u(t,r),λ(t,r),r)dt
7. 连续时间动态规划
7.1 确定性动态规划
- 优化问题为
max ∫ 0 T f ( t , x , u ) d t + φ ( x ( T ) , T ) s.t. x ˙ = g ( t , x , u ) x ( 0 ) = a \begin{array}{l}\max \int_{0}^{T} f(t, x, u) \mathrm{d} t+\varphi(x(T), T) \\ \text { s.t. } \quad \dot{x}=\mathrm{g}(t, x, u) \\ \quad x(0)=a\end{array} max∫0Tf(t,x,u)dt+φ(x(T),T) s.t. x˙=g(t,x,u)x(0)=a
则定义值函数为
J ( t 0 , x 0 ) = max ∫ t 0 T f ( t , x , u ) d t + φ ( x ( T ) , T ) J\left(t_{0}, x_{0}\right)=\max \int_{t_{0}}^{T} f(t, x, u) \mathrm{d} t+\varphi(x(T), T) J(t0,x0)=max∫t0Tf(t,x,u)dt+φ(x(T),T)
- 有包络定理
0 = max u { f ( t , x , u ) + J t ( t , x ) + J x ( t , x ) g ( t , x , u ) } 0=\max _{u}\left\{f(t, x, u)+J_{t}(t, x)+J_{x}(t, x) g(t, x, u)\right\} 0=umax{f(t,x,u)+Jt(t,x)+Jx(t,x)g(t,x,u)}
和最优性条件
0 = f u ( t , x , u ) + J x ( t , x ) g u ( t , x , u ) 0=f_{u}(t, x, u)+J_{x}(t, x) g_{u}(t, x, u) 0=fu(t,x,u)+Jx(t,x)gu(t,x,u)
- 得到Hamilton-Jacob-Bellman方程(HJB方程):
0 = max u { f u ( t , x , u ( x ) ) + J t ( t , x ) + J x ( t , x ) g ( t , x , u ( x ) ) } 0=\max _{u}\left\{f_{u}(t, x, u(x))+J_{t}(t, x)+J_{x}(t, x) g(t, x, u(x))\right\} 0=umax{fu(t,x,u(x))+Jt(t,x)+Jx(t,x)g(t,x,u(x))}
可以证明,只有控制变量与状态变量是线性关系时,才能得到显示解。
事实上,令 λ = J x \lambda = J_x λ=Jx,最优性条件变为 0 = f u ( t , x , u ) + λ g u ( t , x , u ) 0=f_{u}(t, x, u)+\lambda g_{u}(t, x, u) 0=fu(t,x,u)+λgu(t,x,u)。对HJB方程求导得到 λ ˙ = − f x − λ g x \dot{\lambda}=-f_{x}-\lambda g_{x} λ˙=−fx−λgx,与最优控制结果相同。
- 因此求解过程为:
第一步,最优性条件:
0 = f u ( t , x , u ) + J x ( t , x ) g u ( t , x , u ) 0=f_{u}(t, x, u)+J_{x}(t, x) g_{u}(t, x, u) 0=fu(t,x,u)+Jx(t,x)gu(t,x,u)
第二步,代入HJB方程:
0 = max u { f u ( t , x , u ( x ) ) + J t ( t , x ) + J x ( t , x ) g ( t , x , u ( x ) ) } 0=\max _{u}\left\{f_{u}(t, x, u(x))+J_{t}(t, x)+J_{x}(t, x) g(t, x, u(x))\right\} 0=umax{fu(t,x,u(x))+Jt(t,x)+Jx(t,x)g(t,x,u(x))}
第三步,依可行性条件求解。
7.2 随机动态规划
- 先定义随机微分方程:
d x = g ( t , x , u ) d t + σ ( t , x , u ) d z \mathrm{d} x=\mathrm{g}(t, x, u) \mathrm{d} t+\sigma(t, x, u) \mathrm{d} z dx=g(t,x,u)dt+σ(t,x,u)dz
- 则Ito公式为
d y = f t ( t , z ) d t + f z ( t , z ) d z + 1 2 f z z ( t , z ) d t \mathrm{d} y=f_{t}(t, z) \mathrm{d} t+f_{z}(t, z) \mathrm{d} z+\frac{1}{2} f_{z z}(t, z) \mathrm{d} t dy=ft(t,z)dt+fz(t,z)dz+21fzz(t,z)dt
- 对于随机优化问题
max x , u E ∫ 0 T f ( t , x , u ) d t + φ ( x ( T ) , T ) s.t. d x = g ( t , x , u ) d t + σ ( t , x , u ) d z x ( 0 ) = a \begin{array}{ll}\max _{x, u} & E \int_{0}^{T} f(t, x, u) \mathrm{d} t+\varphi(x(T), T) \\ \text { s.t. } & \mathrm{d} x=\mathrm{g}(t, x, u) \mathrm{d} t+\sigma(t, x, u) \mathrm{d} z \\ & x(0)=a\end{array} maxx,u s.t. E∫0Tf(t,x,u)dt+φ(x(T),T)dx=g(t,x,u)dt+σ(t,x,u)dzx(0)=a
- 如上使用动态规划,得到
第一步,依最优化条件得到 u ( x ) u(x) u(x):
0 = f u ( t , x , u ) + J x ( t , x ) g u ( t , x , u ) 0=f_{u}(t, x, u)+J_{x}(t, x) g_{u}(t, x, u) 0=fu(t,x,u)+Jx(t,x)gu(t,x,u)
第二步,代回得到 HJB 方程:
0 = f ( t , x , u ( x ) ) + J t ( t , x ) + J x ( t , x ) g ( t , x , u ( x ) ) + 1 2 J x x ( t , x ) σ 2 ( t , x , u ( x ) ) 0=f(t, x, u(x))+J_{t}(t, x)+J_{x}(t, x) g(t, x, u(x))+\frac{1}{2} J_{x x}(t, x) \sigma^{2}(t, x, u(x)) 0=f(t,x,u(x))+Jt(t,x)+Jx(t,x)g(t,x,u(x))+21Jxx(t,x)σ2(t,x,u(x))
第三步,加入可行性条件求解:
d x = g ( t , x , u ) d t + σ ( t , x , u ) d z x ( 0 ) = a \begin{array}{c}\mathrm{d} x=g(t, x, u) \mathrm{d} t+\sigma(t, x, u) \mathrm{d} z \\ x(0)=a\end{array} dx=g(t,x,u)dt+σ(t,x,u)dzx(0)=a
8. 卡尔曼滤波
- 考虑系统,其中 { x t } \{x_t\} {xt}是不可观测的隐变量, { y t } \{y_t\} {yt}是观测结果。
x t + 1 = A x t + C u t + 1 x ∼ N ( x ^ , Σ 0 ) y t = G x t + v t E v t v t = R \begin{array}{ll} x_{t+1}=A x_{t}+C u_{t+1} & x \sim N\left(\hat{x}, \Sigma_{0}\right) \\ y_{t}=G x_{t}+v_{t} & E v_{t} v_{t}=R \end{array} xt+1=Axt+Cut+1yt=Gxt+vtx∼N(x^,Σ0)Evtvt=R
则有递归算法
x ^ t + 1 = ( A − K t G ) x ^ t + k t y t \hat{x}_{t+1}=\left(A-K_{t} G\right) \hat{x}_{t}+k_{t} y_{t} x^t+1=(A−KtG)x^t+ktyt
其中 k t k_t kt称为卡尔曼收益:
k t = A ∑ t G ′ ( G ′ ∑ t G ′ + R ) − 1 ∑ t + 1 = A ∑ t A ′ + C C ′ − A ∑ t G ′ ( G ∑ t G ′ + R ) − 1 G ∑ t A ∑ t = E ( x t − x ^ t ) ( x t − x ^ t ) ′ \begin{array}{l} k_{t}=A \sum_{t} G^{\prime}\left(G^{\prime} \sum_{t} G^{\prime}+R\right)^{-1} \\ \sum_{t+1}=A \sum_{t} A^{\prime}+C C^{\prime}-A \sum_{t} G^{\prime}\left(G \sum_{t} G^{\prime}+R\right)^{-1} G \sum_{t} A \\ \sum_{t}=E\left(x_{t}-\hat{x}_{t}\right)\left(x_{t}-\hat{x}_{t}\right)^{\prime} \end{array} kt=A∑tG′(G′∑tG′+R)−1∑t+1=A∑tA′+CC′−A∑tG′(G∑tG′+R)−1G∑tA∑t=E(xt−x^t)(xt−x^t)′
或表示为
x ^ t + 1 = A x ^ t + K t a t y t = G x ^ + a t a t = y t − E [ y t ∣ y t − 1 ] \begin{array}{l} \hat{x}_{t+1}=A \hat{x}_{t}+K_{t} a_{t} \\ y_{t}=G \hat{x}+a_{t} \\ a_{t}=y_{t}-E\left[y_{t} \mid y^{t-1}\right] \end{array} x^t+1=Ax^t+Ktatyt=Gx^+atat=yt−E[yt∣yt−1]
称 a t a_t at 是 y t y_t yt 的创新,协方差矩阵为
E a t a t ′ = G ∑ t G ′ + R E a_{t} a_{t}^{\prime}=G \sum_{t} G^{\prime}+R Eatat′=Gt∑G′+R
【应用数学】动态最优化:合集相关推荐
- 2018最新大数据分析/数学建模-MATLAB多套视频教程合集+200多本MATLAB技术文档+电子书
===============课程目录=============== 视频教程 │ ├<MATLAB.GUI第2版>配套光盘.rar │ ├<Matlab GUI 初学者视频教学 ...
- 入门指南目录页 -PaddlePaddle 飞桨 入门指南 FAQ合集-深度学习问题
入门指南目录页 -PaddlePaddle 飞桨 入门指南 FAQ合集 GT_Zhang关注 0.1012019.08.01 18:43:34字数 1,874阅读 795 Hi,欢迎各位来自Paddl ...
- 全文翻译(全文合集):TVM: An Automated End-to-End Optimizing Compiler for Deep Learning
全文翻译(全文合集):TVM: An Automated End-to-End Optimizing Compiler for Deep Learning 摘要 人们越来越需要将机器学习应用到各种各样 ...
- Open3D点云处理算法最全合集
Open3D点云处理算法最全合集,致力于搜集可运行,可视化较好的Open3D算法,持续更新中- 1. Open3D 点云读取及可视化.离群点去除 2. Open3D 点云体素格下采样 3. Open3 ...
- JAVA Web项目中所出现错误及解决方式合集(不断更新中)
JAVA Web项目中所出现错误及解决方式合集 前言 一.几个或许会用到的软件下载官网 二.Eclipse的[preferences]下没有[sever]选项 三.Tomcat的安装路径找不到 四.T ...
- 一、PyTorch Cookbook(常用代码合集)
PyTorch Cookbook(常用代码合集) 原文链接:https://mp.weixin.qq.com/s/7at6y2NcYaxGGN8syxlccA 谢谢作者的付出.
- cookie和url参数获取的常规实用方法合集(ES6)
//获取某一个cookie的值 const getCookie = key => {var k = key, dc = document.cookie;if (dc.length > 0) ...
- 《团队合作大坑合集》
1.百分号无限循环小数 2.小数四舍五入计算错误 3.写死了年份导致跨年无法选择最新年份 4.悄悄修改内外网访问限制导致外网接口不能访问 5.定位索引城市的地理坐标,定位到了同名的其他城市 6.更新包 ...
- 【对接】《前后端对接联调数据、调试接口过程乌龙大合集》
<团队合作大坑合集>_←你挚爱的强哥→的博客-CSDN博客1.百分号无限循环小数2.小数四舍五入计算错误3.写死了年份导致跨年无法选择最新年份4.悄悄修改内外网访问限制导致外网接口不能访问 ...
最新文章
- 如何第一时间了解研究领域最新动态?
- Sphinx武林秘籍(上)
- hive sql操作
- zabbix监控超详细搭建过程
- 修改mysql数据库导入大小限制
- [转载] 信息系统项目管理挂靠合同(协议)范例2
- 问答项目---登陆也要做验证!(JS和PHP验证)
- 基本明白了什么是冲突域和广播域
- 使用Hexo搭建博客,备份至GitHub过程(基于网上资料的实践操作)
- 如果在iTerm2中复制命令特别卡,就跟慢动作似的,怎么办?
- 解决cocos2dx调用removeFromParent后报错问题
- Java高并发编程详解系列-ThreadGroup介绍
- Java多线程——同步容器类
- Leetcode 34.排序数组中的第一个元素和最后一个元素
- html 5 本地数据库(二)-- Web Sql Database核心方法openDatabase、transaction、executeSql 详解
- 韩语在线翻译图片识别_超强的免费OCR文字扫描工具,网页视频PDF均可识别并翻译...
- intellij idea 15 万恶的光标跟随
- Flutter Dio Post请求
- Temporal Pyramid Network for Action Recognition(CVPR2020)
- MVG读书笔记——几何变换续