目录

  • 4 优化问题—处理噪声
    • 4.1 状态估计
    • 4.2 非线性最小二乘
    • BA与图优化

4 优化问题—处理噪声

4.1 状态估计

由于SLAM的数学表达式为 { x k = f ( x k − 1 , u k ) + w k z k , j = h ( y j , x k ) + v k , j \begin{cases}x_k=f(x_{k-1},u_k)+w_k\\z_{k,j}=h(y_j,x_k)+v_{k,j}\end{cases} {xk​=f(xk−1​,uk​)+wk​zk,j​=h(yj​,xk​)+vk,j​​假设在 x k x_k xk​ 处对路标 y j y_j yj​ 进行了一次观测,对应到图像上的像素 z k , j z_{k,j} zk,j​ ,观测方程可以写成 s z k , j = K ( R k y j + t k ) (4.1.1) sz_{k,j}=K(R_ky_j+t_k)\tag{4.1.1} szk,j​=K(Rk​yj​+tk​)(4.1.1)其中 K K K 为相机内参矩阵, s s s 为像素点的距离( R k y j + t k R_ky_j+t_k Rk​yj​+tk​ 的第三个分量)。
通常假设运动方程和观测方程中的噪声 w k w_k wk​ 和 v k , j v_{k,j} vk,j​ 满足零均值的高斯分布: w k ∼ N ( 0 , R k ) v k , j ∼ N ( 0 , Q k , j ) w_k\sim\mathcal{N}(0,R_k)~~~~v_{k,j}\sim\mathcal{N}(0,Q_{k,j}) wk​∼N(0,Rk​)    vk,j​∼N(0,Qk,j​)其中 N \mathcal{N} N 表示告诉分布, 0 0 0 表示零均值, R k R_k Rk​ 和 Q k , j Q_{k,j} Qk,j​ 为协方差矩阵。通过带噪声的数据 z z z 和 u u u 推断位姿 x x x 和地图 y y y (以及它们的概率分布),这构成了一个状态估计问题。在比较常见且合理的情况下,假设状态量和噪声量服从高斯分布——这意味着在程序中只需存储它们的均值和协方差矩阵即可。均值可以看作对变量最优值的估计,而协方差矩阵则度量了它的不确定性。因此,问题就变成了 当存在一些运动数据和观测数据时,如何估计状态量 x x x y y y 的高斯分布

处理状态估计问题大致有两种方法,一种是把数据从零时刻整合到当前时刻一齐处理,称为批量(batch)的方法;另一种是已知当前时刻的估计状态,通过下一时刻的数据来更新状态,这种增量/渐进(incremental)的方法称为滤波器。相对来说,增量法仅考虑当前时刻的状态估计即可,而批量方法可以在更大的范围达到最优化,被认为优于增量法,是目前视觉SLAM的主流方法。极端情况下,可以让机器人收集所有时刻的数据,再带回计算中心统一处理,这也是SfM(Structure from Motion)的主流做法。显然,这种极端做法无法做到实时性,不符合SLAM的运动场景。所以在SLAM中,也可以用到折衷的方法。例如,固定一些历史轨迹,仅对当前时刻附近的一些轨迹进行优化,称之为滑动窗口估计法。理解批量方法更容易理解增量的办法。

批量法
从 1 1 1 到 N N N 的所有时刻,假设有 M M M 个路标点,定义所有时刻机器人位姿和路标点坐标为 x = { x 1 , ⋯ , x N } y = { y 1 , ⋯ , y M } (4.1.2) x=\{x_1,\cdots,x_N\}~~~~~~y=\{y_1,\cdots,y_M\}\tag{4.1.2} x={x1​,⋯,xN​}      y={y1​,⋯,yM​}(4.1.2)同样地,用不带下标的 u u u 表示所有时刻的输入, z z z 表示所有时刻的观测数据。从概率学的角度来看,对机器人的估计就是已知输入数据 u u u 和观测数据 z z z 的条件下,求状态 x x x 和 y y y 的条件概率分布: P ( x , y ∣ z , u ) (4.1.3) P(x,y~|~z,u)\tag{4.1.3} P(x,y ∣ z,u)(4.1.3)(当控制输入未知,只有图像时,即只考虑观测方程带来的数据时,相当于估计 P ( x , y ∣ z ) P(x,y|z) P(x,y∣z) 的条件概率分布,此问题称之为SfM,即如何从众多图像中重建三维空间结构。)

先验、后验是概率,似然估计(函数)是前两者的拟合程度。
根据贝叶斯公式
p ( x ∣ y ) = p ( y ∣ x ) p ( x ) p ( y ) p(x|y)=\frac{p(y|x)p(x)}{p(y)} p(x∣y)=p(y)p(y∣x)p(x)​
可得, P ( x ) P(x) P(x)为先验概率,似然估计是先验和后验的拟合程度,可以看成是一个系数。因此有先验乘以似然估计正比于后验估计。故可有下述公式理解:先得到一个条件概率,将此条件概率视为后验概率(因为后验概率是条件概率。似然估计也可以是条件概率,那怎么不看做似然估计呢?是因为我们通过传感器已知 P ( z , u ) P(z,u) P(z,u),因此就知道 p ( x , y ) p(x,y) p(x,y)为先验估计)

由贝叶斯法则得 P ( x , y ∣ z , u ) = P ( z , u ∣ x , y ) P ( x , y ) P ( z , u ) ∝ P ( z , u ∣ x , y ) ⏟ L i k e l i h o o d P ( x , y ) ⏟ P r i o r (4.1.4) P(x,y|z,u)=\frac{P(z,u|x,y)P(x,y)}{P(z,u)}\propto \underbrace{P(z,u|x,y)}_{Likelihood}~\underbrace{P(x,y)}_{Prior}\tag{4.1.4} P(x,y∣z,u)=P(z,u)P(z,u∣x,y)P(x,y)​∝Likelihood P(z,u∣x,y)​​ Prior P(x,y)​​(4.1.4)其中式子(4.1.3)称为后验概率, P ( z , u ∣ x , y ) P(z,u|x,y) P(z,u∣x,y) 称为似然(Likelihood), P ( x , y ) P(x,y) P(x,y) 称为先验(Prior)。直接求后验分布是困难的,但求一个状态最优估计,使得在该状态下后验概率最大化是可行的:
( x , y ) M A P ∗ = arg max ⁡ P ( x , y ∣ z , u ) = arg max ⁡ P ( z , u ∣ x , y ) P ( x , y ) (4.1.5) (x,y)^*_{MAP}=\argmax P(x,y|z,u)=\argmax P(z,u|x,y)P(x,y)\tag{4.1.5} (x,y)MAP∗​=argmaxP(x,y∣z,u)=argmaxP(z,u∣x,y)P(x,y)(4.1.5)
(arg max=argument of max)其中 P ( z , u ) P(z,u) P(z,u) 与状态 x x x 和 y y y 无关,可以省略。求解最大后验估计(Maximize a Posterior)等价于最大化似然和先验的乘积。当然,假如不知道机器人位姿或路标大概的位置关系,就没有了先验。求解最大似然估计(Maximize Likelihood Estimation) ( x , y ) M L E ∗ = arg max ⁡ P ( z , u ∣ x , y ) (4.1.6) (x,y)^*_{MLE}=\argmax P(z,u|x,y)\tag{4.1.6} (x,y)MLE∗​=argmaxP(z,u∣x,y)(4.1.6)似然就是指“在现在的位姿下,可能产生怎样的观测数据”。由于已知观测数据( u u u 和 y y y),最大似然估计就是指在哪种状态下,最能产生现在观测到的数据

最小二乘
已知噪声项服从高斯分布 v k , j ∼ N ( 0 , Q k , j ) v_{k,j}\sim\mathcal{N}(0,Q_{k,j}) vk,j​∼N(0,Qk,j​),对于某一时刻观测方程 z k , j = h ( y j , x k ) + v k , j z_{k,j}=h(y_j,x_k)+v_{k,j} zk,j​=h(yj​,xk​)+vk,j​ 来说,有 P ( z k , j ∣ x k , y j ) = N ( h ( y j , x k ) , Q k , j ) (4.1.7) P(z_{k,j}|x_k,y_j)=\mathcal{N}(h(y_j,x_k),Q_{k,j})\tag{4.1.7} P(zk,j​∣xk​,yj​)=N(h(yj​,xk​),Qk,j​)(4.1.7)对于最大似然估计,可以用最小化负对数处理此问题。似然估计依然服从高斯分布。由任意高维高斯分布 x ∼ N ( μ , Σ ) x\sim\mathcal{N}(\mu,\Sigma) x∼N(μ,Σ) 的概率密度函数展开式为 P ( x ) = 1 ( 2 π ) N det ⁡ ( Σ ) exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) P(x)=\frac{1}{\sqrt {(2\pi)^N\det(\Sigma)}}\exp\left(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right) P(x)=(2π)Ndet(Σ) ​1​exp(−21​(x−μ)TΣ−1(x−μ))取负对数,则有 − ln ⁡ ( P ( x ) ) = 1 2 ln ⁡ ( ( 2 π ) N det ⁡ ( Σ ) ) + 1 2 ( x − μ ) T Σ − 1 ( x − μ ) (4.1.8) -\ln(P(x))=\frac{1}{2}\ln\left((2\pi)^N\det(\Sigma)\right)+\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\tag{4.1.8} −ln(P(x))=21​ln((2π)Ndet(Σ))+21​(x−μ)TΣ−1(x−μ)(4.1.8)因为式子(4.1.8)第一项与 x x x 无关,可以略去。因此最大似然估计可转变为最小化式子(4.1.8)第二项。因为代入式子(4.1.6)(4.1.7)(4.1.8)得 ( x k , y j ) ∗ = arg max ⁡ N ( h ( y j , x k ) , Q k , j ) = arg min ⁡ ( ( z k , j − h ( y j , x k ) T Q k , j − 1 ( z k , j − h ( y j , x k ) ) (4.1.9) \begin{aligned}(x_k,y_j)^*&=\argmax\mathcal{N}(h(y_j,x_k),Q_{k,j})\\&=\argmin\left((z_{k,j}-h(y_j,x_k)^TQ_{k,j}^{-1}(z_{k,j}-h(y_j,x_k)\right)\end{aligned}\tag{4.1.9} (xk​,yj​)∗​=argmaxN(h(yj​,xk​),Qk,j​)=argmin((zk,j​−h(yj​,xk​)TQk,j−1​(zk,j​−h(yj​,xk​))​(4.1.9)该式子等价于最小化噪声项(即误差)的一个二次型,称该二次型为马哈拉诺比斯距离(Mahalanobis distance),又叫马氏距离。也可以看成由 Q k , j − 1 Q_{k,j}^{-1} Qk,j−1​ (信息矩阵)加权之后的欧氏距离(二范数)。上述为观测方程,运动方程同理可得。
由于各个时刻的输入和观测为相互独立,因此可以联合分布对批量法的数据进行因式分解 P ( z , u ∣ x , y ) = ∏ k P ( u k ∣ x k − 1 , x k ) ∏ k , j P ( z k , j ∣ x k , y j ) (4.1.10) P(z,u|x,y)=\prod_kP(u_k|x_{k-1},x_k)\prod_{k,j}P(z_{k,j}|x_k,y_j)\tag{4.1.10} P(z,u∣x,y)=k∏​P(uk​∣xk−1​,xk​)k,j∏​P(zk,j​∣xk​,yj​)(4.1.10)定义各次运动方程(输入)和观测方程(观测)的误差 e u , k = x k − f ( x k − 1 , u k ) e z , j , k = z k , j − h ( x k , y j ) \begin{aligned}e_{u,k}=x_k-f(x_{k-1},u_k)\\e_{z,j,k}=z_{k,j}-h(x_k,y_j)\end{aligned} eu,k​=xk​−f(xk−1​,uk​)ez,j,k​=zk,j​−h(xk​,yj​)​最大似然估计等价于求最小化所有时刻估计值于真实读数之间的马氏距离。目标函数如下 min ⁡ J ( x , y ) = ∑ k e u , k T R k − 1 e u , k + ∑ k ∑ j e z , k , j T Q k , j − 1 e z , k , j (4.1.11) \min J(x,y)=\sum_ke_{u,k}^TR_k^{-1}e_{u,k}+\sum_k\sum_je_{z,k,j}^TQ_{k,j}^{-1}e_{z,k,j}\tag{4.1.11} minJ(x,y)=k∑​eu,kT​Rk−1​eu,k​+k∑​j∑​ez,k,jT​Qk,j−1​ez,k,j​(4.1.11)就得到了一个最小二乘问题(Least Square Problem)。由于误差的存在,估计的轨迹于地图代入运动、观测方程式并不会完美成立,因此我们采取对状态的估计值进行微调,使得整体误差下降到某一极小值的限度,这就是非线性优化问题。


4.2 非线性最小二乘

对于简单的最小二乘表达式 min ⁡ x F ( x ) = 1 2 ∥ f ( x ) ∥ 2 2 (4.2.1) \min_x F(x)=\frac{1}{2}\|f(x)\|_2^2\tag{4.2.1} xmin​F(x)=21​∥f(x)∥22​(4.2.1)其中,自变量 x ∈ R n x\in\mathbb{R}^n x∈Rn, f f f 是任意标量非线性函数 f ( x ) : R n → R f(x):\mathbb{R}^n\to\mathbb{R} f(x):Rn→R。系数 1 2 \frac{1}{2} 21​ 可有可无。由于函数 f ( x ) f(x) f(x) 为非线性函数,所求得最值无法用线性函数直接求导得出,因此采用迭代的方式,从一个初始值出发,不断的更新当前优化变量,使目标函数下降。具体步骤如下:

  • 给定某个初始值 x 0 x_0 x0​
  • 对于第 k k k 次迭代,寻找一个增量 Δ x k \Delta x_k Δxk​,使得 F ( x k + Δ x k ) = ∥ f ( x k + Δ x k ) ∥ 2 2 F(x_k+\Delta x_k)=\|f(x_k+\Delta x_k)\|_2^2 F(xk​+Δxk​)=∥f(xk​+Δxk​)∥22​ 达到极小值
  • 若 Δ x k \Delta x_k Δxk​ 足够小,则停止
  • 否则,令 x k + 1 = x k + Δ x k x_{k+1}=x_k+\Delta x_k xk+1​=xk​+Δxk​,返回第 2 步。

让求解导函数为零的问题变为了一个不断寻找下降增量 Δ x k \Delta x_k Δxk​ 的问题。

一阶和二阶梯度法
考虑第 k k k 次迭代,在 x k x_k xk​ 处寻求增量 Δ x k \Delta x_k Δxk​,最直观的方式是将目标函数 F ( x ) F(x) F(x) 在 x k x_k xk​ 附近进行泰勒展开(线性化处理) F ( x k + Δ x k ) ≈ F ( x k ) + J ( x k ) T Δ x k + 1 2 Δ x k T H ( x k ) Δ x k (4.2.2) F(x_k+\Delta x_k)\approx F(x_k)+J(x_k)^T\Delta x_k+\frac{1}{2}\Delta x_k^TH(x_k)\Delta x_k\tag{4.2.2} F(xk​+Δxk​)≈F(xk​)+J(xk​)TΔxk​+21​ΔxkT​H(xk​)Δxk​(4.2.2)其中 J ( x k ) J(x_k) J(xk​) 是 F ( x ) F(x) F(x) 关于 x x x 的一阶导数,也叫梯度、雅可比(Jacobian)矩阵, H ( x ) H(x) H(x) 则是二阶导数,也叫海塞(Hessian)矩阵。保留一阶项和二阶项对应求解方法中的一阶梯度或二阶梯度法。如果保留一阶梯度,取增量为反向的梯度,即可保证函数下降(梯度表示函数在该点处沿着此梯度方向变化最快,变化率最大,变化率值为梯度的模) Δ x ∗ = − J ( x k ) (4.2.3) \Delta x^*=-J(x_k)\tag{4.2.3} Δx∗=−J(xk​)(4.2.3)该式表示下降的方向,通常还需要指定一个可以根据一定条件算出的步长 λ \lambda λ。一阶梯度法也称为最速下降法(Steepest Method),直观意义为只要沿着反梯度的方向前进,在一阶(线性)的近似下,目标函数必定会下降。可以看出上述列举的第 k k k 次迭代只与 k k k 次有关,因此可省略下角标 k {}_k k​,适用于任何一次迭代。一阶梯度法是根据梯度的意义求得
同时,也可选择保留二阶梯度信息,此时增量方程为 Δ x ∗ = arg min ⁡ ( F ( x ) + J ( x ) T Δ x + 1 2 Δ x T H ( x ) Δ x ) \Delta x^*=\argmin\left(F(x)+J(x)^T\Delta x+\frac{1}{2}\Delta x^TH(x)\Delta x\right) Δx∗=argmin(F(x)+J(x)TΔx+21​ΔxTH(x)Δx)由于只含有 Δ x \Delta x Δx 的一次、二次项,因此对 Δ x \Delta x Δx 求导,导数为零可得 J + H Δ x = 0 ⇒ H Δ x = − J (4.2.4) J+H\Delta x=0~~~\Rightarrow~~~H\Delta x = -J\tag{4.2.4} J+HΔx=0   ⇒   HΔx=−J(4.2.4)求解该线性方程,得到 Δ x \Delta x Δx 即可,二阶梯度法又称牛顿法二阶梯度法是根据求导为零求得

梯度法是通过对初始值开始迭代,在迭代值处对目标函数(非线性函数)线性化,通过所得线性方程的最小值猜测目标函数的极小值。弊端就是最速法过于贪婪(与梯度值有关),容易出现Zigzag形,反而增加了迭代次数;而牛顿法需要求解目标函数的 H H H 矩阵,问题规模较大时,难以求解该矩阵,通常避免直接求解 H H H 矩阵。对于一般的问题,一些拟牛顿法可以得到较好的效果,对于最小二乘问题,有高斯牛顿法列文伯格—马夸尔特方法


高斯牛顿法
高斯牛顿法是优化算法中最简单的算法之一。它的思想是将式子(4.2.1)中的 f ( x ) f(x) f(x) 一阶泰勒展开(注意选取的函数不是目标函数 F ( x ) F(x) F(x) ) f ( x + Δ x ) ≈ f ( x ) + J ( x ) T Δ x (4.2.5) f(x+\Delta x)\approx f(x)+J(x)^T\Delta x\tag{4.2.5} f(x+Δx)≈f(x)+J(x)TΔx(4.2.5)其中, J ( x ) J(x) J(x) 为 f ( x ) f(x) f(x) 关于 x x x 的导数(牛顿法中的 J J J 和 H H H 是关于 F ( x ) F(x) F(x) 的)。也可以看成 min ⁡ f ( x ) F ( x ) = 1 2 ∥ f ( x ) ∥ 2 2 \min_{f(x)} F(x)=\frac{1}{2}\|f(x)\|_2^2 f(x)min​F(x)=21​∥f(x)∥22​区别于牛顿法。
当前的目标是寻求使 f ( x ) f(x) f(x) 最小。而对于非线性函数 f ( x ) f(x) f(x) 来说,取最小值同理于梯度法。有 Δ x ∗ = arg min ⁡ Δ x 1 2 ∥ f ( x ) + J ( x ) T Δ x ∥ 2 (4.2.6) \Delta x^*=\argmin_{\Delta x}\frac{1}{2}\|f(x)+J(x)^T\Delta x\|^2\tag{4.2.6} Δx∗=Δxargmin​21​∥f(x)+J(x)TΔx∥2(4.2.6)展开 1 2 ∥ f ( x ) + J ( x ) T Δ x ∥ 2 = 1 2 ( f ( x ) + J ( x ) T Δ x ) T ( f ( x ) + J ( x ) T Δ x ) = 1 2 ( ∥ f ( x ) ∥ 2 + 2 f ( x ) J ( x ) T Δ x + Δ x T J ( x ) J ( x ) T Δ x ) \begin{aligned}\frac{1}{2}\|f(x)+J(x)^T\Delta x\|^2&=\frac{1}{2}\left(f(x)+J(x)^T\Delta x\right)^T\left(f(x)+J(x)^T\Delta x\right)\\&=\frac{1}{2}\left(\|f(x)\|^2+2f(x)J(x)^T\Delta x+\Delta x^TJ(x)J(x)^T\Delta x\right)\end{aligned} 21​∥f(x)+J(x)TΔx∥2​=21​(f(x)+J(x)TΔx)T(f(x)+J(x)TΔx)=21​(∥f(x)∥2+2f(x)J(x)TΔx+ΔxTJ(x)J(x)TΔx)​对 Δ x \Delta x Δx 求导,导数为零有 J ( x ) f ( x ) + J ( x ) J ( x ) T Δ x = 0 J ( x ) J ( x ) T ⏟ H ( x ) Δ x = − J ( x ) f ( x ) ⏟ g ( x ) \begin{aligned}&J(x)f(x)+J(x)J(x)^T\Delta x=0\\&\underbrace{J(x)J(x)^T}_{H(x)}\Delta x =\underbrace{-J(x)f(x)}_{g(x)}\end{aligned} ​J(x)f(x)+J(x)J(x)TΔx=0H(x) J(x)J(x)T​​Δx=g(x) −J(x)f(x)​​​此方程是关于 Δ x \Delta x Δx 的线性方程组,称之为增量方程,也叫高斯牛顿方程(Gauss-Newton equation)或者正规方程(Normal equation)。上式还可写为 H Δ x = g (4.2.7) H\Delta x=g\tag{4.2.7} HΔx=g(4.2.7)此式对比式子(4.2.4)牛顿法,高斯牛顿法用 J J T JJ^T JJT 作为牛顿法中二阶Hessian矩阵的近似,从而省略了 H H H 的计算过程。高斯牛顿法的算法步骤:

  • 给定初始值 x 0 x_0 x0​。
  • 对于第 k k k 次迭代,求出当前对于 f ( x ) f(x) f(x) 的雅可比矩阵 J ( x k ) J(x_k) J(xk​) 和误差 f ( x k ) f(x_k) f(xk​)。
  • 求解增量方程: H Δ x = g H\Delta x= g HΔx=g。
  • 若 Δ x \Delta x Δx 足够小,则停止 。否则,令 x k + 1 = x k + Δ x k x_{k+1}=x_k+\Delta x_k xk+1​=xk​+Δxk​,返回第 2 步。

为了求解增量方程,需要求解 H − 1 H^{-1} H−1,需要 H H H 矩阵可逆,但实际中计算的 J J T JJ^T JJT 多数为半正定,此时增量的稳定性较差,导致算法不收敛。


列文伯格—马夸尔特法
此方法在一定程度上,修正了上述的 H H H 矩阵的问题,但收敛速度可能更慢,被称为阻尼牛顿法(Damped Newton Method)。高斯牛顿法中的泰勒展开只在展开点附近有较好的近似效果,所以很自然的想到应该给 Δ x \Delta x Δx 添加一个范围—信赖区域(Trust Region)。该范围定义了在什么区域近似是有效的,该类方法也称为信赖区域方法(Trust Region Method)。
确定信赖区域的一个较好的办法是根据我们的近似模型和实际函数之间的差异来确定:差异小,效果好,可以扩大近似范围;差异大,效果差,可以缩小近似范围。定义一个指标 ρ \rho ρ 来刻画近似程度: ρ = f ( x + Δ x ) − f ( x ) J ( x ) T Δ x (4.2.8) \rho=\frac{f(x+\Delta x)-f(x)}{J(x)^T\Delta x}\tag{4.2.8} ρ=J(x)TΔxf(x+Δx)−f(x)​(4.2.8)如果 ρ \rho ρ 比较大,近似效果可以放大;比较小,近似效果需要缩小;接近于1,则近似是好的。
改良版非线性优化框架如下:

  • 给定初始值 x 0 x_0 x0​,以及初始优化半径 μ \mu μ。
  • 对于第 k k k 次迭代,在高斯牛顿法的基础上加上信赖区域: min ⁡ Δ x k 1 2 ∥ f ( x k ) + J ( x k ) T Δ x k ∥ 2 s . t . ∥ D Δ x k ∥ 2 ≤ μ (4.2.9) \min_{\Delta x_k}\frac{1}{2}\|f(x_k)+J(x_k)^T\Delta x_k\|^2~~~~~s.t.~~~~\|D\Delta x_k\|^2\leq\mu\tag{4.2.9} Δxk​min​21​∥f(xk​)+J(xk​)TΔxk​∥2     s.t.    ∥DΔxk​∥2≤μ(4.2.9)其中, μ \mu μ 是信赖区域的半径, D D D 为系数矩阵。
  • 按照式子(4.2.8)计算 ρ \rho ρ。
  • 若 ρ > 3 4 \rho >\frac{3}{4} ρ>43​,则设置 μ = 2 μ \mu=2\mu μ=2μ。
  • 若 ρ < 1 4 \rho <\frac{1}{4} ρ<41​,则设置 μ = 0.5 μ \mu=0.5\mu μ=0.5μ。
  • 如果 ρ \rho ρ 大于某阈值,则认为近似可行。令 x k + 1 = x k + Δ x k x_{k+1}=x_k+\Delta x_k xk+1​=xk​+Δxk​。
  • 判断算法是否收敛。如不收敛,则返回第 2 步,否则结束。

框架中的近似范围扩大的倍数和阈值都是经验值,可以替换成别的值;在公式(4.2.9)中,把增量限定于一个半径为 μ \mu μ 的球中,若带上系数矩阵 D D D,可以视为一个椭球。
列文伯格提出的优化方法是把 D D D 取成单位阵 I I I,相当于直接把 Δ x k \Delta x_k Δxk​ 约束在一个球中;马夸尔特提出的方法是将 D D D 取成一个非负对角阵(实际上用 J T J J^TJ JTJ 的对角元素平方根,使得在梯度小的维度上约束范围更大一些)。
将式子(4.2.9)通过拉格朗日乘子将约束条件放到目标函数中去,构成拉格朗日函数: L ( Δ x k , λ ) = 1 2 ( ∥ f ( x k ) + J ( x k ) T Δ x k ∥ 2 + λ ( ∥ D Δ x k ∥ 2 − μ ) ) (4.2.10) \mathcal{L}(\Delta x_k,\lambda)=\frac{1}{2}\left(\|f(x_k)+J(x_k)^T\Delta x_k\|^2+\lambda\left(\|D\Delta x_k\|^2-\mu\right)\right)\tag{4.2.10} L(Δxk​,λ)=21​(∥f(xk​)+J(xk​)TΔxk​∥2+λ(∥DΔxk​∥2−μ))(4.2.10)其中, λ \lambda λ 为拉格朗日乘子。令对 Δ x k \Delta x_k Δxk​ 的导函数为零,仍为计算增量的线性方程 ( H + λ D T D ) Δ x k = g (4.2.11) (H+\lambda D^TD)\Delta x_k=g\tag{4.2.11} (H+λDTD)Δxk​=g(4.2.11)简化形式为 ( H + λ I ) Δ x k = g (4.2.12) (H+\lambda I)\Delta x_k=g\tag{4.2.12} (H+λI)Δxk​=g(4.2.12)参数 λ \lambda λ 比较小时, H H H 占主导位置,说明二阶近似模型在该范围内效果较好,列文伯格—马夸尔特法较为接近高斯牛顿法;当 λ \lambda λ 比较大, λ I \lambda I λI 占主导位置,列文伯格—马夸尔特法较为接近一阶梯度法,说明附近的二阶近似不够好。


BA与图优化

BundleAdjustment,是指从视觉图像中提炼出最优的 3D 模型和相机参数(内参和外参)。考虑从任意特征点发射出来的几束光线(bundles of light rays),它们会在几个相机的成像平面上变成像素或是检测到的特征点。如果我们调整(adjustment)各相机姿态和各特征点的空间位置,使得这些光线最终收束到相机的光心。

SLAM公式引出、推导和理解 3相关推荐

  1. SLAM公式引出、推导和理解 1-1

    公式推导及由来 0 数学表达式 1 位姿表达-运动方程 1.1 基础知识 1.2 旋转矩阵 1.3 变换矩阵 1.4 旋转向量 1.5 欧拉角 1.6 四元数 0 数学表达式 由于相机是在某些时刻采集 ...

  2. SLAM公式引出、推导和理解 2-2

    目录 3 视觉里程计 3.1 特征点法 3.2 相机运动 对极几何 PnP ICP 3 视觉里程计 根据相邻的图像信息估计出粗略的相机运动,给后端(非线性优化)提供良好的初始值.算法主要分为特征点法和 ...

  3. 罗德里格斯公式附图推导,理解

    罗德里格斯公式推导 一,基础准备 1. 旋转矩阵 2. 旋转向量 3. 向量叉积 二,公式推导 1.符号说明与图例 2. 公式推导 三,公式理解和深入 四,极限的方式简洁推导罗德里格斯公式 罗德里格斯 ...

  4. 专题2(附篇):平面问题的差分解之差分公式的推导

    因为实际工程中几乎不可能找到弹性力学模型求解时的偏微分方程的解析解,所以人们就想到用泰勒级数把求解偏微分方程的问题改为求解代数方程的问题来近似.又因为不同的差分方法会带来不同的求解速度和精度,而速度和 ...

  5. 卡尔曼滤波原理公式详细推导过程[包括引出]

    卡尔曼滤波在很多项目中都有用到,但是对于原理却很少有详细分析,而只是直接应用,在看完b站up主DR_CAN视频推导后自行推导一遍和查看其他资料后进行总结,将从最初的递归算法,利用数据融合,协方差矩阵, ...

  6. 递推最小二乘法的推导和理解

    递推最小二乘法的推导和理解 最小二乘法 快速回顾最小二乘法的推导 建立误差平方 将其最小化 一种对最小二乘法理解的视角 递推最小二乘法 在线实时预测问题 推导思路与详细过程 将k时刻的表达式写成k-1 ...

  7. 全概公式和贝叶斯公式的理解

    目录(?)[+] 条件概率 首先,理解这两个公式的前提是理解条件概率,因此先复习条件概率. P(A|B)=P(AB)P(B) 理解这个可以从两个角度来看.  第一个角度:在B发生的基础上,A发生的概率 ...

  8. CTR经典模型串讲:FM / FFM / 双线性 FFM 相关推导与理解

    CTR 系列文章: 广告点击率(CTR)预测经典模型 GBDT + LR 理解与实践(附数据 + 代码) CTR经典模型串讲:FM / FFM / 双线性 FFM 相关推导与理解 CTR深度学习模型之 ...

  9. 点绕坐标系旋转旋转矩阵推导、理解

    点绕坐标系旋转旋转矩阵推导.理解 开会过程中,翻笔记本时突然发现了之前推导的点绕坐标系旋转的旋转矩阵求解过程.在直觉上,一个点绕3个坐标轴旋转的旋转矩阵在形式上看起来是一致的,观感上比较优雅.整齐,但 ...

最新文章

  1. 程序员,什么是高手?什么是低手?
  2. linux truss strace ltrace 对比 诊断调试程序
  3. eclipse run as 后边没有java application的选项了?
  4. Oracle data type number
  5. [WPF疑难]如何禁用WPF窗口的系统菜单(SystemMenu)
  6. androidq获取文件正式路径_android Q 新特性
  7. 逐条驳斥天猫精灵抄袭说?百度钱晨解秘小度Play设计
  8. Python是最好的编程语言,Locust是最好的压测工具,不服来辩!
  9. 机器学习竞赛(代码)
  10. 科大讯飞:5年内 科技会场没机器人端茶倒水就太low了
  11. Linux-Ubuntu安装QQ 微信 TIM 百度网盘
  12. html下拉框选择日期,javascript实现日期三级联动下拉框选择菜单
  13. 初次软件开发(总结篇 之一)
  14. snapchat_如何查看谁查看了Snapchat故事并对其进行了截图
  15. 秋招春招,1v1面试技巧和常见问题
  16. python基础代码技巧_5行Python代码实现批量打水印技巧,值得收藏|python基础教程|python入门|python教程...
  17. 【Vulnhub靶场】Earth
  18. 计算机系统的组成基础知识,计算机系统的组成基础知识.ppt
  19. 毕业设计 - 题目_ 基于单片机的智能小车 - 嵌入式 物联网 本科毕设
  20. 5.4 文本分析与加密(project)

热门文章

  1. 【机器学习-贷款用户逾期情况分析2】3.stacking模型融合
  2. 互联网海外市场篇之----回望过去
  3. 什么样的薪资能让你接受 996?
  4. 【Cocos 3d】金币粒子特效制作
  5. scala语言命名规范
  6. 计算机基础(16)——Office和WPS(3)——什么查看自己的WPS是哪个版本
  7. 如何让excel表格排头一直都在_Excel表格技巧—凌乱的表格如何快速整理
  8. 【蓝桥杯】第11届Scratch国赛中级组第6题 -- 3D打印小猫
  9. QR分解求矩阵绝对值-基于HouseHolder变换
  10. 谷歌小恐龙HTML源代码