一般的LMS算法应用参见该篇。
一般的LMS实际应用

本文设计LMS背后的数学理论知识。

1. The Least Mean Squares algorithm (LMS)

SD研究的最陡下降方法是一种递归计算信号统计量已知时维纳滤波器的递归算法 (knowledge about R och p)。
问题是,这个信息通常是未知的!
LMS是一种基于与最陡下降法相同的原理的方法,但其统计量是连续估计的。
由于统计量是连续估计的,因此LMS算法可以适应信号统计量的变化;因此,LMS算法是一种自适应滤波器。

我们想创建一个算法,以最小化 E { ∣ e ( n ) ∣ 2 } E\{|e(n)|^2\} E{∣e(n)∣2},就像SD一样,但基于未知的统计数据。
其中一个策略是使用自相关矩阵R和交叉相关向量p的估计。如果选择了瞬时估计值:
R ^ = u ( n ) u H ( n ) p ^ ( n ) = u ( n ) d ∗ ( n ) \hat{\pmb R}=\pmb u(n)\pmb u^{H}(n) \\ \hat{\pmb p}(n)=\pmb u(n)d^{*}(n) RRR^=uuu(n)uuuH(n)p​p​​p^​(n)=uuu(n)d∗(n)
所得方法是最小均方乘算法。

对于SD,滤波器权值的更新由:
w ( n + 1 ) = w ( n ) + 1 2 μ [ − ∇ J ( n ) ] \pmb w(n+1)=\pmb w(n)+\frac{1}{2}\mu[-\nabla J(n)] www(n+1)=www(n)+21​μ[−∇J(n)]
where ∇ J ( n ) = − 2 p + 2 R w ( n ) \nabla J(n)=-2\pmb p+2\pmb R \pmb w(n) ∇J(n)=−2p​p​​p+2RRRwww(n)

在LMS中,我们使用估计的 R ^ , p ^ \hat{\pmb R},\hat{\pmb p} RRR^,p​p​​p^​来计算 ∇ ^ J ( n ) \hat{∇}J(n) ∇^J(n),因此,更新的滤波器向量也成为一个估计。因此,记为 w ^ ( n ) \hat{w}(n) w^(n):
∇ ^ J ( n ) = − 2 p ^ + 2 R ^ w ^ ( n ) \hat{\pmb \nabla}J(n)=-2 \hat{\pmb p}+2 \hat{\pmb R} \hat{\pmb w}(n) ∇∇∇^J(n)=−2p​p​​p^​+2RRR^www^(n)

对于LMS算法,滤波器权值的更新方程变为:
w ^ ( n + 1 ) = w ^ ( n ) + μ u ( n ) e ∗ ( n ) \hat{\pmb w}(n+1)=\hat{\pmb w}(n)+\mu \pmb u(n)e^{*}(n) www^(n+1)=www^(n)+μuuu(n)e∗(n)
where e ∗ ( n ) = d ∗ ( n ) − u H ( n ) w ( n ) ^ e^{*}(n)=d^{*}(n)-\pmb u^{H}(n)\hat{\pmb w(n)} e∗(n)=d∗(n)−uuuH(n)www(n)^​

与SD对应式比较:
w ( n + 1 ) = w ( n ) + μ E { u ( n ) e ∗ ( n ) } \pmb w(n+1)=\pmb w(n)+\mu E\{ \pmb u(n)e^{*}(n)\} www(n+1)=www(n)+μE{uuu(n)e∗(n)}
where e ∗ ( n ) = d ∗ ( n ) − u H ( n ) w ( n ) e^{*}(n)=d^{*}(n)-\pmb u^{H}(n)\pmb w(n) e∗(n)=d∗(n)−uuuH(n)www(n)
因此,差异在于将 E { u ( n ) e ∗ ( n ) } E\{\pmb u(n)e^{∗}(n)\} E{uuu(n)e∗(n)}估计为 u ( n ) e ∗ ( n ) \pmb u(n)e^{∗}(n) uuu(n)e∗(n)。这将导致梯度噪声。

2. Convergence analysis of the LMS

考虑更新方程:
w ^ ( n + 1 ) = w ^ ( n ) + μ u ( n ) e ∗ ( n ) \hat{\pmb w}(n+1)=\hat{\pmb w}(n)+\mu \pmb u(n)e^{*}(n) www^(n+1)=www^(n)+μuuu(n)e∗(n)
我们想知道在 J ( n ) J(n) J(n)和 w ( n ) ^ \hat{\pmb w(n)} www(n)^​方面,算法的收敛速度和收敛速度。

Strategy:

  1. 介绍滤波器权重误差向量 ϵ ( n ) = w ^ ( n ) − w o \epsilon(n)=\hat{\pmb w}(n)−\pmb w_o ϵ(n)=www^(n)−wwwo​。
  2. 用 ϵ ( n ) \epsilon (n) ϵ(n)表示更新方程。
  3. 同 ϵ ( n ) \epsilon (n) ϵ(n)表示 J ( n ) J(n) J(n)。其中涉及到 K ( n ) = E { ϵ ( n ) ϵ H ( n ) } \pmb K(n)=E\{\pmb \epsilon (n)\pmb \epsilon^{H}(n)\} KKK(n)=E{ϵϵϵ(n)ϵϵϵH(n)}。
  4. 计算 K ( n ) \pmb K(n) KKK(n)中的差分方程,它控制了收敛性。
  5. 从 K ( n ) \pmb K(n) KKK(n)到 X ( n ) \pmb X(n) XXX(n)进行变量变化,其收敛速度同样快。

2.1 The filter weight error vector

LMS包含反馈,就像SD一样,如果没有适当地选择步长µ,算法也存在发散的风险。为了研究其稳定性,引入了滤波器权重误差向量 ϵ ( n ) \epsilon (n) ϵ(n):
ϵ ( n ) = w ^ ( n ) − w o \pmb \epsilon (n)=\hat{\pmb w}(n)-\pmb w_o ϵϵϵ(n)=www^(n)−wwwo​
其中 w o = R − 1 p , W i e n e r − H o p f \pmb w_o=\pmb R^{-1}\pmb p,Wiener-Hopf wwwo​=RRR−1p​p​​p,Wiener−Hopf。

注意, ϵ ( n ) \epsilon (n) ϵ(n)对应于SD中的 c ( n ) = w ( n ) w − w o c(n)=\pmb w(n)w−\pmb w_o c(n)=www(n)w−wwwo​,但由于 w ^ ( n ) \hat{\pmb w}(n) www^(n), ϵ ( n ) \epsilon (n) ϵ(n)是随机的。

2.2 Update equation in ϵ ( n ) \epsilon (n) ϵ(n)

n+1时刻 ϵ ( n ) \epsilon (n) ϵ(n)的更新方程可以递归地表示为:
ϵ ( n ) = w ^ ( n ) − w o \epsilon (n)=\hat{\pmb w}(n)-\pmb w_o ϵ(n)=www^(n)−wwwo​

ϵ ( n + 1 ) = w ^ ( n + 1 ) − w o = w ^ ( n ) + μ u ( n ) e ∗ ( n ) − w o = ϵ ( n ) + μ u ( n ) [ d ∗ ( n ) − u H ( n ) w ( n ) ^ ] = ϵ ( n ) + μ u ( n ) [ d ∗ ( n ) − u H ( n ) w o − u H ( n ) ϵ ( n ) ] = [ I − μ u ( n ) u H ( n ) ] ϵ ( n ) + μ u ( n ) e o ∗ ( n ) \begin{aligned} \epsilon (n+1)&=\hat{\pmb w}(n+1)-\pmb w_o \\ &=\hat{\pmb w}(n)+\mu \pmb u(n)e^{*}(n)-\pmb w_o \\ &=\pmb \epsilon (n)+\mu \pmb u(n)[d^{*}(n)-\pmb u^{H}(n)\hat{\pmb w(n)}] \\ &=\pmb \epsilon (n)+\mu \pmb u(n)[d^{*}(n)-\pmb u^{H}(n)\pmb w_o-\pmb u^{H}(n)\pmb \epsilon (n)] \\ &=[\pmb I-\mu \pmb u(n)\pmb u^{H}(n)]\pmb \epsilon(n)+\mu \pmb u(n)e^{*}_{o}(n) \end{aligned} ϵ(n+1)​=www^(n+1)−wwwo​=www^(n)+μuuu(n)e∗(n)−wwwo​=ϵϵϵ(n)+μuuu(n)[d∗(n)−uuuH(n)www(n)^​]=ϵϵϵ(n)+μuuu(n)[d∗(n)−uuuH(n)wwwo​−uuuH(n)ϵϵϵ(n)]=[III−μuuu(n)uuuH(n)]ϵϵϵ(n)+μuuu(n)eo∗​(n)​
where u ( n ) e o ∗ ( n ) = d ∗ ( n ) − u H ( n ) w o \pmb u(n)e^{*}_{o}(n)=d^{*}(n)-\pmb u^{H}(n)\pmb w_o uuu(n)eo∗​(n)=d∗(n)−uuuH(n)wwwo​

与SD值相比:
c ( n ) = w ( n ) − w o \pmb c(n)=\pmb w(n)-\pmb w_o ccc(n)=www(n)−wwwo​
c ( n + 1 ) = w ( n ) + μ [ p − R w ( n ) ] − w o = c ( n ) + μ [ p − R w ( n ) ] = c ( n ) + μ [ R w o − R w ( n ) ] = c ( n ) + μ R [ w o − w ( n ) ] = c ( n ) − μ R c ( n ) = ( I − μ R ) c ( n ) \begin{aligned} \pmb c(n+1)&=\pmb w(n)+\mu[\pmb p-\pmb R\pmb w(n)]-\pmb w_o \\ &=\pmb c(n)+\mu[\pmb p-\pmb R\pmb w(n)] \\ &=\pmb c(n)+\mu [\pmb R\pmb w_o-\pmb R\pmb w(n)] \\ &=\pmb c(n)+\mu \pmb R[\pmb w_o-\pmb w(n)] \\ &=c(n)-\mu \pmb R c(n) \\ &=(\pmb I-\mu \pmb R)\pmb c(n) \end{aligned} ccc(n+1)​=www(n)+μ[p​p​​p−RRRwww(n)]−wwwo​=ccc(n)+μ[p​p​​p−RRRwww(n)]=ccc(n)+μ[RRRwwwo​−RRRwww(n)]=ccc(n)+μRRR[wwwo​−www(n)]=c(n)−μRRRc(n)=(III−μRRR)ccc(n)​

c ( n + 1 ) = ( I − μ R ) c ( n ) \pmb c(n+1)=(\pmb I-\mu \pmb R)\pmb c(n) ccc(n+1)=(III−μRRR)ccc(n)

2.3 Express J(n) in ϵ ( n ) \epsilon(n) ϵ(n)

LMS的收敛性分析要比SD的收敛性分析复杂得多。因此,需要两种假设(近似值)。

  • Independence theory
  • Direct-averaging method
2.3.1 Independence theory
  1. 不同时间的输入向量实例n,u(1),u(2),…,u(n),是相互独立的(因此不相关)。
  2. n时刻的输入信号向量与所有早期时刻的期望信号无关,u(n)独立于d(1),d(2),……,d(n−1)。
  3. 时间n、d(n)的期望信号独立于所有早期的期望信号,d(1)、d(2),…,d(n−1),但依赖于时间n、u(n)的输入信号向量。
  4. 同时出现瞬间n的信号d(n)和u(n)相互正态分布。
2.3.2 Direct-averaging

Direct-averaging意味着在更新方程中的 ϵ \epsilon ϵ,
ϵ ( n + 1 ) = [ I − μ u ( n ) u H ( n ) ] ϵ ( n ) + μ u ( n ) e o ∗ ( n ) \epsilon (n+1)=[\pmb I-\mu \pmb u(n)\pmb u^{H}(n)]\pmb \epsilon(n)+\mu \pmb u(n)e^{*}_{o}(n) ϵ(n+1)=[III−μuuu(n)uuuH(n)]ϵϵϵ(n)+μuuu(n)eo∗​(n)
瞬时估计 R ^ ( n ) = u ( n ) u H ( n ) \hat{\pmb R}(n)=\pmb u(n)\pmb u^{H}(n) RRR^(n)=uuu(n)uuuH(n)被期望集合 R = E { u ( n ) u H ( n ) } \pmb R=E\{\pmb u(n)\pmb u^{H}(n)\} RRR=E{uuu(n)uuuH(n)}取代:
ϵ ( n + 1 ) = [ I − μ R ] ϵ ( n ) + μ u ( n ) e o ∗ ( n ) \epsilon (n+1)=[\pmb I-\mu \pmb R]\pmb \epsilon(n)+\mu \pmb u(n)e^{*}_{o}(n) ϵ(n+1)=[III−μRRR]ϵϵϵ(n)+μuuu(n)eo∗​(n)

在SD中,我们有:
J ( n ) = J m i n + ( w − w o ) H R ( w − w o ) J(n)=J_{min}+(\pmb w-\pmb w_o)^{H}\pmb R(\pmb w-\pmb w_o) J(n)=Jmin​+(www−wwwo​)HRRR(www−wwwo​)
而R的特征值控制了收敛速度。

对于LMS来说, ϵ ( n ) = w ^ ( n ) − w o \pmb \epsilon (n)=\hat{\pmb w}(n)-\pmb w_o ϵϵϵ(n)=www^(n)−wwwo​
J ( n ) = E { ∣ e ( n ) ∣ 2 } = E { ∣ d ( n ) − w ^ H u ( n ) ∣ 2 } = E { ∣ e o ( n ) − ϵ H u ( n ) ∣ 2 } = i E { ∣ e o ( n ) ∣ 2 } + E { ϵ H ( n ) u ( n ) u H ( n ) ϵ ( n ) } \begin{aligned} J(n)&=E\{|e(n)|^{2}\}=E\{|d(n)-\hat{\pmb w}^{H}u(n)|^2\} \\ &=E\{|e_o(n)-\pmb \epsilon^{H}u(n)|^2\} \\ &=^{i}E\{|e_o(n)|^{2}\}+E\{\pmb \epsilon^{H} (n)\pmb u(n)\pmb u^{H}(n)\pmb \epsilon (n)\} \end{aligned} J(n)​=E{∣e(n)∣2}=E{∣d(n)−www^Hu(n)∣2}=E{∣eo​(n)−ϵϵϵHu(n)∣2}=iE{∣eo​(n)∣2}+E{ϵϵϵH(n)uuu(n)uuuH(n)ϵϵϵ(n)}​
这里,(i)表示使用了独立性假设。由于 ϵ \pmb \epsilon ϵϵϵ和 R ^ \hat{\pmb R} RRR^是估计值,而且不是独立的,所以期望算子不能平移到里面。

J e x ( n ) = J ( n ) − J m i n = E ϵ H ( n ) R ^ ( n ) ϵ ( n ) J_{ex}(n)=J(n)−J_{min}=E{\pmb \epsilon^{H}(n)\hat{\pmb R}(n)\pmb \epsilon(n)} Jex​(n)=J(n)−Jmin​=EϵϵϵH(n)RRR^(n)ϵϵϵ(n)的行为决定了收敛性。
下面简述一下需要用的性质:

  1. t r ( s c a l a r ) = s c a l a r tr(scalar)=scalar tr(scalar)=scalar
  2. t r ( A B ) = t r ( B A ) tr(\pmb A\pmb B)=tr(\pmb B\pmb A) tr(AAABBB)=tr(BBBAAA)
  3. E { t r ( A ) } = t r ( E { A } ) E\{tr(\pmb A)\}=tr(E\{\pmb A\}) E{tr(AAA)}=tr(E{AAA})

J e x ( n ) J_{ex}(n) Jex​(n)可以被重写为:
J e x ( n ) = E { t r [ R ^ ( n ) ϵ ( n ) ϵ H ( n ) ] } = t r [ E { R ^ ( n ) ϵ ( n ) ϵ H ( n ) } ] = t r [ E { R ^ ( n ) } E { ϵ ( n ) ϵ H ( n ) } ] = t r [ R K ( n ) ] \begin{aligned} J_{ex}(n)&=E\{tr[\hat{\pmb R}(n)\pmb \epsilon(n)\pmb \epsilon^{H}(n)]\} \\ &=tr[E\{\hat{\pmb R}(n)\pmb \epsilon(n)\pmb \epsilon^{H}(n)\}] \\ &=tr[E\{\hat{\pmb R}(n)\}E\{\pmb \epsilon(n)\pmb \epsilon^{H}(n)\}] \\ &=tr[\pmb R\pmb K(n)] \end{aligned} Jex​(n)​=E{tr[RRR^(n)ϵϵϵ(n)ϵϵϵH(n)]}=tr[E{RRR^(n)ϵϵϵ(n)ϵϵϵH(n)}]=tr[E{RRR^(n)}E{ϵϵϵ(n)ϵϵϵH(n)}]=tr[RRRKKK(n)]​
收敛性取决于: K ( n ) = E { ϵ ( n ) ϵ H ( n ) } \pmb K(n)=E\{\pmb \epsilon(n)\pmb \epsilon^{H}(n)\} KKK(n)=E{ϵϵϵ(n)ϵϵϵH(n)}

2.4 Difference equation of K ( n ) \pmb K(n) KKK(n)

滤波器权重误差的更新方程为,如前所示:
ϵ ( n + 1 ) = [ I − μ u ( n ) u H ( n ) ] ϵ ( n ) + μ u ( n ) e o ∗ ( n ) \epsilon (n+1)=[\pmb I-\mu \pmb u(n)\pmb u^{H}(n)]\pmb \epsilon(n)+\mu \pmb u(n)e^{*}_{o}(n) ϵ(n+1)=[III−μuuu(n)uuuH(n)]ϵϵϵ(n)+μuuu(n)eo∗​(n)
这个随机差分方程的解是对于小的 µ µ µ接近于对的解(由Direct-averaging):
ϵ ( n + 1 ) = [ I − μ R ] ϵ ( n ) + μ u ( n ) e o ∗ ( n ) \epsilon (n+1)=[\pmb I-\mu \pmb R]\pmb \epsilon(n)+\mu \pmb u(n)e^{*}_{o}(n) ϵ(n+1)=[III−μRRR]ϵϵϵ(n)+μuuu(n)eo∗​(n)
这个方程仍然很难求解,但是现在K(n)的行为可以用下面的差分方程来描述:
K ( n + 1 ) = ( I − μ R ) K ( n ) ( I − μ R ) + μ 2 J m i n R \pmb K(n+1)=(\pmb I-\mu \pmb R)\pmb K(n)(\pmb I-\mu \pmb R)+\mu^2J_{min}\pmb R KKK(n+1)=(III−μRRR)KKK(n)(III−μRRR)+μ2Jmin​RRR

2.5 Changing of variables from K ( n ) \pmb K(n) KKK(n) to X ( n ) \pmb X(n) XXX(n)

我们运用正交分解:
Q H R Q = Λ \pmb Q^{H}\pmb R \pmb Q=\pmb \Lambda Q​Q​​QHRRRQ​Q​​Q=ΛΛΛ
同时我们假设:
Q H K ( n ) Q = X ( n ) \pmb Q^{H}\pmb K(n) \pmb Q=\pmb X(n) Q​Q​​QHKKK(n)Q​Q​​Q=XXX(n)
其中 Λ \pmb Λ ΛΛΛ是 R \pmb R RRR的对角特征值矩阵,其中 X ( n ) \pmb X(n) XXX(n)通常不是对角的,得到:
J e x ( n ) = t r ( R K ( n ) ) = t r ( Λ X ( n ) ) J_{ex}(n)=tr(\pmb R\pmb K(n))=tr(\pmb \Lambda \pmb X(n)) Jex​(n)=tr(RRRKKK(n))=tr(ΛΛΛXXX(n))

由 K ( n ) \pmb K(n) KKK(n)表示 X ( n ) \pmb X(n) XXX(n):
X ( n + 1 ) = ( I − μ Λ ) X ( n ) ( I − μ Λ ) + μ 2 J m i n Λ \pmb X(n+1)=(\pmb I-\mu \pmb \Lambda)\pmb X(n)(\pmb I-\mu \pmb \Lambda)+\mu^2J_{min}\pmb \Lambda XXX(n+1)=(III−μΛΛΛ)XXX(n)(III−μΛΛΛ)+μ2Jmin​ΛΛΛ

J e x ( n ) J_{ex}(n) Jex​(n)仅依赖于 X ( n ) X(n) X(n)的对角线元素(因为跟踪 t r ( Λ X ( n ) ] tr(ΛX(n)] tr(ΛX(n)])。因此,我们可以编写 J e x ( n ) = ∑ i = 1 M λ i x i i ( n ) J_{ex}(n)=\sum \limits_{i=1}^{M}λ_ix_{ii}(n) Jex​(n)=i=1∑M​λi​xii​(n)。
对角线元素的更新是由:
x i ( n + 1 ) = ( 1 − μ λ i ) 2 x i ( n ) + μ 2 J m i n λ i x_i(n+1)=(1-\mu \lambda_i)^2x_i(n)+\mu^2J_{min} \lambda_i xi​(n+1)=(1−μλi​)2xi​(n)+μ2Jmin​λi​

这是一个非均匀差分方程。这意味着将包含一个瞬态部分,以及一个依赖于Jmin和µ的静止部分。因此,可以编写成本函数:
J ( n ) = J m i n + J e x ( ∞ ) + J t r a n s ( n ) J(n)=J_{min}+J_{ex}(\infty)+J_{trans}(n) J(n)=Jmin​+Jex​(∞)+Jtrans​(n)

其中 J m i n + J e x ( ∞ ) o c h J t r a n s ( n ) J_{min}+J_{ex}(\infty) och J_{trans}(n) Jmin​+Jex​(∞)ochJtrans​(n)分别是是平稳的和瞬态的。
最好的情况是,LMS达到 J m i n + J e x ( ∞ ) J_{min}+J_{ex}(\infty) Jmin​+Jex​(∞)。

2.5 LMS的一些性质
  • 关于learning rate的限制同SD:
    0 < μ < 2 λ m a x 0<\mu<\frac{2}{\lambda_{max}} 0<μ<λmax​2​
  • J e x ( ∞ ) = J m i n ∑ i = 1 M μ λ i 2 − μ λ i J_{ex}(\infty)=J_{min}\sum \limits_{i=1}^{M}\frac{\mu \lambda_i}{2-\mu \lambda_i} Jex​(∞)=Jmin​i=1∑M​2−μλi​μλi​​
    Proof:
    J e x ( n ) = ∑ i = 1 M λ i x i i ( n ) J e x ( n + 1 ) = ∑ i = 1 M λ i x i i ( n + 1 ) = ∑ i = 1 M λ i [ ( 1 − μ λ i ) 2 x i ( n ) + μ 2 J m i n λ i ] = ∑ i = 1 M λ i [ ( 1 − μ λ i ) n x i ( 1 ) + μ 2 J m i n λ i ( 1 + ( 1 − μ λ i ) 2 + ( 1 − μ λ i ) 4 + . . . + ( 1 − μ λ i ) 2 ( n − 1 ) ) ] \begin{aligned} J_{ex}(n)&=\sum \limits_{i=1}^{M}λ_ix_{ii}(n) \\ J_{ex}(n+1)&=\sum \limits_{i=1}^{M}λ_ix_{ii}(n+1) \\ &=\sum \limits_{i=1}^{M}λ_i[(1-\mu \lambda_i)^2x_i(n)+\mu^2J_{min} \lambda_i] \\ &=\sum \limits_{i=1}^{M}λ_i[(1-\mu \lambda_i)^{n}x_i(1)+\mu^2J_{min} \lambda_i(1+(1-\mu \lambda_i)^2+(1-\mu \lambda_i)^4+...+(1-\mu \lambda_i)^{2(n-1)})] \end{aligned} Jex​(n)Jex​(n+1)​=i=1∑M​λi​xii​(n)=i=1∑M​λi​xii​(n+1)=i=1∑M​λi​[(1−μλi​)2xi​(n)+μ2Jmin​λi​]=i=1∑M​λi​[(1−μλi​)nxi​(1)+μ2Jmin​λi​(1+(1−μλi​)2+(1−μλi​)4+...+(1−μλi​)2(n−1))]​
    所以:
    J e x ( ∞ ) = lim ⁡ n − > ∞ ∑ i = 1 M λ i [ ( 1 − μ λ i ) n x i ( 1 ) + μ 2 J m i n λ i ( 1 + ( 1 − μ λ i ) 2 + ( 1 − μ λ i ) 4 + . . . + ( 1 − μ λ i ) 2 ( n − 1 ) ) ] = J m i n ∑ i = 1 M μ λ i 2 − μ λ i \begin{aligned} J_{ex}(\infty)&=\lim \limits_{n->\infty}\sum \limits_{i=1}^{M}λ_i[(1-\mu \lambda_i)^{n}x_i(1)+\mu^2J_{min} \lambda_i(1+(1-\mu \lambda_i)^2+(1-\mu \lambda_i)^4+...+(1-\mu \lambda_i)^{2(n-1)})] \\ &=J_{min}\sum \limits_{i=1}^{M}\frac{\mu \lambda_i}{2-\mu \lambda_i} \end{aligned} Jex​(∞)​=n−>∞lim​i=1∑M​λi​[(1−μλi​)nxi​(1)+μ2Jmin​λi​(1+(1−μλi​)2+(1−μλi​)4+...+(1−μλi​)2(n−1))]=Jmin​i=1∑M​2−μλi​μλi​​​
  • M = J J e x ( ∞ ) J m i n M=J\frac{J_{ex}(\infty)}{J_{min}} M=JJmin​Jex​(∞)​是衡量最优解与LMS(均方意义上)的距离.

3. Rules of thumb LMS

R \pmb R RRR的各个特征值很少被知道,但是特征值的和却可以用平均功率描述。因此,通常使用一套拇指规则,即基于输入功率:
∑ k = 0 M − 1 E { ∣ u ( n − k ) ∣ 2 } = M r ( 0 ) = t r ( R ) \sum \limits_{k=0}^{M-1}E\{|u(n-k)|^2\}=Mr(0)=tr(\pmb R) k=0∑M−1​E{∣u(n−k)∣2}=Mr(0)=tr(RRR)

  • Stepsize 0 < μ < 2 ∑ k = 0 M − 1 E { ∣ u ( n − k ) ∣ 2 } 0<\mu<\frac{2}{\sum \limits_{k=0}^{M-1}E\{|u(n-k)|^2\}} 0<μ<k=0∑M−1​E{∣u(n−k)∣2}2​
  • M ≈ μ 2 ∑ k = 0 M − 1 E { ∣ u ( n − k ) ∣ 2 } \pmb M \approx \frac{\mu}{2}\sum \limits_{k=0}^{M-1}E\{|u(n-k)|^2\} MMM≈2μ​k=0∑M−1​E{∣u(n−k)∣2} ( μ λ i \mu \lambda_i μλi​忽略不计)
  • 平均时间常数: τ m s e , a v ≈ 1 2 μ λ a v \tau_{mse,av}\approx \frac{1}{2\mu \lambda_{av}} τmse,av​≈2μλav​1​
    λ a v = 1 M ∑ k = 1 M λ i \lambda_{av}=\frac{1}{M}\sum \limits_{k=1}^{M}\lambda_i λav​=M1​k=1∑M​λi​
  • M \pmb M MMM与 τ m s e , a v \tau_{mse,av} τmse,av​的关系:
    M ≈ M 4 τ m s e , a v \pmb M\approx \frac{M}{4\tau_{mse,av}} MMM≈4τmse,av​M​

这里, τ m s e , a v \tau_{mse,av} τmse,av​表示J(n)衰减e−1因子所需的时间。

4. Summary

  1. 设置过滤器系数的起始值, w ^ ( 0 ) \hat{\pmb w}(0) www^(0)
  2. 计算误差 e ∗ ( n ) = d ( n ) − u H ( n ) w o ^ \pmb e^{*}(n)=d(n)-\pmb u^{H}(n)\hat{\pmb w_o} eee∗(n)=d(n)−uuuH(n)wwwo​^​
  3. 更新滤波器系数 w ^ ( n + 1 ) = w ^ ( n ) + μ u ( n ) [ d ( n ) − u H ( n ) w o ^ ] \hat{\pmb w}(n+1)=\hat{\pmb w}(n)+\mu \pmb u(n)[d(n)-\pmb u^{H}(n)\hat{\pmb w_o}] www^(n+1)=www^(n)+μuuu(n)[d(n)−uuuH(n)wwwo​^​]
  4. 重复步骤2和步骤3

Least Mean Squares Regression(二)相关推荐

  1. R构建加权最小二乘回归模型(Weighted Least Squares Regression)

    R构建加权最小二乘回归模型(Weighted Least Squares Regression) 目录 R构建加权最小二乘回归模型(Weighted Least Squares Regression)

  2. 偏最小二乘法回归(Partial Least Squares Regression)

    1. 问题 这节我们请出最后的有关成分分析和回归的神器PLSR.PLSR感觉已经把成分分析和回归发挥到极致了,下面主要介绍其思想而非完整的教程.让我们回顾一下最早的Linear Regression的 ...

  3. 交叉熵损失函数分类_逻辑回归(Logistic Regression)二分类原理,交叉熵损失函数及python numpy实现...

    本文目录: 1. sigmoid function (logistic function) 2. 逻辑回归二分类模型 3. 神经网络做二分类问题 4. python实现神经网络做二分类问题 ----- ...

  4. 偏最小二乘回归(partial least squares regression,PLSR)

    参考博客:典型相关分析.偏最小二乘回归 给定数据自变量XXX和因变量YYY, 最小二乘回归:找的是一个线性变换AAA,让∥Y−XA∥F\|Y - XA\|_F∥Y−XA∥F​最小 典型相关分析:找的是 ...

  5. 线性回归(Linear Regression)和最小二乘法(ordinary least squares)

    下面是对Andrew Ng的CS229机器学习课程讲义note1做的一部分笔记,按照自己的理解,对note1进行部分翻译,英文水平和知识水平不够,很多认识都不够深刻或者正确,请大家不吝赐教! 一.基本 ...

  6. 机器学习之二:回归分析

    机器学习之二:回归分析 如果想了解更多的知识,可以去我的机器学习之路 The Road To Machine Learning通道 1. 基本概念 我们首先了解一下关于回归的基本概念. 因变量(dep ...

  7. 统计学习导论 Chapter3--Linear Regression

    Book: An Introduction to Statistical Learning with Applications in R http://www-bcf.usc.edu/~gareth/ ...

  8. 【李宏毅机器学习】02:回归Regression

    李宏毅机器学习02:回归Regression 文章目录 李宏毅机器学习02:回归Regression 一.回归(Regression)的定义 1.Regression: Output a scalar ...

  9. 分位数回归(Quantile Regression)代码解析

    实验代码 本文采用python sklearn库中,作为quantile regression的示例代码.以下为详细解析: import numpy as np import matplotlib.p ...

最新文章

  1. 清华北大浙大大学开放课程
  2. CentOS安装jdk的三种方法
  3. markdown编辑器语法——背景色
  4. POJ 3051 DFS
  5. 适合python爬虫使用的浏览器_python爬虫:使用Selenium模拟浏览器
  6. php动态+trait,详解PHP神奇又有用的Trait
  7. 关于USB-AUDIO使用ALSA编程的一点问题
  8. linux验证db2安装成功_DB2(Linux 64位)安装教程
  9. NSTimer里的userInfo
  10. 【PostgreSQL-9.6.3】函数(3)--日期和时间函数
  11. HTML显示波形,CSS3波形loading动画特效
  12. Windows下载FFmpeg最新版(踩了一上午的坑终于成功)
  13. java实现身份证识别
  14. Centos7 下载安装Redis
  15. postman安装后闪退
  16. python中__init_subclass__方法用法详解
  17. 余文乐结婚,杜蕾斯文案炸了!
  18. 掘金技术社区沸点指南(试行版)
  19. 计算机中的信息表示教学计划,人教版小学五年级信息技术教学计划(小编推荐)...
  20. svn 合并分支 idea

热门文章

  1. 小玩意.包含全国省市区街道邮编的数据库
  2. mysql插入栏位语句_情人节福利,手把手教你学会mysql语句操作
  3. execlp使用例子_execlp函数使用
  4. linux截取字符串函数,Linux下实现字符串截取方法总结
  5. Swift基础入门知识学习(7)-字典-讲给你懂
  6. 12 | 生成秘钥对
  7. 图文详解jvm中的线程状态
  8. Sql Server实现limit用法
  9. 超简单的待办事项列表管理器todo
  10. 女友遭遇职场不公?程序员怒怼女友领导后替女友辞职!网友:你凭什么替她做决定?...