线性估计 BLUE

文章目录

  • 线性估计 BLUE
    • 1. 问题引入
    • 2. 问题求解
      • 2.1 线性拟合的方法进行参数求解
        • 2.1.1 目标函数的确立
        • 2.1.2 梯度的性质
        • 2.1.3 目标函数的求解
      • 2.2 最小方差无偏估计进行参数求解
      • 2.3 最优线性无偏估计进行参数求解
        • 2.3.1 标量的最优线性无偏估计 BLUE
          • 2.3.1.1 问题阐述
          • 2.3.1.2 BLUE与MVUE区别
          • 2.3.1.3 参数求解
          • 2.3.1.4 噪声对估计结果的影响
            • (1)假设噪声的协方差矩阵是 σ^2I
            • (2)假设噪声的协方差矩阵是 diag(σ~1~^2^,...,σ~n~^2^)
            • (3)假设噪声的协方差矩阵是 I
          • 2.3.1.5 最优线性无偏估计的小结
        • 2.3.2 矢量的最优线性无偏估计 BLUE
          • 2.3.2.1 结果类比
          • 2.3.2.2 限定条件计算
          • 2.3.2.3 优化条件
          • 2.3.2.4 证明
        • 2.3.3 随机变量的最优线性无偏估计 BLUE
          • 2.3.3.1 一个随机变量对另一个随机变量做线性估计
          • 2.3.3.2 一组随机变量对另一个随机变量做线性估计
        • 2.3.4 随机过程的最优线性无偏估计 BLUE
    • 3. 总结

1. 问题引入

  在之前的章节中,我们引入了克拉美罗界CRLB,用来评估使用最小方差无偏估计MVUE能够达到什么程度。在这之后,我们希望能够找到一些简单好用的方法,能够对数据进行估计。其中历史最悠久,使用最广泛的,就是线性估计了。

  我们提出这样一个问题,下面这条曲线,是一组随时间变化的数据形成的,我们如何估计这条曲线的表达式呢?

  我们观测的对象,其实由两部分组成,一部分是由其内部机制引起的数据变化,另一部分是由于噪声引起的数据变化。我们希望能够得到这组数据背后的变化规律,因此我们要对他进行估计。通过直觉,我们感觉这是一条直线,因此我们建立如下模型,进行参数估计

  按理来说,直线的模型是,其中A和B是需要估计的参数

Z ( t ) = A + B t Z(t) = A +Bt Z(t)=A+Bt

  但是实际上,我们的数据是包含噪声的,因此,我们在直线的基础上叠加一个随机噪声

Z ( t ) = A + B t + N ( t ) Z(t) = A +Bt +N(t) Z(t)=A+Bt+N(t)

  我们对Z进行采样。其中\Delta t是采样间隔,得到以下的数据

Z 1 , . . . , Z n Z k = A + B ∗ k ∗ Δ t + N k , N k = N ( k Δ t ) Z_1,...,Z_n \quad \quad Z_k = A + B*k*\Delta t +N_k ,\quad N_k = N(k\Delta t) Z1​,...,Zn​Zk​=A+B∗k∗Δt+Nk​,Nk​=N(kΔt)

  这样我们就有了一个模型,这是一个典型的线性模型。我们可以有很多种求解方法。下面,我们将采用不同思路进行线性模型的估计

2. 问题求解

2.1 线性拟合的方法进行参数求解

2.1.1 目标函数的确立

  首先我们用线性拟合的方式进行求解,先把已知条件抄下来

Z 1 , . . . , Z n Z k = A + B ∗ k ∗ Δ t + N k , N k = N ( k Δ t ) Z_1,...,Z_n \quad \quad Z_k = A + B*k*\Delta t +N_k ,\quad N_k = N(k\Delta t) Z1​,...,Zn​Zk​=A+B∗k∗Δt+Nk​,Nk​=N(kΔt)

  我们在每个点计算模型与采样之间的误差,然后把误差加在一起。这是一个与A和B都有关的函数
∑ k = 1 n ( Z k − A − B ∗ k ∗ Δ t ) 2 ∼ g ( A , B ) \sum _{k=1}^n(Z_k -A -B*k*\Delta t)^2 \sim g(A,B) k=1∑n​(Zk​−A−B∗k∗Δt)2∼g(A,B)

  我们进行最优估计的原则就是,我们要让数据点与模型垂直距离的平方和最小

= > m i n [ g ( A , B ) ] => min [g(A,B)] =>min[g(A,B)]

  直接从平方和开始计算非常麻烦,我们用更加流行的方法,我们这个模型变成向量的形式进行表示

  • 采样数据Z的表示

Z = ( Z 1 , . . . Z n ) T Z = (Z_1,...Z_n)^T Z=(Z1​,...Zn​)T

  • 估计量θ的表示

θ = ( A , B ) T \theta = (A,B)^T θ=(A,B)T

  • 矩阵H的表示

  假设H是一个nx2矩阵

H ∈ R n x 2 H = ( 1 Δ t . . . . . . 1 n Δ t ) H \in R^{nx2} \\ H=\begin{pmatrix} 1 & \Delta t \\ ... & ... \\ 1 & n \Delta t \end{pmatrix} H∈Rnx2H=⎝⎛​1...1​Δt...nΔt​⎠⎞​

  • 噪声N的表示

N = ( N 1 , . . . , N n ) T N = (N_1,...,N_n)^T N=(N1​,...,Nn​)T

  我们对模型进行向量化表示

Z = H θ + N ( 1 ) Z = H \theta +N \quad\quad\quad(1) Z=Hθ+N(1)
  目标函数也进行向量化表示

g ( θ ) = ( Z − H θ ) T ( Z − H θ ) ( 2 ) g(\theta) = (Z-H\theta)^T (Z-H\theta) \quad\quad\quad(2) g(θ)=(Z−Hθ)T(Z−Hθ)(2)
g ( θ ) = Z T ∗ Z − θ T H T Z − Z T H θ + θ T H T H θ ( 3 ) g(\theta) = Z^T*Z - \theta^TH^TZ - Z^T H\theta+\theta^TH^TH\theta \quad\quad\quad(3) g(θ)=ZT∗Z−θTHTZ−ZTHθ+θTHTHθ(3)

2.1.2 梯度的性质

  因为我们需要用到矢量求梯度的性质,这里引入一些性质

  矢量求梯度的结果。假设h是θ的函数,h是个矩阵或者矢量都行,则对其求梯度,结果就是其雅克比行列式

∇ θ ( h ( θ ) ) = ( ∂ h 1 ∂ θ 1 . . . ∂ h 1 ∂ θ n . . . . . . . . . ∂ h m ∂ θ 1 . . . ∂ h m ∂ θ n ) \nabla_{\theta}(h(\theta)) = \begin{pmatrix} \frac{\partial h_1}{\partial \theta _1} & ...&\frac{\partial h_1}{\partial \theta _n} \\ ... & ... &... \\ \frac{\partial h_m}{\partial \theta _1} & ... & \frac{\partial h_m}{\partial \theta _n} \end{pmatrix} ∇θ​(h(θ))=⎝⎛​∂θ1​∂h1​​...∂θ1​∂hm​​​.........​∂θn​∂h1​​...∂θn​∂hm​​​⎠⎞​
  因此有下式子成立

∇ θ ( θ T A ) = A \nabla_{\theta}(\theta^TA) = A ∇θ​(θTA)=A

∇ θ ( A θ ) = A T \nabla_{\theta}(A \theta) = A^T ∇θ​(Aθ)=AT

∇ θ ( θ T ∗ A ∗ θ ) = ( A + A T ) θ \nabla_{\theta}(\theta^T * A*\theta) = (A+A^T)\theta ∇θ​(θT∗A∗θ)=(A+AT)θ

2.1.3 目标函数的求解

  在了解了矢量的梯度的性质以后,我们继续求解目标函数

  我们如果想要得到目标函数的最小值,就要另目标函数导数为0。这里实际上就是求的梯度

( ∂ g ∂ A , ∂ g ∂ B ) T = ∇ θ (\frac{\partial g}{\partial A } , \frac{\partial g}{\partial B } )^T = \nabla _{\theta} (∂A∂g​,∂B∂g​)T=∇θ​
   我们分析一下这个式子
g ( θ ) = Z T ∗ Z − θ T H T Z − Z T H θ + θ T H T H θ ( 3 ) g(\theta) = Z^T*Z - \theta^TH^TZ - Z^T H\theta+\theta^TH^TH\theta \quad\quad\quad(3) g(θ)=ZT∗Z−θTHTZ−ZTHθ+θTHTHθ(3)

  这个式子有四项,第一项与θ无关,求梯度为0,后面的三项其实都是标量,对标量求梯度,得到的是矢量。并且后面的三项利用2.1.2中给的公式可以求,因此,求梯度可得
∇ θ g ( θ ) = − ∇ θ ( θ T H T Z ) − ∇ θ ( Z T H θ ) + ∇ θ ( θ T H T H θ ) − 2 ( H T Z ) + ( 2 H T H ) θ \nabla _{\theta}g(\theta) = - \nabla_{\theta}(\theta^TH^TZ)- \nabla_{\theta}(Z^T H\theta) \\+ \nabla_{\theta}(\theta^TH^TH\theta) -2(H^TZ) + (2H^TH)\theta ∇θ​g(θ)=−∇θ​(θTHTZ)−∇θ​(ZTHθ)+∇θ​(θTHTHθ)−2(HTZ)+(2HTH)θ

  根据梯度为0可得
∇ θ g ( θ ) = − 2 ( H T Z ) + 2 ( H T H ) θ = 0 \nabla _{\theta}g(\theta) = -2(H^TZ) + 2(H^TH)\theta =0 ∇θ​g(θ)=−2(HTZ)+2(HTH)θ=0

( H T H ) θ = H T Z θ = ( H T H ) − 1 ( H T Z ) (H^TH)\theta = H^TZ \\ \theta = (H^TH)^{-1}(H^TZ) (HTH)θ=HTZθ=(HTH)−1(HTZ)

  这个结果最早是由Gauss做出的,叫做最小二乘

  最小二乘的前提HTH必须是可逆的,如果H的列矢量只差常数倍,则HTH就不可

2.2 最小方差无偏估计进行参数求解

  在使用线性拟合进行求解的时候,我们完全没有用到噪声的信息,现在我们开始看看噪声会对估计产生什么影响。

  使用最小方差无偏估计的时候,需要计算克拉美罗下界,第一步就要求解模型的联合分布,因此,计算克拉美罗下界的是有前提的,就是我们要知道模型的准确分布是什么样子的

  在这里,我们假定噪声服从高斯分布

Z 1 , . . . , Z n − > Z k = A + B ∗ k ∗ Δ t + N k N k ∼ N ( 0 , σ 2 I ) Z_1,...,Z_n -> Z_k = A + B*k*\Delta t +N_k \\ N_k \sim N(0,\sigma^2 I) Z1​,...,Zn​−>Zk​=A+B∗k∗Δt+Nk​Nk​∼N(0,σ2I)

  这里我们依旧使用向量模型

Z = H θ + N Z = H \theta +N Z=Hθ+N

  求一下克拉美罗下界

  • step1:先写分布

f ( Z 1 , . . . , Z n ) = ( 1 2 ∗ π σ ) n e x p ( − 1 2 σ 2 ( Z − H θ ) T ( Z − H θ ) ) f(Z_1,...,Z_n) =(\frac{1}{\sqrt{2*\pi}\sigma})^nexp(-\frac{1}{2\sigma^2}(Z-H\theta)^T(Z-H\theta)) f(Z1​,...,Zn​)=(2∗π ​σ1​)nexp(−2σ21​(Z−Hθ)T(Z−Hθ))

  • step2: 求对数

l n f ( Z 1 , . . . , Z n ) = − n l n ( 2 ∗ π σ ) − 1 2 σ 2 ( Z − H θ ) T ( Z − H θ ) lnf(Z_1,...,Z_n)=-nln(\sqrt{2*\pi}\sigma)-\frac{1}{2\sigma^2}(Z-H\theta)^T(Z-H\theta) lnf(Z1​,...,Zn​)=−nln(2∗π ​σ)−2σ21​(Z−Hθ)T(Z−Hθ)

  • setp3: 求导数

  如果是个多元函数求克拉美罗下界,导数就用梯度代替

∇ θ l n f ( Z 1 , . . . , Z n ) = H T Z − H T H θ σ 2 ( i ) \nabla _{\theta}lnf(Z_1,...,Z_n)=\frac{H^TZ- H^TH\theta}{\sigma^2} \quad\quad\quad(i) ∇θ​lnf(Z1​,...,Zn​)=σ2HTZ−HTHθ​(i)

  • step4:求fisher信息量

  这里我们换一种更加快速的方法来进行后续的求解。

  我们知道克拉美罗下界等号是可能取到也可能取不到的,那么,不等式等号成立的条件是什么呢?

  因为克拉美罗下界不等号是从柯西不等式来的,所以,我们只要知道了柯西不等式等号成立条件,我们就可以知道克拉美罗下界等号什么时候成立了

  柯西不等式的成立条件是f(x)与g(x)线性相关

∫ f ( x ) g ( x ) ≤ ( ∫ f 2 ( x ) d x ) 1 2 ( ∫ g 2 ( x ) d x ) 1 2 " = " = > f ( x ) = α g ( x ) \int f(x)g(x) \leq (\int f^2(x)dx)^{\frac{1}{2}}(\int g^2(x)dx)^{\frac{1}{2}} \\"=" =>f(x) = \alpha g(x) ∫f(x)g(x)≤(∫f2(x)dx)21​(∫g2(x)dx)21​"="=>f(x)=αg(x)

  即

( θ ^ − θ ) f ( x , θ ) = α [ ∂ ∂ θ l n f ( x , θ ) ] ∗ f ( x , θ ) (\hat \theta-\theta )\sqrt{f(x,\theta)}=\alpha[\frac{\partial}{\partial \theta }lnf(x,\theta)]* \sqrt{f(x,\theta)} (θ^−θ)f(x,θ) ​=α[∂θ∂​lnf(x,θ)]∗f(x,θ) ​

  左右两边的根号是可以消掉的

( θ ^ − θ ) = α [ ∂ ∂ θ l n f ( x , θ ) ] (\hat \theta-\theta )=\alpha[\frac{\partial}{\partial \theta }lnf(x,\theta)] (θ^−θ)=α[∂θ∂​lnf(x,θ)]

  这个常量α要与积分变量x无关,但是可以与θ有关
( θ ^ − θ ) = k ( θ ) [ ∂ ∂ θ l n f ( x , θ ) ] (\hat \theta-\theta )=k(\theta)[\frac{\partial}{\partial \theta }lnf(x,\theta)] (θ^−θ)=k(θ)[∂θ∂​lnf(x,θ)]

  注意里面谁的变量,θ是确切的值,没有随机性。\hat θ是对采样值的处理,因为采样值是随机变量,因此\hat θ是随机变量。 x是信号,也是随机变量。因为k必定与随机变量x无关,所以没有随机性。

  我们两边同时取期望的平方。

E [ ( θ ^ − θ ) 2 ] = k ( θ ) 2 E [ ( ∂ ∂ θ l n f ( x , θ ) ) 2 ] E [ ( θ ^ − θ ) 2 ] = k ( θ ) 2 I ( θ ) V a r ( θ ^ ) = k ( θ ) 2 I ( θ ) E[(\hat \theta-\theta )^2]=k(\theta)^2E[(\frac{\partial}{\partial \theta }lnf(x,\theta))^2] \\ E[(\hat \theta-\theta )^2]=k(\theta)^2I(\theta) \\ Var(\hat \theta)=k(\theta)^2I(\theta) E[(θ^−θ)2]=k(θ)2E[(∂θ∂​lnf(x,θ))2]E[(θ^−θ)2]=k(θ)2I(θ)Var(θ^)=k(θ)2I(θ)

  因为克拉美罗的方差下界就是fisher信息量的逆,所以

V a r ( θ ^ ) = 1 I ( θ ) = k ( θ ) 2 I ( θ ) Var(\hat \theta) = \frac{1}{I(\theta)} = k(\theta)^2I(\theta) Var(θ^)=I(θ)1​=k(θ)2I(θ)

  可得

k ( θ ) = 1 I ( θ ) k(\theta) = \frac{1}{I(\theta)} k(θ)=I(θ)1​

  因此得到了一个小结论,克拉美罗下界等号成立条件是

[ ∂ ∂ θ l n f ( x , θ ) ] = I ( θ ) ( θ ^ − θ ) ( i i ) [\frac{\partial}{\partial \theta }lnf(x,\theta)]=I(\theta)(\hat \theta-\theta ) \quad\quad\quad(ii) [∂θ∂​lnf(x,θ)]=I(θ)(θ^−θ)(ii)

   把(i)代入(ii)中

∇ θ l n f ( z , θ ) = H T Z − H T H θ σ 2 = H T H σ 2 ( ( H T H ) − 1 H T Z − θ ) = I ( θ ) ( θ ^ − θ ) \nabla _{\theta}lnf(z,\theta)=\frac{H^TZ- H^TH\theta}{\sigma^2} =\frac{H^TH}{\sigma^2}((H^TH)^{-1}H^TZ-\theta)=I(\theta)(\hat \theta-\theta ) ∇θ​lnf(z,θ)=σ2HTZ−HTHθ​=σ2HTH​((HTH)−1HTZ−θ)=I(θ)(θ^−θ)

  我们可以得到两个结论

  • 找到了MVUE

θ ^ ( z ) = ( H T H ) − 1 H T Z \hat \theta(z)=(H^TH)^{-1}H^TZ θ^(z)=(HTH)−1HTZ

  • 找到了fisher信息量

I ( θ ) = H T H σ 2 I(\theta)=\frac{H^TH}{\sigma^2} I(θ)=σ2HTH​

V a r ( θ ^ ) = I − 1 ( θ ) = σ 2 ( H T H ) − 1 Var(\hat \theta)=I^{-1}(\theta) = \sigma^2 (H^TH)^{-1} Var(θ^)=I−1(θ)=σ2(HTH)−1

  说明最小二乘估计就是最小方差无偏估计,是高斯条件下的最优结果

  这是两种看法,一种是把数据当做最优拟合去做;一种是对噪声赋予了统计模型,然后按克拉美罗下界等号成立条件去找最小方差无偏估计MVUE。这个两者完全等效的

2.3 最优线性无偏估计进行参数求解

  我们还有其他方法去看待我们的线性模型,并对其进行估计。那就是最优线性无偏估计。 Best Linear Unbias Estimator BLUE

2.3.1 标量的最优线性无偏估计 BLUE

2.3.1.1 问题阐述

  我们还有第三种看待线性模型的方法

Z k = A + B k Δ t + N k Z_k = A +B k \Delta t +N_k Zk​=A+BkΔt+Nk​

  我们先把问题简化一下,假设这条直线是过原点的,也就是A=0,那么我们就只需要估计一个参数了

Z k = B k Δ t + N k = B ∗ S k + N k Z_k = B k \Delta t +N_k = B*S_k +N_k Zk​=BkΔt+Nk​=B∗Sk​+Nk​
Z = ( Z 1 , . . . , Z n ) T Z = (Z_1,...,Z_n)^T Z=(Z1​,...,Zn​)T

  我们来估计B,这里我们做几个假设

  • 噪声的均值是0,并且其协方差矩阵为Cov(N)
  • 我们的估计方法是无偏的

E ( α T Z ) = B E(\alpha^T Z) = B E(αTZ)=B

  • 我们对B的估计方法是线性的,也就是有下式成立

  估计方法\hat θ满足如下形式

θ ^ ( Z ) = ∑ k = 1 n α k Z k = α T Z \hat \theta(Z) = \sum _{k=1} ^n \alpha_k Z_k = \alpha ^T Z θ^(Z)=k=1∑n​αk​Zk​=αTZ

  我们要求的最优估计,就是要求

m i n [ E ( B − θ ^ ) 2 ] = m i n [ E ( B − α T Z ) 2 ] min[E(B-\hat \theta)^2] = min[E(B-\alpha ^T Z)^2] min[E(B−θ^)2]=min[E(B−αTZ)2]

2.3.1.2 BLUE与MVUE区别

  这里我们一定要注意一个问题,虽然我们模型的建立,已经最优估计方程的建立都非常像最小方差无偏估计,但是这里并不是最小方差无偏估计。因为首先,估计模型被限制为是线性的,MVUE是任意模型;其次,MVUE必须有已知的分布,这里并没有已知的分布。这里的这种估计方法叫做最优线性无偏估计,就是BLUE

  BLUE需要满足这样的条件

  • 必须是线性模型
  • 可以不知道噪声具体的分布,但是要求噪声的均值为0,并且协方差可求
  • 估计必须是无偏的

  而MVUE必须是分布一种才能进行计算,因此BLUE条件更加宽松。

2.3.1.3 参数求解

  下面来进行参数的求解

E ( α T ∗ Z ) = B α T E ( Z ) = B ( a ) E(\alpha^T*Z) = B \\ \alpha^T E(Z) = B \quad\quad(a) E(αT∗Z)=BαTE(Z)=B(a)

  同时

Z = B ∗ S + N E ( Z ) = E ( B ∗ S + N ) = S ∗ B + 0 ( b ) Z = B*S +N E(Z) = E(B*S+N) = S*B +0 \quad\quad(b) Z=B∗S+NE(Z)=E(B∗S+N)=S∗B+0(b)

  联立(a)(b)可得

B = α T E ( Z ) = α T S ∗ B B = \alpha^T E(Z) = \alpha^TS*B B=αTE(Z)=αTS∗B

  可得一个限制条件
α T ∗ S = 1 ( c ) \alpha^T*S = 1 \quad\quad(c) αT∗S=1(c)

  我们来计算优化条件

E ( B − α T Z ) 2 = E ( α T E ( Z ) − α T Z ) 2 = α T ∗ E [ ( Z − E ( Z ) ) ( Z − E ( Z ) ) T ] ∗ α = α T C o v ( Z ) ∗ α ( d ) E(B-\alpha ^T Z)^2 = E(\alpha^T E(Z) - \alpha^TZ)^2 \\ =\alpha^T*E[(Z-E(Z))(Z-E(Z))^T]* \alpha \\ = \alpha^T Cov(Z) *\alpha \quad\quad(d) E(B−αTZ)2=E(αTE(Z)−αTZ)2=αT∗E[(Z−E(Z))(Z−E(Z))T]∗α=αTCov(Z)∗α(d)

  因为

E ( Z ) = B ∗ S E(Z) = B*S E(Z)=B∗S

  所以有

C o v ( Z ) = E [ ( Z − E ( Z ) ) ( Z − E ( Z ) ) T ] = E [ ( Z − B S ) ( Z − B S ) T ] = E [ ( N − 0 ) ( N − 0 ) T ] = E [ ( N − E ( N ) ) ( N − E ( N ) ) T ] = C o v N ( e ) Cov(Z)=E[(Z-E(Z))(Z-E(Z))^T] = E[(Z-BS)(Z-BS)^T] \\ = E[(N-0)(N-0)^T] = E[(N-E(N))(N-E(N))^T] = Cov_N \quad\quad(e) Cov(Z)=E[(Z−E(Z))(Z−E(Z))T]=E[(Z−BS)(Z−BS)T]=E[(N−0)(N−0)T]=E[(N−E(N))(N−E(N))T]=CovN​(e)
  (e)代入(d)中

E ( B − α T Z ) 2 = α T C o v ( Z ) ∗ α = α T C o v ( N ) ∗ α ( f ) E(B-\alpha ^T Z)^2 = \alpha^T Cov(Z) *\alpha = \alpha^T Cov(N) *\alpha \quad\quad(f) E(B−αTZ)2=αTCov(Z)∗α=αTCov(N)∗α(f)

  假设

C o v ( N ) = C N Cov(N) = C_N Cov(N)=CN​

  我们要求(f)式子最小值,同时该式子有约束条件,即

m i n ( α T C N α ) , 且 α T S = 1 min(\alpha^T C_N \alpha),且 \alpha^TS = 1 min(αTCN​α),且αTS=1

  我们用拉格朗日乘子法来做

L ( B , λ ) = 1 2 α T C N α − λ ( α T S − 1 ) L(B,\lambda) = \frac{1}{2}\alpha ^T C_N \alpha - \lambda(\alpha^TS -1) L(B,λ)=21​αTCN​α−λ(αTS−1)

  对α求梯度

$$
\nabla_\alpha L(\alpha,\lambda) = \frac{1}{2}(C_N+C_N^T)*\alpha- \lambda *S

$$

  因为协方差矩阵是对称阵,其转置等于其本身

∇ α L ( α , λ ) = C N ∗ α − λ ∗ S α = λ ∗ C N − 1 ∗ S ( g ) \nabla_\alpha L(\alpha,\lambda) = C_N*\alpha - \lambda*S \\ \alpha = \lambda*C_N^{-1}*S \quad\quad(g) ∇α​L(α,λ)=CN​∗α−λ∗Sα=λ∗CN−1​∗S(g)

  根据约束条件

$$
\alpha^TS = 1 => S^T\alpha = 1 \quad\quad(h)

$$

  联立(h)和(g)

λ ∗ S T C N − 1 ∗ S = 1 λ = 1 S T C N − 1 ∗ S \lambda*S^T C_N^{-1}*S= 1 \\ \lambda = \frac{1}{S^T C_N^{-1}*S} λ∗STCN−1​∗S=1λ=STCN−1​∗S1​

  可得α

α = C N − 1 ∗ S S T C N − 1 ∗ S \alpha= \frac{C_N^{-1}*S}{S^T C_N^{-1}*S} α=STCN−1​∗SCN−1​∗S​

α T = ( S T C N − 1 ∗ S ) − 1 S T ∗ C N − 1 θ ^ ( Z ) = α T Z = ( S T C N − 1 ∗ S ) − 1 S T ∗ C N − 1 Z \alpha^T= (S^T C_N^{-1}*S)^{-1}S^T*C_N^{-1} \\ \hat \theta(Z) = \alpha^T Z= (S^T C_N^{-1}*S)^{-1}S^T*C_N^{-1} Z αT=(STCN−1​∗S)−1ST∗CN−1​θ^(Z)=αTZ=(STCN−1​∗S)−1ST∗CN−1​Z

2.3.1.4 噪声对估计结果的影响
(1)假设噪声的协方差矩阵是 σ^2I

  如果假设噪声的协方差矩阵是 σ^2I,提供了两个条件

  • 噪声是不相关的:因为如果噪声不相关,协方差矩阵就是个对角阵
  • 所有噪声的功率都是一样的:说明该噪声是白噪声

  则

C N − 1 = 1 σ 2 I α = 1 S T ∗ S S C_N^{-1} = \frac{1}{\sigma^2}I \\ \alpha = \frac{1}{S^T*S}S CN−1​=σ21​Iα=ST∗S1​S
  因为
Z = B S + N Z =BS+N Z=BS+N
  说明这里就是直接用S的值进行估计的,S大,信息量就大

(2)假设噪声的协方差矩阵是 diag(σ12,…,σn2)

  如果噪声的协方差矩阵是对角阵,但是对角线上值不一样

C N = d i a g ( σ 1 2 , . . . , σ n 2 ) = > C N − 1 = d i a g ( 1 σ 1 2 , . . . , 1 σ n 2 ) C_N = diag(\sigma^2_1,...,\sigma^2_n) => C_N^{-1} = diag(\frac{1}{\sigma^2_1},...,\frac{1}{\sigma^2_n}) CN​=diag(σ12​,...,σn2​)=>CN−1​=diag(σ12​1​,...,σn2​1​)
  也能提供两个信息

  • 噪声是不相关的
  • 不同时刻噪声的功率不同

α = C N − 1 ∗ S S T C N − 1 ∗ S = C ∗ C N − 1 ∗ S \alpha= \frac{C_N^{-1}*S}{S^T C_N^{-1}*S} =C*C_N^{-1}*S α=STCN−1​∗SCN−1​∗S​=C∗CN−1​∗S

α k ∼ S k σ k 2 \alpha_k \sim \frac{S_k}{\sigma^2 _k} αk​∼σk2​Sk​​

  说明权重不但与S的大小有关,还有噪声的功率有关,噪声功率越大,说明数据越不可信,权重越低

(3)假设噪声的协方差矩阵是 I

  如果CN是单位阵的话,得到的结果又是最小二乘解。

α T = ( S T C N − 1 ∗ S ) − 1 S T ∗ C N − 1 \alpha^T= (S^T C_N^{-1}*S)^{-1}S^T*C_N^{-1} αT=(STCN−1​∗S)−1ST∗CN−1​

α T = ( S T S ) − 1 S T \alpha^T = (S^TS)^{-1}S^T αT=(STS)−1ST

B = α T ∗ Z = ( S T S ) − 1 S T Z B = \alpha^T*Z = (S^TS)^{-1}S^TZ B=αT∗Z=(STS)−1STZ

2.3.1.5 最优线性无偏估计的小结

  我们可以得到,线性估计依赖于两件事

  • 一方面依赖于要估计的参数所依附的波形
  • 另一方面依赖于噪声的特性

  最优线性无偏估计。 Best Linear Unbias Estimulation BLUE,这个估计对分布没要求,只要这个分布均值是0,有协方差矩阵就行。而求MVUE就会求克拉美罗下界,求下界就必须有分布模型。所以BLUE的条件更加放松

2.3.2 矢量的最优线性无偏估计 BLUE

2.3.2.1 结果类比

  现在把模型扩展一下,上面的模型B是个标量,现在把B扩充为矢量θ

Z = B S + N = > Z = H θ + N θ ∈ R m , H ∈ R n x m E ( N ) = 0 , C o v ( N ) = C N Z = BS+N => Z=H \theta +N \\ \theta \in R^m,H \in R^{nxm} \\ E(N)=0,Cov(N) = C_N Z=BS+N=>Z=Hθ+Nθ∈Rm,H∈RnxmE(N)=0,Cov(N)=CN​

  这个与前面MSUE其实非常的相似。但是不同的是,这里没有给出噪声的确切分布, 只给出了噪声均值是0,和噪声的协方差矩阵CN

  我们继续寻求线性估计

θ ^ = A Z \hat \theta = AZ θ^=AZ

  刚才我们让矢量α作用在采样数据上,现在我们用矩阵A作用在采样数据Z上

  这个时候矩阵A应该是什么样子呢?

  我们可以对比一下

α T = ( S T C N − 1 ∗ S ) − 1 S T ∗ C N − 1 \alpha^T= (S^T C_N^{-1}*S)^{-1}S^T*C_N^{-1} αT=(STCN−1​∗S)−1ST∗CN−1​

  A就应该是

A = ( H T C N − 1 H ) − 1 H T C N − 1 A = (H^T C_N^{-1} H)^{-1} H^T C_N^{-1} A=(HTCN−1​H)−1HTCN−1​
  类比
α T ∗ S = 1 \alpha^T*S = 1 αT∗S=1

  通过无偏性条件应该可以得到下面的式子

A ∗ H = I A*H=I A∗H=I

2.3.2.2 限定条件计算

  证明一下

E ( θ ^ ) = E ( A Z ) = A E ( Z ) = A H θ = θ = > A H = I E(\hat \theta) = E(AZ) = AE(Z) = AH\theta = \theta \\ =>AH = I E(θ^)=E(AZ)=AE(Z)=AHθ=θ=>AH=I

2.3.2.3 优化条件

  我们对多参数进行估计,就必须要明确一个问题,怎么评价误差是最小的呢?

  我们假设我们估计的参数\hat θ和实际参量θ定义如下

θ ^ = ( θ ^ 1 , . . . , θ ^ m ) T θ = ( θ 1 , . . . , θ m ) T θ ^ − θ = ( θ ^ 1 − θ 1 , . . . , θ ^ m − θ ^ m ) T \hat \theta =(\hat \theta _1,...,\hat \theta _m)^T \theta =(\theta _1,...,\theta _m)^T \hat \theta - \theta = (\hat \theta _1 - \theta _1,...,\hat \theta _m - \hat \theta _m)^T θ^=(θ^1​,...,θ^m​)Tθ=(θ1​,...,θm​)Tθ^−θ=(θ^1​−θ1​,...,θ^m​−θ^m​)T

  这样,我们就有了每个估计参数的误差,我们怎么来衡量这组误差的大小呢?

  • 求误差平方和的累加吗?其实这样不好,因为有可能里面所有的误差都很小,但是就是有一个点误差比较大,就会使得整体结果不好,这样这个模型就很吃亏
  • 另每个误差都最小吗? 这样条件太苛刻了

  事实上,对于矢量的误差估计来说,我们会评判其协方差矩阵的大小

C o v ( θ ^ o p t ) ≤ C o v ( θ ^ ) Cov(\hat \theta _{opt}) \leq Cov(\hat \theta) Cov(θ^opt​)≤Cov(θ^)

  但是我们要注意一下,左右两边是矩阵,矩阵怎么比较大小呢?

  如果矩阵A大于矩阵B,就表示矩阵A-B是个正定矩阵

A ≥ B = > A − B i s P . d . A \geq B => A-B \quad is \quad P.d. A≥B=>A−BisP.d.

  这个也可以用在矢量的克拉美罗下界的估计上。

  因为标量的克拉美罗下界估计,是估计参数的方差必定大于fisher信息量的逆

V a r ( θ ^ ) ≥ I − 1 ( θ ) Var(\hat \theta) \geq I^{-1}(\theta) Var(θ^)≥I−1(θ)

  对于矢量来说,这个估计就是,矢量的协方差矩阵不小于fisher信息量矩阵

C o v ( θ ^ ) ≥ I − 1 ( θ ) Cov(\hat \theta) \geq I^{-1}(\theta) Cov(θ^)≥I−1(θ)

2.3.2.4 证明

  我们前面将标量的结果推广到了矢量上,形成了对矢量线性模型的估计,下面我们要证明,我们推广的这个结论是否正确。

  也就是证明

A o p t = ( H T C N − 1 H ) − 1 H T C N − 1 [ 0 ] A_{opt} = (H^T C_N^{-1} H)^{-1} H^T C_N^{-1} \quad\quad[0] Aopt​=(HTCN−1​H)−1HTCN−1​[0]

  我们从优化目标入手,我们就是要证明,用Aopt估计参量的方差比任何A都小

∀ A ∈ R m x n E ( θ − A Z ) ( θ − A Z ) T ≥ E ( θ − A o p t Z ) ( θ − A o p t Z ) T [ 1 ] \forall A \in R^{mxn} \\ E(\theta-AZ)(\theta-AZ)^T \geq E(\theta-A_{opt}Z)(\theta-A_{opt}Z)^T \quad\quad[1] ∀A∈RmxnE(θ−AZ)(θ−AZ)T≥E(θ−Aopt​Z)(θ−Aopt​Z)T[1]

  我们对这个优化目标进行变形

E ( θ − A Z ) ( θ − A Z ) T = E ( A H θ − A Z ) ( A H θ − A Z ) T = A E ( ( H θ − Z ) ( H θ − Z ) T ) A T = A C o v ( Z ) A T = A C N A T [ 2 ] E(\theta-AZ)(\theta-AZ)^T = E(AH\theta - AZ)(AH\theta -AZ)^T \\ = AE((H\theta-Z)(H\theta-Z)^T)A^T \\ = ACov(Z)A^T =AC_NA^T \quad\quad[2] E(θ−AZ)(θ−AZ)T=E(AHθ−AZ)(AHθ−AZ)T=AE((Hθ−Z)(Hθ−Z)T)AT=ACov(Z)AT=ACN​AT[2]

  我们用[2]的形式去表示[1],可得

  即证

A C N A T ≥ A o p t C N A o p t T A C N A T − A o p t C N A o p t T ≥ 0 [ 3 ] AC_NA^T \geq A_{opt} C_N A_{opt}^T AC_NA^T - A_{opt}C_NA_{opt}^T \geq 0 \quad\quad[3] ACN​AT≥Aopt​CN​AoptT​ACN​AT−Aopt​CN​AoptT​≥0[3]

  我们继续对式子进行变形,把[0]代入[2]中

A o p t C N A o p t = ( H T C N − 1 H ) − 1 H T C N − 1 ∗ C N ∗ C N − 1 H ( H T C N − 1 H ) − 1 = ( H T C N − 1 H ) − 1 [ 4 ] A_{opt} C_N A_{opt} = (H^T C_N^{-1} H)^{-1} H^T C_N^{-1}*C_N* C_N^{-1}H (H^T C_N^{-1} H)^{-1} \\ =(H^T C_N^{-1} H)^{-1} \quad\quad[4] Aopt​CN​Aopt​=(HTCN−1​H)−1HTCN−1​∗CN​∗CN−1​H(HTCN−1​H)−1=(HTCN−1​H)−1[4]

  把[4]代入[3]中

  即证明

A C N A T − ( H T C N − 1 H ) − 1 ≥ 0 [ 5 ] AC_NA^T - (H^T C_N^{-1} H)^{-1} \geq 0 \quad\quad[5] ACN​AT−(HTCN−1​H)−1≥0[5]

 我们就是要证明这两个矩阵的差矩阵是个正定矩阵


  我们引入下面式子,该式子一定是正定的

( A − ( H T C N − 1 H ) − 1 H T C N − 1 ) C N ( A − ( H T C N − 1 H ) − 1 H T C N − 1 ) T ≥ 0 [ 6 ] (A-(H^T C_N^{-1} H)^{-1}H^T C_N^{-1})C_N (A-(H^T C_N^{-1} H)^{-1}H^T C_N^{-1})^T \geq 0 \quad\quad[6] (A−(HTCN−1​H)−1HTCN−1​)CN​(A−(HTCN−1​H)−1HTCN−1​)T≥0[6]
  下面进行证明

  首先我们证明CN一定是个正定矩阵,我们从正定矩阵的定义出发,就是其二次型恒大于0

∀ X ∈ R n X T C N X = X T E ( N − E ( N ) ) ∗ E ( N − E ( N ) ) T ∗ X = X T E ( N N T ) X = E ( X T N N T X ) = E ( X T N ) 2 ≥ 0 \forall X \in R^n \\ X^T C_N X = X^T E(N-E(N))*E(N-E(N))^T *X \\ = X^T E(N N^T) X =E(X^T N N^T X) = E(X^TN)^2 \geq 0 ∀X∈RnXTCN​X=XTE(N−E(N))∗E(N−E(N))T∗X=XTE(NNT)X=E(XTNNTX)=E(XTN)2≥0

  因为CN的二次型是平方的期望,恒大于0,所以CN是正定矩阵

  由正定矩阵的性质,如果协方差矩阵M是正定的,任意矢量N与该协方差矩阵的二次型都是正定的

M ∼ P . d . N T ∗ M ∗ N ∼ P . d . M \sim P.d. \\ N^T*M*N \sim P.d. M∼P.d.NT∗M∗N∼P.d.
  CN是正定协方差矩阵,故

∀ B ∈ R n B ∗ C N ∗ B T ≥ 0 \forall B \in R^n \\ B*C_N*B^T \quad \geq 0 ∀B∈RnB∗CN​∗BT≥0

令 B = ( A − ( H T C N − 1 H ) − 1 H T 令B=(A-(H^T C_N^{-1} H)^{-1}H^T 令B=(A−(HTCN−1​H)−1HT

  所以式[6]一定是正定的

( A − ( H T C N − 1 H ) − 1 H T C N − 1 ) C N ( A − ( H T C N − 1 H ) − 1 H T C N − 1 ) T ≥ 0 (A-(H^T C_N^{-1} H)^{-1}H^T C_N^{-1})C_N (A-(H^T C_N^{-1} H)^{-1}H^T C_N^{-1})^T \geq 0 (A−(HTCN−1​H)−1HTCN−1​)CN​(A−(HTCN−1​H)−1HTCN−1​)T≥0

  对该式子进行变形

= A ∗ C N ∗ A T − A ∗ C N ∗ C N − 1 H ( H T C N − 1 H ) − 1 − ( H T C N − 1 H ) − 1 H T C N − 1 ∗ C N ∗ A T + ( H T C N − 1 H ) − 1 H T C N − 1 ∗ C N ∗ C N − 1 H ( H T C N − 1 H ) − 1 = A ∗ C N ∗ A T − A H ( H T C N − 1 H ) − 1 − ( H T C N − 1 H ) − 1 H T ∗ A T + ( H T C N − 1 H ) − 1 [ 7 ] = A *C_N *A^T-A *C_N* C_N^{-1} H (H^T C_N^{-1} H)^{-1} \\- (H^T C_N^{-1}H)^{-1}H^TC_N^{-1}* C_N*A^T \\+ (H^T C_N^{-1} H)^{-1}H^T C_N^{-1} * C_N * C_N^{-1} H (H^T C_N^{-1}H)^{-1} \\ = A *C_N *A^T - A H (H^T C_N^{-1} H)^{-1} \\- (H^T C_N^{-1} H)^{-1}H^T*A^T + (H^T C_N^{-1} H)^{-1} \quad\quad[7] =A∗CN​∗AT−A∗CN​∗CN−1​H(HTCN−1​H)−1−(HTCN−1​H)−1HTCN−1​∗CN​∗AT+(HTCN−1​H)−1HTCN−1​∗CN​∗CN−1​H(HTCN−1​H)−1=A∗CN​∗AT−AH(HTCN−1​H)−1−(HTCN−1​H)−1HT∗AT+(HTCN−1​H)−1[7]

   根据限制条件

A H = I [ 8 ] AH = I \quad\quad[8] AH=I[8]

  [8]代入[7]中
A ∗ C N ∗ A T − A H ( H T C N − 1 H ) − 1 − ( H T C N − 1 H ) − 1 H T ∗ A T + ( H T C N − 1 H ) − 1 = A ∗ C N ∗ A T − ( H T C N − 1 H ) − 1 ≥ 0 A *C_N *A^T - A H (H^T C_N^{-1} H)^{-1} \\- (H^T C_N^{-1} H)^{-1}H^T*A^T + (H^T C_N^{-1} H)^{-1}\\= A *C_N *A^T - (H^T C_N^{-1} H)^{-1} \geq 0 A∗CN​∗AT−AH(HTCN−1​H)−1−(HTCN−1​H)−1HT∗AT+(HTCN−1​H)−1=A∗CN​∗AT−(HTCN−1​H)−1≥0
  所以我们要证明的[5]式成立,也就是我们类比的结果就是最优线性无偏估计

  所以,多参数(矢量)的最优线性无偏估计的结果是

θ ^ ( Z ) = A o p t Z = ( H T C N − 1 H ) − 1 H T C N − 1 Z \hat \theta(Z) =A_{opt}Z = (H^T C_N^{-1} H)^{-1} H^T C_N^{-1}Z θ^(Z)=Aopt​Z=(HTCN−1​H)−1HTCN−1​Z

  如果CN是单位阵

A o p t Z = ( H T H ) − 1 H T Z A_{opt}Z = (H^T H)^{-1} H^T Z Aopt​Z=(HTH)−1HTZ

2.3.3 随机变量的最优线性无偏估计 BLUE

  刚才我们研究的对象是确定的变量,我们研究的问题是,我们有一组随自变量变化的点,我们如何用这些点去拟合一条直线,从表示因变量随着自变量的变化情况。

  现在我们的研究对象变成了随机的变量,我们研究的问题是,如果有一个或者一组随机变量,我们通过什么样的线性组合,能够让这一个或者一组随机变量去表示另外一个随机变量呢?

2.3.3.1 一个随机变量对另一个随机变量做线性估计

  我们首先研究,如何用一个随机变量去描述另外一个随机变量,假设有随机变量Y和Z,我们对Z进行某些线性变化,让这个变量能够逼近Y

Y , Z Z = > α Z − > Y Y,Z \\ Z =>\alpha Z ->Y Y,ZZ=>αZ−>Y

  优化条件

m i n E ( Y − α Z ) 2 min E(Y- \alpha Z)^2 minE(Y−αZ)2

  我们对α求导,令导数为0

g ( α ) = E ( Y − α Z ) 2 g(\alpha) =E(Y- \alpha Z)^2 g(α)=E(Y−αZ)2

∇ α g ( α ) = E [ − 2 Z ( Y − α Z ) ] = 0 \nabla_\alpha g(\alpha) = E[-2Z (Y-\alpha Z)] = 0 ∇α​g(α)=E[−2Z(Y−αZ)]=0

  整理一下

E ( Z Y ) = α E ( Z 2 ) E(ZY) = \alpha E(Z^2) E(ZY)=αE(Z2)

α = E ( Z Y ) E ( Z 2 ) \alpha = \frac{E(ZY)}{E(Z^2)} α=E(Z2)E(ZY)​
  得到的结果是ZY互相关除以Z的自相关

2.3.3.2 一组随机变量对另一个随机变量做线性估计

  我们继续沿着这个思路,研究如何用一组随机变量去描述一个随机变量

  假设我们有一组随机变量Zk,我们希望用Zk来描述随机变量Y

Y , Z 1 , Z 2 , . . . , Z n = > α 1 Z 1 + . . . + α n Z n − > Y Y,Z_1,Z_2,...,Z_n => \alpha_1 Z_1 +...+ \alpha_n Z_n -> Y Y,Z1​,Z2​,...,Zn​=>α1​Z1​+...+αn​Zn​−>Y

  我们需要做的就是

m i n E ( Y − α T Z ) 2 minE(Y - \alpha^T Z)^2 minE(Y−αTZ)2

α = ( α 1 , . . . α n ) \alpha = (\alpha_1,...\alpha_n) α=(α1​,...αn​)

  此时对g(α)求梯度

∇ α g ( α ) = ∇ α E ( Y − α T Z ) 2 = ∇ α E ( Y − α T Z ) ( Y − α T Z ) T = ∇ α ( E ( Y ∗ Y T ) − α T E ( Z Y ) − E ( Y Z T ) α + α T E ( Z Z T ) α ) = − E ( Z Y ) − E ( Z Y T ) + 2 E ( Z Z T ) ∗ α = 0 \nabla_\alpha g(\alpha) = \nabla_\alpha E(Y- \alpha^T Z)^2 \\ = \nabla_\alpha E(Y- \alpha^T Z)(Y- \alpha^T Z)^T \\ = \nabla_\alpha (E(Y*Y^T) - \alpha^T E(ZY) - E(Y Z^T)\alpha + \alpha^T E(Z Z^T) \alpha) \\ = -E(ZY) - E(ZY^T) + 2E(ZZ^T)*\alpha = 0 ∇α​g(α)=∇α​E(Y−αTZ)2=∇α​E(Y−αTZ)(Y−αTZ)T=∇α​(E(Y∗YT)−αTE(ZY)−E(YZT)α+αTE(ZZT)α)=−E(ZY)−E(ZYT)+2E(ZZT)∗α=0

  因此

E ( Z Z T ) ∗ α − E ( Z Y T ) = 0 E(ZZ^T)*\alpha - E(ZY^T) = 0 E(ZZT)∗α−E(ZYT)=0

E ( Z Y T ) = E ( Z Y ) E(ZY^T) = E(ZY) E(ZYT)=E(ZY)

α = ( E ( Z Z T ) ) − 1 E ( Z Y ) \alpha = (E(ZZ^T))^{-1}E(ZY) α=(E(ZZT))−1E(ZY)

  与刚才标量的结果是类似的

2.3.4 随机过程的最优线性无偏估计 BLUE

  现在我们要估计的不仅仅是随机变量了,而且是一个随着时间变化的随机变量,我们希望能够用一个随机过程通过线性时不变系统进行处理,从而逼近另外一个随机过程

  我们假定有这样的连续模型

Y ( t ) , Z ( t ) Y(t),Z(t) Y(t),Z(t)

  也就是让Z(t)通过一个线性系统h,从而实现对Y(t)的估计量 \hat Y(t)

Z ( t ) − > h − > Y ^ ( t ) Z(t)->\boxed{h}-> \hat Y(t) Z(t)−>h​−>Y^(t)

  优化条件为

m i n E ( Y ( t ) − Y ^ ( t ) ) [ a ] min E(Y(t) - \hat Y(t)) \quad\quad[a] minE(Y(t)−Y^(t))[a]
  线性时不变系统的输出,是输入与该系统的冲激响应之间的卷积

Y ^ ( t ) = ∫ − ∞ + ∞ h ( t − τ ) Z ( τ ) d τ [ b ] \hat Y(t) = \int_{-\infty}^{+\infty} h(t-\tau)Z(\tau)d\tau \quad\quad[b] Y^(t)=∫−∞+∞​h(t−τ)Z(τ)dτ[b]

  把[b]代入[a]中可得

E [ ( Y ( t ) − ∫ − ∞ + ∞ h ( t − τ ) Z ( τ ) d τ ) 2 ] [ c ] E[(Y(t)-\int_{-\infty}^{+\infty} h(t-\tau)Z(\tau)d\tau)^2] \quad\quad[c] E[(Y(t)−∫−∞+∞​h(t−τ)Z(τ)dτ)2][c]

  因为我们是对h进行优化,我们非常希望能够对h求导,但是h在积分里面,如果能够把h变成乘积,我们就能顺利求导数了。把卷积变成乘积的方法就是进行傅里叶变换。但是我们需要考虑,进行傅里叶变换是否会影响期望

  根据帕塞瓦尔定量,时域与频域能量是一样的,所以我们可以进傅里叶变换,把时域卷积变成频域乘法,然后就能求导数了。

   我们下面的推导是不严谨的,只是进行思路上的说明,可能细节数据是不对的

E [ ( Y ( t ) − ∫ − ∞ + ∞ h ( t − τ ) Z ( τ ) d τ ) 2 ] = 1 2 π E [ ( Y ( ω ) − H ( ω ) Z ( ω ) ) 2 ] E[(Y(t)-\int_{-\infty}^{+\infty} h(t-\tau)Z(\tau)d\tau)^2] = \frac{1}{2 \pi}E[(Y(\omega)-H(\omega)Z(\omega))^2] E[(Y(t)−∫−∞+∞​h(t−τ)Z(τ)dτ)2]=2π1​E[(Y(ω)−H(ω)Z(ω))2]

  然后我们对随机变量线性估计的结果进行推广,得到了随机过程线性估计的结果,这个结果可能也是不严谨的,仅仅是代表推导思路。

= > H ( ω ) = [ E ( Z 2 ( ω ) ) ] − 1 E ( Z ( ω ) Y ( ω ) ) => H(\omega) = [E(Z^2(\omega))]^{-1} E(Z(\omega)Y(\omega)) =>H(ω)=[E(Z2(ω))]−1E(Z(ω)Y(ω))

  我们得到的这个最优的线性系统包括前后两部分,前一部分等效于Z的功率谱密度,后一部分是Z与Y的互谱密度。

3. 总结

  我们来进行本节的总结

  • (1) 线性拟合

  我们一开始就有这样的模型

Z ≈ H θ Z \approx H \theta Z≈Hθ

  最开始的模型没有引入噪声的概念,认为二者是近似相等的。

  于是我们最终得到了这样的估计模型

θ ^ = ( H T H ) − 1 ( H T Z ) \hat \theta = (H^TH)^{-1}(H^TZ) θ^=(HTH)−1(HTZ)

  • (2) 最小方差无偏估计 MVUE

  后来人们有了噪声的概念,建立了包含噪声的模型

Z = H θ + N Z = H \theta +N Z=Hθ+N

N ∼ N ( 0 , σ 2 I ) N \sim N(0,\sigma^2 I) N∼N(0,σ2I)

  通过克拉美罗下界,我们可以得到最小方差无偏估计的结果。这个估计是在所有估计中最好的,并没有限制估计模型是线性的,只要这个噪声是高斯噪声

θ ^ ( z ) M V U E = ( H T H ) − 1 H T Z \hat \theta(z)_{MVUE}=(H^TH)^{-1}H^TZ θ^(z)MVUE​=(HTH)−1HTZ

  • (3) 对确定变量的最优线性无偏估计 BLUE

  而后,我们开始不要求噪声的分布是已知的了,但是我们对噪声的一阶矩和二阶矩进行了限定,同时对估计模型也做了限定,要求它是线性模型

Z = H θ + N Z = H \theta +N Z=Hθ+N

E ( N ) = 0 C o v ( N ) = C N E(N) = 0 \\ Cov(N) = C_N E(N)=0Cov(N)=CN​

  我们能够得到最好的估计就是

θ ^ ( z ) B L U E = ( H T C N − 1 H ) − 1 H T C N − 1 Z \hat \theta(z)_{BLUE}=(H^T C_N^{-1} H)^{-1} H^T C_N^{-1} Z θ^(z)BLUE​=(HTCN−1​H)−1HTCN−1​Z

  • (4) 对随机变量的最优线性无偏估计

  然后我们又引入了对随机变量的估计,我们的模型变成了

Y , ( Z 1 , . . . , Z n ) = > α T Z = Y Y,(Z_1,...,Z_n) => \alpha^T Z = Y Y,(Z1​,...,Zn​)=>αTZ=Y

  最优的结果就是

Y ^ = ( E ( Z Z T ) ) − 1 E ( Y Z T ) Z \hat Y=(E(ZZ^T))^{-1}E(YZ^T)Z Y^=(E(ZZT))−1E(YZT)Z

  • (5) 对随机过程的最优线性无偏估计

  对随机变量进一步引申,就变成了对随机过程的估计。通过一个线性变换,对Y进行估计。

  我们的模型变成了

Y ( t ) H ( Z ( t ) ) − > Y ( t ) Y(t) \\ H(Z(t)) -> Y(t) Y(t)H(Z(t))−>Y(t)

  最优估计为

Y ^ ( t ) = ( h o p t ⊗ Z ) ( t ) \hat Y(t) = (h_{opt} \otimes Z)(t) Y^(t)=(hopt​⊗Z)(t)

  h频域上的传递函数就是Z的功率谱密度乘以YZ的互谱密度

H ( ω ) = S Z − 1 ( ω ) ∗ S Z Y ( ω ) H(\omega) = S_Z^{-1}(\omega) *S_{ZY}(\omega) H(ω)=SZ−1​(ω)∗SZY​(ω)

  如果用傅里叶逆变换进行表示就是

Y ^ ( t ) = F − 1 ( S Z − 1 ( ω ) ∗ S Z Y ( ω ) ) ⊗ Z ( t ) \hat Y(t) = F^{-1}(S_Z^{-1}(\omega) *S_{ZY}(\omega)) \otimes Z(t) Y^(t)=F−1(SZ−1​(ω)∗SZY​(ω))⊗Z(t)

【现代信号处理】 03 - 线性估计 BLUE相关推荐

  1. python 爬取大乐透开奖结果

    #coding=utf-8 #下面中文注释不支持 所以开头加 "#coding=utf-8" # 获取近期大乐透开奖结果, 并给出自己猜中的个数import requests# 这 ...

  2. 代码 马佳义_212电子信息学院(2018年度)

    学院.专业.研究方向 代码及名称计划招 生人数博导代码及姓名外语水平考试科目考核阶段加试 (含同等学力.跨学科)备注 212电子信息学院40计划招收非全日制定向生2人:已招收硕博连读30人. 0702 ...

  3. Manim文档及源码笔记-CE文档-示例库3使用Manim绘图

    Manim文档及源码笔记-CE文档-示例库3使用Manim绘图 参考原文: Manim Community Edition Example Gallery 前言 笔记随想: 暂未发现官方中文版,自己实 ...

  4. Java生成并合并图片以及base64转图片

    由于最近研究了下打码平台(验证码识别平台),但是像需要特殊说明的验证码(例如:只需要提取验证码中黄颜色的字符),就需要将说明 信息和验证码图片合成一张图片,然后在发送给打码平台才可以.所以,我就研究了 ...

  5. (02)Cartographer源码无死角解析-(32) LocalTrajectoryBuilder2D::AddRangeData()→点云的体素滤波

    讲解关于slam一系列文章汇总链接:史上最全slam从零开始,针对于本栏目讲解(02)Cartographer源码无死角解析-链接如下: (02)Cartographer源码无死角解析- (00)目录 ...

  6. 四川大学计算机应用,四川大学计算机应用技术考研

    一.四川大学计算机应用技术考研研究方向有哪些呢? 各个学校每年的专业设置及研究方向会根据实际情况有所变动,考生需登录四川大学研究生院官网,具体的就要查看院校每年公布的研究生招生简章.招生专业目录.20 ...

  7. Linux下通过USB连接并利用手机拨号上网

    How to connect a cell phone via USB to a Linux laptop and dial-up an internet connection 转自:http://m ...

  8. 现代信号处理笔计 4 线性估计

    图1 线性模型采样示意图 目录 最小二乘估计 最小二乘模型 最小二乘的CRLB 最优线性无偏估计 总结 最小二乘估计 最小二乘模型 线性估计是历史最为悠久的一种估计方法. 在做某种统计观测时,存在观测 ...

  9. 【 Notes 】Best linear unbiased estimator(BLUE) approach for time-of-arrival based localisation

    目录 Abstract Introduction BLUE-based positioning BLUE-LSC algorithm BLUE-LLS algorithm Abstract A com ...

最新文章

  1. 宇泽电影工作室网页HTML语言,4.4宇泽国际旅行社网页制作
  2. LP Wizard 10.5破解步骤
  3. ASP.NET MVC实践系列1-UrlRouting
  4. 又烧一辆!蔚来ES8维修时起火烧到只剩底盘 官方回应:已开启调查
  5. python变量赋值
  6. 首届FineReport平台主题设计大赛火热启动
  7. 浅谈C#实现Web代理服务器的几大步骤
  8. 计算机老师的专业发展怎么写,高职计算机教师专业发展研究
  9. Wayland 1.0 发布,图形服务器
  10. 小学的题 大学的解法
  11. #简单统计学#加权平均数
  12. ChartType 属性 excel图表类型
  13. 【krpano】多分类缩略图及多分类地图案例
  14. Chrome 离线下载最佳方法
  15. 宗地图绘制要求和规范_国内土地市场宗地图的绘制标准制图规范-【领仕网】...
  16. eclipse安装tomcat时只有locahost,不显示server name
  17. 《人月神话(The Mythical Man-Month)》2人和月可以互换吗?人月神话存在吗?
  18. 使用Arcgis画等值线图
  19. lwm2m和coap协议 简解读
  20. 股市的逻辑-201006

热门文章

  1. 我眼中的互联网运营感观——运营是什么?
  2. 【医学图像处理】X-ray成像之X射线的产生
  3. phpmyadmin渗透小技巧
  4. 文件服务器 bkf恢复,.bkf文件恢复方法。
  5. 商务礼仪在市场经济中有哪些作用?
  6. “艺工交叉”——《达芬奇的人生密码》观后感
  7. 个人形象即是个人品牌
  8. Day04:编程中的“真”“假”?
  9. XlsxWriter模块常用方法说明
  10. 爷青回!AI把《灌篮高手》角色真人化,最帅的居然不是流川枫?