线性估计 BLUE

文章目录

线性估计 BLUE
- 1. 问题引入
- 2. 问题求解
- - 2.1 线性拟合的方法进行参数求解
  - - 2.1.1 目标函数的确立
    - 2.1.2 梯度的性质
    - 2.1.3 目标函数的求解
  - 2.2 最小方差无偏估计进行参数求解
  - 2.3 最优线性无偏估计进行参数求解
  - - 2.3.1 标量的最优线性无偏估计 BLUE
    - - 2.3.1.1 问题阐述
      - 2.3.1.2 BLUE与MVUE区别
      - 2.3.1.3 参数求解
      - 2.3.1.4 噪声对估计结果的影响
      - (1)假设噪声的协方差矩阵是 σ^2I
        
        (2)假设噪声的协方差矩阵是 diag(σ~1~^2^,...,σ~n~^2^)
        
        (3)假设噪声的协方差矩阵是 I
      - 2.3.1.5 最优线性无偏估计的小结
    - 2.3.2 矢量的最优线性无偏估计 BLUE
    - - 2.3.2.1 结果类比
      - 2.3.2.2 限定条件计算
      - 2.3.2.3 优化条件
      - 2.3.2.4 证明
    - 2.3.3 随机变量的最优线性无偏估计 BLUE
    - - 2.3.3.1 一个随机变量对另一个随机变量做线性估计
      - 2.3.3.2 一组随机变量对另一个随机变量做线性估计
    - 2.3.4 随机过程的最优线性无偏估计 BLUE
- 3. 总结

1. 问题引入

在之前的章节中，我们引入了克拉美罗界CRLB，用来评估使用最小方差无偏估计MVUE能够达到什么程度。在这之后，我们希望能够找到一些简单好用的方法，能够对数据进行估计。其中历史最悠久，使用最广泛的，就是线性估计了。

我们提出这样一个问题，下面这条曲线，是一组随时间变化的数据形成的，我们如何估计这条曲线的表达式呢?

我们观测的对象，其实由两部分组成，一部分是由其内部机制引起的数据变化，另一部分是由于噪声引起的数据变化。我们希望能够得到这组数据背后的变化规律，因此我们要对他进行估计。通过直觉，我们感觉这是一条直线，因此我们建立如下模型，进行参数估计

按理来说，直线的模型是,其中A和B是需要估计的参数

Z ( t ) = A + B t Z(t) = A +Bt Z(t)=A+Bt

但是实际上，我们的数据是包含噪声的，因此，我们在直线的基础上叠加一个随机噪声

Z ( t ) = A + B t + N ( t ) Z(t) = A +Bt +N(t) Z(t)=A+Bt+N(t)

我们对Z进行采样。其中\Delta t是采样间隔，得到以下的数据

Z 1 ， . . . , Z n Z k = A + B ∗ k ∗ Δ t + N k , N k = N ( k Δ t ) Z_1，...,Z_n \quad \quad Z_k = A + B*k*\Delta t +N_k ,\quad N_k = N(k\Delta t) Z1，...,ZnZk=A+B∗k∗Δt+Nk,Nk=N(kΔt)

这样我们就有了一个模型，这是一个典型的线性模型。我们可以有很多种求解方法。下面，我们将采用不同思路进行线性模型的估计

2. 问题求解

2.1 线性拟合的方法进行参数求解

2.1.1 目标函数的确立

首先我们用线性拟合的方式进行求解，先把已知条件抄下来

Z 1 ， . . . , Z n Z k = A + B ∗ k ∗ Δ t + N k , N k = N ( k Δ t ) Z_1，...,Z_n \quad \quad Z_k = A + B*k*\Delta t +N_k ,\quad N_k = N(k\Delta t) Z1，...,ZnZk=A+B∗k∗Δt+Nk,Nk=N(kΔt)

我们在每个点计算模型与采样之间的误差,然后把误差加在一起。这是一个与A和B都有关的函数
∑ k = 1 n ( Z k − A − B ∗ k ∗ Δ t ) 2 ∼ g ( A , B ) \sum _{k=1}^n(Z_k -A -B*k*\Delta t)^2 \sim g(A,B) k=1∑n(Zk−A−B∗k∗Δt)2∼g(A,B)

我们进行最优估计的原则就是，我们要让数据点与模型垂直距离的平方和最小

= > m i n [ g ( A , B ) ] => min [g(A,B)] =>min[g(A,B)]

直接从平方和开始计算非常麻烦，我们用更加流行的方法，我们这个模型变成向量的形式进行表示

采样数据Z的表示

Z = ( Z 1 , . . . Z n ) T Z = (Z_1,...Z_n)^T Z=(Z1,...Zn)T

估计量θ的表示

θ = ( A , B ) T \theta = (A,B)^T θ=(A,B)T

矩阵H的表示

假设H是一个nx2矩阵

H ∈ R n x 2 H = ( 1 Δ t . . . . . . 1 n Δ t ) H \in R^{nx2} \\ H=\begin{pmatrix} 1 & \Delta t \\ ... & ... \\ 1 & n \Delta t \end{pmatrix} H∈Rnx2H=⎝⎛1...1Δt...nΔt⎠⎞

噪声N的表示

N = ( N 1 , . . . , N n ) T N = (N_1,...,N_n)^T N=(N1,...,Nn)T

我们对模型进行向量化表示

Z = H θ + N ( 1 ) Z = H \theta +N \quad\quad\quad(1) Z=Hθ+N(1)
目标函数也进行向量化表示

g ( θ ) = ( Z − H θ ) T ( Z − H θ ) ( 2 ) g(\theta) = (Z-H\theta)^T (Z-H\theta) \quad\quad\quad(2) g(θ)=(Z−Hθ)T(Z−Hθ)(2)
g ( θ ) = Z T ∗ Z − θ T H T Z − Z T H θ + θ T H T H θ ( 3 ) g(\theta) = Z^T*Z - \theta^TH^TZ - Z^T H\theta+\theta^TH^TH\theta \quad\quad\quad(3) g(θ)=ZT∗Z−θTHTZ−ZTHθ+θTHTHθ(3)

2.1.2 梯度的性质

因为我们需要用到矢量求梯度的性质，这里引入一些性质

矢量求梯度的结果。假设h是θ的函数，h是个矩阵或者矢量都行，则对其求梯度，结果就是其雅克比行列式

∇ θ ( h ( θ ) ) = ( ∂ h 1 ∂ θ 1 . . . ∂ h 1 ∂ θ n . . . . . . . . . ∂ h m ∂ θ 1 . . . ∂ h m ∂ θ n ) \nabla_{\theta}(h(\theta)) = \begin{pmatrix} \frac{\partial h_1}{\partial \theta _1} & ...&\frac{\partial h_1}{\partial \theta _n} \\ ... & ... &... \\ \frac{\partial h_m}{\partial \theta _1} & ... & \frac{\partial h_m}{\partial \theta _n} \end{pmatrix} ∇θ(h(θ))=⎝⎛∂θ1∂h1...∂θ1∂hm.........∂θn∂h1...∂θn∂hm⎠⎞
因此有下式子成立

∇ θ ( θ T A ) = A \nabla_{\theta}(\theta^TA) = A ∇θ(θTA)=A

∇ θ ( A θ ) = A T \nabla_{\theta}(A \theta) = A^T ∇θ(Aθ)=AT

∇ θ ( θ T ∗ A ∗ θ ) = ( A + A T ) θ \nabla_{\theta}(\theta^T * A*\theta) = (A+A^T)\theta ∇θ(θT∗A∗θ)=(A+AT)θ

2.1.3 目标函数的求解

在了解了矢量的梯度的性质以后，我们继续求解目标函数

我们如果想要得到目标函数的最小值，就要另目标函数导数为0。这里实际上就是求的梯度

( ∂ g ∂ A , ∂ g ∂ B ) T = ∇ θ (\frac{\partial g}{\partial A } , \frac{\partial g}{\partial B } )^T = \nabla _{\theta} (∂A∂g,∂B∂g)T=∇θ
我们分析一下这个式子
g ( θ ) = Z T ∗ Z − θ T H T Z − Z T H θ + θ T H T H θ ( 3 ) g(\theta) = Z^T*Z - \theta^TH^TZ - Z^T H\theta+\theta^TH^TH\theta \quad\quad\quad(3) g(θ)=ZT∗Z−θTHTZ−ZTHθ+θTHTHθ(3)

这个式子有四项，第一项与θ无关，求梯度为0，后面的三项其实都是标量，对标量求梯度，得到的是矢量。并且后面的三项利用2.1.2中给的公式可以求，因此,求梯度可得
∇ θ g ( θ ) = − ∇ θ ( θ T H T Z ) − ∇ θ ( Z T H θ ) + ∇ θ ( θ T H T H θ ) − 2 ( H T Z ) + ( 2 H T H ) θ \nabla _{\theta}g(\theta) = - \nabla_{\theta}(\theta^TH^TZ)- \nabla_{\theta}(Z^T H\theta) \\+ \nabla_{\theta}(\theta^TH^TH\theta) -2(H^TZ) + (2H^TH)\theta ∇θg(θ)=−∇θ(θTHTZ)−∇θ(ZTHθ)+∇θ(θTHTHθ)−2(HTZ)+(2HTH)θ

根据梯度为0可得
∇ θ g ( θ ) = − 2 ( H T Z ) + 2 ( H T H ) θ = 0 \nabla _{\theta}g(\theta) = -2(H^TZ) + 2(H^TH)\theta =0 ∇θg(θ)=−2(HTZ)+2(HTH)θ=0

( H T H ) θ = H T Z θ = ( H T H ) − 1 ( H T Z ) (H^TH)\theta = H^TZ \\ \theta = (H^TH)^{-1}(H^TZ) (HTH)θ=HTZθ=(HTH)−1(HTZ)

这个结果最早是由Gauss做出的，叫做最小二乘

最小二乘的前提H^TH必须是可逆的，如果H的列矢量只差常数倍，则H^TH就不可

2.2 最小方差无偏估计进行参数求解

在使用线性拟合进行求解的时候，我们完全没有用到噪声的信息，现在我们开始看看噪声会对估计产生什么影响。

使用最小方差无偏估计的时候，需要计算克拉美罗下界，第一步就要求解模型的联合分布，因此，计算克拉美罗下界的是有前提的，就是我们要知道模型的准确分布是什么样子的

在这里，我们假定噪声服从高斯分布

Z 1 , . . . , Z n − > Z k = A + B ∗ k ∗ Δ t + N k N k ∼ N ( 0 , σ 2 I ) Z_1,...,Z_n -> Z_k = A + B*k*\Delta t +N_k \\ N_k \sim N(0,\sigma^2 I) Z1,...,Zn−>Zk=A+B∗k∗Δt+NkNk∼N(0,σ2I)

这里我们依旧使用向量模型

Z = H θ + N Z = H \theta +N Z=Hθ+N

求一下克拉美罗下界

step1:先写分布

f ( Z 1 , . . . , Z n ) = ( 1 2 ∗ π σ ) n e x p ( − 1 2 σ 2 ( Z − H θ ) T ( Z − H θ ) ) f(Z_1,...,Z_n) =(\frac{1}{\sqrt{2*\pi}\sigma})^nexp(-\frac{1}{2\sigma^2}(Z-H\theta)^T(Z-H\theta)) f(Z1,...,Zn)=(2∗π σ1)nexp(−2σ21(Z−Hθ)T(Z−Hθ))

step2: 求对数

l n f ( Z 1 , . . . , Z n ) = − n l n ( 2 ∗ π σ ) − 1 2 σ 2 ( Z − H θ ) T ( Z − H θ ) lnf(Z_1,...,Z_n)=-nln(\sqrt{2*\pi}\sigma)-\frac{1}{2\sigma^2}(Z-H\theta)^T(Z-H\theta) lnf(Z1,...,Zn)=−nln(2∗π σ)−2σ21(Z−Hθ)T(Z−Hθ)

setp3: 求导数

如果是个多元函数求克拉美罗下界，导数就用梯度代替

∇ θ l n f ( Z 1 , . . . , Z n ) = H T Z − H T H θ σ 2 ( i ) \nabla _{\theta}lnf(Z_1,...,Z_n)=\frac{H^TZ- H^TH\theta}{\sigma^2} \quad\quad\quad(i) ∇θlnf(Z1,...,Zn)=σ2HTZ−HTHθ(i)

step4:求fisher信息量

这里我们换一种更加快速的方法来进行后续的求解。

我们知道克拉美罗下界等号是可能取到也可能取不到的，那么，不等式等号成立的条件是什么呢?

因为克拉美罗下界不等号是从柯西不等式来的，所以，我们只要知道了柯西不等式等号成立条件，我们就可以知道克拉美罗下界等号什么时候成立了

柯西不等式的成立条件是f(x)与g(x)线性相关

∫ f ( x ) g ( x ) ≤ ( ∫ f 2 ( x ) d x ) 1 2 ( ∫ g 2 ( x ) d x ) 1 2 " = " = > f ( x ) = α g ( x ) \int f(x)g(x) \leq (\int f^2(x)dx)^{\frac{1}{2}}(\int g^2(x)dx)^{\frac{1}{2}} \\"=" =>f(x) = \alpha g(x) ∫f(x)g(x)≤(∫f2(x)dx)21(∫g2(x)dx)21"="=>f(x)=αg(x)

即

( θ ^ − θ ) f ( x , θ ) = α [ ∂ ∂ θ l n f ( x , θ ) ] ∗ f ( x , θ ) (\hat \theta-\theta )\sqrt{f(x,\theta)}=\alpha[\frac{\partial}{\partial \theta }lnf(x,\theta)]* \sqrt{f(x,\theta)} (θ^−θ)f(x,θ) =α[∂θ∂lnf(x,θ)]∗f(x,θ)

左右两边的根号是可以消掉的

( θ ^ − θ ) = α [ ∂ ∂ θ l n f ( x , θ ) ] (\hat \theta-\theta )=\alpha[\frac{\partial}{\partial \theta }lnf(x,\theta)] (θ^−θ)=α[∂θ∂lnf(x,θ)]

这个常量α要与积分变量x无关，但是可以与θ有关
( θ ^ − θ ) = k ( θ ) [ ∂ ∂ θ l n f ( x , θ ) ] (\hat \theta-\theta )=k(\theta)[\frac{\partial}{\partial \theta }lnf(x,\theta)] (θ^−θ)=k(θ)[∂θ∂lnf(x,θ)]

注意里面谁的变量，θ是确切的值，没有随机性。\hat θ是对采样值的处理，因为采样值是随机变量，因此\hat θ是随机变量。 x是信号，也是随机变量。因为k必定与随机变量x无关，所以没有随机性。

我们两边同时取期望的平方。

E [ ( θ ^ − θ ) 2 ] = k ( θ ) 2 E [ ( ∂ ∂ θ l n f ( x , θ ) ) 2 ] E [ ( θ ^ − θ ) 2 ] = k ( θ ) 2 I ( θ ) V a r ( θ ^ ) = k ( θ ) 2 I ( θ ) E[(\hat \theta-\theta )^2]=k(\theta)^2E[(\frac{\partial}{\partial \theta }lnf(x,\theta))^2] \\ E[(\hat \theta-\theta )^2]=k(\theta)^2I(\theta) \\ Var(\hat \theta)=k(\theta)^2I(\theta) E[(θ^−θ)2]=k(θ)2E[(∂θ∂lnf(x,θ))2]E[(θ^−θ)2]=k(θ)2I(θ)Var(θ^)=k(θ)2I(θ)

因为克拉美罗的方差下界就是fisher信息量的逆，所以

V a r ( θ ^ ) = 1 I ( θ ) = k ( θ ) 2 I ( θ ) Var(\hat \theta) = \frac{1}{I(\theta)} = k(\theta)^2I(\theta) Var(θ^)=I(θ)1=k(θ)2I(θ)

可得

k ( θ ) = 1 I ( θ ) k(\theta) = \frac{1}{I(\theta)} k(θ)=I(θ)1

因此得到了一个小结论，克拉美罗下界等号成立条件是

[ ∂ ∂ θ l n f ( x , θ ) ] = I ( θ ) ( θ ^ − θ ) ( i i ) [\frac{\partial}{\partial \theta }lnf(x,\theta)]=I(\theta)(\hat \theta-\theta ) \quad\quad\quad(ii) [∂θ∂lnf(x,θ)]=I(θ)(θ^−θ)(ii)

把(i)代入(ii)中

∇ θ l n f ( z , θ ) = H T Z − H T H θ σ 2 = H T H σ 2 ( ( H T H ) − 1 H T Z − θ ) = I ( θ ) ( θ ^ − θ ) \nabla _{\theta}lnf(z,\theta)=\frac{H^TZ- H^TH\theta}{\sigma^2} =\frac{H^TH}{\sigma^2}((H^TH)^{-1}H^TZ-\theta)=I(\theta)(\hat \theta-\theta ) ∇θlnf(z,θ)=σ2HTZ−HTHθ=σ2HTH((HTH)−1HTZ−θ)=I(θ)(θ^−θ)

我们可以得到两个结论

找到了MVUE

θ ^ ( z ) = ( H T H ) − 1 H T Z \hat \theta(z)=(H^TH)^{-1}H^TZ θ^(z)=(HTH)−1HTZ

找到了fisher信息量

I ( θ ) = H T H σ 2 I(\theta)=\frac{H^TH}{\sigma^2} I(θ)=σ2HTH

V a r ( θ ^ ) = I − 1 ( θ ) = σ 2 ( H T H ) − 1 Var(\hat \theta)=I^{-1}(\theta) = \sigma^2 (H^TH)^{-1} Var(θ^)=I−1(θ)=σ2(HTH)−1

说明最小二乘估计就是最小方差无偏估计，是高斯条件下的最优结果

这是两种看法，一种是把数据当做最优拟合去做;一种是对噪声赋予了统计模型，然后按克拉美罗下界等号成立条件去找最小方差无偏估计MVUE。这个两者完全等效的

2.3 最优线性无偏估计进行参数求解

我们还有其他方法去看待我们的线性模型，并对其进行估计。那就是最优线性无偏估计。 Best Linear Unbias Estimator BLUE

2.3.1 标量的最优线性无偏估计 BLUE

2.3.1.1 问题阐述

我们还有第三种看待线性模型的方法

Z k = A + B k Δ t + N k Z_k = A +B k \Delta t +N_k Zk=A+BkΔt+Nk

我们先把问题简化一下，假设这条直线是过原点的，也就是A=0，那么我们就只需要估计一个参数了

Z k = B k Δ t + N k = B ∗ S k + N k Z_k = B k \Delta t +N_k = B*S_k +N_k Zk=BkΔt+Nk=B∗Sk+Nk
Z = ( Z 1 , . . . , Z n ) T Z = (Z_1,...,Z_n)^T Z=(Z1,...,Zn)T

我们来估计B，这里我们做几个假设

噪声的均值是0，并且其协方差矩阵为Cov(N)
我们的估计方法是无偏的

E ( α T Z ) = B E(\alpha^T Z) = B E(αTZ)=B

我们对B的估计方法是线性的，也就是有下式成立

估计方法\hat θ满足如下形式

θ ^ ( Z ) = ∑ k = 1 n α k Z k = α T Z \hat \theta(Z) = \sum _{k=1} ^n \alpha_k Z_k = \alpha ^T Z θ^(Z)=k=1∑nαkZk=αTZ

我们要求的最优估计，就是要求

m i n [ E ( B − θ ^ ) 2 ] = m i n [ E ( B − α T Z ) 2 ] min[E(B-\hat \theta)^2] = min[E(B-\alpha ^T Z)^2] min[E(B−θ^)2]=min[E(B−αTZ)2]

2.3.1.2 BLUE与MVUE区别

这里我们一定要注意一个问题，虽然我们模型的建立，已经最优估计方程的建立都非常像最小方差无偏估计，但是这里并不是最小方差无偏估计。因为首先，估计模型被限制为是线性的，MVUE是任意模型；其次，MVUE必须有已知的分布，这里并没有已知的分布。这里的这种估计方法叫做最优线性无偏估计，就是BLUE

BLUE需要满足这样的条件

必须是线性模型
可以不知道噪声具体的分布，但是要求噪声的均值为0，并且协方差可求
估计必须是无偏的

而MVUE必须是分布一种才能进行计算，因此BLUE条件更加宽松。

2.3.1.3 参数求解

下面来进行参数的求解

E ( α T ∗ Z ) = B α T E ( Z ) = B ( a ) E(\alpha^T*Z) = B \\ \alpha^T E(Z) = B \quad\quad(a) E(αT∗Z)=BαTE(Z)=B(a)

同时

Z = B ∗ S + N E ( Z ) = E ( B ∗ S + N ) = S ∗ B + 0 ( b ) Z = B*S +N E(Z) = E(B*S+N) = S*B +0 \quad\quad(b) Z=B∗S+NE(Z)=E(B∗S+N)=S∗B+0(b)

联立(a)(b)可得

B = α T E ( Z ) = α T S ∗ B B = \alpha^T E(Z) = \alpha^TS*B B=αTE(Z)=αTS∗B

可得一个限制条件
α T ∗ S = 1 ( c ) \alpha^T*S = 1 \quad\quad(c) αT∗S=1(c)

我们来计算优化条件

E ( B − α T Z ) 2 = E ( α T E ( Z ) − α T Z ) 2 = α T ∗ E [ ( Z − E ( Z ) ) ( Z − E ( Z ) ) T ] ∗ α = α T C o v ( Z ) ∗ α ( d ) E(B-\alpha ^T Z)^2 = E(\alpha^T E(Z) - \alpha^TZ)^2 \\ =\alpha^T*E[(Z-E(Z))(Z-E(Z))^T]* \alpha \\ = \alpha^T Cov(Z) *\alpha \quad\quad(d) E(B−αTZ)2=E(αTE(Z)−αTZ)2=αT∗E[(Z−E(Z))(Z−E(Z))T]∗α=αTCov(Z)∗α(d)

因为

E ( Z ) = B ∗ S E(Z) = B*S E(Z)=B∗S

所以有

C o v ( Z ) = E [ ( Z − E ( Z ) ) ( Z − E ( Z ) ) T ] = E [ ( Z − B S ) ( Z − B S ) T ] = E [ ( N − 0 ) ( N − 0 ) T ] = E [ ( N − E ( N ) ) ( N − E ( N ) ) T ] = C o v N ( e ) Cov(Z)=E[(Z-E(Z))(Z-E(Z))^T] = E[(Z-BS)(Z-BS)^T] \\ = E[(N-0)(N-0)^T] = E[(N-E(N))(N-E(N))^T] = Cov_N \quad\quad(e) Cov(Z)=E[(Z−E(Z))(Z−E(Z))T]=E[(Z−BS)(Z−BS)T]=E[(N−0)(N−0)T]=E[(N−E(N))(N−E(N))T]=CovN(e)
(e)代入(d)中

E ( B − α T Z ) 2 = α T C o v ( Z ) ∗ α = α T C o v ( N ) ∗ α ( f ) E(B-\alpha ^T Z)^2 = \alpha^T Cov(Z) *\alpha = \alpha^T Cov(N) *\alpha \quad\quad(f) E(B−αTZ)2=αTCov(Z)∗α=αTCov(N)∗α(f)

假设

C o v ( N ) = C N Cov(N) = C_N Cov(N)=CN

我们要求(f)式子最小值，同时该式子有约束条件，即

m i n ( α T C N α ) ，且 α T S = 1 min(\alpha^T C_N \alpha)，且 \alpha^TS = 1 min(αTCNα)，且αTS=1

我们用拉格朗日乘子法来做

L ( B , λ ) = 1 2 α T C N α − λ ( α T S − 1 ) L(B,\lambda) = \frac{1}{2}\alpha ^T C_N \alpha - \lambda(\alpha^TS -1) L(B,λ)=21αTCNα−λ(αTS−1)

对α求梯度

$$
\nabla_\alpha L(\alpha,\lambda) = \frac{1}{2}(C_N+C_N^T)*\alpha- \lambda *S

因为协方差矩阵是对称阵，其转置等于其本身

∇ α L ( α , λ ) = C N ∗ α − λ ∗ S α = λ ∗ C N − 1 ∗ S ( g ) \nabla_\alpha L(\alpha,\lambda) = C_N*\alpha - \lambda*S \\ \alpha = \lambda*C_N^{-1}*S \quad\quad(g) ∇αL(α,λ)=CN∗α−λ∗Sα=λ∗CN−1∗S(g)

根据约束条件

$$
\alpha^TS = 1 => S^T\alpha = 1 \quad\quad(h)

联立(h)和(g)

λ ∗ S T C N − 1 ∗ S = 1 λ = 1 S T C N − 1 ∗ S \lambda*S^T C_N^{-1}*S= 1 \\ \lambda = \frac{1}{S^T C_N^{-1}*S} λ∗STCN−1∗S=1λ=STCN−1∗S1

可得α

α = C N − 1 ∗ S S T C N − 1 ∗ S \alpha= \frac{C_N^{-1}*S}{S^T C_N^{-1}*S} α=STCN−1∗SCN−1∗S

α T = ( S T C N − 1 ∗ S ) − 1 S T ∗ C N − 1 θ ^ ( Z ) = α T Z = ( S T C N − 1 ∗ S ) − 1 S T ∗ C N − 1 Z \alpha^T= (S^T C_N^{-1}*S)^{-1}S^T*C_N^{-1} \\ \hat \theta(Z) = \alpha^T Z= (S^T C_N^{-1}*S)^{-1}S^T*C_N^{-1} Z αT=(STCN−1∗S)−1ST∗CN−1θ^(Z)=αTZ=(STCN−1∗S)−1ST∗CN−1Z

2.3.1.4 噪声对估计结果的影响

(1)假设噪声的协方差矩阵是 σ^2I

如果假设噪声的协方差矩阵是 σ^2I，提供了两个条件

噪声是不相关的：因为如果噪声不相关，协方差矩阵就是个对角阵
所有噪声的功率都是一样的：说明该噪声是白噪声

则

C N − 1 = 1 σ 2 I α = 1 S T ∗ S S C_N^{-1} = \frac{1}{\sigma^2}I \\ \alpha = \frac{1}{S^T*S}S CN−1=σ21Iα=ST∗S1S
因为
Z = B S + N Z =BS+N Z=BS+N
说明这里就是直接用S的值进行估计的，S大，信息量就大

(2)假设噪声的协方差矩阵是 diag(σ₁²,…,σ_n²)

如果噪声的协方差矩阵是对角阵，但是对角线上值不一样

C N = d i a g ( σ 1 2 , . . . , σ n 2 ) = > C N − 1 = d i a g ( 1 σ 1 2 , . . . , 1 σ n 2 ) C_N = diag(\sigma^2_1,...,\sigma^2_n) => C_N^{-1} = diag(\frac{1}{\sigma^2_1},...,\frac{1}{\sigma^2_n}) CN=diag(σ12,...,σn2)=>CN−1=diag(σ121,...,σn21)
也能提供两个信息

噪声是不相关的
不同时刻噪声的功率不同

α = C N − 1 ∗ S S T C N − 1 ∗ S = C ∗ C N − 1 ∗ S \alpha= \frac{C_N^{-1}*S}{S^T C_N^{-1}*S} =C*C_N^{-1}*S α=STCN−1∗SCN−1∗S=C∗CN−1∗S

α k ∼ S k σ k 2 \alpha_k \sim \frac{S_k}{\sigma^2 _k} αk∼σk2Sk

说明权重不但与S的大小有关，还有噪声的功率有关，噪声功率越大，说明数据越不可信，权重越低

(3)假设噪声的协方差矩阵是 I

如果C_N是单位阵的话，得到的结果又是最小二乘解。

α T = ( S T C N − 1 ∗ S ) − 1 S T ∗ C N − 1 \alpha^T= (S^T C_N^{-1}*S)^{-1}S^T*C_N^{-1} αT=(STCN−1∗S)−1ST∗CN−1

α T = ( S T S ) − 1 S T \alpha^T = (S^TS)^{-1}S^T αT=(STS)−1ST

B = α T ∗ Z = ( S T S ) − 1 S T Z B = \alpha^T*Z = (S^TS)^{-1}S^TZ B=αT∗Z=(STS)−1STZ

2.3.1.5 最优线性无偏估计的小结

我们可以得到，线性估计依赖于两件事

一方面依赖于要估计的参数所依附的波形
另一方面依赖于噪声的特性

最优线性无偏估计。 Best Linear Unbias Estimulation BLUE，这个估计对分布没要求，只要这个分布均值是0，有协方差矩阵就行。而求MVUE就会求克拉美罗下界，求下界就必须有分布模型。所以BLUE的条件更加放松

2.3.2 矢量的最优线性无偏估计 BLUE

2.3.2.1 结果类比

现在把模型扩展一下，上面的模型B是个标量，现在把B扩充为矢量θ

Z = B S + N = > Z = H θ + N θ ∈ R m , H ∈ R n x m E ( N ) = 0 , C o v ( N ) = C N Z = BS+N => Z=H \theta +N \\ \theta \in R^m,H \in R^{nxm} \\ E(N)=0,Cov(N) = C_N Z=BS+N=>Z=Hθ+Nθ∈Rm,H∈RnxmE(N)=0,Cov(N)=CN

这个与前面MSUE其实非常的相似。但是不同的是，这里没有给出噪声的确切分布，只给出了噪声均值是0，和噪声的协方差矩阵C_N

我们继续寻求线性估计

θ ^ = A Z \hat \theta = AZ θ^=AZ

刚才我们让矢量α作用在采样数据上，现在我们用矩阵A作用在采样数据Z上

这个时候矩阵A应该是什么样子呢?

我们可以对比一下

α T = ( S T C N − 1 ∗ S ) − 1 S T ∗ C N − 1 \alpha^T= (S^T C_N^{-1}*S)^{-1}S^T*C_N^{-1} αT=(STCN−1∗S)−1ST∗CN−1

A就应该是

A = ( H T C N − 1 H ) − 1 H T C N − 1 A = (H^T C_N^{-1} H)^{-1} H^T C_N^{-1} A=(HTCN−1H)−1HTCN−1
类比
α T ∗ S = 1 \alpha^T*S = 1 αT∗S=1

通过无偏性条件应该可以得到下面的式子

A ∗ H = I A*H=I A∗H=I

2.3.2.2 限定条件计算

证明一下

E ( θ ^ ) = E ( A Z ) = A E ( Z ) = A H θ = θ = > A H = I E(\hat \theta) = E(AZ) = AE(Z) = AH\theta = \theta \\ =>AH = I E(θ^)=E(AZ)=AE(Z)=AHθ=θ=>AH=I

2.3.2.3 优化条件

我们对多参数进行估计，就必须要明确一个问题，怎么评价误差是最小的呢？

我们假设我们估计的参数\hat θ和实际参量θ定义如下

θ ^ = ( θ ^ 1 , . . . , θ ^ m ) T θ = ( θ 1 , . . . , θ m ) T θ ^ − θ = ( θ ^ 1 − θ 1 , . . . , θ ^ m − θ ^ m ) T \hat \theta =(\hat \theta _1,...,\hat \theta _m)^T \theta =(\theta _1,...,\theta _m)^T \hat \theta - \theta = (\hat \theta _1 - \theta _1,...,\hat \theta _m - \hat \theta _m)^T θ^=(θ^1,...,θ^m)Tθ=(θ1,...,θm)Tθ^−θ=(θ^1−θ1,...,θ^m−θ^m)T

这样，我们就有了每个估计参数的误差，我们怎么来衡量这组误差的大小呢?

求误差平方和的累加吗?其实这样不好，因为有可能里面所有的误差都很小，但是就是有一个点误差比较大，就会使得整体结果不好，这样这个模型就很吃亏
另每个误差都最小吗? 这样条件太苛刻了

事实上，对于矢量的误差估计来说，我们会评判其协方差矩阵的大小

C o v ( θ ^ o p t ) ≤ C o v ( θ ^ ) Cov(\hat \theta _{opt}) \leq Cov(\hat \theta) Cov(θ^opt)≤Cov(θ^)

但是我们要注意一下，左右两边是矩阵，矩阵怎么比较大小呢?

如果矩阵A大于矩阵B，就表示矩阵A-B是个正定矩阵

A ≥ B = > A − B i s P . d . A \geq B => A-B \quad is \quad P.d. A≥B=>A−BisP.d.

这个也可以用在矢量的克拉美罗下界的估计上。

因为标量的克拉美罗下界估计，是估计参数的方差必定大于fisher信息量的逆

V a r ( θ ^ ) ≥ I − 1 ( θ ) Var(\hat \theta) \geq I^{-1}(\theta) Var(θ^)≥I−1(θ)

对于矢量来说，这个估计就是，矢量的协方差矩阵不小于fisher信息量矩阵

C o v ( θ ^ ) ≥ I − 1 ( θ ) Cov(\hat \theta) \geq I^{-1}(\theta) Cov(θ^)≥I−1(θ)

2.3.2.4 证明

我们前面将标量的结果推广到了矢量上，形成了对矢量线性模型的估计，下面我们要证明，我们推广的这个结论是否正确。

也就是证明

A o p t = ( H T C N − 1 H ) − 1 H T C N − 1 [ 0 ] A_{opt} = (H^T C_N^{-1} H)^{-1} H^T C_N^{-1} \quad\quad[0] Aopt=(HTCN−1H)−1HTCN−1[0]

我们从优化目标入手，我们就是要证明，用A_opt估计参量的方差比任何A都小

∀ A ∈ R m x n E ( θ − A Z ) ( θ − A Z ) T ≥ E ( θ − A o p t Z ) ( θ − A o p t Z ) T [ 1 ] \forall A \in R^{mxn} \\ E(\theta-AZ)(\theta-AZ)^T \geq E(\theta-A_{opt}Z)(\theta-A_{opt}Z)^T \quad\quad[1] ∀A∈RmxnE(θ−AZ)(θ−AZ)T≥E(θ−AoptZ)(θ−AoptZ)T[1]

我们对这个优化目标进行变形

E ( θ − A Z ) ( θ − A Z ) T = E ( A H θ − A Z ) ( A H θ − A Z ) T = A E ( ( H θ − Z ) ( H θ − Z ) T ) A T = A C o v ( Z ) A T = A C N A T [ 2 ] E(\theta-AZ)(\theta-AZ)^T = E(AH\theta - AZ)(AH\theta -AZ)^T \\ = AE((H\theta-Z)(H\theta-Z)^T)A^T \\ = ACov(Z)A^T =AC_NA^T \quad\quad[2] E(θ−AZ)(θ−AZ)T=E(AHθ−AZ)(AHθ−AZ)T=AE((Hθ−Z)(Hθ−Z)T)AT=ACov(Z)AT=ACNAT[2]

我们用[2]的形式去表示[1]，可得

即证

A C N A T ≥ A o p t C N A o p t T A C N A T − A o p t C N A o p t T ≥ 0 [ 3 ] AC_NA^T \geq A_{opt} C_N A_{opt}^T AC_NA^T - A_{opt}C_NA_{opt}^T \geq 0 \quad\quad[3] ACNAT≥AoptCNAoptTACNAT−AoptCNAoptT≥0[3]

我们继续对式子进行变形，把[0]代入[2]中

A o p t C N A o p t = ( H T C N − 1 H ) − 1 H T C N − 1 ∗ C N ∗ C N − 1 H ( H T C N − 1 H ) − 1 = ( H T C N − 1 H ) − 1 [ 4 ] A_{opt} C_N A_{opt} = (H^T C_N^{-1} H)^{-1} H^T C_N^{-1}*C_N* C_N^{-1}H (H^T C_N^{-1} H)^{-1} \\ =(H^T C_N^{-1} H)^{-1} \quad\quad[4] AoptCNAopt=(HTCN−1H)−1HTCN−1∗CN∗CN−1H(HTCN−1H)−1=(HTCN−1H)−1[4]

把[4]代入[3]中

即证明

A C N A T − ( H T C N − 1 H ) − 1 ≥ 0 [ 5 ] AC_NA^T - (H^T C_N^{-1} H)^{-1} \geq 0 \quad\quad[5] ACNAT−(HTCN−1H)−1≥0[5]

我们就是要证明这两个矩阵的差矩阵是个正定矩阵

我们引入下面式子，该式子一定是正定的

( A − ( H T C N − 1 H ) − 1 H T C N − 1 ) C N ( A − ( H T C N − 1 H ) − 1 H T C N − 1 ) T ≥ 0 [ 6 ] (A-(H^T C_N^{-1} H)^{-1}H^T C_N^{-1})C_N (A-(H^T C_N^{-1} H)^{-1}H^T C_N^{-1})^T \geq 0 \quad\quad[6] (A−(HTCN−1H)−1HTCN−1)CN(A−(HTCN−1H)−1HTCN−1)T≥0[6]
下面进行证明

首先我们证明C_N一定是个正定矩阵,我们从正定矩阵的定义出发，就是其二次型恒大于0

∀ X ∈ R n X T C N X = X T E ( N − E ( N ) ) ∗ E ( N − E ( N ) ) T ∗ X = X T E ( N N T ) X = E ( X T N N T X ) = E ( X T N ) 2 ≥ 0 \forall X \in R^n \\ X^T C_N X = X^T E(N-E(N))*E(N-E(N))^T *X \\ = X^T E(N N^T) X =E(X^T N N^T X) = E(X^TN)^2 \geq 0 ∀X∈RnXTCNX=XTE(N−E(N))∗E(N−E(N))T∗X=XTE(NNT)X=E(XTNNTX)=E(XTN)2≥0

因为C_N的二次型是平方的期望，恒大于0，所以C_N是正定矩阵

由正定矩阵的性质，如果协方差矩阵M是正定的，任意矢量N与该协方差矩阵的二次型都是正定的

M ∼ P . d . N T ∗ M ∗ N ∼ P . d . M \sim P.d. \\ N^T*M*N \sim P.d. M∼P.d.NT∗M∗N∼P.d.
C_N是正定协方差矩阵，故

∀ B ∈ R n B ∗ C N ∗ B T ≥ 0 \forall B \in R^n \\ B*C_N*B^T \quad \geq 0 ∀B∈RnB∗CN∗BT≥0

令 B = ( A − ( H T C N − 1 H ) − 1 H T 令B=(A-(H^T C_N^{-1} H)^{-1}H^T 令B=(A−(HTCN−1H)−1HT

所以式[6]一定是正定的

( A − ( H T C N − 1 H ) − 1 H T C N − 1 ) C N ( A − ( H T C N − 1 H ) − 1 H T C N − 1 ) T ≥ 0 (A-(H^T C_N^{-1} H)^{-1}H^T C_N^{-1})C_N (A-(H^T C_N^{-1} H)^{-1}H^T C_N^{-1})^T \geq 0 (A−(HTCN−1H)−1HTCN−1)CN(A−(HTCN−1H)−1HTCN−1)T≥0

对该式子进行变形

= A ∗ C N ∗ A T − A ∗ C N ∗ C N − 1 H ( H T C N − 1 H ) − 1 − ( H T C N − 1 H ) − 1 H T C N − 1 ∗ C N ∗ A T + ( H T C N − 1 H ) − 1 H T C N − 1 ∗ C N ∗ C N − 1 H ( H T C N − 1 H ) − 1 = A ∗ C N ∗ A T − A H ( H T C N − 1 H ) − 1 − ( H T C N − 1 H ) − 1 H T ∗ A T + ( H T C N − 1 H ) − 1 [ 7 ] = A *C_N *A^T-A *C_N* C_N^{-1} H (H^T C_N^{-1} H)^{-1} \\- (H^T C_N^{-1}H)^{-1}H^TC_N^{-1}* C_N*A^T \\+ (H^T C_N^{-1} H)^{-1}H^T C_N^{-1} * C_N * C_N^{-1} H (H^T C_N^{-1}H)^{-1} \\ = A *C_N *A^T - A H (H^T C_N^{-1} H)^{-1} \\- (H^T C_N^{-1} H)^{-1}H^T*A^T + (H^T C_N^{-1} H)^{-1} \quad\quad[7] =A∗CN∗AT−A∗CN∗CN−1H(HTCN−1H)−1−(HTCN−1H)−1HTCN−1∗CN∗AT+(HTCN−1H)−1HTCN−1∗CN∗CN−1H(HTCN−1H)−1=A∗CN∗AT−AH(HTCN−1H)−1−(HTCN−1H)−1HT∗AT+(HTCN−1H)−1[7]

根据限制条件

A H = I [ 8 ] AH = I \quad\quad[8] AH=I[8]

[8]代入[7]中
A ∗ C N ∗ A T − A H ( H T C N − 1 H ) − 1 − ( H T C N − 1 H ) − 1 H T ∗ A T + ( H T C N − 1 H ) − 1 = A ∗ C N ∗ A T − ( H T C N − 1 H ) − 1 ≥ 0 A *C_N *A^T - A H (H^T C_N^{-1} H)^{-1} \\- (H^T C_N^{-1} H)^{-1}H^T*A^T + (H^T C_N^{-1} H)^{-1}\\= A *C_N *A^T - (H^T C_N^{-1} H)^{-1} \geq 0 A∗CN∗AT−AH(HTCN−1H)−1−(HTCN−1H)−1HT∗AT+(HTCN−1H)−1=A∗CN∗AT−(HTCN−1H)−1≥0
所以我们要证明的[5]式成立，也就是我们类比的结果就是最优线性无偏估计

所以，多参数(矢量)的最优线性无偏估计的结果是

θ ^ ( Z ) = A o p t Z = ( H T C N − 1 H ) − 1 H T C N − 1 Z \hat \theta(Z) =A_{opt}Z = (H^T C_N^{-1} H)^{-1} H^T C_N^{-1}Z θ^(Z)=AoptZ=(HTCN−1H)−1HTCN−1Z

如果C_N是单位阵

A o p t Z = ( H T H ) − 1 H T Z A_{opt}Z = (H^T H)^{-1} H^T Z AoptZ=(HTH)−1HTZ

2.3.3 随机变量的最优线性无偏估计 BLUE

刚才我们研究的对象是确定的变量，我们研究的问题是，我们有一组随自变量变化的点，我们如何用这些点去拟合一条直线，从表示因变量随着自变量的变化情况。

现在我们的研究对象变成了随机的变量，我们研究的问题是，如果有一个或者一组随机变量，我们通过什么样的线性组合，能够让这一个或者一组随机变量去表示另外一个随机变量呢?

2.3.3.1 一个随机变量对另一个随机变量做线性估计

我们首先研究，如何用一个随机变量去描述另外一个随机变量,假设有随机变量Y和Z,我们对Z进行某些线性变化，让这个变量能够逼近Y

Y , Z Z = > α Z − > Y Y,Z \\ Z =>\alpha Z ->Y Y,ZZ=>αZ−>Y

优化条件

m i n E ( Y − α Z ) 2 min E(Y- \alpha Z)^2 minE(Y−αZ)2

我们对α求导，令导数为0

g ( α ) = E ( Y − α Z ) 2 g(\alpha) =E(Y- \alpha Z)^2 g(α)=E(Y−αZ)2

∇ α g ( α ) = E [ − 2 Z ( Y − α Z ) ] = 0 \nabla_\alpha g(\alpha) = E[-2Z (Y-\alpha Z)] = 0 ∇αg(α)=E[−2Z(Y−αZ)]=0

整理一下

E ( Z Y ) = α E ( Z 2 ) E(ZY) = \alpha E(Z^2) E(ZY)=αE(Z2)

α = E ( Z Y ) E ( Z 2 ) \alpha = \frac{E(ZY)}{E(Z^2)} α=E(Z2)E(ZY)
得到的结果是ZY互相关除以Z的自相关

2.3.3.2 一组随机变量对另一个随机变量做线性估计

我们继续沿着这个思路，研究如何用一组随机变量去描述一个随机变量

假设我们有一组随机变量Z_k，我们希望用Z_k来描述随机变量Y

Y , Z 1 , Z 2 , . . . , Z n = > α 1 Z 1 + . . . + α n Z n − > Y Y,Z_1,Z_2,...,Z_n => \alpha_1 Z_1 +...+ \alpha_n Z_n -> Y Y,Z1,Z2,...,Zn=>α1Z1+...+αnZn−>Y

我们需要做的就是

m i n E ( Y − α T Z ) 2 minE(Y - \alpha^T Z)^2 minE(Y−αTZ)2

α = ( α 1 , . . . α n ) \alpha = (\alpha_1,...\alpha_n) α=(α1,...αn)

此时对g(α)求梯度

∇ α g ( α ) = ∇ α E ( Y − α T Z ) 2 = ∇ α E ( Y − α T Z ) ( Y − α T Z ) T = ∇ α ( E ( Y ∗ Y T ) − α T E ( Z Y ) − E ( Y Z T ) α + α T E ( Z Z T ) α ) = − E ( Z Y ) − E ( Z Y T ) + 2 E ( Z Z T ) ∗ α = 0 \nabla_\alpha g(\alpha) = \nabla_\alpha E(Y- \alpha^T Z)^2 \\ = \nabla_\alpha E(Y- \alpha^T Z)(Y- \alpha^T Z)^T \\ = \nabla_\alpha (E(Y*Y^T) - \alpha^T E(ZY) - E(Y Z^T)\alpha + \alpha^T E(Z Z^T) \alpha) \\ = -E(ZY) - E(ZY^T) + 2E(ZZ^T)*\alpha = 0 ∇αg(α)=∇αE(Y−αTZ)2=∇αE(Y−αTZ)(Y−αTZ)T=∇α(E(Y∗YT)−αTE(ZY)−E(YZT)α+αTE(ZZT)α)=−E(ZY)−E(ZYT)+2E(ZZT)∗α=0

因此

E ( Z Z T ) ∗ α − E ( Z Y T ) = 0 E(ZZ^T)*\alpha - E(ZY^T) = 0 E(ZZT)∗α−E(ZYT)=0

E ( Z Y T ) = E ( Z Y ) E(ZY^T) = E(ZY) E(ZYT)=E(ZY)

α = ( E ( Z Z T ) ) − 1 E ( Z Y ) \alpha = (E(ZZ^T))^{-1}E(ZY) α=(E(ZZT))−1E(ZY)

与刚才标量的结果是类似的

2.3.4 随机过程的最优线性无偏估计 BLUE

现在我们要估计的不仅仅是随机变量了，而且是一个随着时间变化的随机变量，我们希望能够用一个随机过程通过线性时不变系统进行处理，从而逼近另外一个随机过程

我们假定有这样的连续模型

Y ( t ) , Z ( t ) Y(t),Z(t) Y(t),Z(t)

也就是让Z(t)通过一个线性系统h，从而实现对Y(t)的估计量 \hat Y(t)

Z ( t ) − > h − > Y ^ ( t ) Z(t)->\boxed{h}-> \hat Y(t) Z(t)−>h−>Y^(t)

优化条件为

m i n E ( Y ( t ) − Y ^ ( t ) ) [ a ] min E(Y(t) - \hat Y(t)) \quad\quad[a] minE(Y(t)−Y^(t))[a]
线性时不变系统的输出，是输入与该系统的冲激响应之间的卷积

Y ^ ( t ) = ∫ − ∞ + ∞ h ( t − τ ) Z ( τ ) d τ [ b ] \hat Y(t) = \int_{-\infty}^{+\infty} h(t-\tau)Z(\tau)d\tau \quad\quad[b] Y^(t)=∫−∞+∞h(t−τ)Z(τ)dτ[b]

把[b]代入[a]中可得

E [ ( Y ( t ) − ∫ − ∞ + ∞ h ( t − τ ) Z ( τ ) d τ ) 2 ] [ c ] E[(Y(t)-\int_{-\infty}^{+\infty} h(t-\tau)Z(\tau)d\tau)^2] \quad\quad[c] E[(Y(t)−∫−∞+∞h(t−τ)Z(τ)dτ)2][c]

因为我们是对h进行优化，我们非常希望能够对h求导，但是h在积分里面，如果能够把h变成乘积，我们就能顺利求导数了。把卷积变成乘积的方法就是进行傅里叶变换。但是我们需要考虑，进行傅里叶变换是否会影响期望

根据帕塞瓦尔定量，时域与频域能量是一样的，所以我们可以进傅里叶变换，把时域卷积变成频域乘法，然后就能求导数了。

我们下面的推导是不严谨的，只是进行思路上的说明，可能细节数据是不对的

E [ ( Y ( t ) − ∫ − ∞ + ∞ h ( t − τ ) Z ( τ ) d τ ) 2 ] = 1 2 π E [ ( Y ( ω ) − H ( ω ) Z ( ω ) ) 2 ] E[(Y(t)-\int_{-\infty}^{+\infty} h(t-\tau)Z(\tau)d\tau)^2] = \frac{1}{2 \pi}E[(Y(\omega)-H(\omega)Z(\omega))^2] E[(Y(t)−∫−∞+∞h(t−τ)Z(τ)dτ)2]=2π1E[(Y(ω)−H(ω)Z(ω))2]

然后我们对随机变量线性估计的结果进行推广，得到了随机过程线性估计的结果，这个结果可能也是不严谨的，仅仅是代表推导思路。

= > H ( ω ) = [ E ( Z 2 ( ω ) ) ] − 1 E ( Z ( ω ) Y ( ω ) ) => H(\omega) = [E(Z^2(\omega))]^{-1} E(Z(\omega)Y(\omega)) =>H(ω)=[E(Z2(ω))]−1E(Z(ω)Y(ω))

我们得到的这个最优的线性系统包括前后两部分，前一部分等效于Z的功率谱密度，后一部分是Z与Y的互谱密度。

3. 总结

我们来进行本节的总结

(1) 线性拟合

我们一开始就有这样的模型

Z ≈ H θ Z \approx H \theta Z≈Hθ

最开始的模型没有引入噪声的概念，认为二者是近似相等的。

于是我们最终得到了这样的估计模型

θ ^ = ( H T H ) − 1 ( H T Z ) \hat \theta = (H^TH)^{-1}(H^TZ) θ^=(HTH)−1(HTZ)

(2) 最小方差无偏估计 MVUE

后来人们有了噪声的概念，建立了包含噪声的模型

Z = H θ + N Z = H \theta +N Z=Hθ+N

N ∼ N ( 0 , σ 2 I ) N \sim N(0,\sigma^2 I) N∼N(0,σ2I)

通过克拉美罗下界，我们可以得到最小方差无偏估计的结果。这个估计是在所有估计中最好的，并没有限制估计模型是线性的，只要这个噪声是高斯噪声

θ ^ ( z ) M V U E = ( H T H ) − 1 H T Z \hat \theta(z)_{MVUE}=(H^TH)^{-1}H^TZ θ^(z)MVUE=(HTH)−1HTZ

(3) 对确定变量的最优线性无偏估计 BLUE

而后，我们开始不要求噪声的分布是已知的了，但是我们对噪声的一阶矩和二阶矩进行了限定，同时对估计模型也做了限定，要求它是线性模型

Z = H θ + N Z = H \theta +N Z=Hθ+N

E ( N ) = 0 C o v ( N ) = C N E(N) = 0 \\ Cov(N) = C_N E(N)=0Cov(N)=CN

我们能够得到最好的估计就是

θ ^ ( z ) B L U E = ( H T C N − 1 H ) − 1 H T C N − 1 Z \hat \theta(z)_{BLUE}=(H^T C_N^{-1} H)^{-1} H^T C_N^{-1} Z θ^(z)BLUE=(HTCN−1H)−1HTCN−1Z

(4) 对随机变量的最优线性无偏估计

然后我们又引入了对随机变量的估计，我们的模型变成了

Y , ( Z 1 , . . . , Z n ) = > α T Z = Y Y,(Z_1,...,Z_n) => \alpha^T Z = Y Y,(Z1,...,Zn)=>αTZ=Y

最优的结果就是

Y ^ = ( E ( Z Z T ) ) − 1 E ( Y Z T ) Z \hat Y=(E(ZZ^T))^{-1}E(YZ^T)Z Y^=(E(ZZT))−1E(YZT)Z

(5) 对随机过程的最优线性无偏估计

对随机变量进一步引申，就变成了对随机过程的估计。通过一个线性变换，对Y进行估计。

我们的模型变成了

Y ( t ) H ( Z ( t ) ) − > Y ( t ) Y(t) \\ H(Z(t)) -> Y(t) Y(t)H(Z(t))−>Y(t)

最优估计为

Y ^ ( t ) = ( h o p t ⊗ Z ) ( t ) \hat Y(t) = (h_{opt} \otimes Z)(t) Y^(t)=(hopt⊗Z)(t)

h频域上的传递函数就是Z的功率谱密度乘以YZ的互谱密度

H ( ω ) = S Z − 1 ( ω ) ∗ S Z Y ( ω ) H(\omega) = S_Z^{-1}(\omega) *S_{ZY}(\omega) H(ω)=SZ−1(ω)∗SZY(ω)

如果用傅里叶逆变换进行表示就是

Y ^ ( t ) = F − 1 ( S Z − 1 ( ω ) ∗ S Z Y ( ω ) ) ⊗ Z ( t ) \hat Y(t) = F^{-1}(S_Z^{-1}(\omega) *S_{ZY}(\omega)) \otimes Z(t) Y^(t)=F−1(SZ−1(ω)∗SZY(ω))⊗Z(t)

【现代信号处理】 03 - 线性估计 BLUE相关推荐

python 爬取大乐透开奖结果
#coding=utf-8 #下面中文注释不支持所以开头加 "#coding=utf-8" # 获取近期大乐透开奖结果, 并给出自己猜中的个数import requests# 这 ...
代码马佳义_212电子信息学院（2018年度）
学院.专业.研究方向代码及名称计划招生人数博导代码及姓名外语水平考试科目考核阶段加试 (含同等学力.跨学科)备注 212电子信息学院40计划招收非全日制定向生2人:已招收硕博连读30人. 0702 ...
Manim文档及源码笔记-CE文档-示例库3使用Manim绘图
Manim文档及源码笔记-CE文档-示例库3使用Manim绘图参考原文: Manim Community Edition Example Gallery 前言笔记随想: 暂未发现官方中文版,自己实 ...
Java生成并合并图片以及base64转图片
由于最近研究了下打码平台(验证码识别平台),但是像需要特殊说明的验证码(例如:只需要提取验证码中黄颜色的字符),就需要将说明信息和验证码图片合成一张图片,然后在发送给打码平台才可以.所以,我就研究了 ...
(02)Cartographer源码无死角解析-(32) LocalTrajectoryBuilder2D::AddRangeData()→点云的体素滤波
讲解关于slam一系列文章汇总链接:史上最全slam从零开始,针对于本栏目讲解(02)Cartographer源码无死角解析-链接如下: (02)Cartographer源码无死角解析- (00)目录 ...
四川大学计算机应用,四川大学计算机应用技术考研
一.四川大学计算机应用技术考研研究方向有哪些呢? 各个学校每年的专业设置及研究方向会根据实际情况有所变动,考生需登录四川大学研究生院官网,具体的就要查看院校每年公布的研究生招生简章.招生专业目录.20 ...
Linux下通过USB连接并利用手机拨号上网
How to connect a cell phone via USB to a Linux laptop and dial-up an internet connection 转自:http://m ...
现代信号处理笔计 4 线性估计
图1 线性模型采样示意图目录最小二乘估计最小二乘模型最小二乘的CRLB 最优线性无偏估计总结最小二乘估计最小二乘模型线性估计是历史最为悠久的一种估计方法. 在做某种统计观测时,存在观测 ...
【 Notes 】Best linear unbiased estimator(BLUE) approach for time-of-arrival based localisation
目录 Abstract Introduction BLUE-based positioning BLUE-LSC algorithm BLUE-LLS algorithm Abstract A com ...

【现代信号处理】 03 - 线性估计 BLUE

线性估计 BLUE

文章目录

1. 问题引入

2. 问题求解

2.1 线性拟合的方法进行参数求解

2.1.1 目标函数的确立

2.1.2 梯度的性质

2.1.3 目标函数的求解

2.2 最小方差无偏估计进行参数求解

2.3 最优线性无偏估计进行参数求解

2.3.1 标量的最优线性无偏估计 BLUE

2.3.1.1 问题阐述

2.3.1.2 BLUE与MVUE区别

2.3.1.3 参数求解

2.3.1.4 噪声对估计结果的影响

(1)假设噪声的协方差矩阵是 σ^2I

(2)假设噪声的协方差矩阵是 diag(σ₁²,…,σ_n²)

(3)假设噪声的协方差矩阵是 I

2.3.1.5 最优线性无偏估计的小结

2.3.2 矢量的最优线性无偏估计 BLUE

2.3.2.1 结果类比

2.3.2.2 限定条件计算

2.3.2.3 优化条件

2.3.2.4 证明

2.3.3 随机变量的最优线性无偏估计 BLUE

2.3.3.1 一个随机变量对另一个随机变量做线性估计

2.3.3.2 一组随机变量对另一个随机变量做线性估计

2.3.4 随机过程的最优线性无偏估计 BLUE

3. 总结

【现代信号处理】 03 - 线性估计 BLUE相关推荐

最新文章

热门文章

【现代信号处理】 03 - 线性估计 BLUE

线性估计 BLUE

文章目录

1. 问题引入

2. 问题求解

2.1 线性拟合的方法进行参数求解

2.1.1 目标函数的确立

2.1.2 梯度的性质

2.1.3 目标函数的求解

2.2 最小方差无偏估计进行参数求解

2.3 最优线性无偏估计进行参数求解

2.3.1 标量的最优线性无偏估计 BLUE

2.3.1.1 问题阐述

2.3.1.2 BLUE与MVUE区别

2.3.1.3 参数求解

2.3.1.4 噪声对估计结果的影响

(1)假设噪声的协方差矩阵是 σ^2I

(2)假设噪声的协方差矩阵是 diag(σ12,…,σn2)

(3)假设噪声的协方差矩阵是 I

2.3.1.5 最优线性无偏估计的小结

2.3.2 矢量的最优线性无偏估计 BLUE

2.3.2.1 结果类比

2.3.2.2 限定条件计算

2.3.2.3 优化条件

2.3.2.4 证明

2.3.3 随机变量的最优线性无偏估计 BLUE

2.3.3.1 一个随机变量对另一个随机变量做线性估计

2.3.3.2 一组随机变量对另一个随机变量做线性估计

2.3.4 随机过程的最优线性无偏估计 BLUE

3. 总结

【现代信号处理】 03 - 线性估计 BLUE相关推荐

最新文章

热门文章

(2)假设噪声的协方差矩阵是 diag(σ₁²,…,σ_n²)