关于样本协方差矩阵的简单推导

数据样本中心化：

1、对一维随机变量 x x x，有n个观测样本 { x 1 , x 2 , ⋯ , x n } \{ x^1,x^2,\cdots,x^n\} {x1,x2,⋯,xn}，其样本均值(期望)可定义为：
μ x = E ( x ) = 1 n ∑ i = 0 n x i \mu_x={E}\left(x\right)=\frac1n\sum_{i=0}^nx^i μx=E(x)=n1i=0∑nxi这样，中心化操作后的新样本为： z i = x i − μ x z^{i}=x^i-\mu_x zi=xi−μx，并且 ∑ i n z i = 0 \sum_i^nz^i=0 ∑inzi=0
2、对于m维随机变量（特征、属性），定义随机向量：
x = [ x 1 x 2 ⋮ x m ] , x ∈ R m , 这里 x i 为第 i 个随机变量 \pmb x=\begin{bmatrix} x_1 \\ x_2 \\ \vdots\\ x_m \\ \end{bmatrix} ,\pmb x \in R^m,这里x_i 为第i个随机变量 xxx=⎣⎢⎢⎢⎡x1x2⋮xm⎦⎥⎥⎥⎤,xxx∈Rm,这里xi为第i个随机变量这里，再对m个随机变量的n个观测样本 { x i ∈ R m ∣ i = 1 , 2 , ⋯ , n } \{\pmb x^i\in R^m|i=1,2,\cdots,n\} {xxxi∈Rm∣i=1,2,⋯,n} 定义样本矩阵：
X = [ x 1 x 2 ⋯ x n ] = [ x 1 1 x 1 2 ⋯ x 1 n x 2 1 x 2 2 ⋯ x 2 n ⋮ ⋮ ⋱ ⋮ x m 1 x m 2 ⋯ x m n ] , X ∈ R m × n X=\begin{bmatrix} \pmb x^1 & \pmb x^2&\cdots & \pmb x^n \end{bmatrix}= \begin{bmatrix} x_1^1&x_1^2&\cdots&x_1^n\\ x_2^1&x_2^2&\cdots&x_2^n\\ \vdots&\vdots&\ddots&\vdots&\\ x_m^1&x_m^2&\cdots&x_m^n \end{bmatrix} ,X \in R^{m\times n} X=[xxx1xxx2⋯xxxn]=⎣⎢⎢⎢⎡x11x21⋮xm1x12x22⋮xm2⋯⋯⋱⋯x1nx2n⋮xmn⎦⎥⎥⎥⎤,X∈Rm×n
x j i x^i_j xji表示第 i i i个样本在第 j j j个随机变量（特征、属性）上的取值。这样，定义均值向量：
μ x = E ( x ) = [ E ( x 1 ) E ( x 2 ) ⋮ E ( x m ) ] = 1 n [ ∑ i n x 1 i ∑ i n x 2 i ⋮ ∑ i n x m i ] = [ μ x 1 μ x 2 ⋮ μ x m ] \pmb {\mu_x}=E(\pmb x)=\begin{bmatrix} E(x_1) \\ E(x_2 ) \\ \vdots\\ E( x_m) \\ \end{bmatrix} =\frac 1n\begin{bmatrix} \sum_i^nx_1^i\\ \sum_i^nx_2^i \\ \vdots\\ \sum_i^nx_m^i \\ \end{bmatrix}= \begin{bmatrix} \mu_{x_1} \\ \mu_{x_2} \\ \vdots\\ \mu_{x_m} \\ \end{bmatrix} μxμxμx=E(xxx)=⎣⎢⎢⎢⎡E(x1)E(x2)⋮E(xm)⎦⎥⎥⎥⎤=n1⎣⎢⎢⎢⎡∑inx1i∑inx2i⋮∑inxmi⎦⎥⎥⎥⎤=⎣⎢⎢⎢⎡μx1μx2⋮μxm⎦⎥⎥⎥⎤
中心化操作后新样本矩阵为：
Z = [ z 1 z 2 ⋯ z n ] = [ x 1 − μ x x 2 − μ x ⋯ x n − μ x ] Z=\begin{bmatrix} \pmb z^1 & \pmb z^2&\cdots & \pmb z^n \end{bmatrix}= \begin{bmatrix} \pmb x^1-\pmb{ \mu_ x}& \pmb x^2-\pmb{ \mu_ x}&\cdots &\pmb x^n-\pmb{ \mu_ x}& \end{bmatrix} Z=[zzz1zzz2⋯zzzn]=[xxx1−μxμxμxxxx2−μxμxμx⋯xxxn−μxμxμx]然后有 ∑ i n z i = 0 \sum_i^n\pmb z^i=\pmb 0 ∑inzzzi=000

样本协方差矩阵

1、对于两个一维随机变量 x x x和 y y y的协方差可定义为：
E [ ( x − μ x ) ( y − μ y ) ] = 1 n − 1 ∑ i n ( x i − μ x ) ( y i − μ y ) E[(x-\mu _x)(y-\mu_y)]=\frac 1{n-1}\sum_i^n (x_i-\mu_x)(y_i-\mu_y) E[(x−μx)(y−μy)]=n−11i∑n(xi−μx)(yi−μy)若样本已提前中心化，即新样本 z i = x i − μ x z^{i}=x^i-\mu_x zi=xi−μx， u i = x i − μ y u^{i}=x^i-\mu_y ui=xi−μy并且 ∑ i n z i = 0 \sum_i^nz^i=0 ∑inzi=0, ∑ i n u i = 0 \sum_i^n u^i=0 ∑inui=0，带入上式得：
E [ ( x − μ x ) ( y − μ y ) ] = 1 n − 1 ∑ i n ( x i − μ x ) ( y i − μ y ) = 1 n − 1 ∑ i n z i u i E[(x-\mu _x)(y-\mu_y)]=\frac 1{n-1}\sum_i^n (x_i-\mu_x)(y_i-\mu_y)=\frac 1 {n-1}\sum_i^nz^iu^i E[(x−μx)(y−μy)]=n−11i∑n(xi−μx)(yi−μy)=n−11i∑nziui
2、对于多维随机向量 x \pmb x xxx的自协方差矩阵（通常机器学习里提到的样本协方差矩阵），它是根据向量外积定义的：
E [ ( x − μ x ) ( x − μ x ) T ] = 1 n − 1 ∑ i n ( x i − μ x ) ( x i − μ x ) T E[(\pmb x-\pmb{\mu_x})(\pmb x-\pmb{\mu_x})^T]=\frac 1{n-1}\sum_i^n(\pmb x^i-\pmb{\mu_x})(\pmb x^i-\pmb{\mu_x})^T E[(xxx−μxμxμx)(xxx−μxμxμx)T]=n−11i∑n(xxxi−μxμxμx)(xxxi−μxμxμx)T同理若样本已中心化，则
E [ ( x − μ x ) ( x − μ x ) T ] = 1 n − 1 ∑ i n ( x i − μ x ) ( x i − μ x ) T = 1 n − 1 ∑ i n z i ( z i ) T = 1 n − 1 Z Z T E[(\pmb x-\pmb{\mu_x})(\pmb x-\pmb{\mu_x})^T]=\frac 1{n-1}\sum_i^n(\pmb x^i-\pmb{\mu_x})(\pmb x^i-\pmb{\mu_x})^T=\frac 1{n-1}\sum_i^n\pmb z^i(\pmb z^i)^T=\frac 1{n-1}ZZ^T E[(xxx−μxμxμx)(xxx−μxμxμx)T]=n−11i∑n(xxxi−μxμxμx)(xxxi−μxμxμx)T=n−11i∑nzzzi(zzzi)T=n−11ZZT注：分块矩阵乘法可得
∑ i n z i ( z i ) T = [ z 1 z 2 ⋯ z n ] [ ( z 1 ) T ( z 2 ) T ⋮ ( z n ) T ] = Z Z T \sum_i^n\pmb z^i(\pmb z^i)^T= \begin{bmatrix} \pmb z^1&\pmb z^2&\cdots&\pmb z^n \end{bmatrix} \begin{bmatrix} (\pmb z^1)^T \\ (\pmb z^2)^T \\ \vdots\\ ( \pmb z^n)^T \\ \end{bmatrix}=ZZ^T i∑nzzzi(zzzi)T=[zzz1zzz2⋯zzzn]⎣⎢⎢⎢⎡(zzz1)T(zzz2)T⋮(zzzn)T⎦⎥⎥⎥⎤=ZZT