矩阵分析一子空间和特征分解

线性方程组Ax=b的行视图是超平面，列视图是列向量的线性组合。从这个视角，将矩阵与向量组联系起来了。

5.1 线性相关、线性无关

定义：给定向量组A：a1,a2,...,ama1,a2,...,ama_1,a_2,...,a_m，如果存在不全为零的数k1,k2,,...,kmk1,k2,,...,kmk_1,k_2,,...,k_m，使得k1a1+k2a2+...+kmam=0k1a1+k2a2+...+kmam=0k_1a_1+k_2a_2+...+k_ma_m=0，则称向量组A是线性相关的，否则称为线性无关的。

定理：向量组A:ai,i=1,...,mA:ai,i=1,...,mA:{ai,i=1,...,m} 线性相关 ⇔⇔\Leftrightarrow Ax=0有非零解 ⇔⇔\Leftrightarrow R(A)<mR(A)<mR(A) ;

向量组A:ai,i=1,...,mA:ai,i=1,...,mA:{ai,i=1,...,m} 线性无关 ⇔⇔\Leftrightarrow Ax=0有唯一解，即零解 ⇔⇔\Leftrightarrow R(A)=mR(A)=mR(A)=m ;

向量组的秩等于其最大线性无关向量组中向量个数。

定理：矩阵的秩等于它的列向量组的秩。

定理：如果n维向量组a1,…,ar是一组两两正交的非零向量，那么a1,…,ar线性无关。

定理7：设A∈Rm×nA∈Rm×nA \in R^{m\times n} 的秩R(A)=rR(A)=rR(A)=r ，则n元齐次线性方程组Ax=0Ax=0Ax=0 的解集S的秩R(S)=n−rR(S)=n−rR(S)=n-r 。解集中任意n-r个线性无关解都可构成它的基础解系。

5.2 span，基，子空间

向量组A:ai,i=1,...,N,ai∈RmA:ai,i=1,...,N,ai∈RmA:{a_i,i=1,...,N,a_i \in R^m} 线性无关，则可以构成一个子空间S

S=span[a1,...,aN]={y∈Rm|y=∑Ni=1kiai}S=span[a1,...,aN]={y∈Rm|y=∑i=1Nkiai}S=span[a_1,...,a_N]=\{y \in R^m|y=\sum_{i=1}^Nk_ia_i\}

向量组A称为子空间S的一组基。如果向量组A两两正交（aTiaj=0aiTaj=0a_i^Ta_j=0 ），则称为正交基，如果向量aiaia_i 为单位向量，则称为规范正交基。

子空间的基有很多，但是基的秩（即向量个数）是不变的，称为子空间的维度。

从子空间定义可知，子空间一定包含原点（全为0的向量）。

5.2.1 四个基本子空间

1. 列空间 column space

列空间也称为值域或span，用C(A)表示，其中A∈Rm×nA∈Rm×nA \in R^{m\times n} ，其定义为所有列向量的线性组合即

C(A)={y|y=Ax,x∈Rm}C(A)={y|y=Ax,x∈Rm}C(A)=\{y|y=Ax, x\in R^m\} , C(A)是RmRmR^m 的子空间。

2. 零空间 null space

零空间N(A)定义为Ax=0的所有解构成的集合。N(A)是RnRnR^n 的子空间。

N(A)={x|Ax=0}N(A)={x|Ax=0}N(A)=\{x|Ax=0\}

3. 行空间 row space

行空间是所有行的线性组合，表示为C(AT)∈RnC(AT)∈RnC(A^T) \in R^n ,是RnRnR^n 的子空间

4. 左零空间 left null space

N(AT)={y|yA=0}={y|ATy=0}N(AT)={y|yA=0}={y|ATy=0}N(A^T)=\{y|yA=0\}=\{y|A^Ty=0\} ,是RmRmR^m 的子空间。

5.2.2 四个子空间的关系

对于A∈Rm×nA∈Rm×nA \in R^{m\times n} ，四个子空间的关系可以用下图来表示：

可以看到，行空间和零空间正交，行空间和零空间共同组成RnRnR^n 空间，行空间和零空间正交互补；列空间和左零空间正交，列空间和左零空间共同组成RmRmR^m 空间，列空间和左零空间正交互补。

正交证明：假定y1,y2分别来自行空间和零空间，根据定义有：

y1=ATx,Ay2=0y1=ATx,Ay2=0y_1=A^Tx, Ay_2 =0

则yT1y2=xAy2=0y1Ty2=xAy2=0y_1^Ty_2=xAy_2=0 , y1,y2y1,y2y_1,y_2 正交。

5.2.3 从子空间角度重新看线性方程组

对于线性方程组Ax=b，其解的形式为x=p+v,其中p为特解（Ap=b），v为零解（Av=0）。

若b∈C(A),N(A)b∈C(A),N(A)b \in C(A), N(A) 维度为0,那么方程只有唯一解，p

若b∈C(A),N(A)b∈C(A),N(A)b \in C(A), N(A) 维度大于0，那么方程有无穷多解

若b∉C(A)b∉C(A)b \notin C(A) ，方程无解

5.2.4 方阵的特征分解

5.2.4.1 特征值、特征向量

Ax=λxAx=λxAx=\lambda x 的几何意义：

AxAxAx 是指对向量x进行了旋转。当x为A的特征向量时，旋转后的向量与原向量共线，其缩放倍数为特征值λλ\lambda 。

为求特征值：

(A−λI)x=0(A−λI)x=0(A-\lambda I)x=0 有非0解，则det(A−λI)=0det(A−λI)=0det(A-\lambda I)=0 ，这个方程称为矩阵A的特征方程。

特征方程在复数范围内恒有解，解得个数等于方程的次数，因此，n阶矩阵在复数范围内有n个特征值。

设n阶矩阵A=(aij)的特征值为λ1,...,λnλ1,...,λn\lambda_1,...,\lambda_n ,则：

∑nλi=∑naii∑nλi=∑naii\sum_n \lambda_i = \sum_n a_{ii}
∏nλi=det(A)∏nλi=det(A)\prod_n \lambda_i = det(A)

λλ\lambda 是方阵A的特征值，则λ2λ2\lambda^2 是A2A2A^2 的特征值，λkλk\lambda^k 是AkAkA^k 的特征值 ,ψ(λ)ψ(λ)\psi(\lambda) 是ψ(A)ψ(A)\psi(A) 的特征值 ,如果A可逆，则1/λ1/λ1/\lambda 是A−1A−1A^{-1} 的特征值。

定理：设λ1,...,λnλ1,...,λn\lambda_1,...,\lambda_n 是方阵A的n个特征值，p1,...,pnp1,...,pnp_1,...,p_n 为对应的特征向量，如果特征值各不相同，则特征向量线性无关。

5.2.4.2 相似矩阵和对角化

相似矩阵定义：设A，B都是n阶矩阵，若存在可逆矩阵P，使得P−1AP=BP−1AP=BP^{-1}AP=B ，则称B是A的相似矩阵。

定理：若n阶矩阵A，B相似，则A，B的特征多项式相同，特征值相同。

推论：若n阶矩阵A与对角阵Λ=(λ1,...,λn)Λ=(λ1,...,λn)\Lambda=(\lambda_1,...,\lambda_n) 相似，则A的特征值为λ1,...,λnλ1,...,λn\lambda_1,...,\lambda_n

对角化：对于n阶矩阵，寻求相似变换矩阵P，使得P−1AP=ΛP−1AP=ΛP^{-1}AP=\Lambda 的过程成为把A对角化。

定理 : n阶矩阵A可对角化 ⇔⇔\Leftrightarrow A有n个线性无关的特征向量 ⇐⇐\Leftarrow A的n个特征值互不相同。

如果A有重特征值时，如果能找到对应的线性无关特征向量，则A也可以对角化。重点在于线性无关的特征向量。

5.2.4.3 对称矩阵的对角化

定理：对称阵的特征值为实数。

因此，对称阵的特征值大小可以进行排序。

定理：设λ1,λ2λ1,λ2\lambda_1,\lambda_2 是对称阵A的两个特征值，p1,p2p1,p2p_1,p_2 是对应的特征向量，若λ1≠λ2λ1≠λ2\lambda_1 \ne \lambda_2 ，则p1,p2p1,p2p_1,p_2 正交。

定理：A为n阶对称阵，则必有**正交阵**P，使得其对角化，即P−1AP=PTAP=ΛP−1AP=PTAP=ΛP^{-1}AP=P^TAP=\Lambda

定理：对称阵的k重特征值可以求得k个线性无关特征向量。

由以上定理可知，对于一个对称阵，无论其特征值相同或不同，都可以找到线性无关的特征向量，且可以得到两两正交的单位特征向量。即(PPT=PTP=IPPT=PTP=IPP^T=P^TP=I ，P为特征向量组成的正交阵)

因此，

A=PΛPT=∑ni=1λipipTiA=PΛPT=∑i=1nλipipiTA=P\Lambda P^T=\sum_{i=1}^n\lambda_ip_ip_i^T ，

这就是对称矩阵的特征分解 ，从上式可以看到，特征值较小的项可以略掉。这就是降维的思想。

对任意矩阵A，rank(ATA)=rank(AAT)=rank(A)rank(ATA)=rank(AAT)=rank(A)rank(A^TA)=rank(AA^T)=rank(A) ,当A为对称阵时，rank(A)=rank(Λ)rank(A)=rank(Λ)rank(A)=rank(\Lambda)

证明：若x满足Ax=0，则它也满足 ATAx=0ATAx=0A^TAx=0 ，若x满足ATAx=0ATAx=0A^TAx=0 ,则xTATAx=0⇒(Ax)T(Ax)=0⇒Ax=0xTATAx=0⇒(Ax)T(Ax)=0⇒Ax=0x^TA^TAx=0 \Rightarrow (Ax)^T(Ax)=0 \Rightarrow Ax=0 ，因此Ax=0,ATAx=0Ax=0,ATAx=0Ax=0,A^TAx=0 同解。假设解集的秩为s，则R(ATA)=n−s=R(A)R(ATA)=n−s=R(A)R(A^TA)=n-s=R(A) ，得证。

对于任意x,xTATAx=(Ax)T(Ax)≥0xTATAx=(Ax)T(Ax)≥0x^TA^TAx = (Ax)^T(Ax) \ge 0 , 因此，ATA,AATATA,AATA^TA, AA^T 都是半正定的。

5.2.4.4 特征分解和子空间的关系

对于对阵矩阵A，如果rank(A)=r≤nrank(A)=r≤nrank(A)=r\le n ，则A有r个非零特征值，(n-r)个零特征值。（可以由R(A)=R(ΛR(A)=R(ΛR(A)=R(\Lambda 得到）

可以将特征向量写成分块形式P=[P1,P2]P=[P1,P2]P=[P_1,P_2] 其中，P1对应非零特征值的特征向量，P2对应零特征值的特征向量。那么：列空间C(A)={y|y=Ax,x∈Rm}C(A)={y|y=Ax,x∈Rm}C(A)=\{y|y=Ax, x\in R^m\} 可以表示为：

Ax=[P1,P2][Λ100Λ2][PT1PT2]x=[P1,P2][Λ100Λ2][C1C2]=[P1,P2][Λ1C1Λ2C2]=P1(Λ1C1)+P2(Λ2C2)=P1(Λ1C1)Ax=[P1,P2][Λ100Λ2][P1TP2T]x=[P1,P2][Λ100Λ2][C1C2]=[P1,P2][Λ1C1Λ2C2]=P1(Λ1C1)+P2(Λ2C2)=P1(Λ1C1)

\begin{aligned} Ax &= [P_1,P_2]\left[\begin{matrix} \Lambda_1 & 0 \\ 0& \Lambda_2 \end{matrix} \right] \left[\begin{matrix}P_1^T \\ P_2^T\end{matrix}\right] x \\ & = [P_1,P_2]\left[\begin{matrix} \Lambda_1 & 0 \\ 0& \Lambda_2 \end{matrix} \right] \left[\begin{matrix}C_1 \\ C_2\end{matrix}\right] \\ &= [P_1,P_2]\left[\begin{matrix} \Lambda_1C_1\\ \Lambda_2C_2 \end{matrix} \right] \\ &= P_1(\Lambda_1C_1)+P_2(\Lambda_2C_2) \\ &=P_1(\Lambda_1C_1) \end{aligned}

上式是特征向量P1的线性组合，因此C(A)=C(P1)C(A)=C(P1)C(A)=C(P_1) ,因此，P1是C(A)的正交基。

上式还可以表示为：Ax=P1Λ1PT1xAx=P1Λ1P1TxAx=P_1\Lambda_1P_1^Tx , 对于零空间，Ax=0⇒P1Λ1PT1x=0Ax=0⇒P1Λ1P1Tx=0Ax=0 \Rightarrow P_1\Lambda_1P_1^Tx=0 ，由对称矩阵特征向量正交性可知，P2P2P_2 属于零空间。且零空间维度为n-r，P2P2P_2 的秩也是n-r，因此，P2是N(A)的正交基。