PCA和单位球面上二次型的极大化

PCA的推导有两个方向，一种是极大化投影后数据的方差（信息），另一种是极小化投影的均方误差。

极大化投影后方差

直观来讲，数据一开始就含有一定数量的方差/信息，在这个思路下，我们希望找到一些方向，使得把数据往这些方向投影后，能最大限度地保留原有信息（方差），又能比原数据稍显精简。

图上这两个方向，很明显 u 1 u_1 u1比 u 2 u_2 u2保存了更多信息，数据点的方差更大， u 1 u_1 u1就是我们更想要的。
在继续推导之前，先引入一个定理：
单位球面上点的二次型的极大化（《实用多元统计分析》p62）
令 B p × p B_{p\times p} Bp×p是正定矩阵，特征值为 λ 1 ≥ λ 2 ≥ ⋯ ≥ λ p ≥ 0 \lambda_1\geq \lambda_2\geq\cdots\geq\lambda_p\geq0 λ1≥λ2≥⋯≥λp≥0，对应特征向量为 e 1 , e 2 , ⋯ , e p e_1,e_2,\cdots,e_p e1,e2,⋯,ep，则
max ⁡ x ≠ 0 x ′ B x x ′ x = λ 1 , ( x = e 1 ) \max_{x\neq0}\frac{x'Bx}{x'x}=\lambda_1,\qquad(x=e_1) x=0maxx′xx′Bx=λ1,(x=e1)
min ⁡ x ≠ 0 x ′ B x x ′ x = λ p , ( x = e p ) \min_{x\neq0}\frac{x'Bx}{x'x}=\lambda_p,\qquad(x=e_p) x=0minx′xx′Bx=λp,(x=ep)
max ⁡ x ⊥ e 1 , ⋯ , e k x ′ B x x ′ x = λ k + 1 , ( x = e k + 1 ) \max_{x\perp e_1,\cdots,e_k}\frac{x'Bx}{x'x}=\lambda_{k+1},\qquad(x=e_{k+1}) x⊥e1,⋯,ekmaxx′xx′Bx=λk+1,(x=ek+1)
下面回到PCA，以二维为例，PCA想要做的，就是找到一个单位向量 u u u，使各数据点 x i x_i xi在 u 1 u_1 u1上的投影 x i T u x_i^T u xiTu达到最大
max ⁡ 1 m ∑ i = 1 m ( x i T u ) 2 = 1 m ∑ i = 1 m u T x i x i T u = u T ( 1 m ∑ i = 1 m x i x i T ) u = u T Σ u \max \frac{1}{m}\sum_{i=1}^m (x_i^Tu)^2=\frac{1}{m}\sum_{i=1}^mu^Tx_ix_i^Tu\\ =u^T(\frac{1}{m}\sum_{i=1}^mx_ix_i^T)u=u^T\Sigma u maxm1i=1∑m(xiTu)2=m1i=1∑muTxixiTu=uT(m1i=1∑mxixiT)u=uTΣu
其中 Σ \Sigma Σ为协方差阵。这个形式是不是和上面定理中一模一样（ u u u为单位向量， u ′ u = ∥ u ∥ 2 = 1 u'u=\|u\|^2=1 u′u=∥u∥2=1）？
所以由定理，我们可以直接知道，选取 u = e 1 u=e_1 u=e1是，上式得到最大化，值为 λ 1 \lambda_1 λ1。
另一种推导方法是用拉格朗日乘子法，我们想要
max ⁡ u T Σ u , subject to u ′ u = 1 \max u^T\Sigma u,\quad \text{subject to } u'u=1 maxuTΣu,subject to u′u=1
将其改写为拉格朗日乘子的形式
L = u T Σ u − λ ( u ′ u − 1 ) ∂ L ∂ u = 2 Σ u − λ ( 2 u ) = 0 ⇒ Σ u = λ u L=u^T\Sigma u-\lambda (u'u-1)\\ \frac{\partial L}{\partial u}=2\Sigma u-\lambda(2u)=0\\ \Rightarrow \Sigma u=\lambda u L=uTΣu−λ(u′u−1)∂u∂L=2Σu−λ(2u)=0⇒Σu=λu
这就意味着 u u u是 Σ \Sigma Σ对应特征值为 λ \lambda λ的特征向量， λ \lambda λ最大可以取成 λ 1 \lambda_1 λ1。

PCA和单位球面上二次型的极大化相关推荐

地图点随机分布均匀_如何在单位球内产生一个均匀分布的随机的点？
在光线跟踪算法里,有一个子问题:如何在一个半径为1的单位球里面,产生一个均匀分布的随机的点(相同的体积里有相同数量的点).下面这篇文章里给出了5种可能的方法 (参考文献[3]).当然,后面我们会看到, ...
深度学习（二十四）矩阵分解之基于k-means的特征表达学习
矩阵分解之基于k-means的特征表达学习原文地址:http://blog.csdn.net/hjimce/article/details/50429317 作者:hjimce 一.相关理论因为最 ...
【今日CV 计算机视觉论文速览第125期】Wed, 5 Jun 2019
今日CS.CV 计算机视觉论文速览 Wed, 5 Jun 2019 Totally 57 papers ?上期速览✈更多精彩请移步主页 Interesting: ?基于ROI正切变形的人脸分析, 人脸 ...
矢量归一化_7. 从矢量观测到姿态观测
在使用 IMU 时,除了通过陀螺仪积分得到姿态,我们还需要其它非积分的方法测量姿态,从而更新积分得到的预测值.而这些"其它"的方法一般都是测量一些在惯性坐标系内已知的矢量,这些矢量 ...
百里挑一：ICLR 2021杰出论文奖出炉！
北京时间 2021年4月1日,ICLR 2021 杰出论文新鲜出炉了!在本届 ICLR 上被接收的 860 篇高质量论文中,有 8 篇论文脱颖而出,被授予 ICLR 2021 杰出论文奖. 本次杰出论 ...
机器学习、计算机视觉面经整理（持续完善整理中……）
算法岗计算机视觉方向求职经验总结进入11月份,楼主找工作也基本进入尾声了,从7月份开始关注牛客网,在求职的过程中学到了不少,感谢牛客提供这样一个平台,让自己的求职历程不再孤单. 先说一下楼主教育背景 ...
论文阅读笔记（2）：Learning a Self-Expressive Network for Subspace Clustering，SENet，用于大规模子空间聚类的自表达网络
论文阅读笔记(2):Learning a Self-Expressive Network for Subspace Clustering. SENet--用于大规模子空间聚类的自表达网络前言摘要 ...
Autolabeling 3D Objects with Differentiable Rendering of SDF Shape Priors
[CVPR2020] Autolabeling 3D Objects with Differentiable Rendering of SDF Shape Priors 论文地址:https://ar ...
高斯传记资料（2012-12-01 20:54:55）
以高斯命名的数学概念.定义.定理有n项.高斯数域Q(i)或Z[i]所在的二次域.高斯整数.高斯整数环Z[i]或复整数环.高斯整环或UFD.高斯素数(Gaussian primes) .正态分布曲 ...

PCA和单位球面上二次型的极大化

极大化投影后方差

PCA和单位球面上二次型的极大化相关推荐

最新文章

热门文章