PCA和单位球面上二次型的极大化
PCA的推导有两个方向,一种是极大化投影后数据的方差(信息),另一种是极小化投影的均方误差。
极大化投影后方差
直观来讲,数据一开始就含有一定数量的方差/信息 ,在这个思路下,我们希望找到一些方向,使得把数据往这些方向投影后,能最大限度地保留原有信息(方差),又能比原数据稍显精简。
图上这两个方向,很明显 u 1 u_1 u1比 u 2 u_2 u2保存了更多信息,数据点的方差更大, u 1 u_1 u1就是我们更想要的。
在继续推导之前,先引入一个定理:
单位球面上点的二次型的极大化(《实用多元统计分析》p62)
令 B p × p B_{p\times p} Bp×p是正定矩阵,特征值为 λ 1 ≥ λ 2 ≥ ⋯ ≥ λ p ≥ 0 \lambda_1\geq \lambda_2\geq\cdots\geq\lambda_p\geq0 λ1≥λ2≥⋯≥λp≥0,对应特征向量为 e 1 , e 2 , ⋯ , e p e_1,e_2,\cdots,e_p e1,e2,⋯,ep,则
max x ≠ 0 x ′ B x x ′ x = λ 1 , ( x = e 1 ) \max_{x\neq0}\frac{x'Bx}{x'x}=\lambda_1,\qquad(x=e_1) x=0maxx′xx′Bx=λ1,(x=e1)
min x ≠ 0 x ′ B x x ′ x = λ p , ( x = e p ) \min_{x\neq0}\frac{x'Bx}{x'x}=\lambda_p,\qquad(x=e_p) x=0minx′xx′Bx=λp,(x=ep)
max x ⊥ e 1 , ⋯ , e k x ′ B x x ′ x = λ k + 1 , ( x = e k + 1 ) \max_{x\perp e_1,\cdots,e_k}\frac{x'Bx}{x'x}=\lambda_{k+1},\qquad(x=e_{k+1}) x⊥e1,⋯,ekmaxx′xx′Bx=λk+1,(x=ek+1)
下面回到PCA,以二维为例,PCA想要做的,就是找到一个单位向量 u u u,使各数据点 x i x_i xi在 u 1 u_1 u1上的投影 x i T u x_i^T u xiTu达到最大
max 1 m ∑ i = 1 m ( x i T u ) 2 = 1 m ∑ i = 1 m u T x i x i T u = u T ( 1 m ∑ i = 1 m x i x i T ) u = u T Σ u \max \frac{1}{m}\sum_{i=1}^m (x_i^Tu)^2=\frac{1}{m}\sum_{i=1}^mu^Tx_ix_i^Tu\\ =u^T(\frac{1}{m}\sum_{i=1}^mx_ix_i^T)u=u^T\Sigma u maxm1i=1∑m(xiTu)2=m1i=1∑muTxixiTu=uT(m1i=1∑mxixiT)u=uTΣu
其中 Σ \Sigma Σ为协方差阵。这个形式是不是和上面定理中一模一样( u u u为单位向量, u ′ u = ∥ u ∥ 2 = 1 u'u=\|u\|^2=1 u′u=∥u∥2=1)?
所以由定理,我们可以直接知道,选取 u = e 1 u=e_1 u=e1是,上式得到最大化,值为 λ 1 \lambda_1 λ1。
另一种推导方法是用拉格朗日乘子法,我们想要
max u T Σ u , subject to u ′ u = 1 \max u^T\Sigma u,\quad \text{subject to } u'u=1 maxuTΣu,subject to u′u=1
将其改写为拉格朗日乘子的形式
L = u T Σ u − λ ( u ′ u − 1 ) ∂ L ∂ u = 2 Σ u − λ ( 2 u ) = 0 ⇒ Σ u = λ u L=u^T\Sigma u-\lambda (u'u-1)\\ \frac{\partial L}{\partial u}=2\Sigma u-\lambda(2u)=0\\ \Rightarrow \Sigma u=\lambda u L=uTΣu−λ(u′u−1)∂u∂L=2Σu−λ(2u)=0⇒Σu=λu
这就意味着 u u u是 Σ \Sigma Σ对应特征值为 λ \lambda λ的特征向量, λ \lambda λ最大可以取成 λ 1 \lambda_1 λ1。
PCA和单位球面上二次型的极大化相关推荐
- 地图点随机分布均匀_如何在单位球内产生一个均匀分布的随机的点?
在光线跟踪算法里,有一个子问题:如何在一个半径为1的单位球里面,产生一个均匀分布的随机的点(相同的体积里有相同数量的点).下面这篇文章里给出了5种可能的方法 (参考文献[3]).当然,后面我们会看到, ...
- 深度学习(二十四)矩阵分解之基于k-means的特征表达学习
矩阵分解之基于k-means的特征表达学习 原文地址:http://blog.csdn.net/hjimce/article/details/50429317 作者:hjimce 一.相关理论 因为最 ...
- 【今日CV 计算机视觉论文速览 第125期】Wed, 5 Jun 2019
今日CS.CV 计算机视觉论文速览 Wed, 5 Jun 2019 Totally 57 papers ?上期速览✈更多精彩请移步主页 Interesting: ?基于ROI正切变形的人脸分析, 人脸 ...
- 矢量归一化_7. 从矢量观测到姿态观测
在使用 IMU 时,除了通过陀螺仪积分得到姿态,我们还需要其它非积分的方法测量姿态,从而更新积分得到的预测值.而这些"其它"的方法一般都是测量一些在惯性坐标系内已知的矢量,这些矢量 ...
- 百里挑一:ICLR 2021杰出论文奖出炉!
北京时间 2021年4月1日,ICLR 2021 杰出论文新鲜出炉了!在本届 ICLR 上被接收的 860 篇高质量论文中,有 8 篇论文脱颖而出,被授予 ICLR 2021 杰出论文奖. 本次杰出论 ...
- 机器学习、计算机视觉面经整理(持续完善整理中……)
算法岗计算机视觉方向求职经验总结 进入11月份,楼主找工作也基本进入尾声了,从7月份开始关注牛客网,在求职的过程中学到了不少,感谢牛客提供这样一个平台,让自己的求职历程不再孤单. 先说一下楼主教育背景 ...
- 论文阅读笔记(2):Learning a Self-Expressive Network for Subspace Clustering,SENet,用于大规模子空间聚类的自表达网络
论文阅读笔记(2):Learning a Self-Expressive Network for Subspace Clustering. SENet--用于大规模子空间聚类的自表达网络 前言 摘要 ...
- Autolabeling 3D Objects with Differentiable Rendering of SDF Shape Priors
[CVPR2020] Autolabeling 3D Objects with Differentiable Rendering of SDF Shape Priors 论文地址:https://ar ...
- 高斯传记资料(2012-12-01 20:54:55)
以高斯命名的数学概念.定义.定理有n项.高斯数域Q(i)或Z[i]所在的二次域.高斯整数.高斯整数环Z[i]或复整数环.高斯整环或UFD.高斯素数(Gaussian primes) .正态分布曲 ...
最新文章
- [转]程序集之GAC---Global Assembly Cache
- PyQt5 技术篇-QSpinBox选值框值改变触发事件实例演示,获取QSpinBox组件的值,选值框的边界值设置方法
- 应用上下文webApplicationContext
- Cocos2d-x:使用九宫格(九切片)自定义缩放资源
- 静态与非静态(转改)
- python暂停和恢复_python – 暂停和恢复QThread
- java 指代对象_java-This的理解
- 异步编程模型(C#5.0系列)
- 这是一段有毒的js代码,求大神解释!!!
- CentOS6.5安装python3.7
- ubuntu 20.04 美化开机动画
- HTML——添加网页背景音乐
- 贾俊平统计学思维导图- 第一章 导论
- html语言ppt,htmlppt课件
- 信息终端安全是指办公和生产用计算机,从办公终端安全角度考虑,以下哪个是正确的()...
- system verilog编程题_SystemVerilog通用程序库(下)
- 《卡耐基成功学》阅读笔记
- Postman批量执行用例
- C++的STL中accumulate函数用法
- 编译安卓系统源码jack-server问题入坑,全网最全解决方法