〖机器学习白板推导1〗样本均值&样本方差&PCA!

文章目录

  • 一. 样本均值
  • 二. 样本方差
  • 三. 中心矩阵的性质
  • 四. 协方差矩阵和散度矩阵关系
  • 五. PCA降维(最大投影方差角度)
  • 六. PCA降维(最小重构距离角度)
  • 本文整理自b站大神【机器学习】【白板推导系列】
  • 首先假设样本集 X N × p = ( x 1 , … , x n ) ⊤ \boldsymbol X_{N \times p}=(\boldsymbol x_{1}, \ldots, \boldsymbol x_{n})^{\top} XN×p​=(x1​,…,xn​)⊤,其中 N N N 为样本个数, p p p 为样本维度。

一. 样本均值

  • 样本均值 x ˉ \bar{\boldsymbol x} xˉ 为:
    x ˉ = 1 N ∑ i = 1 N x i = 1 N ( x 1 , … , x N ) ( 1 , … , 1 ) ⊤ = 1 N X ⊤ I (1) \bar{\boldsymbol x}=\frac{1}{N} \sum_{i=1}^{N} x_{i} =\frac{1}{N} (\boldsymbol x_{1}, \ldots, \boldsymbol x_{N}) (1, \ldots, 1)^{\top}= \frac{1}{N} \boldsymbol X^{\top} \boldsymbol I \tag{1} xˉ=N1​i=1∑N​xi​=N1​(x1​,…,xN​)(1,…,1)⊤=N1​X⊤I(1) 其中: I = ( 1 , … , 1 ) N × 1 ⊤ \boldsymbol I=(1, \ldots, 1)^{\top}_{N \times 1} I=(1,…,1)N×1⊤​ 为列向量。

二. 样本方差

  • 样本方差 S \boldsymbol S S 为:
    S = 1 N ∑ i = 1 N ( x i − x ˉ ) ( x i − x ˉ ) ⊤ = 1 N ( x 1 − x ˉ , … , x N − x ˉ ) ( x 1 − x ˉ , … , x N − x ˉ ) ⊤ = 1 N [ ( x 1 , … , x N ) − ( x ˉ , … , x ˉ ) ] [ ( x 1 , … , x N ) − ( x ˉ , … , x ˉ ) ] ⊤ = 1 N ( X ⊤ − x ˉ ( 1 , … , 1 ) ) ( X ⊤ − x ˉ ( 1 , … , 1 ) ) ⊤ = 1 N ( X ⊤ − x ˉ I ⊤ ) ( X ⊤ − x ˉ I ⊤ ) ⊤ (2) \begin{aligned} \boldsymbol S &=\frac{1}{N} \sum_{i=1}^{N}\left(\boldsymbol x_{i}-\bar{\boldsymbol x}\right)\left(\boldsymbol x_{i}-\bar{\boldsymbol x}\right)^{\top} \\ &=\frac{1}{N}\left(\boldsymbol x_{1}-\bar{\boldsymbol x}, \ldots, \boldsymbol x_{N}-\bar{\boldsymbol x}\right)\left(\boldsymbol x_{1}-\bar{\boldsymbol x}, \ldots, \boldsymbol x_{N}-\bar{\boldsymbol x}\right)^{\top} \\ &=\frac{1}{N} \left[ \left(\boldsymbol x_{1}, \ldots, \boldsymbol x_{N}\right)-\left(\bar{\boldsymbol x}, \ldots, \bar{\boldsymbol x}\right) \right]\left[ \left(\boldsymbol x_{1}, \ldots, \boldsymbol x_{N}\right)-\left(\bar{\boldsymbol x}, \ldots, \bar{\boldsymbol x}\right) \right] ^{\top} \\ &=\frac{1}{N} \left( \boldsymbol X^{\top}-\bar{\boldsymbol x}\left({1, \ldots, 1}\right)\right)\left( \boldsymbol X^{\top}-\bar{\boldsymbol x}\left({1, \ldots, 1}\right)\right)^{\top} \\ &=\frac{1}{N} \left( \boldsymbol X^{\top}-\bar{\boldsymbol x }\boldsymbol I^{\top}\right)\left( \boldsymbol X^{\top}-\bar{\boldsymbol x }\boldsymbol I^{\top}\right)^{\top} \tag{2} \end{aligned} S​=N1​i=1∑N​(xi​−xˉ)(xi​−xˉ)⊤=N1​(x1​−xˉ,…,xN​−xˉ)(x1​−xˉ,…,xN​−xˉ)⊤=N1​[(x1​,…,xN​)−(xˉ,…,xˉ)][(x1​,…,xN​)−(xˉ,…,xˉ)]⊤=N1​(X⊤−xˉ(1,…,1))(X⊤−xˉ(1,…,1))⊤=N1​(X⊤−xˉI⊤)(X⊤−xˉI⊤)⊤​(2) 把样本均值带入可以得到:
    S = 1 N ( X ⊤ − 1 N X ⊤ I I ⊤ ) ( X ⊤ − 1 N X ⊤ I I ⊤ ) ⊤ = 1 N [ X ⊤ ( E − 1 N I I ⊤ ) ] [ X ⊤ ( E − 1 N I I ⊤ ) ⊤ ] (3) \begin{aligned} \boldsymbol S &=\frac{1}{N} \left( \boldsymbol X^{\top}-\frac{1}{N} \boldsymbol X^{\top} \boldsymbol I\boldsymbol I^{\top}\right)\left( \boldsymbol X^{\top}-\frac{1}{N} \boldsymbol X^{\top} \boldsymbol I\boldsymbol I^{\top}\right)^{\top} \\ &=\frac{1}{N} \left [ \boldsymbol X^{\top}\left( \boldsymbol E-\frac{1}{N} \boldsymbol I\boldsymbol I^{\top}\right)\right ] \left [\boldsymbol X^{\top}\left( \boldsymbol E-\frac{1}{N} \boldsymbol I\boldsymbol I^{\top}\right)^{\top} \right ] \tag{3} \end{aligned} S​=N1​(X⊤−N1​X⊤II⊤)(X⊤−N1​X⊤II⊤)⊤=N1​[X⊤(E−N1​II⊤)][X⊤(E−N1​II⊤)⊤]​(3) 这里令 H N × N = E − 1 N I I ⊤ \boldsymbol H_{N \times N}=\boldsymbol E-\frac{1}{N} \boldsymbol I\boldsymbol I^{\top} HN×N​=E−N1​II⊤, H \boldsymbol H H 称作中心矩阵

三. 中心矩阵的性质

  • 中心矩阵 H \boldsymbol H H 为对称矩阵:
    H = E − 1 N I I ⊤ = H ⊤ (4) \boldsymbol H=\boldsymbol E-\frac{1}{N} \boldsymbol I\boldsymbol I^{\top} =\boldsymbol H^{\top} \tag{4} H=E−N1​II⊤=H⊤(4)

  • 中心矩阵 H \boldsymbol H H 为对称矩阵:
    H 2 = H ⊤ H = H H = ( E − 1 N I I ⊤ ) ( E − 1 N I I ⊤ ) = E − 2 N I I ⊤ + 1 N 2 I I ⊤ I I ⊤ (5) \begin{aligned} \boldsymbol H^2= \boldsymbol H^{\top} \boldsymbol H=\boldsymbol H\boldsymbol H &=\left( \boldsymbol E-\frac{1}{N} \boldsymbol I\boldsymbol I^{\top} \right) \left( \boldsymbol E-\frac{1}{N} \boldsymbol I\boldsymbol I^{\top} \right) \\ &=\boldsymbol E-\frac{2}{N} \boldsymbol I\boldsymbol I^{\top} +\frac{1}{N^2} \boldsymbol I\boldsymbol I^{\top}\boldsymbol I\boldsymbol I^{\top} \tag{5}\end{aligned} H2=H⊤H=HH​=(E−N1​II⊤)(E−N1​II⊤)=E−N2​II⊤+N21​II⊤II⊤​(5) 这里 I ⊤ I = N \boldsymbol I^{\top}\boldsymbol I=N I⊤I=N,所以等式 ( 5 ) (5) (5) 可以化简为:
    H 2 = E − 2 N I I ⊤ + 1 N I I ⊤ = E − 1 N I I ⊤ = H (6) \begin{aligned} \boldsymbol H^2 &=\boldsymbol E-\frac{2}{N} \boldsymbol I\boldsymbol I^{\top} +\frac{1}{N} \boldsymbol I\boldsymbol I^{\top} \\ &=\boldsymbol E-\frac{1}{N} \boldsymbol I\boldsymbol I^{\top} \\ &=\boldsymbol H \tag{6} \end{aligned} H2​=E−N2​II⊤+N1​II⊤=E−N1​II⊤=H​(6) 也就是 H n = H \boldsymbol H^n=\boldsymbol H Hn=H。

  • 带入中心矩阵之后,样本方差 S \boldsymbol S S 为
    S = 1 N [ X ⊤ ( E − 1 N I I ⊤ ) ] [ X ⊤ ( E − 1 N I I ⊤ ) ⊤ ] = 1 N X ⊤ H H ⊤ X = 1 N X ⊤ H X (7) \begin{aligned} \boldsymbol S &=\frac{1}{N} \left [ \boldsymbol X^{\top}\left( \boldsymbol E-\frac{1}{N} \boldsymbol I\boldsymbol I^{\top}\right)\right ] \left [\boldsymbol X^{\top}\left( \boldsymbol E-\frac{1}{N} \boldsymbol I\boldsymbol I^{\top}\right)^{\top} \right ] \\ &=\frac{1}{N} \boldsymbol X^{\top}\boldsymbol H \boldsymbol H^{\top}\boldsymbol X \\ &=\frac{1}{N} \boldsymbol X^{\top}\boldsymbol H \boldsymbol X \tag{7} \end{aligned} S​=N1​[X⊤(E−N1​II⊤)][X⊤(E−N1​II⊤)⊤]=N1​X⊤HH⊤X=N1​X⊤HX​(7)

四. 协方差矩阵和散度矩阵关系

  • 散度矩阵 S 1 \boldsymbol S_1 S1​ 为
    S 1 = ∑ i = 1 N ( x i − m ) ( x i − m ) ⊤ (8) \boldsymbol S_1=\sum_{i=1}^{N}\left(\boldsymbol{x}_{i}-\boldsymbol{m}\right)\left(\boldsymbol{x}_{i}-\boldsymbol{m}\right)^{\top} \tag{8} S1​=i=1∑N​(xi​−m)(xi​−m)⊤(8) 其中 m \boldsymbol{m} m 为样本均值(就是上面的 x ˉ \bar{\boldsymbol x} xˉ) : m = 1 N ∑ k = 1 N x i = 1 N X ⊤ I (9) \boldsymbol{m}=\frac{1}{N} \sum_{k=1}^{N} \boldsymbol{x}_{i}= \frac{1}{N} \boldsymbol X^{\top} \boldsymbol I \tag{9} m=N1​k=1∑N​xi​=N1​X⊤I(9)
  • 我们可以发现协方差矩阵和散度矩阵相差前面一个 1 N \frac{1}{N} N1​

五. PCA降维(最大投影方差角度)

  • 一个中心:对原始特征空间的重构(相关——>无关,原始特征空间中的特征之间有可能是相关的,比如用户特征:姓名,性别,年龄,学历,学位,我们可以发现学历和学位之间正相关,这2个属性之间就是相关性的,对这些特征空间进行重构,使其能够变成一组相互正交(线性无关的基))。
  • 两个基本点①. 最大投影方差;②. 最小重构距离(这2个其实是同一个意思,都是为同一个中心服务的,相当于2个角度)

  • 拿到数据之后首先进行中心化(减去均值,中心化之后数据均值为0),就是做一个平移,方便计算。

  • 对于 x i \boldsymbol{x}_{i} xi​ 这个样本,中心化之后为 x i − x ˉ \boldsymbol{x}_{i}-\bar{\boldsymbol{x}} xi​−xˉ,此时它在 u 1 \boldsymbol u_1 u1​ 这个方向上的投影为:
    J = ( x i − x ˉ ) ⊤ u 1 s . t . ∥ u 1 ∥ = 1 (10) \begin{aligned} &J=(\boldsymbol{x}_{i}-\bar{\boldsymbol{x}})^{\top} \boldsymbol u_{1}\\ &s.t. \quad\left\| \boldsymbol u_{1}\right\|=1 \tag{10} \end{aligned} ​J=(xi​−xˉ)⊤u1​s.t.∥u1​∥=1​(10)

  • 对于 N N N 个样本点,投影方差(数)为:
    J = 1 N ∑ i = 1 N ( ( x i − x ˉ ) ⊤ u 1 ) 2 s . t . u 1 ⊤ u 1 = 1 (11) \begin{aligned} &J=\frac{1}{N} \sum_{i=1}^{N}\left((\boldsymbol{x}_{i}-\bar{\boldsymbol{x}})^{\top} \boldsymbol u_{1}\right)^{2} \\ &s.t. \quad \boldsymbol u_{1}^{\top}\boldsymbol u_{1}=1 \tag{11} \end{aligned} ​J=N1​i=1∑N​((xi​−xˉ)⊤u1​)2s.t.u1⊤​u1​=1​(11)

  • 其中 J J J 为:
    J = 1 N ∑ i = 1 N u 1 T ( x i − x ˉ ) ⋅ ( x i − x ˉ ) T u 1 = u 1 T [ 1 N ∑ i = 1 N ( x i − x ˉ ) ⋅ ( x i − x ˉ ) T ] u 1 = u 1 T S u 1 (12) \begin{aligned} J &=\frac{1}{N} \sum_{i=1}^{N} \boldsymbol u_{1}^{T}\left(\boldsymbol{x}_{i}-\bar{\boldsymbol{x}}\right) \cdot\left(\boldsymbol{x}_{i}-\bar{\boldsymbol{x}}\right)^{T} \boldsymbol u_{1} \\ &=\boldsymbol u_{1}^{T} \left [\frac{1}{N} \sum_{i=1}^{N} \left(\boldsymbol{x}_{i}-\bar{\boldsymbol{x}}\right) \cdot\left(\boldsymbol{x}_{i}-\bar{\boldsymbol{x}}\right)^{T} \right ] \boldsymbol u_{1} \\ &=\boldsymbol u_{1}^{T} \boldsymbol S\boldsymbol u_{1} \tag{12} \end{aligned} J​=N1​i=1∑N​u1T​(xi​−xˉ)⋅(xi​−xˉ)Tu1​=u1T​[N1​i=1∑N​(xi​−xˉ)⋅(xi​−xˉ)T]u1​=u1T​Su1​​(12)

  • 我们要求的就是一个最大投方差,其实就是一个带约束的优化问题,就是要找到这个方向 u 1 \boldsymbol u_{1} u1​:
    { u ^ 1 = arg max ⁡ u 1 ⊤ S u 1 s . t . u 1 ⊤ u 1 = 1 (13) \left\{\begin{array}{l} \hat{\boldsymbol u}_{1}=\argmax \boldsymbol u_{1}^{\top}\boldsymbol S \boldsymbol u_{1} \\ s.t. \quad \boldsymbol u_{1}^{\top}\boldsymbol u_{1}=1 \tag{13} \end{array}\right. {u^1​=argmaxu1⊤​Su1​s.t.u1⊤​u1​=1​(13)

  • 求解使用拉格朗日乘子法:
    L ( u 1 , λ ) = u 1 ⊤ S u 1 + λ ( 1 − u 1 ⊤ u 1 ) (14) \mathcal{L}\left(\boldsymbol u_{1}, \lambda\right)=\boldsymbol u_{1}^{\top}\boldsymbol S \boldsymbol u_{1}+\lambda\left(1- \boldsymbol u_{1}^{\top}\boldsymbol u_{1}\right)\tag{14} L(u1​,λ)=u1⊤​Su1​+λ(1−u1⊤​u1​)(14)

  • 求偏导可以得到:
    ∂ L ∂ u 1 = 2 S u 1 − 2 λ u 1 (15) \frac{\partial \mathcal{L}}{\partial \boldsymbol u_{1}}=2\boldsymbol S \boldsymbol u_{1}-2\lambda \boldsymbol u_1\tag{15} ∂u1​∂L​=2Su1​−2λu1​(15)

  • 令偏导数等于0可以得到:
    S u 1 = λ u 1 (16) \boldsymbol S \boldsymbol u_{1}=\lambda \boldsymbol u_1\tag{16} Su1​=λu1​(16)

  • 到这里已经求解完毕,可以明显看出 λ \lambda λ 就是 S \boldsymbol S S 的特征值, u 1 \boldsymbol u_1 u1​ 就是 S \boldsymbol S S 的特征向量。

六. PCA降维(最小重构距离角度)

〖机器学习白板推导1〗样本均值样本方差PCA!相关推荐

  1. 机器学习-白板推导-系列(五)笔记:降维(PCA/SVD/PCoA/PPCA)

    文章目录 0 笔记说明 1 背景 1.1 样本均值 1.2 样本协方差矩阵 2 主成分分析PCA 2.1 最大投影方差 2.2 最小重构距离 2.3 总结 3 SVD分解HX 4 主坐标分析PCoA ...

  2. 机器学习-白板推导系列笔记(十三)-MCMC

    此文章主要是结合哔站shuhuai008大佬的白板推导视频:MCMC_218min 全部笔记的汇总贴:机器学习-白板推导系列笔记 一.蒙特卡洛方法 蒙特卡洛方法(Monte Carlo Method) ...

  3. 机器学习-白板推导系列(三十)-生成模型(Generative Model)

    机器学习-白板推导系列(三十)-生成模型(Generative Model) 30.1 生成模型的定义 前面所详细描述的模型以浅层的机器学习为主.本章将承上启下引出后面深度机器学习的部分.本小节,主要 ...

  4. 机器学习-白板推导系列笔记(二十八)-BM

    此文章主要是结合哔站shuhuai008大佬的白板推导视频:玻尔兹曼机_147min 全部笔记的汇总贴:机器学习-白板推导系列笔记 参考花书20.1 一.介绍 玻尔兹曼机连接的每个节点都是离散的二值分 ...

  5. 机器学习-白板推导系列笔记(二十一)-RBM

    此文章主要是结合哔站shuhuai008大佬的白板推导视频:受限玻尔兹曼机_155min 全部笔记的汇总贴:机器学习-白板推导系列笔记 玻尔兹曼机介绍:白板推导系列笔记(二十八)-玻尔兹曼机 一.背景 ...

  6. 机器学习-白板推导系列笔记(十二)-变分推断(VI)

    此文章主要是结合哔站shuhuai008大佬的白板推导视频: VI变分推断_126min 全部笔记的汇总贴:机器学习-白板推导系列笔记 一.背景 对于概率模型 从频率派角度来看就会是一个优化问题 从贝 ...

  7. 机器学习-白板推导系列笔记(三十四)-MDP

    此文章主要是结合哔站shuhuai008大佬的白板推导视频:马尔科夫决策过程_107min 全部笔记的汇总贴:机器学习-白板推导系列笔记 一.背景介绍 Random Variable:XYX⊥YX\; ...

  8. 机器学习-白板推导-系列(九)笔记:概率图模型: 贝叶斯网络/马尔可夫随机场/推断/道德图/因子图

    文章目录 0 笔记说明 1 背景介绍 1.1 概率公式 1.2 概率图简介 1.2.1 表示 1.2.2 推断 1.2.3 学习 1.2.4 决策 1.3 图 2 贝叶斯网络 2.1 条件独立性 2. ...

  9. 机器学习-白板推导-系列(十)笔记:EM算法

    文章目录 0 笔记说明 1 算法收敛性证明 2 公式导出 2.1 ELBO+KL Divergence 2.2 ELBO+Jensen Inequlity 2.3 最后的工作 3 从狭义EM到广义EM ...

最新文章

  1. 四路服务器芯片组,四路服务器主板配置
  2. opencv for arm
  3. Allure Report使用
  4. Spring源码深度解析第2天
  5. PC SERVER 序列号查询
  6. WordPress快速打造个人博客
  7. 如果你跟夕小瑶恋爱了...(上)
  8. 全面控制Windows任务栏
  9. 分模块的maven项目调试时报Source not found的解决办法
  10. 70多套java必练项目,适合小白上手!
  11. Linux设备驱动开发入门之——hello驱动
  12. 解密:fotona4d有什么功效,欧洲之星做一次能保持多久
  13. 世界第一黑客:凯文.米特尼克
  14. python清空文本框内容_js清空文本框
  15. 如何选择剑桥英语KET,PET课程和老师
  16. pyqt 事件更新图片显示_暗黑战神3D网游ARPG实战案例(Unity 2017.3)更新
  17. matlab中求最小值min函数的使用详细介绍(附matlab代码)
  18. 为什么计划总是坚持不下去?
  19. 面试 Redis 没底?这 40 道面试题让你不再慌(附答案)
  20. error writing messa ge: File too large

热门文章

  1. ubuntu18安装和美化教程
  2. 短视频转换GIF动图的方法
  3. Catia 利用几何约束绘制草图
  4. 《人工智能》之《计算智能》
  5. 我的世界服务器战斗力系统,我的世界:这个创建10年的服务器,可能拥有MC史上规模最大的大陆...
  6. 蚩尤战团宣传单(Designed by Casularm)
  7. html5控制字体样式,HTML5之CSS-网页文本美化-字体样式
  8. 面试被基础问题问倒了 js jquey vue
  9. packages can be updated ?updates are security updates?
  10. Event Reciever ItemUpdated fired twice