矩阵——MATRIX,很容易让人们想到那部著名的科幻电影——《骇客帝国》。事实上,我们又何尝不是真的生活在MATRIX中。机器学习处理的大多数数据,都是以“矩阵”形式存储的。矩阵是向量的组合,而一个向量代表一组数据,数据又是多维度的。比如每个人的都具有身高、体重、长相、性情等多个维度的信息数据,而这些多维度信息数据就构成了一个人的信息向量。多个人的信息组合在一起,构成了一个信息矩阵。我们也把它称为样本。然而事实中我们遇到的信息维度往往是非常庞大的,所以就需要摒弃次要信息,保留主要信息。那么我们如何根据现有样本数据,决定该保留身高、体重、长相、性情中的哪些特征信息呢?其中身高和体重是关联比较大的,而长相、性情两方面特征与其他特征几乎无关联。从直觉上来讲,数据之间关联的程度越大,越容易“牵一发而动全身”,这种统一的“联动”能够,从另一个角度,用较少的信息说明较重要的问题。所谓降维,就是把这些“联动”的高维信息尽量压缩在一个低维信息内,我们叫它“主成分”。而协方差矩阵,代表了多维信息之间相互关联程度。我们从信息之间的关联程度出发,压缩关联程度高的信息并尽量保持原特征(去关联),摒弃不相关的信息(去冗余)。

举个极端的例子,我们制作出这样一组数据:身高和体重存在简单的线性关系(正比关系),而相貌不受身高、体重的任何影响。如下图所示

那么现在,我们计算取得上述信息矩阵A的其协方差矩阵C,如下图所示

不出意料,体重和相貌、身高和相貌之间的协方差值为0。再根据这个这个协方差矩阵C分解特征值,得出以下两个矩阵,一个为包含特征值的对角矩阵D,一个为特征值对应的特征向量所形成的矩阵X

协方差矩阵的特征值所构成的对角矩阵D:

所对应的特征向量所组成的特征矩阵X:

从上面两张图可以看出,特征值从大到小的顺序为:

77.8542895 >> 0.12487716 >> 0

显然协方差矩阵C为对称矩阵,所以根据线性代数的相关知识,矩阵C及其特征矩阵X以及特征值对角矩阵D之间,有如下关系:

我们看出特征值类似于一种“能量”,能量越大的特征值,对矩阵的“贡献”相对越大。特征值为0或几乎为0的那部分乘积项,可以被忽略掉。

在此我们只保留最大的特征值所对应的特征向量Y,这个向量Y作为压缩数据的方向

通过向量Y,用以下方式将原来的3维数据压缩为1维数据

P就是我们压缩后的信息,它映射一个唯一的主成分P1

下图显示了压缩前后样本数据和主成分的变化关系

l h代表身高数据

l w代表体重数据

l a代表长相数据

p1就是压缩后的主成分上的投影数据

从图中可以看出:

1. 压缩的后主成分p1和几乎保留了身高h的变化规律,

2. 体重w与h为正比关系。故此,w,h贡献给了主成分p1,

3. 长相a作为冗余数据被过滤掉。

那么为什么我们选择协方差矩阵最大特征值所对应的特征向量,就刚好能够使我们抽取原信息矩阵中的主成分呢?下一篇我们将阐述PCA降维的原理和依据。

pca主成分分析_PCA主成分分析(中)相关推荐

  1. r语言主成分分析_PCA主成分分析

    PCA主成分分析 最近遇到了主成分分析法这个东西,一开始我觉得简直天才啊,这个想法虽然从经济意义上来解释有点奇怪,毕竟是数学方法计算出来的解释因子,但鉴于没人知道现实世界究竟被多少因素影响,这种方法可 ...

  2. pca降维后的特征跟原来的特征有什么关系?_PCA 主成分分析方法

    一.为什么要进行数据降维 机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据映射到低维度的空间中.之所以要进行数据降维,是因为在原始的高维数据中,存在很多冗余以及噪声信息,通过数据降 ...

  3. PCA降维(主成分分析法)

    PCA降维(主成分分析法) PCA的基本思想 PCA数学推导(最大方差法) 第一步,数据去中心化 第二步,找到新最标轴 第三步,选择你需要数据的百分之几的成分 PCA算法的优劣 问题 使用PCA到底需 ...

  4. 主成分分析在SPSS中的操作应用

    主成分分析在SPSS中的操作应用 主成分分析在SPSS中的操作应用 主成分分析原理 主成分分析法简介 主成分分析数学模型 对沿海 10 个省市经济综合指标进行主成分分析 生成图表 方法一 方法二 方法 ...

  5. pca各个向量之间的相关度_PCA主成分分析

    降维就是一种对高维度特征数据预处理方法.降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的.降维的算法有很多,比如奇异值分解(SVD).主成分分析(PC ...

  6. pca 主成分分析_超越普通PCA:非线性主成分分析

    pca 主成分分析 TL;DR: PCA cannot handle categorical variables because it makes linear assumptions about t ...

  7. python pca主成分_超越“经典” PCA:功能主成分分析(FPCA)应用于使用Python的时间序列...

    python pca主成分 FPCA is traditionally implemented with R but the "FDASRSF" package from J. D ...

  8. 旋转成分矩阵结果分析_PCA(主成分分析) 和 SVD (奇异值分解)

    PCA 和 SVD 协方差矩阵 在上一篇 最小二乘法 的末尾提到了协方差矩阵以及用它来拟合,这里先再次回顾. 我们来观察一下: 假设有一堆点 ,如果我们想要看这堆点的分散程度,一个办法是我们找出过质心 ...

  9. 基于GDAL实现的PCA变换(主成分分析)

    主成分分析(Principal Component Analysis,PCA), 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法.又称主分量分析.在实际课题中,为了全面分析问题,往 ...

  10. JAVA实现PCA主成分分析_主成分分析PCA(principal component analysis)原理

    PCA在很多方面均有应用,但是之前没有仔细探究过,最近看了一些博客和论文,做一下总结. 主成分分析(Principal Component Analysis,PCA), 是一种统计方法.通过正交变换将 ...

最新文章

  1. 人工智能能否跨越意识鸿沟?
  2. 带你认识大模型训练关键算法:分布式训练Allreduce算法
  3. C#中的三层前馈神经网络,带有图形显示
  4. HQL –Hibernate查询语言–示例教程
  5. 知乎高赞:当update修改数据与原数据相同时会再次执行吗?
  6. C语言的面向对象设计之 X264,FFMPEG 架构探讨
  7. Spring面试问题和答案
  8. PPT精典基础教程 .
  9. fruit loops studio音乐宿主软件daw水果软件20.9中文版
  10. wamp php 7.0,wamp如何尝鲜php7
  11. 学习EBS建议有的知识
  12. 中链云&神算云 全球发布暨表彰盛典在深顺利召开
  13. 字符串在html中的页面中的换行
  14. Python入门(第一节课)
  15. [李宏毅机器学习2020笔记] 1.introduction
  16. HackerRank: Jumping on the Clouds
  17. 淘宝店铺订单解密接口/淘宝店铺订单插旗接口/淘宝店铺订单交易接口/淘宝店铺商品上传接口/淘宝店铺订单明文接口/代码对接分享
  18. kafka consumer 停止消费topic
  19. 四种常见的GPS北斗定位模块问题及解决办法
  20. Oracle数据库中的方案,学习Oracle数据库_理解Oracle数据库中的方案

热门文章

  1. Java并发编程之ReentrantReadWriteLock详解
  2. Intellij IDEA 导入Maven项目
  3. java导入功能超时问题
  4. Webstorm配置运行React Native
  5. 关于Mysql group_concat的应用(把相同ID的VAL用字符'/'连接起来)
  6. 互联网+正在颠覆行车记录仪市场
  7. apache日志管理
  8. UITableViewCell 添加 checkbox 多选
  9. 重新审视SqlDataReader的使用
  10. React Native 入门第一篇