转载自:http://blog.codinglabs.org/articles/pca-tutorial.html

文章分析脉络梳理:

1.向量A和B的内积表示的是向量A在B上的投影长度。那么将一个向量与新的基做内积,结果则表示该向量在新的基下的坐标。

2.将新选定的基表示成矩阵形式,与原向量相乘,就得到了原向量在新选定的基所表示的空间(或坐标系)中的坐标表示了。

3.怎样选定这组基用于数据降维?(目标)

(1)首先将数据变换到选定基上后,数据的方差要大,尽量分散。

(2)各个基要正交(表示的信息要不相关,若单纯按方差选定基,则选定的基存在很大的相关性)

4.怎么做?怎么找这组正交基? (做法)

(1)协方差矩阵可以很好地表示各个特征的方差和不同特征之间的协方差

(2)按目标要求需要将协方差矩阵除去对角线元素化为0,对角线元素按从大到小排列。协方差矩阵对角化。

(3)对角化后按特征值大小排列,选定前k个最大的特征值对应的特征向量作为降维后的新基。

PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么。

当然我并不打算把文章写成纯数学文章,而是希望用直观和易懂的方式叙述PCA的数学原理,所以整个文章不会引入严格的数学推导。希望读者在看完这篇文章后能更好的明白PCA的工作原理。

进一步讨论

根据上面对PCA的数学原理的解释,我们可以了解到一些PCA的能力和限制。PCA本质上是将方差最大的方向作为主要特征,并且在各个正交方向上将数据“离相关”,也就是让它们在不同正交方向上没有相关性。

因此,PCA也存在一些限制,例如它可以很好的解除线性相关,但是对于高阶相关性就没有办法了,对于存在高阶相关性的数据,可以考虑Kernel PCA,通过Kernel函数将非线性相关转为线性相关,关于这点就不展开讨论了。另外,PCA假设数据各主特征是分布在正交方向上,如果在非正交方向上存在几个方差较大的方向,PCA的效果就大打折扣了。

最后需要说明的是,PCA是一种无参数技术,也就是说面对同样的数据,如果不考虑清洗,谁来做结果都一样,没有主观参数的介入,所以PCA便于通用实现,但是本身无法个性化的优化。

希望这篇文章能帮助朋友们了解PCA的数学理论基础和实现原理,借此了解PCA的适用场景和限制,从而更好的使用这个算法。

通俗易懂的主成分分析法(PCA)详解相关推荐

  1. 【地理建模】现代地理学中的数学方法:主成分分析法案例详解

  2. 主成份分析(PCA)详解

    主成分分析法(Principal Component Analysis)大多在数据维度比较高的时候,用来减少数据维度,因而加快模型训练速度.另外也有些用途,比如图片压缩(主要是用SVD,也可以用PCA ...

  3. R统计绘图-PCA详解1(princomp/principal/prcomp/rda等)

    此文为<精通机器学习:基于R>的学习笔记,书中第九章详细介绍了无监督学习-主成分分析(PCA)的分析过程和结果解读. PCA可以对相关变量进行归类,从而降低数据维度,提高对数据的理解.分析 ...

  4. sklearn 主成分分析法 PCA和IPCA

    主成分分析法 (PCA) 是一种常用的数据分析手段.对于一组不同维度 之间可能存在线性相关关系的数据,PCA 能够把这组数据通过正交变换变 成各个维度之间线性无关的数据.经过 PCA 处理的数据中的各 ...

  5. DID会固定年份吗_倍分法DID详解 (二):多时点 DID (渐进DID)

    作者:王昆仑 (天津大学) Stata连享会 计量专题  || 公众号合集 2020寒假Stata现场班 (北京, 1月8-17日,连玉君-江艇主讲) 「+助教招聘」 2020寒假Stata现场班 文 ...

  6. rust如何在木板上上传图片_腐蚀rust游戏玩法方式详解

    在腐蚀这款游戏中玩家所有的物资都需要自己去寻找,不过很多时候遇到不怀好意的玩家时最好提高安全意识,及时躲避袭击,下面是游戏玩法发展方式详解. 游戏玩法方式详解 这里分两种发展方式 1.纯新手 首先需要 ...

  7. DID会固定年份吗_倍分法DID详解 (三):多时点 DID (渐进DID) 的进一步分析

    作者:王昆仑 (天津大学) E-mail: shawn0513@163.com 连享会专题课程:DSGE 模型及应用 连享会 DSGE 专题课程 这是连享会「倍分法(DID)专题推文」系列的第三篇文章 ...

  8. 倍分法DID详解 (二):多时点 DID (渐进DID)

      作者:王昆仑 (天津大学)   Stata连享会 计量专题 || 公众号合集   导入 在 「连享会 - 倍分法系列推文」-- 「倍分法DID详解 (一):传统 DID」 文中,我们详细介绍了 D ...

  9. 我的世界java版区块显示_我的世界手游区块显示指令分享:区块玩法操作详解[多图]...

    我的世界手游区块是一个独特的机制,很多玩家对于区块是什么不太了解,区块显示指令以及区块的产生不是很熟悉,为了帮助到大家,今天小编就为大家带来我的世界手游区块显示指令分享:区块玩法操作详解的内容,希望大 ...

  10. 十日均线算法oracle,10日均线法的详解

    @@@.各位..注意该股必需是多头排列.....最好是多头市场.........这样正确率才高..收盘价在十天平均线上才可以考虑买入股票.股价跌破十天平均线时,必须卖出股票.有的人一定会觉得这太简单. ...

最新文章

  1. LeetCode N-ary Tree Level Order Traversal(bfs)
  2. Android studio连接夜神模拟器详细步骤
  3. 解决mysql插入中文出现错误Incorrect string value: ‘\xE7\xA8\x8B\xE5\xBA\x8F...‘ for column ‘course‘ at row 1
  4. 比特币链上活跃度下降,近24小时交易额约为1050.57亿美元
  5. 一文了解授信审批策略及流程
  6. 炙手可热的ZNS SSD将会为数据中心带来什么?
  7. 子选择器和后代选择器
  8. vb ajax提交post,使用jQuery AJAX将JS数组传递给VB.Net post
  9. Unity Cinemachine之第三人称摄像机CinemachineFreeLook属性详解
  10. HTML字符实体,转义字符串
  11. word整个表格首行缩进_Word2016中设置首行缩进的方法
  12. 计算机组成与结构(Ⅰ)
  13. 在html中取消超链接的下划线
  14. QML实现闹钟的时间选择器
  15. 日化美妆难突围,看爱码物联如何冲破传统营销壁垒
  16. 计算机主机平时怎么保养,怎样保养电脑(不得不看的四个好习惯)
  17. 软件危机(含通俗理解帮助记忆)
  18. 计算机主板跳线怎么放电,主板电池放电清BIOS恢复出厂设置怎么操作?图文教程...
  19. 2019icassp主页浏览见闻~~
  20. 发那科机器人刷机操作

热门文章

  1. 基于test log的自动结果分析
  2. 用头插法和尾插法建立单链表(带头结点)
  3. 【云原生 | 从零开始学istio】二、Istio核心特性与架构
  4. python houdini_通过Python调用houdini的HAPI
  5. windows10查看驱动程序安装错误日志
  6. 统计机器翻译教程下载
  7. 在智能建筑中设置照明控制以驱动收敛的物联网移动
  8. PTS Dongle (BLE Only)实现广播
  9. 手机对话中的语音处理(一)
  10. 拉马努金:“与神对话”的数学天才