通俗的解释什么是降维

一些高维度的数据,比如淘宝交易数据,为便于解释降维作用,我们在这假设有下单数,付款数,商品类别,售价四个维度,数据量上百万条,对于下单数和付款数,我们可以认为两者是线性相关的,即知道下单数,我们可以得到付款数,这里很明显这两个属性维度有冗余,去掉下单数,保留付款数,明显能再保证原有数据分布和信息的情况下有效简化数据,对于后面的模型学习会缩短不少时间和空间开销。这就是降维,当然并不是所有数据中都会有过于明显线性相关的属性维度,我们降维后最终的目标是各个属性维度之间线性无关

降维的要点

首先让特征之间不相关,在不相关中选择最重要的特征(分步方差最大)

先让特征之间线性相关变为不相关(数学上相互垂直的坐标系),在不相关的特征中选择最重要的特征(投射距离最小、分布方差最大)。

每个新特征是所有原特征的线性组合,原特征并没有改变,是特征工程的一个方法

分布方差最大:最大限度的保留了原始数据的原貌

特征值就是分步方差

降维的好处

  • 数据压缩(数据在低维下更容易使用处理)
  • 消除冗余,去除噪声,降低维度灾难
    • 数据噪声:噪声数据是指数据中存在着错误或异常(偏离期望值)的数据,这些数据对数据的分析造成了干扰
  • 对于重要的特征能够在数据中明确的显示出来,如果是二维三维便于可视化展示
  • 降低算法的开销,提高效率

PCA主成分分析

PCA的全部工作简单点说,就是对原始的空间中顺序地找一组相互正交的坐标轴,第一个轴是使得方差最大的,第二个轴是在与第一个轴正交的平面中使得方差最大的,第三个轴是在与第1、2个轴正交的平面中方差最大的,这样假设在N维空间中,我们可以找到N个这样的坐标轴,我们取前r个去近似这个空间,这样就从一个N维的空间压缩到r维的空间了,但是我们选择的r个坐标轴能够使得空间的压缩使得数据的损失最小。

所解决的问题


所依赖的原则

  1. 降维后的各个维度之间相互独立,即去除降维之前样本 中各个维度之间的相关性。
  2. 最大程度保持降维后的每个维度数据的多样性,即最大化每个维度内的方差。

核心问题在于协方差矩阵的分解

协方差的含义

可以定义一个表示X,Y相互关系的数字特征,就是协方差

当cov(X,Y)>0时,表明X与Y正相关当cov(X, Y) > 0时,表明X与Y正相关 当cov(X,Y)>0时,表明X与Y正相关

当cov(X,Y)<0时,表明X与Y负相关当cov(X, Y) < 0时,表明X与Y负相关 当cov(X,Y)<0时,表明X与Y负相关

当cov(X,Y)=0时,表明X与Y不相关当cov(X, Y) = 0时,表明X与Y不相关 当cov(X,Y)=0时,表明X与Y不相关

协方差矩阵

最终的优化目标是与特征方差及特征间协方差有密切关系,两者均可以表示为内积的形式,而内积又与矩阵相乘有着密切的关系。

协方差矩阵完美的体现了优化目标中的两个指标

  • 方差(对角线)
  • 特征相关性(非对角线)

特征值是来描述对应特征向量方向上包含多少信息量的,值越大,信息量(方差)越大

Eig实现PCA的步骤:

Eig分解的前提,矩阵必须为方阵

PCA优缺点

优点:

  • 保留绝大部分信息
  • 消除评价指标之间的相关影响
  • 计算方法简单,易于在计算机上实现

缺点:

  • 主成分分析往往具有一定模糊性,不如原始变量的含义那么清楚、确切

SVD奇异值分解

奇异值分解是一个重要的矩阵分解,与之对应的是特征值分解(主成分分析主要使用方法),Eig分解针对的是方阵,对于一般的矩阵就可以用奇异值分解

左奇异向量、奇异值、右奇异向量

奇异值分解优缺点

优点:

  • 可以简化数据、压缩维度、去除数据噪音、提升算法结果、加快模型计算性能、可以分解任意m*n的矩阵

缺点:

  • 转换后的数据比较难理解,如何与具体业务知识对应起来是难点

LDA线性判别分析

LDA是有监督的降维技术

思想

投影后类内方差最小,类间方差最大

LDA与PCA比较

降维(PCA、SVD、LDA)相关推荐

  1. 降维(PCA和LDA)

    1. 主成分分析(PCA) 1.1 主成分分析介绍 PCA是最常用的无监督线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中,并期望在所投影的维度上数据的方差最大,以此使用较少的 ...

  2. 机器学习-白板推导-系列(五)笔记:降维(PCA/SVD/PCoA/PPCA)

    文章目录 0 笔记说明 1 背景 1.1 样本均值 1.2 样本协方差矩阵 2 主成分分析PCA 2.1 最大投影方差 2.2 最小重构距离 2.3 总结 3 SVD分解HX 4 主坐标分析PCoA ...

  3. 四大降维算法的比较和一些理解(PCA、LDA、LLE、LEP)

    PCA Principle components analysis 主成分分析法:https://blog.csdn.net/weixin_43909872/article/details/85321 ...

  4. 大数据(线性/非线性)降维方法(PCA,LDA,MDS,ISOMAP,LLE)

    文章目录 数据块划分 特征分布 特征提取 PCA LDA MDS Isomap LLE 数据块划分 对于给定的数据集Magic(19020个样本,10个属性),我们首先将其划分为RSP数据块,然后再分 ...

  5. 线性降维:PCA、LDA、MDS

    1. KNN 为什么要在介绍降维之前学习KNN呢?因为以KNN为代表的一类算法,由于其为非参数化模型,无法通过一组固定的参数和固定的模型进行表征.此外,KNN还是惰性学习算法的典型例子.惰性是指它仅仅 ...

  6. 机器学习之降维方法(LDA、PCA)小结

    1 线性判别分析(LDA) 1.1 LDA简介 LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的.一句话来概括LDA的核心思想,[投影后类内方差最小,类间方差最大].我们将数 ...

  7. 【PCA、LDA降维,及模型评估(SE,SP,AUC)】

    1. 采用 PCA 对男女生样本数据中的(身高.体重.鞋码.50m 成绩.肺活量) 共 5 个特征进行特征降维,并实现 LDA 算法对处理后的特征进行分类,计算 模型预测性能(包含 SE.SP.ACC ...

  8. 四大机器学习降维算法:PCA、LDA、LLE、Laplacian Eigenmaps

    四大机器学习降维算法:PCA.LDA.LLE.Laplacian Eigenmaps 引言 机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中.降维的本质是学习 ...

  9. python 降维lda算法的使用_【Python】降维算法PCA和LDA的实现及总结

    以Iris数据集为例,分别实现PCA和LDA降维 算法原理 主成分分析(Principal Component Analysis,PCA)是一种常用的线性降维数据分析方法,其实质是在能尽可能好的代表原 ...

  10. ML之DR:基于鸢尾花(Iris)数据集利用多种降维算法(PCA/TSVD/LDA/TSNE)实现数据降维并进行二维和三维动态可视化应用案例

    ML之DR:基于鸢尾花(Iris)数据集利用多种降维算法(PCA/TSVD/LDA/TSNE)实现数据降维并进行二维和三维动态可视化应用案例 目录 基于鸢尾花(Iris)数据集利用多种降维算法(PCA ...

最新文章

  1. 梳理消息队列 MQ/JMS/Kafka
  2. qt5中字符串转字符串数组_Qt中的对象类型转换(Qstring 转换char*有三种方法)
  3. 郁金香2013网授汇编逆向与外挂 [ 91课,全 ]
  4. html引入外部css_CSS 三种基础选择器
  5. 磐石云服务器_磐石云爆款高防云服务器3年仅699元 限量100台 BGP线路 1核2G
  6. Opportunity Sales org F4 value help data source
  7. 高速旋转中隐藏着许多鲜为人知的秘密,这些你都知道吗?
  8. C++创建对象:栈和堆的区别
  9. user-agent java_user-agent
  10. ajax json node 布尔值_ajax和axios、fetch的区别
  11. 服务器系统能连wi-fi吗,电脑怎么用wifi连接iphone
  12. 非线性动力方程中的解析法和数值法(解析解和数值解)
  13. matlab 相位谱是直线,matlab幅度谱和相位谱
  14. 【APICloud系列|32】 aMapNavigation高德地图导航的实现
  15. 实现添加数据、地图放大、缩小、漫游、全景视图、鹰眼图的操作(ICommand、ITool)...
  16. FormulaR1C1是EXCEL中单元格公式输入方法
  17. 基于openstack的云桌面开源框架
  18. 用矿卡P106升级tensorflow深度学习服务器
  19. 解决VMware虚拟机无法联网问题
  20. CDA数据分析师认证辅导课

热门文章

  1. 使用 Dynatrace 对 Node.js 应用的性能数据进行分析
  2. 百度“筷搜”神器来了,不完美但绝对牛X!
  3. 品牌如何做好VLOG营销?
  4. 网站正在建设中_网站建设中图像优化指导原则
  5. java 数字字符串大小比较_Java自学-数字与字符串 比较字符串
  6. [基础]PHP Web数据库访问编写简单示例——图书售卖系统示例[2/2]
  7. js vue保留两位小数函数(0.00)格式
  8. 【计算机视觉】HSV颜色空间
  9. curl linux 测试接口_Linux测试端口的连通性的四种方法
  10. usb7.1声道 7.1音效USB单插版 头戴式带麦游戏耳机 电竞耳机