1、作用

主成分分析将多个有一定相关性的指标进行线性组合,以最少的维度解释原数据中尽可能多的信息为目标进行降维,降维后的各变量间彼此线性无关,最终确定的新变量是原始变量的线性组合,且越往后主成分在方差中的比重也小,综合原信息的能力越弱,与因子分析不同的是,因子分析是利用少数几个公共因子去解释较多个要观测变量中存在的关系,它不是对原始变量的重新组合。

2、输入输出描述

输入:2 个或两个以上的定量变量(假设为 N 个变量)
输出:最低可降维成 1 维(一个变量,一般用于综合评价),最多可降维成 N 个变量(一般用于数据脱敏),同时可以获取降维后各个变量的组成权重,用于代表原先变量的数据保留情况。

​3、案例示例

现在某银行有一张100个变量的用户属性数据表,需要在保证数据的原有信息的损失率最小情况,进行脱敏与降维。

4、建模步骤

主成分分析法是运用“降维”思想,把多个指标 变换成少数综合指标的多元统计方法,这里的综合 指标就是主成分。每个主成分都是原始变量的线性组合,彼此相互独立,并保留了原始变量绝大部分信息。其本质是通过原始变量的相关性,寻求相关变 量的综合替代对象,并且保证了转化过程中的信息损失最小 。
根据标准化后的数据集计算协方差矩阵:

计算矩阵  的特征值 λ1 ≥λ2 ≥…≥λn ≥ 0及 对应的特征向量 u1 ,2 ,…,n ,其中 j= (u1 j,u2 j, …,unj) ,u nj 表示第 j 个特征向量的第 n 个分量; 由特征向量组成 n 个新的指标变量:

式中,y 1 是第 1 主成分,y 2 是第 2 主成分,…,y n 是第 n 主成分。 计算各主成分y j 贡献率 b j(j=1,2,...,n) 及 y 1,y 2 ,…,y n (p ≤ n)的累计贡献率  。

数据降维——主成分分析相关推荐

  1. 数据降维--------主成分分析(PCA)算法原理和实现学习笔记

    1 主成分分析背景 '''PCA计算步骤(思想是把数据投影到方向向量使数据集的特征向量到方向向量的垂线长度最短) 1.去平均 2.计算协方差矩阵 3.计算协方差矩阵的特征向量和特征值 4.将特征值从小 ...

  2. 多元统计分析——数据降维——因子分析(FA)

    一.因子分析简介 1.定义 1904年,英国心理学家CharlesSpearman研究了33名学生在古典语.法语和英语三门成绩,三门成绩的相关性系数如下: 三门成绩的高度相关会不会是由于它们三个成绩的 ...

  3. matlab 数据降维和重构_核主成分分析(Kernel PCA, KPCA)的MATLAB 实现

    前言 核主成分分析 (KPCA) 是一种非线性数据处理方法,其核心思想是通过一个非线性映射把原始空间的数据投影到高维特征空间, 然后在高维特征空间中进行基于主成分分析 (PCA) 的数据处理.KPCA ...

  4. 对pca降维后的手写体数字图片数据分类_python机器学习API介绍13: 数据降维及主成分分析...

    数据降维概述:数据降维是机器学习领域中重要的内容,所谓的降维就是采用某种映射方法,将高维空间中的数据点映射到低维的空间中.其本质是学习一个映射函数f: x->y.其中x是原始数据点的表述,目前多 ...

  5. stats | 数据降维之主成分分析(PCA)

    在使用数据建模时,过多的变量会增加计算复杂性,同时也使结果解释变得困难.主成分分析(Principal Components Analysis,PCA)通过对原变量进行线性组合生成新的变量,可以使得纳 ...

  6. python图像压缩主成分分析实例_python机器学习API介绍13: 数据降维及主成分分析...

    数据降维概述:数据降维是机器学习领域中重要的内容,所谓的降维就是采用某种映射方法,将高维空间中的数据点映射到低维的空间中.其本质是学习一个映射函数f: x->y.其中x是原始数据点的表述,目前多 ...

  7. 主成分分析实战篇:南极考察站检测数据降维

    1.主成分分析应用背景及目标: 1.1 背景分析 我们希望可以从南极洲站点监测数据中得到南极洲地表温度的计算公式,进而解释分析气候变暖的内在原因.为了能够得带南极洲地表温度更多方面,更完整的信息,需要 ...

  8. 机器学习:基于主成分分析(PCA)对数据降维

    机器学习:基于主成分分析(PCA)对数据降维 作者:AOAIYI 作者简介:Python领域新星作者.多项比赛获奖者:AOAIYI首页

  9. 数据降维1:主成分分析法思想及原理(配图版)

    0x01 什么是主成分分析法 PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法(非监督的机器学习方法). 其最主要的用途在于&quo ...

最新文章

  1. 《c陷阱与缺陷》之贪心法
  2. 第十七课:js数据缓存系统的原理
  3. 用 Shell 脚本访问 MySQL 数据库
  4. 软件工程-第一次作业
  5. 老王有两个孩子,已知至少有一个孩子是在星期二出生的男孩。问:两个孩子都是男孩的概率是多大?
  6. 《罗辑思维》读书笔记及思维导图
  7. Apache2.2.21安装图解
  8. php mysql 单例模式_PHP基于单例模式实现的mysql类
  9. 获取网关_阿里二面问了这道题:如何设计一个微服务网关系统
  10. Spring Boot整合Swagger3注解@ApiImplicitParam的paramType属性为“path“
  11. linux zsh 终端,linux 终端命令加速-zsh让终端更优雅
  12. html+默认ie11,IE11浏览器设置默认浏览器的方法
  13. [设计素材]你也在找CTBiaoSongSJ吗?我这里有耶!
  14. 1991【19CSPS提高组】树的重心 信奥赛Kirito(本人)
  15. 可汗学院公开课——统计学学习:35-46
  16. Layui同一个表单中放置两个按钮,提交问题
  17. USYD悉尼大学DATA1002 详细作业解析Module6
  18. Roman Numeral Converter--将给定的数字转换为罗马数字
  19. 在线PDF转换PPT,不用安装软件
  20. 赶紧收藏:如何使用Telegram客户支持

热门文章

  1. PLSQL的安装和配置
  2. java使用了未经检查或不安全的操作
  3. cucumber java 实例_cucumber java从入门到精通(3)简单实现及断言
  4. JavaScript换行符的使用
  5. 软件工程专业需要知道的缩写和专业名词
  6. 2021-08-17 介绍一款好用的播放器VLC media player
  7. 【产品经理学习笔记】Part 2 互联网经典产品案例分析
  8. AHKC-EKA开口式霍尔电流传感器主要应用在焊机、逆变电源、电流监控行业
  9. 双硬盘双系统安装Ubuntu18.04
  10. spring中jso文件获取后台数据时注意的点