一、主成分分析原理

主成分分析试图在力保数据信息丢失最少的原则下,对多个变量进行最佳综合简化,即对高维变量空间进行降维处理。

假设原来有p个变量(或称指标),通常的做法是将原来p个变量(指标)作线性组合,以此新的综合变量(指标)代替原来p个指标进行统计分析。如果将选取的第一个线性组合,即第一个综合变量(指标),记为F1,则自然希望F1尽可能多地反映原有变量(指标)的信息。

如何衡量信息的含量,经典的做法就是采用“方差”来表示。F1的方差越大,F1所包含的信息就越多。这样,F1的选取方法是,在所有的原来p个变量(指标)的线性组合中,选取方差最大的线性组合作为F1,称为第一主成分。如第一主成分不足于代表原来p个变量(指标)的信息,则考虑选取第二主成分F2。为有效反映原信息,F1已有的信息不需要再现在F2中,即要求F1与F2的协方差为零,即Cov(F1, F2)=0。依此下去,我们可以构造出第三、第四、…、第p个主成分。在主成分之间,不仅不相关,而且方差依次递减。在实际经济工作中,我们往往选取前面几个较大的主成分。虽然损失一部分信息,但我们抓住了原来p个变量的大部分信息(一般要求超过85%),分析的结果应该是可靠的、可信的。

主成分的基本思想:

对所选主成分作经济解释:

主成分分析的关键在于能否给主成分赋予新的意义,给出合理的解释,这个解释应根据主成分的计算结果结合定性分析来进行。

主成分是原来变量的线性组合,在这个线性组合中,各变量的系数有大有小,有正有负,有的大小相当,因而不能简单地认为这个主成分是某个原变量的属性的作用。

线性组合中个变量的系数的绝对值大者表明该主成分主要综合了绝对值大的变量,有几个变量系数大小相当时,应认为这一主成分是这几个变量的总和,这几个变量综合在一起应赋予怎样的经济意义,要结合经济专业知识,给出恰如其分的解释,才能达到深刻分析经济成因的目的。

二、因子分析原理

因子分析是将多个实测变量转换为少数几个不相关的综合指标的多元统计方法。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。假想变量是不可观测的潜在变量,称为因子。

假定这p个有相关关系的随机变量含有m个彼此独立的因子,可表示为

或用矩阵表示为 X=AF+ε

F1, F2, …, Fm 称为公共因子,是不可观测的变量,它们的系数称为因子载荷,A称为因子载荷矩阵。ε是特殊因子,是不能包含在公共因子的部分。

需要满足:

m≤ p,即公共因子数不超过原变量个数

公共因子之间互不相关,且每个Fi方差为1,即F的协方差矩阵为I

公共因子和特殊因子之间彼此互不相关,即Cov(F,ε)=0

特殊因子之间彼此互不相关,但方差不一定相同,记εI的方差为。理想的情况是,对于每个原始变量而言,其在因子载荷矩阵中,在一个公共因子上的载荷较大,在其他的因子上载荷较小。可以通过因子旋转方法调整因子载荷矩阵。

三、成分分析和因子分析的区别

1,因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成各个变量的线性组合。主成分分析仅仅是变量变换:用原始变量的线性组合表示新的综合变量,即主成分。因子分析需要构造因子模型:用潜在的假想变量和随机影响变量的线性组合表示原始变量。因子模型估计出来后,需要对所得的公共因子进行解释。

2,主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在解释各变量之 间的协方差。

3主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。

4主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不到的因子。

5,在因子分析中,因子个数需要分析者指定(spss)根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指 定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。

和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这中情况也可以使用因子得分做到。所以这种区分不是绝对的。

总得来说,主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前 ,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用(我觉得不一定,可以单独用):a,了解数据。(screening the data),b,和cluster analysis一 起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。

在算法上,主成分分析和因子分析很类似,不过,在因子分析中所采用的协方差矩阵的对角元素不再是变量的方差,而是和变量对应的共同度(变量方差中被各因子所解释的部分)。

主成分与因子分析异同_主成分和因子分析原理及比较相关推荐

  1. 主成分与因子分析异同_如何做主成分分析和因子分析?它们的区别与联系在哪里?...

    "主成分分析和因子分析有什么区别和联系?"这个问题其实很多朋友在后台提问过,今天将这个问题的答案写成推送分享给大家.以后有问题或需求,请在下方留言区留言.觉得解释得好的朋友,记得打 ...

  2. 主成分与因子分析异同_因子分析

    1 导言 因子分析是将多个实测变量简化为较少变量的方法. 利用因子分析能简化分析,更能反映事物本质. 学习因子分析能确定哪些变量应该保留,哪些应该剔除,并得到主要成分的表达式,这些表达式是原有变量的线 ...

  3. 主成分回归之后预测_主成分回归解析.ppt

    教学课件课件PPT医学培训课件教育资源教材讲义 主成分回归分析 一.主成分估计 主成分估计是以P个主成分中的前q个贡献大的主成分为自变量建立回归方程,估计参数的一种方法. 它可以消除变量间的多重共线性 ...

  4. mysql主键和唯一索引_主键和唯一索引的有什么区别

    主键和唯一索引的区别 -- 区别 主键是一种约束,唯一索引是一种索引,两者在本质上是不同的. 主键创建后一定包含一个唯一性索引,唯一性索引并不一定就是主键. 唯一性索引列允许空值,而主键列不允许为空值 ...

  5. mysql主键被强制定义_主键约束用来强制数据的( )完整性。_学小易找答案

    [其它]上传excel实训3. [单选题]在一张表中可以创建_________个集聚索引. [单选题]日期时间型数据类型(datetime)的长度是( ). [其它]数据分析与函数练习表(控辍表).x ...

  6. R语言主成分分析PCA和因子分析EFA、主成分(因子)个数、主成分(因子)得分、主成分(因子)旋转(正交旋转、斜交旋转)、主成分(因子)解释

    R语言主成分分析PCA和因子分析EFA.主成分(因子)个数.主成分(因子)得分.主成分(因子)旋转(正交旋转.斜交旋转).主成分(因子)解释 目录

  7. 主成分回归之后预测_回归分析|笔记整理(B)——主成分回归(下),偏最小二乘回归...

    大家好! 上一节我们给主成分回归开了一个头,这一节我们会继续介绍它的有关内容,并且同时会介绍另一种新的回归方法:偏最小二乘回归.这一节的理论性也比较强,主要关注了相关回归的理论上的性质与相关证明. 提 ...

  8. 名词性物主代词在英语中担当的成分

    名词性物主代词在英语中担当的成分

  9. 智慧北京02_初步ui框架_ 主界面_viewPager事件_xUtils_slidingMenu_网络缓存_数据传递...

    智慧北京02_初步ui框架_ 主界面_viewPager事件_xUtils_slidingMenu_网络缓存_数据传递 1.使用Fragment搭建ui框架 参考分析图 1.1,Fragment生命周 ...

  10. 华信c语言程序设计答案,C语言程序设计实验指导_颜晖_主_....doc

    C语言程序设计实验指导_颜晖_主_....doc C语言程序设计部分实验参考答案 实验2 #include int main(){//2-1-2 int c,f=150; c=f*5/9-32*5/9 ...

最新文章

  1. 什么是迁移学习?迁移学习的超参数有哪些?
  2. js 判断数据类型的几种方法
  3. dubbo的provider和consumer的demo
  4. linux socket 详解
  5. 分块读取Blob字段数据(Oracle)
  6. 简洁明了——STL容器库之set头文件常用函数集合
  7. 用符号方法求下列极限或导数matlab,matlab实验
  8. H - Checker FZU - 2041
  9. 小米折叠屏手机真机现身:疑似跳票两年的MIX 4……
  10. 新手村之BOSS战-入门综合练习2
  11. 自动化测试 (三) Web自动化测试原理
  12. 面向实时嵌入式系统的图形用户界面支持系统――MiniGUI 背景,发展及优势
  13. Delphi7学习第一天
  14. 美赛O奖论文翻译-2015埃博拉病毒
  15. python修改桌面壁纸_python设置windows桌面壁纸
  16. ROWTYPE 数据类型实践和使用
  17. 一种使用可满足性模数理论模型检查可编程逻辑控制器系统的恶意软件检测方法
  18. HTML-浮动与清除浮动
  19. 搜索引擎中的网络蜘蛛技术探析
  20. mybatis-generator-tool工具的使用

热门文章

  1. 梯度,雅克比矩阵和海森矩阵
  2. 中联医疗系统服务器,中联电子病历系统(ZLEMR)
  3. linux 消息队列最大值,linux 消息队列的限制
  4. 「 数学模型 」“灰色模型的研究步骤及五步建模思想”讲解
  5. 图像处理算法工程师面试题
  6. Auto 3dmax安装资源
  7. java modbus tcp plc_PLC1200MODBUS TCP 程序实例
  8. 安装tensorflow踩的那些坑
  9. 105个上榜!2020年工业互联网试点示范项目名单公布
  10. 图像/视频无损放大,用一个工具就够了