鄙人学习笔记


文章目录

  • 因子分析
    • 基本理论
    • 因子载荷的求解
      • 因子旋转
      • 因子得分
      • 主成分分析与因子分析的区别
    • 因子分析的步骤与逻辑框图
      • 步骤
      • 逻辑框图

因子分析

因子分析( factor analysis)模型是主成分分析的推广。它也是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法

相比主成分分析,因子分析更倾向于描述原始变量之间的相关关系,因此,因子分析的出发点是原始变量的相关矩阵。

基本理论

  • 因子分析的基本思想

因子分析的基本思想是根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量间的相关性则较低。每组变量代表一个基本结构,并用一个不可观测的综合变量表示,这个基本结构就称为公共因子。
对于所研究的某一具体问题,原始变量可以分解成两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊因子。
因子分析还可用于对变量或样品的分类处理,我们在得出因子的表达式之后,可以把原始变量的数据代入表达式得出因子得分值,根据因子得分在因子所构成的空间中把变量或样品点画出来,形象直观地达到分类的目的。
因子分析不仅可以用来研究变量之间的相关关系,还可以用来研究样品之间的相关关系,通常将前者称为 R型因子分析,后者称为 Q型因子分析。

  • 一般因子分析模型

设有 n个样品,每个样品观测 p个指标,这 p个指标之间有较强的相关性(要求 p个指标相关性较强的理由是很明确的,只有相关性较强才能从原始变量中提取出“公共”因子)
为了消除由于观测量纲的差异及数量级不同所造成的影响,将样本观测数据进行标准化处理,使标准化后的变量均值为0,方差为1。
为方便,把原始变量及标准化后的变量向量均用X 表示,用F1,F2,…,Fm(m <p)表示标准化的公共因子。

如果:

(1)X =(X1,X2,…,Xp)′是可观测随机向量,且均值向量E(X)=0,协方差矩阵cov(X)=∑,且协方差矩阵∑ 与相关阵R 相等;

(2)F =(F1,F2,…,Fm)′(m <p)是不可观测的变量,其均值向量E(F)=0,协方差矩阵cov(F)=I,即向量F 的各分量是相互独立的
(3)ε =(ε1,ε2,…,εp)′与F 相互独立,且E(ε)=0,ε 的协方差阵∑ ε 是对角方阵

ε 的各分量之间也是相互独立的.

则模型:

称为因子模型


其中:

公共因子F1,F2,…,Fm 相互独立且不可测,是在原始变量的表达式中都出现的因子。公共因子的含义,必须结合实际问题的具体意义确定。

ε1,ε2,…,εp 叫做特殊因子,是向量X的分量Xi(i =1,2,…,p)所特有的因子。各特殊因子之间以及特殊因子与所有公共因子之间也都是相互独立的。
矩阵A 中的元素aij 称为因子载荷,aij 的绝对值越大(∣ aij ∣ ≤ 1),表明Xi 与Fj 的相依程度越大,或称公共因子Fj 对于Xi 的载荷量越大,进行因子分析的目的之一就是要求出各个因子载荷的值。
经过后面的分析会看到,因子载荷的概念与上一章主成分分析中的因子负荷量相对等,实际上,由于因子分析与主成分分析非常类似,在上面的因子模型中,若把εi 看做ai(m+1)F(m+1) +ai(m+2)F(m+2) +…+aipFp 的综合作用,则除了此处的因子为不可测变量这一区别,因子载荷与主成分分析中的因子负荷量是一致的。很多人对这两个概念并不加以区分而都称作因子载荷。矩阵A 称为因子载荷矩阵

为了更好地理解因子分析方法,有必要讨论一下载荷矩阵A的统计意义以及公共因子与原始变量之间的关系。
(1)因子载荷aij 的统计意义:

即aij 是Xi 与Fj 的协方差,而注意到,Xi 与Fj(i =1,2,…,p;j =1,2,…,m)都是均值为0,方差为1 的变量,因此,aij 同时也是Xi 与Fj 的相关系数。

(2)变量共同度与剩余方差:
称ai12+ai22+ … +aim2为变量Xi 的共同度,记为hi2(i =1,2,…,p)
由因子分析模型的假设前提,易得:

易得记var(ε i)=σi2,则:

上式表明共同度hi2与剩余方差σi2有互补的关系,越大表明Xi 对公共因子的依赖程度越大,公共因子能解释Xi 方差的比例越大,因子分析的效果也就越好。

(3)考虑某一个公共因子Fj 与所有原始变量X1,X2,…,Xp 的关系。记:

则gj2表示的是公共因子Fj 对于X 的每一分量Xi(i =1,2,…,p)所提供的方差的总和,称为公共因子Fj 对原始变量向量X 的方差贡献,它是衡量公共因子相对重要性的指标。gj2越大,表明公共因子Fj 对X 的贡献越大,或者说对X 的影响和作用就越大。
如果将因子载荷矩阵A 的所有gj2(j =1,2,…,m)都计算出来,并按其大小排序,就可以依此提炼出最有影响的公共因子。

因子载荷的求解

有很多方法可以完成求解因子载荷这项工作,如主成分法、主轴因子法、最小二乘法、极大似然法、 α因子提取法等。

  • 主成分法

用主成分法确定因子载荷是在进行因子分析之前先对数据进行一次主成分分析,然后把前几个主成分作为未旋转的公共因子。
但是,由于用这种方法所得的特殊因子 ε1, ε2,…, εp之间并不相互独立,因此,用主成分法确定因子载荷不完全符合因子模型的假设前提,也就是说所得的因子载荷并不完全正确。
当共同度较大时,特殊因子所起的作用较小,特殊因子之间的相关性所带来的影响几乎可以忽略。
事实上,很多有经验的分析人员在进行因子分析时,总是先用主成分法进行分析,然后再尝试其他的方法

  • 主轴因子法

主轴因子法也比较简单,且在实际应用中比较普遍。用主轴因子法求解因子载荷矩阵的方法,其思路与主成分法有类似的地方,两者均是从分析矩阵的结构入手,不同的地方在于,主成分法是在所有的p个主成分都能解释标准化原始变量所有方差的基础之上进行分析的,而主轴因子法中,假定 m个公共因子只能解释原始变量的部分方差,利用公共因子方差(或共同度)来代替相关矩阵主对角线上的元素 1,并以新得到的这个矩阵(称为调整相关矩阵)为出发点,对其分别求解特征根与特征向量,从而得到因子解。

  • 极大似然法

如果假定公共因子F和特殊因子ε服从正态分布,则能够得到因子载荷和特殊因子方差的极大似然估计。

因子旋转

不管用何种方法确定初始因子载荷矩阵A,它们都不是唯一的。设F1,F2,…,Fm 是初始公共因子,则可以建立它们的如下线性组合得到新的一组公共因子F1′,F2′,…,Fm′,使得F1′,F2′,…,Fm′彼此相互独立,同时也能很好地解释原始变量之间的相关关系。

这样的线性组合可以找到无数组,由此便引出了因子分析的第二个步骤——因子旋转。

建立因子分析模型的目的不仅在于找到公共因子,更重要的是知道每一个公共因子的意义,以便对实际问题进行分析。然而,我们得到的初始因子解各主因子的典型代表变量不是很突出,容易使因子的意义含糊不清,不便于对实际问题进行分析。出于这种考虑,可以对初始公共因子进行线性组合,即进行因子旋转,以期找到意义更为明确、实际意义更明显的公共因子。
经过旋转后,公共因子对Xi 的贡献hi2并不改变,但由于载荷矩阵发生变化,公共因子本身就可能发生很大的变化,每一个公共因子对原始变量的贡献gj2不再与原来相同,经过适当的旋转,我们就可以得到比较令人满意的公共因子。

  • 正交旋转和斜交旋转

因子旋转分为正交旋转与斜交旋转。正交旋转由初始载荷矩阵A 右乘一正交阵而得到。经过正交旋转而得到的新的公共因子仍然保持彼此独立的性质。而斜交旋转则放弃了因子之间彼此独立这个限制,因而可能达到更为简洁的形式,其实际意义也更容易解释。但不论是正交旋转还是斜交旋转,都应当使新的因子载荷系数要么尽可能地接近于零,要么尽可能地远离零。
对于一个具体问题要做因子旋转,有时需要进行多次才能得到满意效果。每一次旋转后,矩阵各列平方的相对方差之和总会比上一次有所增加。如此继续下去,当总方差的改变不大时,就可以停止旋转,这样就得到了新的一组公共因子及相应的因子载荷矩阵,使得其各列元素平方的相对方差之和最大。

因子得分

顾名思义,因子得分就是公共因子F1,F2,…,Fm在每一个样品点上的得分。

这需要我们给出公共因子用原始变量表示的线性表达式,这样的表达式一旦能够得到,就可以很方便地把原始变量的取值代入表达式中,求出各因子的得分值。在此处,公共因子用原始变量线性表示的关系式并不易得到。

在此处,公共因子用原始变量线性表示的关系式并不易得到。在主成分分析中,主成分是原始变量的线性组合,当取p 个主成分时,主成分与原始变量之间的变换关系是可逆的,只要知道了原始变量用主成分线性表示的表达式,就可以方便地得到用原始变量表示主成分的表达式;

在因子模型中,公共因子的个数少于原始变量的个数,且公共因子是不可观测的隐变量,载荷矩阵A不可逆,因而不能直接求得公共因子用原始变量表示的精确线性组合。

解决该问题的一种方法是用回归的思想求出线性组合系数的估计值,即建立如下以公共因子为因变量、原始变量为自变量的回归方程:


此处因为原始变量与公共因子变量均为标准化变量,因此回归模型中不存在常数项。在最小二乘意义下,可以得到F的估计值:

A 为因子载荷矩阵;R 为原始变量的相关阵;X 为原始变量

主成分分析与因子分析的区别

(1)因子分析把展示在我们面前的诸多变量看成由对每一个变量都有作用的一些公共因子和一些仅对某一个变量有作用的特殊因子线性组合而成。因此,我们的目的就是要从数据中探查能对变量起解释作用的公共因子和特殊因子,以及公共因子和特殊因子组合系数。主成分分析则简单一些,它只是从空间生成的角度寻找能解释诸多变量绝大部分变异的几组彼此不相关的主成分。

(2)因子分析中,把变量表示成各因子的线性组合,而主成分分析中,把主成分表示成各变量的线性组合。

(3)主成分分析中不需要有一些专门假设,因子分析则需要一些假设。因子分析的假设包括:各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关。

(4)提取主因子的方法不仅有主成分法,还有极大似然法等,基于这些不同算法得到的结果一般也不同。而主成分只能用主成分法提取。

(5)主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值唯一时,主成分一般是固定的;而因子分析中,因子不是固定的,可以旋转得到不同的因子。

(6)在因子分析中,因子个数需要分析者指定,随指定的因子数量不同而结果不同。在主成分分析中,主成分的数量是一定的,一般有几个变量就有几个主成分。

(7)和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。

因子分析的步骤与逻辑框图

步骤

进行因子分析应包括如下几步:
(1)根据研究问题选取原始变量。
(2)对原始变量进行标准化并求其相关阵,分析变量之间的相关性。
(3)求解初始公共因子及因子载荷矩阵。
(4)因子旋转。
(5)因子得分。
(6)根据因子得分值进行进一步分析。

逻辑框图

《多元统计分析》学习笔记之因子分析相关推荐

  1. 多元回归分析--学习笔记

    回归系数解释:回多元回归情形下,对每一个回归系数的解释如下,当所有其他自变量保持不变时,bi是因变量y对应于自变量xi改变一个单位时所做的改变的估计值. 多元判定系数(R-sq):计算方法同简单线性回 ...

  2. 《多元统计分析》学习笔记之判别分析

    鄙人学习笔记 文章目录 判别分析 判别分析的基本思想 距离判别 两总体情况 多总体情况 贝叶斯判别 费歇判别 逐步判别 判别分析 本章介绍的判别分析适用于被解释变量是非度量变量的情形.在这种情况下,人 ...

  3. 《多元统计分析》学习笔记之主成分分析

    鄙人学习笔记 文章目录 主成分分析 主成分分析的基本原理 总体主成分及其性质 主成分 主成分的性质 相关问题讨论 关于由协方差矩阵或相关矩阵出发求解主成分 主成分分析不要求数据来自于正态总体 主成分分 ...

  4. 《多元统计分析》学习笔记之聚类分析

    鄙人学习笔记 PS:对不起,原本想简单写写,总结一下,不想截那么多图,但写着写着觉得都挺想写的,就越写越多,越截越多.... 文章目录 聚类分析 聚类分析的基本思想 相似性度量 类和类的特征 系统聚类 ...

  5. R语言学习笔记——高级篇:第十四章-主成分分析和因子分析

    R语言 R语言学习笔记--高级篇:第十四章-主成分分析和因子分析 文章目录 R语言 前言 一.R中的主成分和因子分析 二.主成分分析 2.1.判断主成分的个数 2.2.提取主成分 2.3.主成分旋转 ...

  6. 机器学习框架ML.NET学习笔记【5】多元分类之手写数字识别(续)

    一.概述 上一篇文章我们利用ML.NET的多元分类算法实现了一个手写数字识别的例子,这个例子存在一个问题,就是输入的数据是预处理过的,很不直观,这次我们要直接通过图片来进行学习和判断.思路很简单,就是 ...

  7. 《多元统计分析与R语言》实验2【因子分析】

    <多元统计分析与R语言>实验2[因子分析] 第一部分 基于因子分析,编写进行因子分析的程序(参照文章<R语言进阶之因子分析>) 我们可以使用R语言的内置函数**factanal ...

  8. 因子分析累计贡献率_[2018年最新整理]多元统计分析之因子分析.doc

    [2018年最新整理]多元统计分析之因子分析 第八章 因子分析 §8.1 什么是因子分析及基本思想 1904年Charles Spearman发表一篇著名论文<对智力测验得分进行统计分析> ...

  9. 【多元统计分析】因子分析——SPSS上机实验(过程+结果分析)

    实验数据来自于何晓群<多元统计分析>第五版例题6.3 数据获取请关注公众号:321红绿灯 回复:例6.3 即可获得 区域公用事业的发展是地区綜合发展的重要组成部分,是促进社会发展的重要因素 ...

最新文章

  1. Google Test(GTest)使用方法和源码解析——私有属性代码测试技术分析
  2. Windows DDK介绍,选择和安装
  3. 无法添加类型为“mimeMap”的重复集合项
  4. 敌兵布阵 HDU - 1166 (线段树)
  5. idea创建git分支
  6. 资深程序员:Python中你不知道的那些小工具
  7. 深度优先搜索-和为某数的所有组合
  8. javacript 验证函数
  9. 图像处理系列——直方图之直方图规定化(Histogram Specification)
  10. 三极管的输入输出的特性曲线
  11. 任意文件包含漏洞原理解析及演示
  12. 雀巢咖啡旗下感CAFÉ品牌正式推出全新单品--感CAFÉ鎏光咖啡
  13. 补交20145226蓝墨云班课 -- 后缀表达式
  14. 笔记本CPU低压和标压有什么区别?
  15. 无法识别的USB设备跟这台计算机连接的前一个USB设备工作不正常,Windows无法识别它
  16. python字典的遍历方式:向列表一样通过索引遍历字典的值
  17. lil9341_使用Python评估Lil John的“拒绝接受什么”
  18. 分享proj4js中经纬度和兰伯特投影的转换代码
  19. 三年一跳槽、拒绝“唯学历”,火速 Get 这份程序员求生指南!
  20. itunesconnect 招行香港一卡通收款问题

热门文章

  1. 详解C语言中的数组指针与指针数组
  2. RS485接口(1)
  3. IPv4和IPv6的关系简单了解
  4. healthkit 之前的计步方案
  5. 完美解决SDWebImage加载多个图片内存崩溃的问题
  6. 23个你意想不到的程序员逻辑神操作!
  7. java神剑30变_神剑养成(一) (MengSword1)
  8. android想用adb查看数据库 被告知inaccessible or not found怎么办
  9. 关于jquery和bootstrap的一些用法(一)
  10. 产品创新设计:品牌价值提升的主要途径