一.聚类分析

  • 聚类的目的
    1.间隔尺度:变量用连续的量来表示【常用】
    2.有序尺度:有次序关系,指标有有序的等级来表示
    3.名义尺度:指标用一些类来表示,这些没有等级和数量的关系

1.1聚类分析的类型

  • Q型聚类:对样品的聚类
  • R型聚类:对变量的聚类

1.2聚类分析按研究方法分类

1.系统聚类法:由N类–1类
2.分解法:由1类—N类
3.K-均值法:事先在聚类过程中确定在K类,适用于数据量大的数据
4.有序样品的聚类:N个样品排序,次序相邻的样品聚成一类
5.模糊聚类法:模糊数学的方法,多用于定性变量
6.加入法:样品依次加入,全部加入完得到聚类图。

1.4相似性度量

1.4.1 样品相似性的度量【Q】

1.4.2 变量相似性的度量【R】

a.夹角余弦
b.相关系数

1.4.3类间距离

a.常用的类间距离定义有8种之多,与之相应的系统聚类法 也有8种,分别为
a.中间距离法
b.最短距离法:类与类之间的距离最近两个样品的距离。
c.最长距离法:类与类之间的距离最远两个样品的距离。【先距离最短,后距离最远合并】
d.类平均法:两类元素中任两个样品距离的平均。
e.重心法:两个重心xp 和xq 的距离。
f.可变类平均法
e.离差平方和法(Ward法): 该方法的基本思想来自于方差分析,如果分类正确,同 类样品的离差平方和应当较小,类与类的离差平方和较大。 具体做法是先将 n 个样品各自成一类,然后每次缩小一类,每 缩小一类,离差平方和就要增大,选择使方差增加最小的两 类合并,直到所有的样品归为一类为止。

1.5最短距离法vs最长聚类法

a. 最短距离法的主要缺点是它有链接聚合的趋势,容易形 成一个比较大的类,大部分样品都被聚在一类中,所以最短 距离法的聚类效果并不好,实际中不提倡使用。
b. 最长距离法克服了最短距离法链接聚合的缺陷,两类合 并以后与其他类的距离是原来两个类中的距离最大者,加大 了合并后的类与其他类的距离。

二.主成分分析

2.1.主成分分析的基本思想

a. 定义:主成分分析(Principal Component Analysis,简记 PCA)是将多个指标化为少数几个综合指标的一种统计分析方法,通常我们把转化成的综合指标称为主成分。

b. 本质:降维

c. 表达:主成分为原始变量的线性组合
d. 即信息量在空间降维以后信息量没有发生改变,所有主成分的方差之和与原始的方差之和

e. 多个变量之间有一定的相关性,利用原始变量 的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与简化问题的作用。

f. 累积贡献率一般是**85%**以上

2.2主成分与原始变量之间有如下基本关系

(1)每一个主成分都是各原始变量的线性组合
(2)主成分的数目大大少于原始变量的数目
(3)主成分保留了原始变量绝大多数信息
(4)各主成分之间互不相关

  1. 变量的变异性越大,说明它提供的信息量就越大
  2. 主成分分析将按照变量方差的大小顺序挑选几个主成分。

三.因子分析

3.1 因子分析的基础理念

a. 基本目的:用少数几个综合因子去描述多个随机变量之间的相关关系
b. 定义:多个变量————少数综合因子(不存在的因子)
c. 显在变量:原始变量X;潜在变量:因子F
d. X=AF+e【公共因子+特殊因子】
e. 应用:因子分析主要用于相关性很强的多指标数据的降维处理。
f. 通过研究原始变量相关矩阵内部 的依赖关系,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。
g. 定义:原始的变量是可观测的显在变量,而综合的因子是不可观测潜在变量,称为因子。

3.2 因子分析的基本思想

i. 根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量间的相关性则较低。
ii. 公共因子:每组变量代表一个基本结构,并用一个不可观测的综合变量表示。
iii. 对于所研究的某一具体问题,原始变量分解成两部分:

  1. 一部分是少数几个不可测的所谓公共因子的线性函数
  2. 另一部分是与公共因子无关特殊因子
3.2.1因子分析的研究关系

i. R 型因子分析——研究变量之间的相关关系
ii. Q 型因子分析——研究样品之间的相关关系

3.3统计意义

#####3.3.1因子载荷aij的统计意义
a. 因子载荷 是第i个变量与第j个公共因子的相关系数,绝对值越大,相关的密切程度越高。
b.

3.3.2 变量共同度hi的统计意义【横着求和】

a. 变量 Xi 的共同度是因子载荷矩阵的第i行的元素的平方和。记为

b. 所有的公共因子与特殊因子对变量 Xi 的贡献和为1。

3.3.3 公共因子FJ方法贡献gi2的统计意义【竖着求和】

3.4因子分析三个步骤

a. 确定因子载荷
b. 因子旋转
c. 计算因子得分

3.5因子旋转

3.5.1旋转的目的

a. 寻找简单结构的载荷矩阵:载荷矩阵A的所有元素都接 近0或±1,则模型的公共因子就易于解释。
b. 如果各主因子的典型代表变量不突出,就需要进行旋转使因子载荷矩阵中载荷的绝对值向0和1两个方向分化。

3.5.2旋转的方法

a.意义:对公共因子作正交旋转相当于对载荷矩阵 A 作一正交变换 ,右乘正交矩阵 T ,使 A* = AT 能有更鲜明的实际意义。
b.几何意义:是在 m 维空间上对原因子轴作一刚性旋转。 因子旋转不改变公共因子的共同度,这是因为 AA’=ATT’A’=AA’
c. 旋转方法有:正交旋转和斜交旋转
d. 最普遍的是:最大方差旋转法

3.5.3最大方差旋转法:

a. 定义:通过坐标变换使各个因子载荷的方差之和最大。
b. 任何一个变量只在一个因子上有高贡献率,而在 其它因子上的载荷几乎为0;
c. 任何一个因子只在少数变量上有高载荷,而在其 它变量上的载荷几乎为0。

3.5.4因子分析的逻辑图:

因子分析和主成分分析的区别和联系

1.联系

思想相同:降维
前提条件:各变量间必须有相关性,否则各变量之间没有共享信息

2.区别

  • 主成分分析:将主成分表示成原始变量的的线性组合

  • 因子分析:将原始变量表示成公共因子与特殊因子的线性组合,且公共因子不可观测。

  • 主成分分析:主成分个数与变量个数相同(实际中取前面若干几个)

  • 因子分析:公因子个数少于变量个数

常用的统计分析方法总结(聚类分析、主成分分析、因子分析)相关推荐

  1. python DataFrame常用描述性统计分析方法

    python DataFrame常用描述性统计分析方法 文章目录 python DataFrame常用描述性统计分析方法 sum() 求和 mean() 求平均值 max() 最大值 & mi ...

  2. 【应用多元统计分析】上机四五——主成分分析因子分析

    目录 一.主成分分析 1.princomp命令 2.screeplot命令 3.[例7.3.3]对[例6.3.3]中的数据从相关矩阵出发进行主成分分析 ​编辑(1)代码 (2)碎石图 (3)散点图 二 ...

  3. 常用的统计分析方法-相似度计算

    基于欧几里得距离的相似度计算 欧几里得相似度计算是一种基于用户之间直线距离的计算公式.它用来表示三维空间中两个点的真实距离. 两个物品或者用户距离越大,可以看到其相似度越小:距离越小则相似度越大. 第 ...

  4. 主成分分析,聚类分析,因子分析的基本思想以及他们各自的优缺点

    一.基本思想 主成分分析 就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差- 协方差结构.综合指标即为主成分.所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关. ...

  5. 统计计量 | 统计学中常用的数据分析方法汇总

    来源:数据Seminar本文约10500字,建议阅读15+分钟 统计学中常用的数据分析方法汇总. Part1描述统计 描述统计是通过图表或数学方法,对数据资料进行整理.分析,并对数据的分布状态.数字特 ...

  6. 史上最全!统计学常用的数据分析方法大总结

    图片 描述统计 描述统计是通过图表或数学方法,对数据资料进行整理.分析,并对数据的分布状态.数字特征和随机变量之间关系进行估计和描述的方法. 描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分. ...

  7. 4.GraphPad常见统计分析方法

    1. GraphPad Prism统计分析方法概述 GraphPad与其他软件(如SAS.SPSS等)不同的是,GraphPad在绘图的过程中可以同时完成一些相应的统计分析,方便用户操作使用. 单击工 ...

  8. 关于聚类分析、判别分析、主成分分析、因子分析等多元统计分析方法

    转载自:http://blog.csdn.net/nieson2012/article/details/25408421 主成分分析与因子分析的区别 1. 目的不同: 因子分析把诸多变量看成由对每一个 ...

  9. 16种常用的数据统计分析方法汇总

    经常会有朋友问到一个朋友,数据分析常用的分析方法有哪些,我需要学习哪个等等之类的问题,今天数据分析精选给大家整理了十六种常用的数据分析方法,供大家参考学习. (注:这些统计分析方法基本都是统计学的方法 ...

最新文章

  1. stm32车联网监控源码_物联网DIY,STM32配合ESP8266,APP控制LED,可以绑定天猫精灵...
  2. 【Windows】Windows Restart Manager 重启管理器
  3. Vue项目中获取数据后使用swiper轮播,无法轮播且 autoplay 和 loop 失效问题!
  4. 【CVPR2020 image caption】读Meshed-Memory Transformer for Image Captioning
  5. 《MonoTouch开发实践指南》一1.2 创建MonoTouch应用程序
  6. Excel 的点点滴滴
  7. HALCON示例程序classify_citrus_fruits.hdev应用常规gmm分类器进行水果分类
  8. windows phone 学习(4)
  9. SpringBoot + Shiro 缓存记住密码
  10. win10 make命令的安装
  11. FPGA _Verilog HDL_8位加法计数器设计实验
  12. 大数据平台组件布置 与 进程查看
  13. 运维部门工作总结_部门动态 | 主动出击 超前谋划 全面做好园区网络运维工作...
  14. Fedora 11的新特征和简易安置教程
  15. 4月3日 今天谈谈支持向量机SVM 与超平面
  16. SVN统计一段时间的日志
  17. koa配合axios做接口
  18. C03-Java同步实践加强班
  19. matlab中ix是什么意思,详解pandas中iloc, loc和ix的区别和联系
  20. 移动磁盘显示盘符但无法打开,提示格式化

热门文章

  1. Tableau 超市经典案例之销售分析(三)
  2. 使用jquery获取iframe内的元素属性
  3. 西班牙访问学者生活风土人情介绍
  4. js压缩、混淆和加密
  5. 阿里云-ECS-RDS
  6. js websocket发送文本与二进制实验
  7. highcharts mysql jsp_highcharts mysql
  8. Qt/C++编写安防视频监控系统54-轮询配置
  9. 实战:如何做好网站SEO基础优化?
  10. 把重要的东西存在手机便签备忘录里安全吗