R语言聚类分析(系统聚类、K-均值聚类)
- 原始数据
选自巨潮网
下表为2018年34家上市公司的利润表,选取其中营业收入、营业成本、销售费用、营业利润、利润总额、净利润六个指标。(单位:千万)
序号 |
机构名称 |
营业收入 |
营业成本 |
销售费用 |
营业利润 |
利润总额 |
净利润 |
1 |
北京顺鑫 |
1207.44 |
724.96 |
122.38 |
106.28 |
105.94 |
72.81 |
2 |
深圳联得 |
66.36 |
43.64 |
4.21 |
9.15 |
9.45 |
8.53 |
3 |
深圳星源 |
58.35 |
30.19 |
2.89 |
12.40 |
24.89 |
20.27 |
4 |
安泰科技 |
505.41 |
416.36 |
13.17 |
-20.78 |
-31.45 |
-33.15 |
5 |
北京利尔 |
319.69 |
207.43 |
37.35 |
42.79 |
41.26 |
33.37 |
6 |
嘉事堂 |
1795.99 |
1612.23 |
62.86 |
77.72 |
77.49 |
57.06 |
7 |
朗姿 |
266.15 |
111.92 |
95.65 |
23.95 |
22.75 |
20.43 |
8 |
北京三夫 |
42.03 |
24.02 |
10.44 |
0.66 |
0.65 |
0.47 |
9 |
舒泰神 |
80.61 |
7.48 |
48.34 |
14.97 |
15.10 |
13.41 |
10 |
华润双鹤 |
822.51 |
301.44 |
319.38 |
118.93 |
118.41 |
98.95 |
11 |
有研 |
476.79 |
445.72 |
5.31 |
9.27 |
10.00 |
8.25 |
12 |
用友 |
770.35 |
231.48 |
164.88 |
94.31 |
95.03 |
81.02 |
13 |
江河创建 |
1603.73 |
1307.75 |
17.98 |
86.59 |
86.86 |
73.86 |
14 |
北京昭衍 |
40.88 |
19.21 |
0.66 |
12.60 |
12.79 |
10.82 |
15 |
飞亚达 |
340.05 |
199.38 |
85.70 |
23.04 |
23.12 |
18.38 |
16 |
河北建投能源 |
1397.63 |
1172.12 |
6.15 |
88.70 |
88.22 |
66.16 |
17 |
天津天保基建 |
228.97 |
96.97 |
1.88 |
25.20 |
25.37 |
9.70 |
18 |
中体产业 |
144.99 |
110.10 |
5.67 |
13.76 |
13.79 |
9.15 |
19 |
天津环球磁卡 |
14.53 |
11.72 |
0.33 |
7.29 |
7.18 |
7.18 |
20 |
新奥生态 |
1363.25 |
1069.69 |
18.91 |
162.68 |
162.12 |
140.57 |
21 |
曙光信息 |
905.69 |
739.90 |
38.46 |
53.19 |
53.71 |
46.75 |
22 |
中航善达 |
665.56 |
534.84 |
11.10 |
121.98 |
122.53 |
82.40 |
23 |
天马微电子 |
2891.15 |
2451.97 |
48.07 |
98.35 |
101.92 |
98.39 |
24 |
华润三九 |
1342.77 |
416.04 |
646.86 |
170.35 |
171.89 |
147.49 |
25 |
深圳顺络 |
236.20 |
154.38 |
6.78 |
49.80 |
55.48 |
48.30 |
26 |
广东威华 |
252.37 |
217.38 |
7.23 |
15.17 |
15.81 |
15.34 |
27 |
深圳通产丽星 |
136.92 |
105.76 |
6.46 |
10.08 |
9.80 |
9.12 |
28 |
深圳信立泰 |
465.19 |
94.37 |
134.56 |
172.00 |
170.62 |
145.46 |
29 |
深圳英威腾电气 |
222.81 |
139.79 |
23.46 |
21.53 |
21.00 |
17.79 |
30 |
顺丰 |
9094.27 |
7464.22 |
182.58 |
581.81 |
586.75 |
446.43 |
31 |
天虹商场 |
1913.80 |
1392.19 |
362.69 |
116.29 |
116.88 |
90.46 |
32 |
深圳同兴达科技 |
409.54 |
375.23 |
3.75 |
8.85 |
11.36 |
9.81 |
33 |
深南电路 |
760.21 |
584.38 |
15.70 |
78.39 |
77.75 |
69.83 |
34 |
方大集团 |
304.87 |
233.79 |
4.98 |
297.00 |
296.98 |
224.62 |
二、使用R语言进行聚类分析
(1)系统聚类法(分成四类)
mydata<-read.table("D:\\信息\\数据.txt")
distance<-dist(mydata)#计算距离
hc1<-hclust(distance,"ward.D2")#使用离差平方和法,默认最长距离法
plclust(hc1,hang=0.1)#绘画系谱图
re1<-rect.hclust(hc1,k=4,border="red")#k表示分为几类
re1
for(i in 1:4){
print(paste("第",i,"类"))
print(mydata[re1[[i]],])
}
可以看出第30家公司自成一类,第6、13、16、20、23、31家公司为一类,第2、3、5、7、8、9、14、15、17、18、19、25、26、27、29家公司为一类,第1、4、10、11、12、21、22、24、28、32、33、34家公司为一类,第一类公司利润最高,第三类公司利润最低。
(2)K-均值聚类(分成四类)
plot(mydata)
kc4<-kmeans(mydata,centers=4,nstart=1,trace=TRUE)#centers表示分成几类
kc4
指标变量间两两相关关系的散点图:
研究对象归为四类的结果:
由Clustering vector可知34家公司的分类情况:第2、3、4、5、7、8、9、11、14、15、17、18、19、25、26、27、28、29、32、34为一类,第6、13、23、31为一类,第30家为一类,第1、10、12、16、20、21、22、24、33为一类。第三类公司利润最高,第二类公司利润最低。与系统聚类的分类结果虽不太相同,但两种聚类结果中第30家都是自成一类。
R语言聚类分析(系统聚类、K-均值聚类)相关推荐
- R语言聚类分析之基于划分的聚类KMeans实战:基于葡萄酒数据
R语言聚类分析之基于划分的聚类KMeans实战:基于葡萄酒数据 目录 R语言聚类分析之基于划分的聚类KMeans实战:基于葡萄酒数据
- R语言聚类分析之基于划分的聚类KMeans实战:基于菌株数据
R语言聚类分析之基于划分的聚类KMeans实战:基于菌株数据 目录 R语言聚类分析之基于划分的聚类KMeans实战:基于菌株数据
- 图像聚类-K均值聚类
最近做的一个东西跟这个相关,本来希望是用深度学习对于没有标签的图像数据进行分类,但是通常情况下,深度学习是对有标签的数据进行学习,目的是用来自动提取特征,代替传统的手工提取特征.因此,比较容易想到,对 ...
- r语言聚类分析:k-means和层次聚类
聚类分析算法很多,比较经典的有k-means和层次聚类法. k-means聚类分析算法 k-means的k就是最终聚集的簇数,这个要你事先自己指定.k-means在常见的机器学习算法中算是相当简单的, ...
- 多元统计分析--聚类分析(系统性聚类、K均值聚类)
摘要 系统聚类分为Q型聚类与R型聚类.前者对样品进行聚类,后者对变量进行聚类.在本文中,我们探讨对样品的分类. 文章目录 摘要 主要思想 相似性的度量 系统聚类 K均值聚类 主要思想 聚类,在样品没有 ...
- Python,OpenCV中的K均值聚类——K-Means Cluster
Python,OpenCV中的K均值聚类 1. 效果图 2. 原理 2.1 什么是K均值聚类? 2.2 K均值聚类过程 2.3 cv2.kmeans(z, 2, None, criteria, 10, ...
- EM算法应用:k均值聚类(k-means)和高斯混合模型(GMM)
文章目录 k-means聚类 EM角度的理解 算法流程 特点 k值选择 局限性 高斯混合模型 GMM的问题描述 1,明确隐变量 2.EM算法的E步:确定Q函数 3. EM算法的E步 4. 停止条件 上 ...
- 金融业信贷风控算法9-聚类场景之K均值聚类与K邻近聚类
文章目录 一. K均值聚类:物以类聚.人以群分 1.1 距离的概念 1.2 闵可夫斯基距离 1.3 VDM距离 1.4 聚类模型中的基本概念 1.5 K-均值聚类(K-means) 1.6 K-均值算 ...
- 非监督学习: K 均值聚类(原理、步骤、优缺点、调优)
支持向量机.逻辑回归.决策树等经典的机器学习算法主要用于分类问题,即根据一些己给定类别的样本, 训练某种分类器,使得它能够对类别未知的样本进行分类.与分类问题不同,聚类是在事先并不知道任何样本类别标签 ...
- R语言聚类算法之k均值聚类(K-means)
1.原理解析: 随机选取k(预设类别数)个样本作为起始中心点,将其余样本归入相似度最高中心点所在簇(cluster),再确立当前簇中样本坐标的均值为新的中心点,一次循环迭代下去,直至所有样本所属类别不 ...
最新文章
- linux系统预定义变量有哪些,Shell预定义变量用法详解
- JDK源码分析:Byte.java
- 判断输入的IP地址是否合法
- mac破解wifi密码
- tamtam-nuget-imageserver
- pycharm中同时注释多行代码
- FillForm网页表单填写插件(用于火狐浏览器,自动填表,自动表单,填写表单)
- 【LeetCode】Day3-Excel表列名称
- 华东理工大计算机专业,华东理工大学计算机专业怎么样(计算机专业大学排名50)...
- 如何方便输入德语、法语、俄语特殊字符
- JAVA基础-GUI实践总结
- 瑞吉外卖项目的购物车sub操作
- 算法题解01——对分搜索求立方根
- python signal滤波器使用说明
- 华为云服务权限在哪_华为云资源IAM精细控制权限实践
- 金融行业的VC风险投资,PE私募股权,LP有限合伙人,GP普通合伙人
- 小陈java学习笔记0817
- 视频教程-怎么架构生产数据库--生产数据库优化的一种方式-MySQL
- Flex布局实战详解
- office全套教程(2003~2016)
热门文章
- 微信小程序布局 底部位置固定例子
- 51单片机程序下载失败原因排查
- crontab 每周五_关于linux:如何在星期天每周运行crontab作业
- 白硕:人工智能的诗与远方,一文读懂NLP起源、流派和技术
- 超全!基于Java的机器学习项目、环境、库...
- Redis 过期策略都有哪些?
- codebook码本算法
- 基于Java的超市水果管理系统_技术分享 - 基于JAVA SWING结合链表的水果超市管理系统...
- Java实现简单模拟购物程序
- oracle 授权所有语句,oracle grant 授权语句