聚类——寻找规律的第一步
聚类的基本逻辑
聚类的因子和主成分
聚类的步骤
有序聚类与时间序列聚类

**什么是聚类?聚类与分类是一个道理。**分类就是把一个事物拆分成不同的部分,而聚类就是把分散的多个事物归集成不同的类别。

在大数据时代,每个事物都是一个独立的个体,并且我们有着描述这个个体各种各样的数据,因为个体太多了,所以开始看不清楚这些事物是什么了。因此需要把这些事物进行归集、整理,这样可以便于管理。面对上千个有个性化要求的客户,该如何满足他们呢?这就需要我们把几千个需求进行归类,然后分类满足,这样就比较容易实现。

分类与聚类的逻辑相反,但结果一样。分类是我们看到了上千个事物,但不知道怎么认识它们,也不能把它们都当作一个事物看待,所以需要把这些事物拆分成几大类,分类管理。所以,分类和聚类的本质是一样的,都是得到一个最终的能够进行分类管理事物的方法,只是出发点不同:分类从整体出发,聚类从每个事物的具体细节出发。

聚类和分类都是人类认知事物的基本思路之一,在找寻事物发展规律的旅途上,分类是必不可少的基础,没有对事物的分类,所有的规律都不可能得到应用。找到一类事物的规律,通过对类别的识别,从而推演出该类中的其他事物也可以使用这个规律,这样的规律才是真正的规律。任何只适合个案的规律都不能称作规律,规律本身必须具有普适性,这个普适性是指在一“类”事物上是普遍适用的。所以,把分类和聚类都看作寻找事物发展规律和应用事物发展规律的第一步。

人类在认知自然界时也用到了聚类的方法,即通过观察事物,然后对事物的特征进行总结分析,最后形成对自然界的认知。例如,我们认知植物时,把自然界的植物按照类别进行划分,同一类植物具有类似的属性和特征,从而比较容易推断植物的习性。

公司的管理也一样,随着公司的发展,公司需要管理大量的人员(员工),可以利用分类—聚类的方法把上万名员工分成不同职系、职级、薪级来进行管理。分类和聚类在我们的日常生活和经营管理活动中随处可见。越是看似简单的事情,越值得数据分析师深度研究。

6.1 聚类的基本逻辑

俗语说,物以类聚,人以群分。事物怎么群分呢?按照什么标准来群分呢?可以通过直觉经验或者常识选择几个维度对事物进行分类。但是当事物相对较为复杂时,用什么方法来分类呢?这就用到了聚类的方法。
聚类的基本逻辑就是按照一定的方法把存在各种差异的事物按照其在某些方面的相似性聚集成几类,类与类之间的差异比较大,而同一类中的事物的差异比较小。所以,对于聚类方法,需要关注两个核心问题:事物之间的相似性,类与类之间的差异性。

对事物分类的角度不同,会导致分类的方法也不同。在对一群人进行分类时,按照年龄分有大人和小孩,按照性别分有男人和女人,按照地域分有南方人和北方人,按照财富分有富人和穷人。

相似性的反面就是事物的差异性,如何来评价事物的差异性或者相似性呢?在数学上将其称作“距离”。当对“人”进行分类时,可以把人与人之间的不同看作人与人之间的距离。

对于“人”这个事物,应该如何评价人与人之间的相似性和差异性呢?可以从人的各种描述属性进行研究。

同样是一群人,根据其人口统计学上的变量,可以划分成不同的类别,但是对于特定的人群,例如客户、在一个地点聚集的人群,还要考虑其他因素,如下图为聚集在某个地点的人群。

除考虑人们自身的各种人口统计学的属性外,还要考虑人们聚集的目的,有的人聚集到一个地点是为了参加一个活动,例如体育赛事;有的人聚集到一个地点是为了旅游,例如旅游景点;有的人聚集到一个地点是为了出行,例如机场、车站。聚集的目的不同,人群的行为方式会有根本性的不同。

除可以研究人们聚集的目的外,还可以研究聚集人群的行为和活动,例如聚集在景点中的人们都在照相或者浏览风光;聚集在车站中的人们都在准备出行。同样的聚集目的,人们的活动也有可能存在巨大的差异。
所以不同的聚类目的,需要考察的变量也是不同的。例如,两个女孩之间的相似性是她们都是女性,但两个女孩的身高不同、学历不同、血型不同、肤色不同、头发长短不同、说话的语言也不同,有各种各样的属性指标可以评价人与人之间的相似性和差异性。

针对复杂的问题,一般采用聚类算法来实现对事物或者对象的聚类。聚类可以是对对象(事物本身)的聚类,也可以是对对象的描述属性的聚类。这两种聚类一类叫作R型聚类,主要针对描述事物的变量来聚类,让具有相似性的变量聚集为一类;另一类叫作Q型聚类,它是根据对象的各种属性值对对象(事物本身)进行的聚类。这两类方法在含义上有着本质的区别,但是在算法上没有什么不同。

把聚成的各个类叫作“簇”。一个聚类的好坏是根据聚类后的结果——簇的质量来评价的。好的聚类从聚类的目的出发,必须要达到目的。聚类的目的就是:同一个类中的对象要非常相似,即相似程度要高;不同类之间要有较大的差异性。

上面这些内容可能太理论化了,下面举例说明。在日常识别事物时,都是使用常识或者大家的共识。通常所说的好人、坏人、优秀的人、平庸的人,也是分类的方法。分类和聚类可以很简单,也可以很复杂。

宝洁公司利用其六大系列的洗发水在中国洗发水市场中占据了一半以上的市场份额,最高的时候其曾经占领了四分之三的市场份额。之所以要开发六大系列的洗发水,是因为在宝洁公司眼中,消费者是不同的,他们有各种各样的需求。对于消费者,一般会采用简单的分类方法,可能只会将他们分成年轻人、老年人、孩子,或者男人、女人,抑或是长发的人和短发的人。而宝洁公司在认知消费者对洗发水的需求时,把消费者分成各种类型,包括敏感型、时尚型、清洁型、经济型、舒爽型、营养型、柔顺型、染发保护型、飘逸型等,最复杂的细分能够做到几十种,在这种认知下开发的产品就更加细分、更加符合消费者的需求,从而能够让更多的人喜欢,这才是一个公司成功的关键所在。所以,要深入聚类和分类,而不是仅仅停留在常识和共识的层面。

市场的竞争是激烈的,对市场的认知需要更加细微、更加敏锐,对消费者的需求要明察秋毫,要感知消费者需求变化的细微之处并且能随时做出前瞻性的调整。

全文摘自《企业经营数据分析-思路、方法、应用与工具》赵兴峰著
该文转载已取得作者认可

版权说明:版权所有归明悦数据所有,如需转载请联系我们,我们将在第一时间处理,或请注明内容出处(《企业经营数据分析》赵兴峰著),非常感谢!【往期内容已在(明悦数据)公众号同步发布】

下期内容更实战!

数据分析方法,寻找规律的第一步,聚类分析法!第1辑相关推荐

  1. 数据分析方法,寻找规律的第一步,聚类分析法!第3辑

    逻辑关系--寻找事物之间的因果规律 系列文章总览: 7.1相关性与相关系数分析 7.2事物之间的逻辑关系与科学规律 7.3果因关系与因果关系,看不见的事物发展逻辑 7.4事物发展规律的复杂性与科学抽象 ...

  2. 谁说菜鸟不会数据分析---第5章数据分析5.1数据分析方法--5.1.9矩阵关联分析法,5.1.10高级数据分析法

  3. 常用的9种数据分析方法

    一.公式拆解 所谓公式拆解法就是针对某个指标,用公式层层分解该指标的影响因素. 举例:分析某产品的销售额较低的原因,用公式法分解 二.对比分析 对比法就是用两组或两组以上的数据进行比较,是最通用的方法 ...

  4. 《谷歌数据分析方法》脑图笔记

    目录 壹.脑图笔记 贰.<谷歌数据分析方法>脑图文稿[^1] 一. 反思数据分析 二.选择数据分析工具的最佳策略 第一步:选择数据分析工具前要回答的3个关键问题 第二步:选择数据分析工具前 ...

  5. python pygame 游戏实践: 俄罗斯方块(Tetris Game)第一步

    正在学习俄罗斯方块(Tetris Game)游戏, 主要参考Tetris with PyGame | Python Assets,不过有所修改,原作的class 太复杂, 不好理解, 试图用自己习惯的 ...

  6. 功能测试常用6种方法_16种常用的数据分析方法聚类分析

    聚类(Clustering)就是一种寻找数据之间内在结构的技术.聚类把全体数据实例组织成一些相似组,而这些相似组被称作簇.处于相同簇中的数据实例彼此相同,处于不同簇中的实例彼此不同. 聚类分析定义 聚 ...

  7. python数据分析第一步:读取以及查看数据

    用python做数据分析第一步,通常会遇到需要将现成文件(数据库里导出来,或者其他情况下获得的各种文件)拿来处理分析的情况,下面来说下利用python的标准库pandas来读取以及查看数据的方法 1. ...

  8. PFC颗粒分析第一步:掌握离散元这些成样方法就够了!

    附赠仿真学习包,包含结构.流体.电磁.热仿真等多学科视频教程,点击领取: ​​​​​​仿真秀粉丝专属礼包 导读:PFC是一个关于颗粒的方法,在进行分析的时候我们首先需要做的就是生成一个比较好的式样,这 ...

  9. 数据分析技术:结构方程模型;想要“追求”,了解是第一步

    基础准备 上篇推送,我们正式开启了AMOS软件应用的介绍.看过上篇文章的朋友知道AMOS软件是用于处理结构方程模型的,文章也简要介绍了结构方程模型可以细分成测量模型和结构模型,以及AMOS软件分析结构 ...

最新文章

  1. arx对正在操作的文件进行保存
  2. python安装easy_install和pip
  3. 算法------Pow(x, n)
  4. mysql 5.7 的组复制
  5. 关于蚁剑/菜刀无法连接shell的一种可尝试解决方案
  6. 【转】TeeChart的用法
  7. 编程题【System类】计算一千万个数添加到集合的时间
  8. Linux常用命令~~~
  9. 云服务器ECS登陆注意点
  10. 有些车已经不能再买了!因为国五排放标准就要来了!
  11. 大一C语言大作业ip合法性,c语言实现判断ip地址是否合法
  12. 初学oracle遇到些小麻烦
  13. CICD详解(一)——概念和原理
  14. KETTLE 使用教程
  15. 同是4G标准,TD和FDD怎么区分?谁更快?
  16. 天津出差系列(六)----第六天
  17. java找不到指定路径_java创建文件时提示找不到指定路径的解决方法
  18. 无法加载计算机管理,电脑中无法打开Internet选项中的管理加载项如何解决
  19. TC27x寄存器学习
  20. 梦中香巴拉——云南游记

热门文章

  1. 目前应用计算机管理系统在护理管理中不包括,护理_管理学试题与答案第十一章护理_信息管理...
  2. uva11292 - The Dragon of Loowater (贪心)
  3. wasm与canvas交互
  4. 电脑突发故障应急处理方法
  5. 区块链竞赛中国加速超越美国 迅雷链在自主创新上贡献了“4个第一”
  6. matlab 解方程组 矩阵,用MATLAB计算矩阵和解线性方程组.ppt
  7. DISKGEN 专业版修改硬盘为GPT分区 ESP分区图文教程
  8. Javascript BOM DOM编程
  9. 邮件钓鱼上线cobalstrike
  10. 企业级高速、高匿爬虫代理IP、千万IP出口池