1.K-Means聚类(划分聚类)

算法步骤: 
  (1) 首先我们选择一些类/组,并随机初始化它们各自的中心点。中心点是与每个数据点向量长度相同的位置。这需要我们提前预         知类的数量(即中心点的数量)。 
  (2) 计算每个数据点到中心点的距离,数据点距离哪个中心点最近就划分到哪一类中。 
  (3) 计算每一类中中心点作为新的中心点。 
  (4) 重复以上步骤,直到每一类中心在每次迭代后变化不大为止。也可以多次随机初始化中心点,然后选择运行结果最好的一              个。

下面演示了K-Means进行分类的过程:

2.凝聚聚类(层次聚类)

算法步骤:

(1). 首先我们将每个数据点视为一个单一的簇,然后选择一个测量两个簇之间距离的度量标准。例如我们使用average linkage        作为标准,它将两个簇之间的距离定义为第一个簇中的数据点与第二个簇中的数据点之间的平均距离。 
       (2). 在每次迭代中,我们将两个具有最小average linkage的簇合并成为一个簇。 
       (3). 重复步骤2知道所有的数据点合并成一个簇,然后选择我们需要多少个簇。

层次聚类优点:   (1)不需要知道有多少个簇 
                               (2)对于距离度量标准的选择并不敏感 
缺点:效率低

下面演示了凝聚聚类进行分类的过程:

3.SOM(Self-Organizing Maps)//单层神经网络(模型聚类)

SOM网络包含输入层和输出层。输入层对应一个高维的输入向量,输出层由一系列组织在2维网格上的有序节点构成,输入节点与输出节点通过权重向量连接。学习过程中,找到与之距离最短的输出层单元,即获胜单元,对其更新。同时,将邻近区域的权值更新,使输出节点保持输入向量的拓扑特征。

算法流程:

(1) 网络初始化,对输出层每个节点权重赋初值;

(2) 将输入样本中随机选取输入向量,找到与输入向量距离最小的权重向量;

(3) 定义获胜单元,在获胜单元的邻近区域调整权重使其向输入向量靠拢;

(4) 提供新样本、进行训练;

(5) 收缩邻域半径、减小学习率、重复,直到小于允许值,输出聚类结果。

4.FCM(模糊C均值算法)(硬聚类里的模糊聚类)

算法流程:

(1) 标准化数据矩阵;

(2) 建立模糊相似矩阵,初始化隶属矩阵;

(3) 算法开始迭代,直到目标函数收敛到极小值;

(4) 根据迭代结果,由最后的隶属矩阵确定数据所属的类,显示最后的聚类结果。

输入:C  聚类簇数

m  柔性指数(越大,越柔,聚类越不明显;越小,越接近HCM/硬聚类)

5.均值漂移聚类(密度聚类)

具体步骤: 
         (1). 确定滑动窗口半径r,以随机选取的中心点C半径为r的圆形滑动窗口开始滑动。均值漂移类似一种爬山算法,在每一次迭                代中向密度更高的区域移动,直到收敛。 
         (2). 每一次滑动到新的区域,计算滑动窗口内的均值来作为中心点,滑动窗口内的点的数量为窗口内的密度。在每一次移动                 中,窗口会想密度更高的区域移动。 
         (3). 移动窗口,计算窗口内的中心点以及窗口内的密度,知道没有方向在窗口内可以容纳更多的点,即一直移动到圆内密度                不再增加为止。 
         (4). 步骤一到三会产生很多个滑动窗口,当多个滑动窗口重叠时,保留包含最多点的窗口,然后根据数据点所在的滑动窗口                 进行聚类。

下图演示了局部窗口与全局多个窗口的均值漂移聚类的计算步骤: 

6.高斯混合(GMM)模型聚类

具体步骤: 
            (1). 选择簇的数量(与K-Means类似)并随机初始化每个簇的高斯分布参数(均值和方差)。也可以先观察数据给出一个                    相对精确的均值和方差。 
           (2). 给定每个簇的高斯分布,计算每个数据点属于每个簇的概率。一个点越靠近高斯分布的中心就越可能属于该簇。 
           (3). 基于这些概率我们计算高斯分布参数使得数据点的概率最大化,可以使用数据点概率的加权来计算这些新的参数,权                    重就是数据点属于该簇的概率。 
           (4). 重复迭代2和3直到在迭代中的变化不大。

GMMs的优点:(1)GMMs使用均值标准差簇可以呈现出椭圆形而不是仅仅限制于圆形。K-Means是GMMs的一个特殊情况,                                    是方差在所有维度上都接近于0时簇就会呈现出圆形。 
                            (2)GMMs是使用概率,所有一个数据点可以属于多个簇。例如数据点X可以有百分之20的概率属于A簇,百分之                                     80的概率属于B簇。也就是说GMMs可以支持混合资格。

下面演示了高斯混合(GMM)聚类进行分类的过程:

数据挖掘——聚类分析相关推荐

  1. 数据挖掘-聚类分析(Python实现K-Means算法)

    概念: 聚类分析(cluster analysis ):是一组将研究对象分为相对同质的群组(clusters)的统计分析技术.聚类分析也叫分类分析,或者数值分类.聚类的输入是一组未被标记的样本,聚类根 ...

  2. 转:UCI数据集和源代码数据挖掘的数据集资源

    <UCI数据集和源代码> UCI数据集是一个常用的标准测试数据集,下载地址在 http://www.ics.uci.edu/~mlearn/MLRepository.html 我的主页上也 ...

  3. python聚类分析如何确定分类个数_Python数据挖掘—聚类—KMeans划分法

    概念 聚类分析:是按照个体的特征将它们分类,让同一个类别内的个体之间具有较高的相似度,不同类别之间具有较大差异性 无分类目标变量(Y)--无监督学习 K-Means划分法.DBSCAN密度法.层次聚类 ...

  4. 【数据挖掘笔记十】聚类分析:基本概念和方法

    1) 10.聚类分析:基本概念和方法 聚类是一个把数据对象集划分成多个组或簇的过程,使得簇内的对象具有很高的相似性,但与其他簇中的对象很不相似.相异性和相似性根据描述对象的属性值评估,涉及到距离度量. ...

  5. 数据挖掘时功能和一个聚类分析应用案例

    数据挖掘时功能和一个聚类分析应用案例 数据挖掘的常用方法和数据挖掘的重要功能(出自MBA智库百科).当然,横看成岭侧成峰,这些常用方法和重要功能也许并不完全正确或完整.除此以外,笔者尝试学习了SMAR ...

  6. 数据挖掘的常用方法、功能和一个聚类分析应用案例

    在今天的博文中,笔者整理了数据挖掘的常用方法和数据挖掘的重要功能(出自MBA智库百科).当然,横看成岭侧成峰,这些常用方法和重要功能也许并不完全正确或完整.除此以外,笔者尝试学习了SMARTBI公司中 ...

  7. 数据挖掘学习——聚类分析(k-均值聚类、DBSCAN、AGNES)、python代码

    目录 1.概论 2.聚类问题 (1)聚类问题的定义 (2)聚类的依据(距离的定义) 3.基于原型的聚类方法(k-均值聚类) (1)k-均值聚类的基本思想和基本步骤 (2)k-均值聚类的特点 4.基于密 ...

  8. 【数据挖掘】聚类分析

    聚类分析 Cluster Analysis 肝到爆炸呜呜呜 一.什么是聚类分析 关键词 1️⃣ 簇 Cluster:数据对象的集合,相同簇中的数据彼此相似,不同簇中的数据彼此相异. 2️⃣ 聚类分析 ...

  9. 数据挖掘之聚类分析(Cluster Analysis)

    1.Motivations(目的) Identify grouping structure of data so that objects within the same group are clos ...

最新文章

  1. 贪心 ---- C. Anu Has a Function位运算+贪心证明
  2. Win10 Microsoft Store 微软商店 Error 0x00000193 解决方法
  3. R语言应用实战-基于R的因子分析(以上市公司数据为例)
  4. python 定制类
  5. 转载:js跨域问题小结
  6. cocos2d-x游戏开发(九)重要的基类CCNode
  7. 开火锅店的明星们,什么时候才能不道歉?
  8. js ---- 对象转JSON,JSON转对象
  9. 淄博计算机文化基础试卷,我校顺利举办省高校计算机文化基础考试并获佳绩
  10. 基于JAVASCRIPT操作XML的无刷新分页
  11. golang 最小堆排序实现
  12. java商城源码(servlet,springboot,html,vue,uniapp,小程序,android)一套任意组合
  13. ArcMap坐标系转换
  14. 相位误差对SAR图像的影响
  15. 网页中插入视频与音频---HBuilder
  16. php 实现店铺装修5
  17. 一般试卷的纸张大小是多少_试卷,考试试卷是多大的纸
  18. bugkuctf never give up
  19. 18.3 KSM页面小结
  20. Python灰帽子环境配置

热门文章

  1. 上传文件到Github
  2. android oreo主题emui,Dark Oreo EMUI 5 Theme
  3. (十 二)特殊的二阶张量——正交张量(二)
  4. Swagger传递List类型
  5. CSS 布局 Flex弹性盒
  6. Win11上安装Ubuntu18.04双系统制作教程
  7. 1号店厦门专线委身沃尔玛
  8. linux系统管理命令教程
  9. Excel如何快速给手机号码添加空格分段显示?
  10. Java修真界(斗之气九段)