Fast Fuzzy Clustering Based on Anchor Graph

基于锚图的快速模糊聚类 FFCAG

模糊聚类十分流行;

  1. 大规模问题复杂度高,限制发挥
  2. 对噪声敏感

FFCAG算法将基于锚的相似度图构建和隶属度矩阵学习集成到一个统一的框架中,从而可以进一步利用锚的先验知识来提高聚类性能。

FFCAG首先使用无参数邻域分配策略构造基于锚的相似图。然后,设计了一个二次规划模型来学习锚的隶属度矩阵,这与传统的模糊聚类算法有很大的不同。更重要的是,在目标函数中引入了一个新的平衡正则化项,以产生更精确的聚类结果。

最后,我们采用一种保证收敛的交替优化算法来求解该方法。

聚类方法大致分为两类:硬聚类、模糊聚类(软聚类)

对于硬聚类,每个数据点仅属于一个聚类,概率为100%。而模糊聚类将每个数据点分配给所有聚类,其程度由成员隶属度指定。

模糊聚类由于其有效性和简单性越来越受到研究者的关注。然而,有两个主要问题限制了它在大规模问题中的应用:

  • 模糊聚类的一个主要缺点是在处理大规模问题时耗时。为了加快聚类进程,投入了大量精力。

    一个自然的选择是减小数据大小。另一种方法是寻找更好的初始化来减少迭代次数。

    Shen等人设计了一种超平面划分方法,将整个数据集划分为不相交的子集,并使聚类算法精确地聚焦于一个局部区域,以提高效率和有效性。

  • 模糊聚类的另一个缺点是它的敏感性。

    大多数模糊聚类算法采用欧氏距离来分配隶属度,而噪声对聚类结果有很大影响。

    一些研究人员用适当的正则化项扩展了FCM,以减少异常值的影响并提高其性能

    然而,大多数模糊聚类方法要么只处理耗时问题,要么处理噪声敏感问题。如何在效率和聚类精度之间取得良好的平衡仍然是一个具有挑战性的问题。

受最近基于锚图技术研究的启发,针对大规模问题,我们提出了一种新的模糊聚类算法,称为基于锚图的快速模糊聚类(FFCAG)。

文章贡献:

  1. 提出的FFCAG将基于锚的相似图构建和隶属矩阵学习这两个重要组成部分集成到一个统一的框架中。可以进一步利用锚的先验知识以及数据点和锚之间的局部连通性来提高聚类性能,这对于在有限的计算和存储资源下实现大规模聚类至关重要。
  2. 设计了一个二次规划模型来学习锚的隶属度矩阵。据我们所知,FFCAG首次尝试用二次规划模型处理大规模问题的模糊聚类。此外,我们还开发了一种新的迭代优化算法来解决该问题。
  3. FFCAG引入了一个新的正则化项,以避免空聚类的出现,并使聚类结果更加平衡。这有利于更清晰的聚类结构和更好的聚类性能。
  4. 在合成和真实数据集上进行的大量实验表明,与最先进的算法相比,FFCAG不仅可以获得更好的性能,而且花费更少的时间

相关工作

模糊聚类……

基于锚图的模型……

BKHK生成锚点

方法

动机

……

基于锚的相似图构造

这里和聂飞平的CAN一样


邻居分配中获得的锚图B是稀疏的,并且只考虑每个数据点的前k个最近邻居锚

因此,当j>k+1时,bij被设置为0。它可以看作是数据点和锚之间的图的相似性矩阵。

成员矩阵学习

数据:X∈Rn×dX \in R^{n \times d}X∈Rn×d 将其分为c类

F=fij∈Rn×cF={f_{ij} \in R^{n \times c}}F=fij​∈Rn×c fij表示xi属于j类的隶属度

对于大规模数据,直接处理原始数据非常耗时,因此我们转而对锚进行聚类以加快聚类过程

U∈Rm×cU \in R^{m \times c}U∈Rm×c 我们将B的元素bij视为数据点和锚的连接权重,将U的元素uij视为第i个锚属于第j个类的概率。锚的作用可以看作是连接数据点和类的桥梁,然后可以通过属于该类的所有锚的成员值的加权和来计算每个数据点fij的成员值
fij=bi1u1j+bi2u2j+⋯+bimumj=∑l=1mbiluljf_{ij} = b_{i1}u_{1j}+b_{i2}u_{2j}+\dots+b_{im}u_{mj} = \sum_{l=1}^m b_{il}u_{lj} fij​=bi1​u1j​+bi2​u2j​+⋯+bim​umj​=l=1∑m​bil​ulj​
因此,数据点的隶属矩阵可以表示为F=BU 模糊聚类允许样本对每个聚类具有一定程度的隶属度,而不是仅对一个聚类具有隶属度

为了获得清晰的聚类分区,每个数据点的隶属度应该变化很大,导致所有元素的平方和也较大。因此,我们通过解决以下问题来获得聚类分配:

对于目标函数(12),通过使用基于锚的相似性图B来引入数据信息,该相似性图对数据点和锚之间的信息进行编码

然而,问题(12)有平凡解,即所有锚都被分组到一个集群中。为了解决这个问题,我们引入

问题(13)的最佳解决方案是,所有锚属于具有相同隶属度值1/c的每个簇。我们将(13)视为簇分配中的先验,以避免平凡解。

不正确的初始化可能导致算法收敛到局部最小值或错过一个小簇。为了解决这个问题,设计了一个额外的平衡约束,以使聚类结果更加平衡,定义为:

下面,我们将给出最小化问题(14)可以获得最平衡聚类结果的证明

……

根据上述定理,最小化(14)可以获得最平衡的聚类结果。因此,我们使用(14)作为平衡正则化项来改善聚类性能。

结合12-14,我们具有清晰聚类结构的新模型是解决:

总之,(18)中提出的总体模型包含三个术语。目标函数中的第一项提供了锚的基本聚类。第二项可被视为避免平凡解的聚类分配中的先验项。目标函数中的最后一项使聚类结果平衡,以防止将太小或太多的样本分组为一个聚类的歪斜聚类结果。

我们将问题(18)转化为轨迹最小化问题,并得出如下最优问题:

(18加了个负号 最大边最小)

问题(19)的目标函数可以重写为二次规划模型:

我们通过求解问题(20)获得锚的隶属度矩阵,然后获得原始数据点的隶属度。

优化

此部分采用ALM解决问题20

ALM算法通常用于求解方程约束优化问题,如下所示:

由于问题(20)很难直接计算,我们我们引入一个松弛变量V,并将问题(20)等价地转化为:

问题(21)的最优解可通过最小化以下增广拉格朗日函数获得

其中μ是惩罚参数,∑是拉格朗日乘子矩阵。当固定另一个变量时,我们针对一个变量优化问题(22),得到以下两个子问题

固定U更新V:问题(22)退化为

取问题(23)关于V的导数并将其设为零,我们可以得到

通过固定V更新U:问题(22)退化为

设Z=DV,问题(25)进一步等价于

应该注意,问题(26)对于每个i是独立的;因此,问题(26)可分为m个子问题

简化后,问题(27)可以改写为

问题(28)可以用闭式解来解决。问题(28)的拉格朗日函数表示为

式中,η为标度≥ 0是拉格朗日系数向量,两者都可以通过[41]中提出的迭代算法确定。根据Karush–Kuhn–Tucker(KKT)条件[42],最优解表示为

其中(x)+=max⁡(x,0)(x)_+=\max(x,0)(x)+​=max(x,0)。基于上述分析,算法1中描述了解决问题(20)的详细过程。

Fast Fuzzy Clustering Based on Anchor Graph相关推荐

  1. Fast spectral clustering learning with hierarchical bipartite graph for large-scale data

    Fast spectral clustering learning with hierarchical bipartite graph for large-scale data 基于层次二分图的大规模 ...

  2. spatial-Spectral Clustering with Anchor Graph for Hyperspectral Image

    spatial-Spectral Clustering with Anchor Graph for Hyperspectral Image 基于锚点图的高光谱图像空间光谱聚类 本文的贡献: 基于锚图的 ...

  3. 【时序聚类】Neurocomputing:Multivariate time series clustering based on common principal component analysi

    分析2019Neurocomputing 1区论文Multivariate time series clustering based on common principal component ana ...

  4. 文献学习(part77)--UNIC: A fast nonparametric clustering

    学习笔记,仅供参考,有错必纠 关键词:聚类分析:硬(常规脆)聚类:非参数算法:数据挖掘:大数据 文章历史:2019年2月1日收到:2019年8月15日修订:2019年11月15日接受:2019年11月 ...

  5. 文献记录(part43)--Multivariate time series clustering based on complex network

    学习笔记,仅供参考,有错必纠 关键词:多元时间序列:数据挖掘:聚类分析:复杂网络 Multivariate time series clustering based on complex networ ...

  6. 文献学习(part32)--Density Peak Clustering Based on Relative Density Optimization

    学习笔记,仅供参考,有错必究 文章目录 Density Peak Clustering Based on Relative Density Optimization 摘要 相关工作 算法 DPC算法 ...

  7. Anchor Based和Anchor Free的相爱相杀与ATSS的诞生

    前言 我们都知道按照是否出现RPN可将目标检测算法分为two-stage和one-stage,其中one-stage的一个主要代表便是YOLO系列,而根据是否存在先验锚框的定义我们也可以将其分为Anc ...

  8. 3D点云处理:点云聚类--FEC: Fast Euclidean Clustering for Point Cloud Segmentation

    文章目录 聚类结果 一.论文内容 1.1 Ground Surface Removal 1.2 Fast Euclidean Clustering 题外:欧几里得聚类 Fast Euclidean C ...

  9. 论文阅读 [TPAMI-2022] Ball $k$k-Means: Fast Adaptive Clustering With No Bounds

    论文阅读 [TPAMI-2022] Ball kkkk-Means: Fast Adaptive Clustering With No Bounds 论文搜索(studyai.com) 搜索论文: B ...

最新文章

  1. 详解:数据库名、实例名、ORACLE_SID、数据库域名、全局数据库名、服务名及手工脚本创建oracle数据库...
  2. 有关linux下redis overcommit_memory的问题,以及导致的:Cannot allocate memory问题
  3. TypeScript + Gulp + 混淆 + 打包
  4. MySql 存储过程 光标只循环一次
  5. Jarslink Demo Alibaba(教程 源码)
  6. 【易实战】Spring Cloud Greenwich Hystrix:服务容错保护
  7. 2019年全国大学生电子设计竞赛试题 简易电路特性测试仪(D) 题 设计报告
  8. SqlServer2008 不允许保存更改
  9. 电商产品竞品分析报告(聚水潭良品铺子)
  10. 第1章 MatConvNet简介
  11. 怎么设置台式计算机密码忘了,台式电脑忘记开机密码怎么办
  12. 洛谷 P2414 [NOI2011] 阿狸的打字机 题解
  13. MindSpore前馈神经网络运用
  14. uefi下的开机顺序_解答bios设置硬盘启动顺序的操作教程
  15. excel表格横向纵向变换_Excel新手最容易给自己挖的几个坑,手把手教你完美避雷!...
  16. 【学习笔记】山东大学生物信息学-05 高通量测序技术介绍 + 06 统计基础与序列算法(原理)
  17. 2010中国互联网哈哈榜1:十大网络流行语
  18. 别被“僵尸”吃掉大脑!学会用Kubernetes (K8s)思考
  19. case when then 的两种写法
  20. Latex编写数学公式的常用语法

热门文章

  1. 拿起键盘就是干:跟我一起徒手开发一套分布式IM系统
  2. 编写一个 SQL 查询,满足条件:无论 person 是否有地址信息,都需要基于上述两表提供 person 的以下信息:
  3. 原生小程序地址管理--抖音小程序(详细)
  4. Java岗大厂面试百日冲刺 - 日积月累,每日三题【Day28】—— 数据库5
  5. 迁移学习入门(读王晋东博客)
  6. 设计模式学习(一):设计原则
  7. 无效民间借款合同如何认定
  8. 变量的三要素是java_C语言变量三要素知识详解,C语言变量三要素没那么难
  9. 数学分析教程史济怀练习9.7
  10. JAVA毕设项目酒店订房系统(java+VUE+Mybatis+Maven+Mysql)