之前介绍了06年KDD会议上进化聚类的开创性论文,今天要介绍的就是借鉴其思想的优秀算法中的代表之一《结合时间平滑性的进化谱聚类》。作者Yun Chi等人发布在07年的KDD会议上。

论文题目:《Evolutionary Spectral Clustering by Incorporating Temporal Smoothness》

摘要:进化聚类是一个新兴研究领域,他是比如在Web网页动态聚类和博客内容和聚类数据流等应用的重要基础。在进化聚类中,一个好的聚类结果既要与当前数据很好的拟合,同时又不能与最近的历史有太大的偏差。为了同时实现这两个目标,在聚类质量的度量中集成了时间平滑度度量。在这片论文中,我们提出了两种将时间平滑性纳入进化谱聚类的框架。对于两个框架来说,我们都是从已知的k-means聚类问题中得到的直觉(intuitions)出发,然后针对进化谱聚类问题提出并求解相应的代价函数。我们对进化谱聚类问题的解决方案提供了更稳定、更一致的聚类聚类结果,这些结果对短期噪声不敏感,同时对长期聚类漂移(cluster drifts)具有自适应能力。除此之外,我们证明了我们的方法为相应的进化k-means聚类问题的放松版(relaxed versions)提供了最优解。在一系列的真实和生成数据集上的性能实验表明了我们的进化谱聚类方法提供了对噪声不敏感且适应数据漂移(data drifts)的更健壮的聚类结果(clustering)。

分类:Database Applications——Data mining,Information Search and Retrieval——Information filtering

关键词:Evolutionary Spectral Clustering,Temporal Smoothness,Preserving Cluster Quality,Preserving Cluster Membership,Mining Data Streams

简介:在许多聚类应用中,要聚类的对象特征会随着时间而变化。通常,这些特征变化既包含概念漂移(concept drift)引起的长期趋势,也包含噪声引起的短期变化。比如,在聚类博客站点的博客空间中(例如,用于社区检测),博主的兴趣和友谊网络可能会随着时间缓慢漂移,同时,外部事件可能会触发短期变化。另一个例子是,在一个无处不在的计算环境中,装有GPS和无线连接的运动物体被聚类(例如,用于交通拥堵预测或动物迁移分析)。运动物体的坐标在长期内可以沿一定的路线运动,但由于带宽和传感器精度的限制,其在给定时间的估计坐标可能会发生变化。

在这些应用场景中,待聚类的对象会随着时间演化,这对传统的聚类算法提出了新的挑战。一方面,当前的聚类主要依赖于当前的数据的特征——在非平稳的场景(nonstationary scenarios)中,聚合所有的历史数据特征几乎没有意义。另一方面,当前的聚类结果不应该与历史偏差较大。这是因为在大多数动态应用(dynamic applications)中,我们不希望数据变化太快,因此,我们希望在连续的时间步骤中的聚类结果之间具有一定程度的时间平滑性(temporal smoothness)。

我们用下面的例子来说明这一点。假设我们要将5个博客分为两个集群。图1展示了5个博客在时间t-1和t上的关系图,图上每个顶点代表一个博客,节点之间边上的数字代表相似性(如,连接的数目)。显然,t-1时刻的博客应该用CutⅠ 进行聚类。t时刻的聚类不是很清晰。CutⅡ和CutⅢ对博客进行均等划分。但根据时间平滑性原则,CutⅢ更符合近期历史(t-1时刻)。同样的思想被用于时间序列分析中,移动均线(moving average)经常被用来平滑短期波动。因为类似的短期方差也存在剧聚类应用中,要么是由于数据噪声,要么是因为聚类算法的非鲁棒(non-robust)行为(如,收敛到不同的局部次优模式(locally suboptimal modes)),因此需要新的聚类技术来处理演化对象并获得稳定一致的聚类结果。

本文提出了两种进化谱聚类算法,其中聚类代价函数包含了正则化时间平滑的项。进化聚类首次由Chakrabarti提出,他们提出类进化层次聚类问题和进化k-means聚类问题的启发式解决方案。在本文中,我们将重点研究在更严格的框架下的进化谱聚类算发放。谱聚类算法有着坚实的理论基础并且有着不错的表现。它被成功应用于文档聚类、图像分割、Web/blog聚类等多个领域。谱聚类算法可以看作是解决特定图划分问题,需要对不同的基于图的测度(measures)进行优化。在此基础上,我们利用基于图的度量方法定义了进化谱聚类算法中的代价函数,并得到了相应的(松弛的relaxed)最优解。同时,研究表明,这些图划分问题与k-means聚类问题的不同变化有着密切联系。通过这些联系,我们证明了进化谱聚类作为特例为相应的进化k-means聚类问题提供了解决方案。

总的来说,我们的论文有下面几个主要的贡献:

1.我们提出了两种进化谱聚类的框架,其中时间平滑性被纳入整体聚类质量。据我们所知,我们的框架是谱聚类算法的第一个进化版本。

2.我们得到了放松版本(relaxed)进化谱聚类框架的最优解。因为不放松版本(unrelaxed)是NP-hard问题,我们的解决方案提供了获得最终聚类的实用方法和算法性能的上界。

3.我们还对算法进行了扩展,以处理聚类数量随时间改变和新数据点插入,旧数据点被移除的问题。

Evolutionary Spectral Clustering by Incorporating Temporal Smoothness论文整理相关推荐

  1. 【论文阅读和实现】On Spectral Clustering: Analysis and an algorithm【Python实现】

    On Spectral Clustering: Analysis and an algorithm https://github.com/Sean16SYSU/MachineLearningImple ...

  2. spectral clustering谱聚类论文解读(上)

    关于A Tutorial on Spectral Clustering的解读 1.介绍 2.相似图 2.1 图的标号 2.2 不同的相似图 3.拉普拉斯图与它的基础参数 3.1未归一化的拉普拉斯矩阵 ...

  3. 【论文笔记】:《Lifelong Spectral Clustering》

    论文笔记:Lifelong Spectral Clustering 论文信息 个人总结 谱聚类 论文做了什么(Abstract) 公式解读 The Proposed L2SC Model 提出模型 M ...

  4. Spectral clustering 谱聚类讲解及实现

    简述 https://github.com/Sean16SYSU/MachineLearningImplement 这篇是在网上看了wiki之后写出来的代码. 附上一篇看过论文之后根据论文实现的版本: ...

  5. 【机器学习】谱聚类(Spectral Clustering)

    疑问 谱聚类的概念 谱聚类是一种针对图结构的聚类方法,将每个点都看作是一个图结构上的点,所以,判断两个点是否属于同一类的依据就是,两个点在图结构上是否有边相连,可以是直接相连也可以是间接相连.本质上就 ...

  6. Spectral Clustering

    Spectral Clustering(转) 如果说 K-means 和 GMM 这些聚类的方法是古代流行的算法的话,那么这次要讲的 Spectral Clustering 就可以算是现代流行的算法了 ...

  7. Large Scale Spectral Clustering with Landmark-Based Representation

    论文:AAAI 2011 代码:Julia 基于锚点的谱聚类 核心: 选取一个较小的anchor集[通常为原始数据点的子集],计算所有数据点和anchor集之间的相似度,减少相似度矩阵维度 or 使得 ...

  8. Fast spectral clustering learning with hierarchical bipartite graph for large-scale data

    Fast spectral clustering learning with hierarchical bipartite graph for large-scale data 基于层次二分图的大规模 ...

  9. 谱聚类(spectral clustering)及其实现详解

    Preface 开了很多题,手稿都是写好一直思考如何放到CSDN上来,一方面由于公司技术隐私,一方面由于面向对象不同,要大改,所以一直没贴出完整,希望日后可以把开的题都补充全. 先把大纲列出来: 一. ...

最新文章

  1. acos1.2的下载及CentOS7下安装nacos1.2
  2. Java对接SAP平台接口
  3. 2016.6.17——Remove Duplicates from Sorted Array
  4. 阿里高级技术专家至简: Service Mesh 在超大规模场景下的落地挑战
  5. 交流磁路matlab,严格地说,交流磁路计算应该用磁滞回线。
  6. python父亲节礼物送什么_父亲节送什么礼物给父亲呢?
  7. hbase的数据结构的简单总结
  8. 复盘人生第一次科研经历
  9. 介绍NVivo 12 Mac
  10. 什么是CentOS系统?
  11. DNS与NS、NS记录
  12. Linux群控链接USB手机个数,群控系统能做到同时控制上百台手机吗?教你如何群控手机...
  13. matlab折线参数,matlab画含参数曲线族
  14. TCP SYN洪水 (SYN Flood) 攻击原理与实现
  15. unity游戏模型获取- AssertStudio(原GuiStudio)(以第二银河为例)
  16. Postman~做接口测试
  17. The stash entry is kept in case you need it again.
  18. 我司何晓磊续签立命馆大学的客座研究员
  19. 夫妻分居申办上海户口全攻略(zt)
  20. Qt:29---QColorDialog、QFontDialog颜色字体对话框

热门文章

  1. 2048小游戏HTML网页版源码共享
  2. matlab倒谱法基音周期,语音学习笔记1------matlab实现自相关函数法基音周期提取...
  3. Error: Index .kibana belongs to a version of Kibana that cannot be automatically migrated. Reset it
  4. 辉芒微IO单片机FT60F121-RB
  5. MFC 登陆界面 创建地方
  6. 具名元组namedtuple
  7. 48 java常用类_10 _Calendar类
  8. 在java中如何做身份证号码校验
  9. 80端口、443端口、8080端口、8000端口的区别
  10. Centos 7 安装 ifconfig命令