多视角数据聚类研究的学习

  • 1 Introduction
    • 1.1 Background
    • 1.2 Previous Research
      • 1.2.1 协同学习 Co-training Learning
      • 1.2.2 多核学习 Multi-kernel Learning
      • 1.2.3 多视角图聚类 Multi-view Graph Clustering
      • 1.2.4 多视角子空间聚类 Multi-view Subspace Clustering
      • 1.2.5 一致性和互补性
    • 1.3 Contribution
    • 1.4 符号约定
  • 2 基于自适应近邻图学习的多视角聚类
    • 2.1 自适应近邻图学习
    • 2.2 多视角自适应近邻图聚类

学习西安交通大学王浩师兄的博士毕业论文
其分享的代码链接:
https://github.com/cswanghao/Multi-view-Clustering

原论文:https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CDFD&dbname=CDFDLAST2021&filename=1021574471.nh&uniplatform=NZKPT&v=hQibNX_JeK5LlBce3PohNT6Hgsg2prPSyYocAt9kj1Ou5OcelWWB8MoNdciVLy95

1 Introduction

1.1 Background

多视角聚类旨在利用不同信息之间的一致性和互补性,展现出更好的聚类效果

  1. 基于自适应近邻图学习的多视角聚类
  2. 基于联合图学习的多视角聚类
  3. 基于谱扰动的不完备多视角聚类
  4. 基于并行化计算的多视角聚类

Key Word: 多视角聚类 图聚类 谱聚类 概念分解 并行化计算

数据收集的过程中,在一个视角中收集的数据,我们通常称为“单视角数据”。从多个视角收集到的数据我们就称其为“多视角数据”。如认识一个人,你从视觉方面来认出他,那就是单视角,但如果从样貌、声音、动作等多方面来认出他,就可以认为是多视角。

通常,从一个视角得到的数据可以得到某一方面有用的信息,但如果是多视角的数据,我们相信其数据之间具有潜在的一致性和互补性,因而能得到更有用、具体的信息,从而能构建出更优越的机器模型。

聚类算法所采用的基本思想有层次聚类、分割聚类、基于密度的聚类、基于约束的聚类以及基于模型的聚类等,其中最经典的两类聚类算法为K-means和Spectral Clustering,但传统的聚类算法当时单视角的,多视角的聚类算法仍有很大的提升空间。

定义1.1 (多视角聚类) 给定一个标签未知的多视角数据集,多视角聚类算法挖掘并利用不同视角之间的一致性信息和互补性信息,构建并学习共识函数,融合不同视角,最后将每个数据样本划分到相应的类或簇中。

1.2 Previous Research

依据算法分类,Multiview clustering可分为四类:

1.2.1 协同学习 Co-training Learning

旨在交互迭代地训练多个训练器,训练器之间交换彼此的信息,最大化不同训练器的训练结果从而达到所有训练器的一致性

1.2.2 多核学习 Multi-kernel Learning

核函数是实现映射关系内积的一种方法,将低维特征空间映射到高维空间,使得低维特征空间线性不可分的模式在高维空间可能实现线性可分。
即使用预先设定的核函数对应不同的视角,然后线性地或非线性地组合这些核函数,以此期望学习一致性核函数,并随后完成聚类任务。多核学习的一个关键问题是选择合适的核函数并将它们组合起来。
核函数包括线性核函数、多项式核函数、高斯核函数等,其中高斯核函数最为常用。

1.2.3 多视角图聚类 Multi-view Graph Clustering

图(或网络)常用于表示数据对象之间的关联关系。图中的每个节点对应一个数据对象,边表示数据对象之间的关系。
在实际应用中,谱图理论结合矩阵性质,将聚类问题转换为求解图矩阵的特征值和特征向量问题。由于图矩阵的特征值反映了图中的连通分量/连接成分,因此可以利用图中的连通分量对所构建的图进行切割来实现数据聚类。
基于图的多视角聚类(或者称多视角图聚类)旨在从每个视角上初始构建的图中学习融合图,然后在融合图上使用图切割算法或其它谱图技术,获取最终聚类结果。

1.2.4 多视角子空间聚类 Multi-view Subspace Clustering

子空间学习旨在将高维的数据映射到低维的子空间,在映射的同时保留数据特有的局部特性,从而有效地缓解“维数灾难”问题。经典的子空间学习方法有矩阵分解、主题模型、字典学习、低秩近似等。多视角子空间聚类假定所有视角共享所学习得到的隐空间,并在隐空间中完成数据的一致性表征,最后完成聚类任务。
其中两种典型的一致性数据表征学习方法是(1)从多个子空间中直接学习数据的一致性表征;(2)预先学习得到一个隐空间,然后在隐空间中获取数据的一致性表征。所学习得到的一致性表征随后用于输出最终聚类结果

1.2.5 一致性和互补性

Dasgupta等人证明了两个视角上假设的一致性和他们错误率之间的不等式关系:
P ( f 1 ≠ f 2 ) ≥ max ⁡ { P err ⁡ ( f 1 ) , P err ⁡ ( f 2 ) } (1) P\left(f^{1} \neq f^{2}\right) \geq \max \left\{P_{\operatorname{err}}\left(f^{1}\right), P_{\operatorname{err}}\left(f^{2}\right)\right\} \tag1 P(f1​=f2)≥max{Perr​(f1),Perr​(f2)}(1)

从式(1)可以得出:
性质1.1 (一致性原则) 给定一个多视角数据集,最大化所有视角上假设的一致性
将降低每一个视角上假设的错误率。
此外,互补性也给出了说明:
性质1.2 (互补性原则) 给定一个多视角数据集,多个视角比单视角能够更加全面地、准确地表示数据对象,并且不同视角之间包含互补信息。

一致性和互补性是多视角聚类中的两个基本原则。

1.3 Contribution

1.4 符号约定

2 基于自适应近邻图学习的多视角聚类

2.1 自适应近邻图学习

基于图的多视角聚类即使用图来表示数据对象之间的关系,并用相似度来进行度量,此类图通常称为相似图或亲和图。
图中的顶点对应于数据对象,变得权重表示数据对象之间的相似关系。再进行计算时,一般使用矩阵来计算图。

常用的两种图:

  • 全连接图:对于数据对象 x i x_i xi​ ,图中会在数据对象 x i x_i xi​ 与所有其它数据对象之间存在边连接;
  • K 近邻图:对于数据对象 x i x_i xi​ ,图中会在数据对象 x i x_i xi​ 与其前 k k k 个近邻对象之间存在边连接

在一个图中,如果顶点 i i i和 j j j之间有边连接,则图矩阵中元素 s i j s_{ij} sij​可采用以下三种相似度度量方法进行定义:

  1. 二值(0-1)相似度: s i j = 1 s_{ij}=1 sij​=1
  2. 余弦相似度: s i j = ( x i ) T x j ∥ x i ∥ ∥ x j ∥ s_{i j}=\frac{\left(\mathbf{x}_{i}\right)^{T} \mathbf{x}_{j}}{\left\|\mathbf{x}_{i}\right\|\left\|\mathbf{x}_{j}\right\|} sij​=∥xi​∥∥xj​∥(xi​)Txj​​;
  3. 高斯核相似度: s i j = exp ⁡ ( − ∥ x i − x j ∥ 2 σ ) s_{i j}=\exp \left(\frac{-\left\|\mathbf{x}_{i}-\mathbf{x}_{j}\right\|}{2 \sigma}\right) sij​=exp(2σ−∥xi​−xj​∥​),其中 σ \sigma σ 是缩放因子

代表性的基于图的聚类算法有谱聚类(Spectral Clustering)和图切割(Normalized cuts,Ncut).
传统的基于图的聚类算法步骤如下:

  1. 构建数据的图矩阵 S ∈ R n × n S ∈ \mathbb{R}^{n×n} S∈Rn×n,其中的每一个元素 s i j s_{ij} sij​ 表示数据对象 x i x_i xi​ 和 x j x_j xj​ 的相似性(或称亲和性);
  2. 计算图拉普拉斯(Laplacian)矩阵 L S = D S − ( S T + S ) / 2 L_S = D_S − (S^T + S)/2 LS​=DS​−(ST+S)/2,其中 D S D_S DS​ 是对角矩
    阵并且其对角线第 i i i 个元素是 ∑ j ( s i j + s j i ) / 2 \sum_{j}\left(s_{i j}+s_{j i}\right) / 2 ∑j​(sij​+sji​)/2
  3. 计算映射矩阵 F ∈ R n × r ( 通 常 r < d ) \mathbf{F}\in\mathbb{R}^{n\times r}(通常r<d) F∈Rn×r(通常r<d),其目标函数如下: min ⁡ F ∈ R n × r Tr ⁡ ( F T L S F ) \min _{\mathbf{F} \in \mathbb{R}^{n \times r}} \operatorname{Tr}\left(\mathbf{F}^{T} \mathbf{L}_{S} \mathbf{F}\right) F∈Rn×rmin​Tr(FTLS​F)
  4. 在映射矩阵 F \mathbf{F} F上使用额外的聚类算法(如 K-means)将数据分成 c c c个簇

2.2 多视角自适应近邻图聚类

多视角-3-多视角数据聚类研究相关推荐

  1. 基于数据要素流通视角的数据溯源研究进展

    摘要 [目的] 通过文献梳理分析数据溯源研究进展及应用场景,以期为数据交易平台搭建.行业数据治理建设和数字政府治理建设提供参考.[方法] 从数据溯源模型.数据溯源方法和数据溯源应用分别进行归纳和分析, ...

  2. “科学学”视角下的科研工作者行为研究

    "科学学"视角下的科研工作者行为研究 贾韬1, 夏锋2 1 西南大学计算机与信息科学学院,重庆 400715 2 大连理工大学软件学院,辽宁 大连 116620 摘要:科学的复杂性 ...

  3. 多视角3D重建技术市场现状研究分析报告-

    辰宇信息咨询市场调研公司最近发布-<2022-2028中国多视角3D重建技术市场现状研究分析与发展前景预测报告> 内容摘要 本文研究中国市场多视角3D重建技术现状及未来发展趋势,侧重分析在 ...

  4. 基于图神经网络的聚类研究与应用

    Datawhale干货 本文编辑:Datawhale 用手机上网的时候,总有种感觉,推荐的视频是我爱看的,推荐的美食是我爱吃的,大家长的又好看,说话又好听. 有时候会对自己发出灵魂拷问:难道隐私被记录 ...

  5. 基于中台的公共图书馆数据服务研究

    基于中台的公共图书馆数据服务研究 摘 要 本文以中台相关概念为切入点,讨论利用中台相关技术,收集图书馆的多源数据,提高公共图书馆数据资源的管控能力.中台的作用不仅仅是将图书馆中的各种数据进行汇聚,而且 ...

  6. 郑可迪 : 培养数据思维,投身电力大数据领域研究 | 提升之路系列(一)

    导读 为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的"π"型人才,由清华大学研究生院.清华大学大数据研究中心及相关院系共 ...

  7. 大数据聚类算法性能比较及实验报告

    在大数据领域这个聚类算法真是起到了十分重要的作用,只有通过有效地聚类才能得到非常直观的结果. 有一个实验要求对比两种大数据聚类算法的性能,具体的代码也不是由我实现的,我只是改了一部分,主要还是博客大佬 ...

  8. 【数据聚类】第六章第一节:层次聚类算法概述、聚合和分裂方法

    文章目录 一:层次聚类算法概述 (1)层次聚类 (2)聚合和分裂各自研究的重点 (3)优缺点 二:聚合方法 (1)Single-link方法 A:概述 B:例子 (2)Complete link方法 ...

  9. 文献记录(part61)--基于不完备数据聚类的缺失数据填补方法

    学习笔记,仅供参考,有错必纠 关键词: 数据填补:不完备数据:聚类:约束容差集合差异度 基于不完备数据聚类的缺失数据填补方法 摘要 缺失数据的处理是数据挖掘领域进行数据预处理的一个重要问题.传统的缺失 ...

最新文章

  1. 最近为一个培训公司做的配置
  2. ubuntu下面codelite运行代码一闪而过的问题、codelite的代码排版快捷键、去掉xfce4的Ctrl+F5
  3. P2517-订货【网络流,费用流】
  4. access无法与wincc链接_wincc和Access连接写如变量
  5. android studio 显示图形_显示服务器实现(一)
  6. netty的零拷贝、架构设计、ByteBuf扩容机制详解
  7. 遍历enum(连续型)
  8. poj3984(经典dfs)
  9. 数学标记语言MathML简介、工具及兼容
  10. emmx文件用什么软件打开电脑_emmx文件怎么打开
  11. ktv收银管理系统服务器,KTV包厢收银管理系统增强版
  12. matlab程序 直线插补,用Matlab实现直线插补计算程序.doc
  13. docker限制容器下载速度
  14. c语言中的右移是逻辑右移还是算术右移的问题
  15. 海水淡化除硼工艺及方法
  16. 蜂鸣器、风扇、震动马达
  17. ajax实现注册用户名时动态显示用户名是否已经被注册(1、ajax可以实现我们常见的注册用户名动态判断)(2、jquery里面的ajax也是类似我们这样封装了的函数)...
  18. BIM在工程中的20种典型应用
  19. linux新下载的源码或者官方提供的内核查看具体的内核版本
  20. 北京大学计算机专业保研夏令营,北京大学12院系办夏令营 优秀者可保研

热门文章

  1. KDD 2018 | 小波分解网络用于可解释的时间序列分析
  2. 2023年湖北七大员有哪几种?证书全国通用吗?秋禾火
  3. redhat linux防火墙状态,RedHat Linux下iptables防火墙设置
  4. 恶意网页修改注册表的12种现象
  5. iOS 如何对音频、视频合成,配音、卡拉OK技术
  6. 群晖NAS安装甜糖官方docker镜像,利用闲置带宽赚电费
  7. ECMAscript学习笔记(01)
  8. 再出发!蓝代斯克更名Ivanti 主攻三大业务版块
  9. js 音频音乐播放封装函数代码
  10. oracle中的循环函数,Oracle日期函数和循环总结