1. 简介

收集数据的能力不断增强,使我们有可能收集大量的异构数据。在可用的异构数据中,时间序列代表着尚未被充分探索的信息母体。当前的数据挖掘技术在分析时间序列时存在多个缺点,尤其是在应同时分析多个时间序列(即多维时间序列)以从数据中提取知识时。

2. K-MDTSC和k-Shape

论文: https://www.mdpi.com/2079-9292/10/10/1166

2.1  K-Means

K-means是一种从统计学中诞生的经典聚类算法。它创建基于中心的集群,例如集群中的点更接近(因此更相似)它们所属的集群的质心(即集群的中心),而不是其他集群的质心。在k -means中,用户指定一个参数k,表示所需集群的数量。然后,从输入点开始,k -means将它们分组到k个簇中,将它们分配到最近的质心。然后,它返回每个群集和各自的质心。

首先,k -means在输入数据空间中随机抽取k个点,并将其作为聚类的初始质心。然后将所有输入点分配到与各自质心距离最短(通常为欧氏距离)的聚类中。一旦K-means将所有点分配到一个集群中,新的质心将被计算出来并与之前的质心进行比较。如果质心不变,算法将停止并返回生成的聚类和质心。否则,算法将重新启动,根据新的质心将所有点重新分配到集群。虽然传统的K-means代表了一种简单而高效的将点分组的算法,但它在距离定义方面有一些众所周知的局限性和一些众所周知的关键问题,如创建空簇。最重要的是,K-means不容易处理时间序列。

2.2 k-Shape

k-Shape是一种基于K-means的时间序列聚类算法。为了处理时间序列,k-Shape采用基于形状的距离来评估两条曲线之间的相似度。此外,基于形状的距离使用互相相关距离来识别两条曲线之间的最小距离,即使它们没有正确对齐。为此,它首先移动其中的一个,以确定到最小距离的最佳对齐。然后,为了处理时间序列固有的扭曲,k-Shape使用了一个z归一化过程。k-Shape通过用单个序列的自相关的几何平均值归一化互相关距离来计算基于形状的距离。

虽然k-Shape可以识别时间序列簇,即使它们没有对齐,但它本身不能处理多维时间序列。实际上,k-Shape只得到一维时间序列的输入。在这里,我们将其调整为多维时间序列,以应对这种约束。

已知多维时间序列XN(z),其中N表示维数,我们将X(z)定义为一维时间序列,将所有维数连接如下:

最后,我们将X(z)时间序列作为k-Shape的输入。

2.3 K-MDTSC

我们将K-MDTSC基于传统的K-means算法。首先,我们定义了一个广义的距离概念来处理时间序列,特别是多维时间序列。

给定一对多维时间序列XN(z)和YN(z),其中z表示z个样本中的样本,N表示维数,我们定义广义距离如下:

其中L表示公制距离。对于我们的实现,我们依赖于L = 2,即欧氏距离。我们使用距离d(.)在Kmeans算法中找到最近的质心。注意,我们的广义距离假设XN(z)和YN(z)是同步的多维时间序列。

3. 其他方法

论文:A multivariate time series clustering approach for crime trends prediction | IEEE Conference Publication | IEEE Xplore

利用单维时间序列的聚类思想,给多维时间序列的各个维度赋予特定的权值,每个行向量作为一个时间点。由于MTS样本长度不等,样本之间的相似度使用动态时间弯曲(Dynamic Time Warping, DTW)度量,最佳匹配路径上每一对时间点的多维向量之间的距离利用闵可夫斯基参数模型计算。该算法需要领域知识为各个变量赋予权值,且DTW距离度量方法的计算量较大。

论文:基于变量相关性的多元时间序列特征表示 - 中国知网

提出基于变量相关性的MTS特征表示方法,通过协方差反映系统中各个参数的相关关系,将MTS样本转化为协方差矩阵;MTS集所有的协方差矩阵拼接为综合协方差矩阵,对该协方差矩阵进行主成分分析得到各MTS的特征矩阵。该方法可以将数值型不等长MTS数据集转变为大小相同的特征矩阵集合,处理结果可用于聚类分析。

论文:Interaction-Based Clustering of Multivariate Time Series | Proceedings of the 2009 Ninth IEEE International Conference on Data Mining

提出了一种基于参数交互关系的MTS聚类方法,指出MTS中的任一维变量都可以被其他解释变量近似线性组合表示,且将一维线性关系纳入了考虑范畴,假定这些变量间的线性相关关系可以用来进行聚类,其不足之处在于模型计算时间会随着样本数量变大而增加,也不能处理非数值型变量。

论文:Structure-Based Statistical Features and Multivariate Time Series Clustering | IEEE Conference Publication | IEEE Xplore

将每一维时间序列转化为一个统计特征数组,MTS样本由各维变量统计特征数组拼接成的向量来表示。该算法可以处理不等长时间序列,但要求各维选取的统计特征必须一致导致其在处理混合型MTS数据集时会遇到困难。

论文:https://ietresearch.onlinelibrary.wiley.com/doi/10.1049/el.2016.0701

针对MTS数据集存在的样本之间不等长、数据类型多样和噪声等问题,提出了一种基于协方差矩阵与测地线距离(geodesic-based distance)的MTS聚类算法。该算法首先将MTS样本转化为协方差矩阵;然后将协方差矩阵从黎曼空间映射到欧氏空间;最后对矩阵集进行聚类。如果使用基于距离的聚类算法,上述映射过程可以省略,协方差矩阵之间的距离度量方法使用测地线距离。

论文:https://www.researchgate.net/publication/273063437_A_Model-Based_Multivariate_Time_Series_Clustering_Algorithm

提出了一种基于模型的多维时间序列聚类算法——MUTSCA〈LR〉(Multivariate Time Series Clustering Algorithm 〈Lift Ratio〉),该聚类算法假设目标数据集由一系列概率分布模型系统生成,不同的系统将生成相异的多维时间序列。该算法先将连续型数值符号化;然后在符号化样本上计算由LR(Lift Ratio)向量表示的时序模式,将时序模式累加生成用来表示MTS样本的模型向量;最后对模型向量集进行聚类。它不需要特定的领域知识,同时可以处理包含数值和非数值型变量的混合型MTS数据集。

高维多元时序数据聚类相关推荐

  1. 【论文阅读笔记】ICML2022 时序异质数据 聚类 深度学习

    [本文首发于CSDN个人博客,转载请注明出处.In case of infringement, please contact to delete.] 今天破冰咯~ 趁着自己刚认真看完一篇论文,记录一下 ...

  2. 高维多元数据拟合回归如何进行???

    一.高维多元数据非线性/线性拟合: Matlab绘制三维空间网格散点图,使用cftool工具箱实现三维空间绘图.cftool工具箱是应用程序中的Curve Fitting应用.选择拟合曲线的类型,工具 ...

  3. 手把手教你用Python玩转时序数据,从采样、预测到聚类

    本文经AI新媒体量子位(公众号 ID: QbitAI)授权转载,转载请联系出处 本文约1800字,建议阅读5分钟 如果你有朝一日碰到了时序数据,该怎么用Python搞定它呢? 时序数据,也就是时间序列 ...

  4. python数据预测代码_手把手教你用Python玩转时序数据,从采样、预测到聚类丨代码...

    原标题:手把手教你用Python玩转时序数据,从采样.预测到聚类丨代码 原作 Arnaud Zinflou 郭一璞 编译 时序数据,也就是时间序列的数据. 像股票价格.每日天气.体重变化这一类,都是时 ...

  5. 【数据可视化】复杂高维多元数据的可视化

    1 高维多元数据 每个数据对象有两个或两个以上独立或者相关属性的数据.高维指数据具有多个独立属性,多元指数据具有多个相关属性.由于研究者在很多情况下不确定数据的属性是否独立,因此通常简单地称之为多元数 ...

  6. 探索可观测性:AIOps中的时序数据应用

    01. 背景 随着科技的发展,时序数据在我们的认知中占据越来越多的位置,小到电子元件在每个时刻的状态,大到世界每天的新冠治愈人数,一切可观测,可度量,可统计的数据只要带上了时间这个重要的因素就会成为时 ...

  7. LTSM 实现多元素时序数据植物健康预测

    作者 | 李秋键 出品 | AI科技大本营(ID:rgznai100) 引言: 近些年来,"预测"一词在各个领域被频繁提及,所谓预测,实际上就是根据历史规律,推测未来结果.在科学技 ...

  8. 积微论坛报告视频+PPT:用微生物组时序数据重现生物膜装配动态过程

    点击阅读原文观看视频!后台回复"王金锋"获得视频和讲稿下载链接. 用微生物组时序数据重现生物膜装配动态过程 主讲人介绍 王金锋,博士.2011年入职中国科学院北京生命科学研究院工作 ...

  9. 基于海量日志和时序数据的质量建设最佳实践

    简介: 在云原生和DevOps研发模式的挑战下,一个系统从开发.测试.到上线的整个过程中,会产生大量的日志.指标.事件以及告警等数据,这也给企业质量平台建设带来了很大的挑战.本议题主要通过可观测性的角 ...

最新文章

  1. 空类,虚函数类,虚继承类的空间大小
  2. js中的事件循环和宏任务和微任务的理解
  3. cocos2d-x系列 Mac下配置cocos2d-x开发环境(android和ios)
  4. 问题 J: 输出是m的倍数或n的倍数、但不是m和n的公倍数的数
  5. 面向项目(一) —— 代码编写
  6. 未在本地计算机上注册“microsoft.ACE.oledb.12.0”提供程序报错的解决办法
  7. fclk if总线_技嘉B550手把手超频指南,光威血影为例
  8. 向量加减法首尾规律_平面向量加减法口诀
  9. springboot整合jpa之Specification
  10. 报The requested URL / was not found on thisserver. 网站打开出现404
  11. Selenium+Request爬取某鱼直播音频数据(下)
  12. 武汉星起航:亚马逊卖家做站外引流可以给店铺带来哪些好处
  13. Genero BDL 数据类型(1)
  14. 基于局部平面拟合的法向估计
  15. OrgChart组织架构图控件
  16. window下vmware使用无线网卡nat的方式上网
  17. navicat mysql 日志_使用Navicat查看MySQL日志的具体方法
  18. 华为笔试复盘 bfs-2 外卖员
  19. iperf 安卓 灌包命令_iperf灌包
  20. 刷题神器怎么导入java,怎么导题库_有没有比较好的可以自己导入题库进行模拟考试练习的软件_淘题吧...

热门文章

  1. 可见光通信中的光电器件
  2. 一天造出10亿个淘宝首页,阿里工程师如何实现?
  3. 485通信主机轮询+从机应答
  4. 中科院计算机博士学位答辩 顾智宇,中科院论文答辩情况和学位授予决议书(1)...
  5. 这家盒马店有位“外交官”,迪拜大亨、印尼高官都爱来
  6. c语言中strlen用到的头文件,C语言中sizeof()与strlen()函数的使用入门及对比
  7. 浅析2017年双十一数据,为你揭秘这些巨额成交量背后的秘密。
  8. ffmpeg录制桌面视频和麦克风音频(音视频同步)
  9. 菜鸟----字符菱形代码
  10. python 日期计算各种方式