Unsupervised Action Segmentation by Joint Representation Learning and Online Clustering_CVPR 2022

链接:https://www.researchgate.net/publication/351925764_Unsupervised_Action_Segmentation_by_Joint_Representation_Learning_and_Online_Clustering

1.团队相关信息

作者都是这个西雅图的Retrocausal公司的,公司首页上发布有5、6篇已经中的顶会论文,都是视频方向的。

2.背景

首先这篇文章针对的领域是动作分割,解释一下什么是Action Segmentation。动作分割就是,给定一长段捕捉复杂活动的视频序列,目标是将长视频的每一帧分类为一个动作或者子活动类。

3.出发点

有监督的方法需要每一帧的动作标签来进行训练,这成本是比较昂贵的。弱监督的方法需要弱标签,例如每个视频的有序动作列表,这样的标签获取其实也是比较耗时的。
因此出现了无监督的一些方法,这些方法共同发现这些动作,并通过将所有视频中的帧分组为簇来分割视频,每个簇对应于其中一个动作。以往的无监督动作分割方法通常将表征学习和聚类分离,图1(a),这阻止了聚类步骤的反馈回到表征学习。此外,它们需要先存储整个数据集的特征,然后再以离线方式对它们进行聚类,从而导致内存使用效率低下。

4.方法

4.1方法总览

基于这个出发点,这篇文章提出了一种联合表征学习和在线聚类的无监督动作分割方法,图1(b)。该方法使用视频帧聚类作为pretext任务,从而直接优化无监督动作分割。并且提出时间最优传输模块来利用视频中的时间信息。具体来说,在计算伪标签簇分配时,时间最优传输模块保留了活动的时间顺序,产生了无监督动作分割的有效表示。此外,该文方法一次处理一个小批处理,因此大大减少了内存需求。

4.2方法细节

整体方法就是图2所示。这是一个无监督的动作分割方法。

首先整体结构分为表征学习和在线聚类两大部分。

表征学习:

给定一个帧序列X,首先把他经过编码器得到了特征Z,接下来可以通过公式1计算得到Pij,Pij表示第i帧属于第j个动作簇的概率。cj是第j个动作簇的原型。

伪标签Q是通过求解时间最优传输问题来计算的,这个我们后面会讲到。对于基于聚类的表征学习,最终的交叉熵损失就是公式2的最小化:

为了进一步利用视频中的时间信息,该文添加另一个时间一致性损失。它学习一个遵循时间一致性约束的嵌入空间,其中时间距离接近的帧应该映射到附近的点,时间距离遥远的帧应该映射到遥远的点。这里使用的是N-pair度量损失。对于每个视频,首先采样用zi表示的N个有序帧的子集。对于每个zi,在zi的λ时间窗口内采样一个正样本zi+。此外,对zj(j≠i)采样的zj+被认为是zi的负样本。时间一致性损失是公式3:

总的loss是:

在线聚类

刚刚把整体的损失函数介绍完,里面有个伪标签Q的计算是通过求解时间最优传输问题来计算的,在这个在线聚类的部分。那么在线聚类的目的是在线计算伪标签Q。把Q的计算视为最优运输问题。
实际上把这个伪标签的计算视为一个最优运输问题,在ICLR2020年的一篇论文里面就有描述。那篇文章的基本思想是拟定的标签伪分布Q,和模型执行无监督分类得到的预测结果P,目标是使之无限接近,那么在这样的情形下可以将其视为一个最优运输问题。
这篇文章就是受到了那篇文章的启发。那么基于图像的最优运输问题的解,也就是伪标签Q的计算就是公式7.

但是这是为图像数据开发的,因此不能利用视频数据中的时间线索进行无监督的动作分割。因此这篇文章中加入了一个时间正则化项,它将活动的时间顺序纳入到最优运输的目标中,产生时间上最优的运输。最终得出的伪标签Q的计算公司就是公式10.


那么基于此,可以用最终的loss来反向传播优化参数θ。

5.实验

所用三个数据集分别是 50 Salads、YouTube Instructions (YTI)、Breakfast,并且这篇论文自己的数据集Desktop Assembly。指标是MOF和F1分数,MOF是在所有活动中正确的帧级预测的平均百分比。
表1表2是在两个数据集上的消融实验,明显的看出添加了时间约束和时间一致性loss的效果更好。表3和表4表5是在三个数据集上的结果,表6是在自己的数据集上的结果。可以看到本文的结果是最好的。图5是一个分割的可视化结果。

6.补充

6.1最优运输

最优运输(Optimal Transport)近年来引起了广大学者的研究兴趣,并在NIPS和ICML等机器学习顶级会议频繁出现。在阅读本文时我参考了以下资料:
最优运输(Optimal Transfort):从理论到填补的应用
深度聚类算法叙谈

6.2相关论文

SELF-LABELLING VIA SIMULTANEOUS CLUSTERINGAND REPRESENTATION LEARNING

Unsupervised Action Segmentation by Joint Representation Learning and Online Clustering_CVPR 2022理解速相关推荐

  1. Deep Ranking for Person Re-identification via Joint Representation Learning

    简介 本文提出了一个统一的framework,同时最大化特征和Metric的优势.其实这并不是新的思想,然而作者的创新在于: (1)强调Joint representation,将两张Images拼成 ...

  2. Unsupervised domain adaptation for cross-modality liver segmentation via joint adversarial learning

    0.Motivation CT 数据较多 较可信 MRI 含有较多的信息 因此希望可以将学习到的知识从包含标记CT图像的源域转移到包含未标记Mr图像的目标域,希望实现无监督域自适应(这有什么因果关系吗 ...

  3. 对比学习系列论文MoCo v1(二):Momentum Contrast for Unsupervised Visual Representation Learning

    0.Abstract 0.1逐句翻译 We present Momentum Contrast (MoCo) for unsupervised visual representation learni ...

  4. [NLP论文阅读] Discourse-Based Objectives for Fast Unsupervised Sentence Representation Learning

    论文原文:Discourse-Based Objectives for Fast Unsupervised Sentence Representation Learning 引言 这篇文章的想法很有意 ...

  5. [MOCO v1] Momentum Constrast for Unsupervised Visual Representation Learning(CVPR 2020)

    文章目录 1. Motivation and Contribution 1.1 Motivation 1.2 Contribution 2. Method 2.1 Contrastive Learni ...

  6. 【论文模型讲解】VideoBERT: A Joint Model for Video and Language Representation Learning

    文章目录 前言 0 摘要 1 Introduction 2 相关工作 3 模型 3.1 BERT 3.2 VideoBERT 4 实验与分析 4.1 数据集 4.2 视频和语言预处理 4.3 模型预训 ...

  7. [2021-CVPR] Jigsaw Clustering for Unsupervised Visual Representation Learning 论文简析及关键代码简析

    [2021-CVPR] Jigsaw Clustering for Unsupervised Visual Representation Learning 论文简析及关键代码简析 论文:https:/ ...

  8. Unsupervised Degradation Representation Learning for Blind Super-Resolution(基于无监督退化表示学习的盲超分辨率处理)

    文章目录 Abstract(摘要) 1. Introduction 2. Related Work 2.1. Single Image Super-Resolution 2.2. Contrastiv ...

  9. 《论文阅读》Global-Local Bidirectional Reasoning for Unsupervised Representation Learning of 3D Point Clou

    留个笔记自用 Global-Local Bidirectional Reasoning for Unsupervised Representation Learning of 3D Point Clo ...

最新文章

  1. angular select设置默认选中_改进 Angular + Jest 项目中组件测试的调试
  2. linux虚拟网络设备--虚拟机网卡和linux bridge上tap设备的关系(七)
  3. PHP教程:WebService最常用的两种方法
  4. Spring 创建对象的问题,不同构造方法创建对象,使用工厂类类获取对象、单例或多例、延迟创建问题
  5. 在 VS Code 中轻松 review GitHub Pull Requests
  6. Fastjson批量检查及一键利用工具
  7. scoket多线程例子
  8. shell日志重定向到null
  9. Twitter数据抓取的方法(一)
  10. java keytool用法_java keytool 用法
  11. 视频拍摄和剪辑经验分享|南京
  12. 一款免费且强大的gif动画录制工具,再也不愁录动画!
  13. OpenJ_Bailian 2748
  14. 从星图地球数据云看塔克拉玛干沙漠
  15. “东方国信杯”大赛常用数据分析方法及图表-笔记
  16. 在金蝶云星空中获取单据体信息的两种方法
  17. Springboot mybatis 配置sql日志打印
  18. lepus监控oracle数据库_天兔监控 oracle
  19. 科汛用mysql数据库_KesionCMS科讯CMS系统SQL标签使用方法详细介绍
  20. bizhubc226说明书_让打印文件不再单调 柯尼卡美能达 bizhub C226为你服务

热门文章

  1. 光学领域的约翰逊法则
  2. 报错日志1:terminate called after throwing an instance of ‘ros::TimeNotInitializedException‘——ROS项目报错
  3. 在Visual C++中常用到得一些绘图或者控件的语句(mfc)
  4. SLAM学习资料汇总-超全
  5. CentOS7.4中Postfix邮件服务器的搭建(三)-----配置squirrelmail收发邮件,配置磁盘配额
  6. jflash添加芯片_使用J-flash/jlink操作CH32F10x/CH578/CH579等WCH芯片
  7. 使用VS Code编写maxscript脚本(代码自动补全)
  8. P1359 租用游艇 和 P2910 [USACO08OPEN]Clear And Present Danger S
  9. 计算机科学家霍金的预言,霍金的预言可能是真的!科学家刚探测到史上最强“外星人信号”...
  10. 跨境电商必读:从测评到爆款的最大限度降低砍单和封号风险的有效策略