ECCV2022 | FPN错位对齐,实现高效半监督目标检测 (PseCo)
点击上方“计算机视觉工坊”,选择“星标”
干货第一时间送达
作者丨Gang Li@知乎(已授权)
来源丨https://zhuanlan.zhihu.com/p/544346080
编辑丨极市平台
本文首先讨论了把pseudo labeling和consistency training直接迁移到目标检测中的不适配现象,然后再解释如何通过FPN的错位训练实现高效半监督目标检测,并取得SOTA的表现。
论文链接:https://arxiv.org/abs/2203.16317
代码链接:https://github.com/ligang-cs/PseCo
Preliminary
半监督目标检测是研究,在有一部分标注数据的前提下,如何利用大量的无标注数据来提升检测器性能。广泛采用的pipeline是Mean-Teacher,即,通过EMA来实时生成teacher model,然后,让teacher model生成伪标签,用于监督student model的训练。但是,Mean-Teacher的范式,很容易出现over-confidence的问题,student model很容易过拟合teacher model的预测。为了缓解over-confidende,FixMatch提出了对teacher和student分别使用不同强度的数据增广,具体地,对teacher的输入采用弱数据增广(flip, scale jitter等),保证伪标签的质量;而对student的输入,采用强数据增广(rotate, color jitter,一些几何形变等),增加student的训练难度,防止过拟合。
1. Motivation
Pseudo labeling和consistency training是半监督学习里面的两个关键技术,但是直接迁移到目标检测上,会出现一些不适配的现象。我们详细分析了一下,具体的不适配有哪些:
1.1 Pseudo Labeling
pseudo labeling通过设置一个较高的score threshold,把Teacher model预测的置信度较高的检测结果保留下来,作为伪标签(pseudo boxes)。但是在目标检测中,分类score和box的定位质量往往没有强相关,score较高的pseudo box可能定位并不准。所以,Pseudo box中难免存在一些定位不准的box框。那么,定位不准的pseudo box会给半监督训练带来哪些影响呢?1. 会影响IoU-based label assignment;如下图1,质量很差的proposal会被错误地assign成正样本,模糊正负样本的分类边界。2. 不准确的Pseudo Box不适合用来训练bbox回归的任务。
为了缓解这两个影响,我们分别设计了Prediction-guided Label Assignment (预测引导的标签分配, PLA)和Positive-proposal Consistency Voting (正样本一致性投票,PCV),来实现比较鲁棒的带噪伪标签学习。其中,PLA根据Teacher prediction来分配正负样本,减少了对IoU的依赖;PCV根据proposal的预测一致性,来反映pseudo box的定位质量,抑制定位不准的pseudo box。
1.2 Consistency Training
consistency training通过在student训练过程中,加入一些扰动,让模型的预测结果对扰动保持 鲁棒,从而学到一些重要的不变性。尺度不变性(scale invariance)作为目标检测最重要的几个属 性之一,一直收到广泛的关注。但是以前的工作,仅仅采用random resize来学习尺度不变性,对 输入图像做比例为 的缩放,同时也会对ground truth做相应比例 的缩放,我们把这种一致性 叫作label-level consistency.
除了这种label-level的尺度不变性外,其实目标检测网络还有 feature层面的尺度不变性。通俗的说就是,对于同一张image,我们把它放缩到两种不同的scale (比如 scale , scale ),如果能让它们的feature拥有一样的shape,即 Feat scale 的tensor维 督。得益于FPN的金字塔结构,feature层面的对齐很容易实现。我们提出了一种Multi-view Scale-invariant Learning (多视角尺度不变性学习,MSL),同时从label- and feature-level consistency的角度,学习尺度不变性,实现了高效的半监督学习。
2. Method
PseCo的framework如图2所示。在unlabeled data上,我们对输入图像分别做不同的scale jitter,构建出view 0和view 1,其中,view 0是teacher model的输入,而view 1是student model的输入,通过view 0 - view 1 pair的学习,label-level consistency被实现,这也就是之前大家常用的random resize. 接着,我们对view 1做2倍下采样,得到view 2。由于FPN的特征金字塔,view 1的P3-P7 features和view 2的P2-P6 features,可以实现完美的对齐。我们用相同的Pseudo Boxes来监督view 1的P3-P7层和view 2的P2-P6层。这个可以理解成FPN的错位训练。至此,我们在一个网络中,通过label-level and feature-level consistency,实现了更加全面的尺度不变性学习。关于两种consistency的比较,可参考图3.
对于Pseudo labeling的改进,我们提出了PLA和PCV,分别从分类任务和回归任务的角度,来实现鲁棒带噪标签学习。PLA (prediction-guided label assignment)提出了一种label assignment的方式,比传统的IoU-based策略,更适合应对带噪的标签。PLA对每个GT,先构造了一个更大的candidate bag,包含了所有的、有潜力成为正样本的proposals (or candidates),然后根据teacher model在这些candidates上的预测结果,来评判每个candidate的质量,最后选取质量最高的top-N个candidates作为正样本。PLA减少了label assignment对IoU的依赖,避免了不准确的pseudo box对label assignment的消极影响。
此外,PCV(positve-proposal consistency voting) 直接对Pseudo Box的定位精度做出了判断,定位准确的Pseudo Box会被分配比较大的regression loss weight,反之,就分配小的reg loss weight. 细节上,因为在目标检测中,1个GT往往会匹配多个positive proposals,我们发现这些positive proposals的回归一致性能够反映出对应的pseudo box的定位精度,更多细节请参考论文。
3. Experiments
我们在partial labeled和full labeled settings下,都取得了SOTA的性能。此外,我们的训练效率也非常高,如图4所示,在5%和10%标签比例下,我们都仅用了不到一半的训练时长,就达到了Soft Teacher的精度。虽然我们增加了一个view 2,但是因为view 2的图片分辨率非常小,增加的训练开销很小,每个iteration增加的的训练时长不到20%.
4. 碎碎念
(1) unlabeled data上的strong augmentation,一方面可以使得模型学习到一些重要的不变性,另一方面,可以增加训练难度,有效缓解over-confidence。如果不加强aug的话,训练后期会出现一个现象:拟合pseudo label会拟合得越来越好,但是mAP就是不涨。本文提出的MSL,或者叫FPN错位训练,其实也是提供了一种强aug,让student model同时处理两种训练模式,不容易过拟合:一种是高分辨率输入,P3-P7训练;另一种是低分辨率输入,P2-P6训练。其实,MAE的masked image也可以看做强aug,似乎可以融入到半监督中。
(2) 在实际使用中,unlabeled data更可能是out-of-distribution的,和labeled data不在同一个domain。如何从ood的unlabeled data中高效学习出有用的信息,是比较难的。比如,如果做人脸检测,labele data用WiderFace,unlabeled data用MS COCO,可能这个设定下的半监督学习就是无效的。甚至,会因为网络更多地拟合unlabeled data的domain,导致掉点。
(3) 现在Teacher model仅仅提供pseudo box给student model训练,这种pseudo box是比较稀疏的监督信息。在此基础上,我们提出了Dense Teacher Guidance (https://arxiv.org/abs/2207.05536),研究如何从Teacher prediction中挖掘出更多的监督信息。
本文仅做学术分享,如有侵权,请联系删文。
干货下载与学习
后台回复:巴塞罗那自治大学课件,即可下载国外大学沉淀数年3D Vison精品课件
后台回复:计算机视觉书籍,即可下载3D视觉领域经典书籍pdf
后台回复:3D视觉课程,即可学习3D视觉领域精品课程
计算机视觉工坊精品课程官网:3dcver.com
1.面向自动驾驶领域的多传感器数据融合技术
2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)
9.从零搭建一套结构光3D重建系统[理论+源码+实践]
10.单目深度估计方法:算法梳理与代码实现
11.自动驾驶中的深度学习模型部署实战
12.相机模型与标定(单目+双目+鱼眼)
13.重磅!四旋翼飞行器:算法与实战
14.ROS2从入门到精通:理论与实战
15.国内首个3D缺陷检测教程:理论、源码与实战
16.基于Open3D的点云处理入门与实战教程
重磅!计算机视觉工坊-学习交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~
ECCV2022 | FPN错位对齐,实现高效半监督目标检测 (PseCo)相关推荐
- 端到端半监督目标检测框架
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者丨SuperHui@知乎 来源丨https://zhuanlan ...
- 半监督目标检测相关方法总结
作者丨kinredon@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p/404160115 编辑丨极市平台 导读 本文结合相关论文介绍了一些半监督目标检测算法,即如何利 ...
- 端到端半监督目标检测框架Instant-Teaching:
点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:知乎,极市平台 AI博士笔记系列推荐 周志华<机器学习>手推笔记正式开源!可打印版本附pdf下载链 ...
- 半监督目标检测(三)
目录 ISMT 动机 1. Overview 2. Pseudo Labels Fusion 3. Interactive Self-Training 4. Mean Teacher Unbiased ...
- 半监督目标检测(一)
目录 半监督学习(Semi-Supervised Learning) 1. Low-density Assumption:非黑即白 最具代表性的方法:Self-training 2. Smoothne ...
- 收藏 | 半监督目标检测相关方法总结
近期阅读了一些半监督目标检测(Semi-Supervised Object Detection,SSOD)的文章,特此总结,以供未来查阅. 什么是半监督目标检测? 传统机器学习根据训练数据集中的标注情 ...
- 弱监督目标检测与半监督目标检测
一.监督学习分类 根据数据集的标注情况,分为:监督学习.弱监督学习.弱半监督学习和半监督学习. 监督学习:数据集为带实例级标注的标签,包含坐标和类别信息 弱监督学习:数据集仅带有数据类别的标签,不包含 ...
- RS2022/云检测:考虑域偏移问题的卫星图像半监督云检测Semi-Supervised Cloud Detection in Satellite Images by Considering the
Semi-Supervised Cloud Detection in Satellite Images by Considering the Domain Shift Problem考虑区域偏移问题的 ...
- 半监督异常检测(Anomaly Detection)的研究线
半监督异常检测(Anomaly Detection)的研究线 在假设数据集中大多数实例都是正常的前提下,半监督异常检测方法根据一个给定的正常训练数据集创建一个表示正常行为的模型,然后检测由学习模型生成 ...
最新文章
- leangoo V5.4.2版上线
- requests.exceptions.ConnectionError: (‘Connection aborted.‘, BadStatusLine(“‘‘“,))
- 【N版】openstack——认证服务keystone(三)
- JAVAEE联邦软件管理系统试题
- System.Delete - 从字符串中删除
- java mybatis 返回map_mybatis返回map集合的格式是什么?mybatis返回map集合实例
- ogg sqlserver mysql_ogg 报错,求大神解决方法
- 动态规划-矩阵连乘问题
- 远程桌面,此计算机无法连接到远程计算机
- matlab简单分析数字滤波器FIR
- python函数设置默认参数_深入讲解Python函数中参数的使用及默认参数的陷阱
- tensorflow CNN常用函数汇总
- Illustrator CS6高清原创视频教程全集
- TC27x启动过程(2)-TC277
- 你是万能的数据分析师?干什么呢?
- Unity中的矩阵含义
- iPhone苹果手机语音备忘录M4A文件损坏显示时长无法播放修复方法
- 基于KG嵌入和卷积-LSTM网络的药物-药物相互作用预测——方法细述
- cdma200 matlab 仿真,CDMA通信系统的MATLAB仿真
- 在angular 项目中使用 `npm run build` 出现 `* exceeded maximum budget` 警告或错误