Cai L, Xu X, Liew J H, et al. Revisiting Superpixels for Active Learning in Semantic Segmentation With Realistic Annotation Costs[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 10988-10997.

论文试图解决什么问题？

论证了基于超像素水平的主动学习语义分割的有效性，在基于现实的标注代价条件下。

这是否是一个新的问题？

是一个新的问题。最近的研究表明，与基于像素的方法相比，基于超像素的方法的优势微乎其微，这可能是因为在评估中使用了基于像素的注释成本。另一方面，虽然更现实的基于点击的注释成本已被用于基准化基于矩形的方法，但基于超像素的方法和基于矩形的方法之间的比较尚未进行。

论文中提到的解决方案之关键是什么？

基于超像素水平的主动学习和基于矩形的比较，关键就是标记代价的选择，传统的是基于像素数量的，这里应用了基于click的，即实际标记的点击量。并进一步设计了类平衡函数保持样本的多样性来提高性能。

摘要

在语义分割方面，基于区域的主动学习已被证明是降低数据注释成本的一种很有前途的方法。基于区域的AL的一个关键设计选择是使用规则形状的区域（矩形）还是不规则形状的区域（超像素）。本文在现实的、基于点击的注释成本度量下解决了这个问题。特别是，本文重新讨论了超像素的使用，并证明了不恰当的成本度量选择（例如，标记像素的百分比）可能导致基于超像素的方法的有效性被低估。本文将基于超像素的方法与传统的基于“矩形-多边形”的方法进行了对比，注释成本以点击量为单位，并表明前者在Cityscapes和PASCAL VOC方面都优于后者。本文进一步提出了一个类平衡捕获函数来提高基于超像素的方法的性能，并在评估数据集上证明了其有效性。

简单来说就是，在运用合理的代价计算下（现实的，基于点击量作为标注代价），验证了基于超像素水平的主动学习的有效性，比传统的多边形的标记的方法更好。

并且提出了一个类平衡的获取函数来大幅提升基于超像素的主动学习的方法并在数据集上验证了有效性。

这里是因为代价计算选择的不同导致了不同的主动学习的策略的性能差异。

介绍

主动学习方法的选择：之前的一些针对语义分割的主动学习的策略可以分为基于图像和基于区域的两大类方法。基于图像的方法考虑整个图像作为样本，而基于区域的方法将图像分割成非重叠的块，并考虑每个块作为样本。以前的工作[1]表明，由于数据可变性的增加，基于区域的选择优于基于图像的选择，因此本文聚焦于基于区域的方法。

代价计算的选择：为基于区域的AL设计选择时的一个基本考虑是注释样本的成本。许多作品都以标记像素的数量（或百分比）来衡量注释成本，作者认为这并不反映实际中使用的基于多边型的注释过程。另一种选择是，提出了基于click的注释成本[23,6]，以更好地捕捉真实的注释成本。更具体地说，基于多边形的注释过程通常涉及三种类型的click：

1） polygon clicks以注释包含感兴趣对象的多边形的顶点；

2） intersection clicks以注释对象边界和区域边界之间的交点；

3） class clicks以将单个类标签指定给区域内的每个段。

这种方法需要更多的click，并且不能很好的拟合目标的轮廓。

于是就有了超像素的方法，超像素算法通过将感知上相似的像素分组在一起，将图像划分为非重叠的不规则形状区域，这样超级像素可以很好地保留自然对象边界。因此，超像素中的大多数像素都来自同一语义类别。这允许使用轻量级注释方案，其中每个超级像素仅由一个表示大多数像素的类标签进行注释，从而减少了多边形和交点单击的需要。

然而，目前来说基于超像素的方法对于基于区域的AL的优势仍然不清楚。最近的研究表明，与基于像素的方法相比，基于超像素的方法的优势微乎其微[2]，这可能是因为在评估中使用了基于像素的注释成本。另一方面，虽然更现实的基于点击的注释成本已被用于基准化基于矩形的方法[23,6]，但基于超像素的方法和基于矩形的方法之间的比较尚未进行。本文在这项工作中解决了这个问题，通过重新使用超像素来实现基于区域的AL，通过更现实的、基于点击的标注成本测量来分析区域形状和大小对基于区域的AL的影响。

本文的贡献可以总结如下:

重新考虑了基于超像素的AL语义分割方法，并考虑了基于真实点击的标注成本，证明了其相对于传统的“矩形+多边形”方法的有效性。

分别研究了区域大小对基于超像素的方案和基于传统矩形的方案的影响，并表明前者在更大范围的区域大小下表现得更好。

提出了一个类平衡获取函数，通过偏好从未充分表示的对象类别中选择信息样本，进一步提高基于超像素的方法的性能。

算法

总览

给定一组未标记的图像，我们的方法首先将每个图像划分为超像素。接下来，我们执行类平衡抽样以选择一批信息样本，然后由oracle对这些样本进行注释。这里，我们使用ground truth语义分割标签来模拟这样的标注过程。取代传统的基于多边形的标签，我们使用显性标签方案，其中每个超像素只分配一个类标签。然后使用到目前为止标记的所有数据对模型进行重新训练，并重复该过程，直到耗尽注释预算。

超像素生成

超像素是将相似像素分组并很好地保留对象边界的图像。在这项工作中，我们采用了现成的SEEDS算法，因为它在确保每个超像素内的类一致性方面具有良好的性能，同时保持对象边界和随时可用的接口。简而言之，SEEDS是一种基于聚类的超像素生成算法，该算法从图像的均匀分割开始，通过以粗略到精细的方式交换相邻块来迭代细化结果。请注意，我们建议的管道是通用管道，可以使用任何其他超像素算法。

类平衡采样

给定预先计算的超像素，我们接下来描述我们选择样本进行查询的策略。AL通常是一个迭代过程，其中在每次迭代中对一批样本进行注释，以训练新模型。在第t次迭代中，我们将模型表示为Mt、未标记集为Ut、每个样本为s、一个采集函数a（s，Mt）是AL系统用于查询下一个样本的函数：

在这项工作中，我们采用Best-versus-Second Best (BvSB) margin不确定度度量，它受不重要类别的小概率值影响较小。从数学上讲，BvSB被定义为两个最可靠类别的后验概率之间的比率：

其中，Csb和Cb分别是模型MT预测的第二大和最大后验概率的类别标签。

然后，区域不确定度定义为该区域内像素的平均不确定度：

然而，我们注意到，在实践中，存在许多具有不平衡类分布的数据集，其中基于上述不确定性的简单采集函数无法查询稀有对象类别的样本。因此，由于训练样本不足，这些代表性不足的类的性能显著降低。为了克服这一问题，我们提出了一种简单而有效的策略，在选择过程中支持来自代表性不足的类的样本。具体而言，我们首先通过向每个区域分配一个主标签（该区域内大多数像素的类标签）来获得类分布的估计：

C是指类别标签。这给出了类分布的后验概率，如下所示：

然后，我们根据后验类为s的不确定性度量分配权重，并提出以下类平衡采集函数：

给定K次点击的注释预算，选择一批样本的算法总结在算法1中。

标记成本估计

当注释预算耗尽时，AL的迭代过程终止。在实际设置中，注释预算可以按小时或费用计量。以前的一些工作建议使用标记像素的数量作为实际注释成本的替代。在这项工作中，我们考虑注释器用来标记图像的三种类型的点击，其计算详述如下（参考图1为每个点击类型的说明性示例）。

Polygon clicks (cp): 这些是用于描绘对象边界的单击。给定一个区域，用于注释该区域的cp等于该区域所需的多边形顶点数。

Class clicks (cc): 这些是为每个带注释的多边形分类的单击。为了估计区域的cc，我们根据其地面真值标签图提取连通分量，CC等于连通分量的数目。

Intersection clicks (ci): 这些是基于“矩形多边形”的方法中产生的单击，由区域边界和自然对象边界的交点引起。如果区域边界像素的地面真值标签与下面的像素（垂直边界）或右边的像素（水平边界）不同，则该像素被视为交点。区域的ci等于其边界上交点的总数。

我们认为两个注释方案用于注释分割数据集，并涉及点击如下讨论。

Precise labeling (Pr): 这是传统的基于多边形的注释方案。这种类型的标签涉及所有三种类型的点击，即cp+cc+ci。

Dominant labeling (Do): 这是我们用于基于超像素的方法的标记方案，这样的注释方案成本低，并且只产生cc。此外，我们不应用任何后处理步骤来细化指定的主要标签。

实验

实验设置

测试数据集：Cityscapes和PASCAL VOC 2012。对于这两个数据集，我们在训练集上执行AL，并在验证集上评估结果模型。

分割模型：在所有的实验中，我们都使用带有Exception-65主干的DeepLabv3+作为分割模型。

全监督baseline：AL方法通常以注释量为基准，以达到完全监督基线的95%准确度。

批训练细节：对于每批AL，我们选择并注释样本，相当于城市景观的10万次点击和PASCAL VOC 2012的10万次点击的注释预算。

区域生成：

这里考虑两种类型的区域：矩形和超像素。

对于矩形，图像被均匀地划分为大小为m×m的非重叠矩形。我们在第4节中确定m=32。3并在第5节中研究不同区域大小的影响。

对于超像素，我们使用OpenCV中实现的SEEDS算法将图像分割为非重叠的超像素。在使用SEEDS之前，对图像应用直方图均衡化以提高其对比度，然后将其转换为HSV颜色空间。超像素数的指定方式应确保其与使用矩形方案分割图像时的矩形数相同。

这里矩形数和超像素块数保持一致。

基准测试方法

Random：随机选取一个区域。

Uncertainty：该方案使用等式（3）中定义的基于不确定性的采集函数选择一个区域。这个是没有考虑类平衡的不确定性方法。

ClassBal：该方案使用等式（6）中定义的类平衡采集函数。不确定性通过类后验值的倒数加权，用于区域选择。这里理解的就是样本较多的类会被相应的减少不确定性，而样本较少的类会增加不确定性。

实验结果

在本节中，我们对选择策略、区域类型和注释类型的各种组合进行了广泛的实验，以研究每个组件的效果。下文介绍和讨论了结果。

Cityscapes：结果如图2所示。图2a显示了我们的主要结果，注释成本以点击量为单位，图2b显示了相同的结果，点击量转换为标记像素的百分比。

我们首先在图2a中观察到Sp+Do确实优于Rec+Pr，但在图2b中失去了优势。这表明，基于超像素的方法的有效性在点击量测量中显著体现，而传统的标记像素百分比测量可能低估了其性能。另外也注意到Rec+Pr优于Rec+Do，这表明显性标签模式对矩形区域无效，因为此类规则形状区域不考虑对象边界，并且不能由显性类有效表示。最后，我们观察到ClassBal优于Uncertainty和Random。这表明ClassBal可以为模型训练选择更好的样本。

PASCAL VOC 2012：

由于这个数据集没有给点击标注数据，于是作者先预处理得到多边形点击量cp。结果和Cityscapes的类似，在a中Sp+Do优于Rec+Pr的性能，但b中并非如此。这重申了在实际注释成本中进行基准测试的重要性，以正确评估基于超像素的方法的有效性。我们还注意到，在图3a中，Uncertainty+Rec+Pr无法击败Random+Rec+Pr，在图3b中，两条曲线几乎重叠。我们发现，当使用相同的点击量时，通过不确定性选择的区域数量比随机选择的区域数量少40%。这表明，由不确定性选择的区域注释的成本更高，并且在考虑实际注释成本时，基于不确定性的采样不一定优于随机采样。最后，我们观察到ClassBal的性能与不确定性非常接近。这可能是因为PASCAL VOC 2012的类分布比Cityscapes更为均衡，因此，ClassBal为所有类分配的权重相似。

Comparison of Annotation Cost for 95% Accuracy：为了进一步证明基于超像素的方法的有效性，我们比较了在Cityscapes上获得95%准确率所需的注释成本。我们将绝对点击数除以总点击数，将其转换为百分比，总点击数被计算为用于以原始方式注释Cityscapes的点击数，可以看出，即使是Uncertainty+Sp+Do也比其他方法有小幅度的优势，证明了所提出的Sp-Do方案的有效性。类平衡采样将注释成本进一步降低2%。

讨论

区域尺寸的影响：区域大小是基于区域的AL的一个重要超参数。显然，较小的区域大小会导致更多的类单击（cc）和交叉点单击（ci）。可以看出，随着区域变小，单击的总数显著增加，这表明在较小的区域中注释整个数据集并不划算。

然而，AL的目标是在有限的注释预算下最大限度地提高模型精度。较小的区域大小允许分配注释预算，以标记更多不同的内容。虽然选定像素的数量减少了，但像素多样性的增加仍然可以提高模型精度。

图4展示了在固定预算为20万次点击的情况下，区域规模对城市景观的影响。可以看出提出的Sp+Do和传统Rec+Pr受益于较小的区域规模。

我们还注意到，对于从16×16到128×128的大范围区域大小，Sp Do优于Rec Pr。当区域大小超过128×128时，Sp Do的性能会恶化，因为超像素不能再由其主导标签有效表示。将区域大小推到极限，像素级选择也不是最佳选择，因为如果利用相邻像素的空间相干性，相同数量的单击可用于注释更多像素。

类平衡采样的影响：为了证明所提出的类平衡抽样的效果，我们比较了classs-wise IoU。类平衡采样提高了不太常见和特别罕见类的准确性。

结论

在这项工作中，考虑到更真实的基于点击的注释成本，我们重新讨论了基于超像素的语义分割AL方法。我们证明了基于超像素的方法的有效性不能通过标记像素的百分比来正确评估，并且在实际成本测量下，它在Cityscapes和PASCAL VOC方面都优于传统的基于“矩形多边形”的方法。我们还提出了一种类平衡采样方案，以进一步提高基于超像素的方法的性能，从而使注释成本比最近的Metabox方法进一步降低25%。我们的研究结果强烈支持使用基于超像素的语义切分，并强调了在未来评估此类方法时使用真实注释成本的重要性。

Radek Mackowiak, Philip Lenz, Omair Ghori, Ferran Diego,Oliver Lange, and Carsten Rother. CEREALS - cost-effective region-based active learning for semantic segmen-tation. InBMVC, 2018.
Tejaswi Kasarla, Gattigorla Nagendar, Guruprasad M Hegde,Vineeth Balasubramanian, and CV Jawahar. Region-based active learning for efficient labeling in semantic segmentation. In2019 IEEE Winter Conference on Applications of Computer Vision (WACV), pages 1109–1117. IEEE, 2019.

阅读Revisiting Superpixels for Active Learning in Semantic Segmentation With Realistic Annotation Cost相关推荐

[论文阅读] Cost-Effective REgion-based Active Learning for Semantic Segmentation
论文地址:https://arxiv.org/abs/1810.09726 发表于:BMVC'18 Abstract 最先进的语义分割方法在有监督的情况下使用大量的标注训练图像语料库进行训练.然而,与 ...
【论文】3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation
论文题目:3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation 3D u-net,从稀疏注释中学习密集体分割 ...
[论文阅读笔记05]Deep Active Learning for Named Entity Recognition
一,题目 Deep Active Learning for Named Entity Recognition[NER任务的深度主动学习] 来源:ICLR 2018 原文:DEEP ACTIVE LEA ...
《Deep Active Learning for Axon-Myelin Segmentation on Histology Data》--阅读笔记-Arxiv
Active learning的核心是选择most informative的sample,这个策略是有创新型的 (https://github.com/neuropoly/deep-active-le ...
全卷积（FCN）论文阅读笔记：Fully Convolutional Networks for Semantic Segmentation
论文阅读笔记:Fully Convolutional Networks forSemantic Segmentation 这是CVPR 2015拿到best paper候选的论文. 论文下载地址:Fu ...
论文阅读：BEVSegFormer: Bird’s Eye View Semantic Segmentation FromArbitrary Camera Rigs
题目:BEVSegFormer: Bird's Eye View Semantic Segmentation FromArbitrary Camera Rigs 中文:BEVSegFormer基于任意 ...
【阅读】Variational Adversarial Active Learning
摘要: 通常情况下,由于标记成本高,限制了深度学习技术的应用领域,标记大量数据具有挑战性.主动学习(AL)通过在未标记池中查询需要注释的信息量最大的样本来解决这个问题.近年来研究的人工智能有两个很有前 ...
Dual Super-Resolution Learning for Semantic Segmentation解读
双边超分辨率学习语义分割收录在cvpr2020 摘要:现在的最好的语义分割办法用高分辨率的输入去提高模型性能,这种方法使得计算量增加很多.我们提出了灵活而简单的双支路网络框架(叫DSRL)可以很好的 ...
3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation
Abstract 本文介绍了一种从稀疏标注的体积图像中学习的体积分割网络.我们概述了该方法的两个有吸引力的用例:(1)在半自动设置中,用户注释要分割的体积中的一些切片.网络从这些稀疏注释中学习并提供密 ...
【论文汇总】人工智能顶会深度主动学习(Deep Active Learning)相关论文
汇总2017年至今,ICCV\CVPR\NIPS\ECCV会议上发表的深度主动学习(Deep Active Learning)相关文章,根据原文中report的实验数据集划分为图像分类 . 语义分割 ...

阅读Revisiting Superpixels for Active Learning in Semantic Segmentation With Realistic Annotation Cost