《YOLACT:Real-time Instance Segmentation》论文阅读

论文链接：https://arxiv.org/abs/1904.02689

一、简介

文章提出了一个简单的全卷积实时实例分割模型，在一台泰坦Xp上以33.5fps的速度在MSCOCO上达到29.8map。使用了两个平行步骤：（1）生成一组原型掩码和（2）预测每个实例的掩码系数。然后将原型与掩码系数线性组合生成实例掩码。文章发现，由于这一过程不依赖于重池化，因此产生了非常高质量且更具稳定性的掩码，此外，还提出了快速NMS。

二、引言

在过去的几年中，实例分割的进步，部分是借鉴了成熟的目标检测方法。最新的实例分割方法直接建立在快速目标检测技术的基础上，但这些方法主要关注性能，缺少实时性。文章的目标是用一个快速的、单阶段的实例分割模型来填补实时性空白。

然而，实例分割比目标检测困难得多。最新的两阶段实例分割方法很大程度依赖于特征定位来产生掩模，这些方法在一些边界框区域中“重新汇集”特征，然后将这些现在已本地化的特征馈送给它们的掩码预测器。这种方法本质上是顺序的，因此很难加速。其他并行执行以上步骤的单阶段的方法存在，但是它们在局部校准后需要大量的后处理，因此离实时性还很远。

为了解决这些问题，文章提出了一个实时实例分割框架YOLACT（You Only Look At CoefficienTs），它放弃了本地化步骤。相反，YOLACT将实例分割分成两个并行任务：（1）在整图上生成一个非本地原型掩码字典（2）预测每个实例的一组线性组合系数。然后对于每个实例，使用相应的预测系数线性组合原型，然后使用一个预定的边界框裁剪。文章表明，通过这种方式分割，网络学会了如何自己定位实例。

此外，由于原型掩码的数量与类别的数量无关（例如，可以有比原型更多的类别），YOLACT学习了一个分布式表示，在这个表示中，每个实例都用跨类别共享的原型组合来分割。这种分布式表示导致了原型空间中有趣的涌现行为：一些原型在空间上分割了图像，一些定位实例，一些在姿态轮廓中检测，一些对位置敏感的方向图进行编码，大多数能够对这些任务进行组合。

这种方法的优势。首先，速度很快：由于它的并行结构和极其轻量级的组装过程，yolact只为一级主干检测器增加了少量的计算开销，因此即使使用较为复杂基干网络也很容易达到每秒30帧；事实上，mask分支只需5毫秒就可以进行评估。第二，掩码是高质量的：由于充分利用了图像空间，而不会因repooling而失去任何质量，因此大型物体掩码的质量明显高于其他方法。最后，原型生成和掩模系数的概念几乎可以添加到任何现代目标检测器中。

文章主要贡献是首次在具有挑战性的MS COCO数据集[1]上具有竞争性结果的实时（>30fps）实例分割算法。此外，还分析了YOLACT的原型的涌现行为，并提供了实验来研究速度vs通过不同的后端架构、原型数量和图像分辨率获得的性能权衡。文章还提供了一种新的快速NMS方法，它比传统NMS快12毫秒，性能损失可以忽略。

三、相关工作

实例分割
（1）两阶段
两阶段的实例分割先区域提议，再对提议区域进行分类和分割。这些两阶段的方法需要为每个ROI重新汇集特性，并在随后的计算中处理它们，这使得它们即使在减小图像大小时也无法获得实时速度(30 fps)
（2）单阶段
单阶段实例分割方法生成位置敏感的映射，通过位置敏感池化[1]或结合语义分割逻辑和方向预测逻辑[2]组装成最终的掩码。这些方法仍然需要耗时的一些后处理，无法实时。

相比之下，文章的组装步骤要轻量级得多(只是一个线性组合)，并且可以作为一个gpu加速的矩阵-矩阵乘法来实现，非常快。
实时实例分割
虽然存在实时目标检测[3,4,5,6]和语义分割[7,8,9,10,11]等方法，但很少有研究涉及实时实例分割。Straight to Shapes[12]和Box2Pix[13]可以实时执行实例分割，但它们的精度远低于现代基线。事实上，Mask R-CNN[14]仍然是语义上具有挑战性的数据集中速度最快的实例分割方法之一。
原型
学习原型(又称词汇表或代码本)在计算机视觉领域已经得到了广泛的探索。经典表示包括文本[15]和可视化单词[16]，并通过稀疏性和位置优先进行改进[17,18,19]。其他人已经设计出用于目标探测的原型[20,21,22]。尽管相关，但以上这些工作使用原型来表示特征，而文章使用它们来组装掩码来进行实例分割。此外，文章所指原型是具体到每个图像，而不是整个数据集共享的全局原型。

四、YOLACT

图2为该网络的结构示意。

文章思想，在现存单阶段目标检测模型基础上增加一个mask分支，但是不依赖于明确的特征位置化处理步骤（如特征repooling（这里指的常见的ROI pooling、ROI Align等）），文章提出了两个简单平行分支，第一个分支使用一个FCN生成一组图像大小的“原型掩码”，这些掩码不依赖任何实例。第二个方法是在对象检测分支中增加一个额外的头，以预测每个框的“掩码系数”向量，这些框在原型空间中编码实例的表示。最后，对于幸存于NMS的每个实例，我们通过线性组合这两个分支的输出来为该实例构造一个掩码。

逻辑依据
依据的是掩码的空间相干性。如相近的像素可能属于同一实例，虽然卷积(conv)层自然会利用这种相干性的优点，但全连接(fc)层则不会。这就产生了一个问题，因为单阶段对象检测器将每个框的类和系数作为一个fc层的输出。两个阶段的方法，如Mask R-CNN，通过使用一个局部化步骤(例如，RoI-Align)来绕过这个问题，该步骤在保持特征的空间一致性的同时，还允许掩模作为一个输出层。但是，这样做需要很大一部分模型等待第一阶段的RPN提出候选区域，从而导致速度显著降低。

因此文章使用两个平行化部分，分别使用擅长生成语义向量的fc层和擅长生成空间相干掩模的conv层来生成“掩模系数”和“原型掩模”。因为原型和mask相关系数可以各自独立地计算，基干检测器的计算开销主要来自整合，它可以被实现为单个矩阵乘法。这样既可以在特征空间中保持空间的一致性，又可以保持单阶段性和快速性。

3.1原型的生成

原型生成分支(protonet)预测整个图像的一组k个原型掩码。将protonet实现为一个FCN，它的最后一层是k个channel (每个原型一个)，并将它附加到基干上 (参见图3)。虽然这个形式类似于标准的语义分割，但它的不同之处在于，文章没有在原型上显示出明显的损失。相反，对这些原型的所有监督都来自最后的mask组装结果。

文章注意到两个重要的设计选择:从更深层次的基干特征（P3）中提取原型可以生产出更多鲁棒的掩膜，更高分辨率的原型可以产生更高质量的掩膜，并在更小的物体上获得更好的性能。然后，文章将其提升到输入图尺寸的四分之一，以提高小对象的性能。

最后，文章发现原型的输出无界是很重要的，因为这允许网络对它非常信任的原型(例如，明显的背景)产生巨大的、强大的激活。因此，文章可以选择使用Relu或者不用非线性来跟踪原型。为了更多可解释的原型，文章选择Relu。

3.2掩膜相关系数

典型的基于anchor的目标检测器在其预测头中有两个分支:一个分支用于预测c个类，各个类别的可信度，另一个分支用于预测边界框的回归向量。对于掩模系数预测，文章简单地添加第三个分支来预测掩模系数，对应每个原型。因此，文章不是每锚产生4+c个系数，而是产生4+c+k个系数。

然后对于非线性，文章发现从最终的遮罩中减去原型是很重要的。因此，文章对掩模系数进行了推广，使其在非非线性条件下产生更多的稳定输出。这种设计选择的相关性在图2中很明显，因为如果不考虑减法，任何掩码都是不可构造的。

3.3掩膜组装

为了生成实例掩码，文章结合了原型分支和掩码系数分支的输出，使用原型分支和掩码系数的线性组合作为系数。然后，通过sigmoid非线性操作，得到最后的掩模。这些操作可以通过使用单一矩阵乘法和sigmoid有效地实现。
M =σ(PCT)
P是一个hxw×k的原型掩膜矩阵，C是一个n×k的掩膜系数矩阵，n是指经过了NMS和分数阈值的n个实例。用一个基本的线性组合来保持它的简单(和快速)。

损失
文章使用三个损耗来训练模型:分类损耗Lcls、框回归损耗Lbox和掩码损耗Lmask，它们的权值分别为1、1.5和6.125。前两者的定义方式与[23]中的相同。对于掩模损耗，文章简单地取组合掩模和groundtruth掩模之间的像素级二值交叉熵:Lmask=BCE(M,Mgt)。
修剪掩膜
在评估期间，文章用预先确定的边界框裁剪最后的掩码。在训练中，用真实边界框裁剪，以通过真实边界框区域分隔来保存原型中的小目标。

3.4涌现行为

与FCIS和MASK R-CNN中的一些操作性质相同，文章使用的掩膜修剪也是具有平易变性的。而文章中除了掩膜修剪，其他操作都是平移不变性的。事实上，文章提到，对于大、中物体，不使用掩膜修剪也能实现实例分割。不加入具有平易变性的操作就能实现实例分割，这看起来似乎很奇怪，但下文解释文章如何通过原型中的不同激活来定位不同位置的各个实例。
要了解这是如何实现的，给出了下图5。

首先要注意图5中的实心红色图像(图a)的原型激活实际上在FCN中是不可能的（没有padding的情况下）。另一方面，像ResNet这样的现代网络中padding的边缘使网络能够判断一个像素离真正图像的边缘有多远。这意味着对于实例物体，ResNet本质上是具有平移变性的，文章的方法大量使用了这种属性(图像b和c显示出明显的平移差异)。

文章观察了许多原型来激活图像的某些“部分”。也就是说，它们只在隐式学习边界的一侧激活。在图5中，原型1-3就是这样的例子。通过组合这些分区映射，网络可以区分同一语义类的不同实例(甚至重叠);在图d中，绿色的雨伞可以从红色的雨伞中分离出来，方法是用原型2减去原型3。

此外，作为学习对象，原型是可浓缩的，也就是说，如果Protonet将多个原型的功能组合为一个，则掩码系数分支可以了解哪种情况需要哪种功能。例如，在上图5中，原型2是一个分区原型，但也会在左下角的实例上强烈触发。原型3与之类似，但用于下方的实例。这解释了为什么在实践中，即使使用较少的原型数量k= 32 (见Table 2b)，该模型也不会降低性。另一方面，因为预测系数是困难的，所以增加原型个数k最可能无效。由于线性组合的性质，如果网络产生了某个掩膜系数的较大误差，所产生的掩模可能消失或包含来自其他对象的泄漏。因此，网络必须找到平衡来产生正确的系数，而添加更多的原型会使这变得更加困难。文章发现对于更高的k值，网络的性能增益很小。

四、基干检测器

文章的基干检测器，优先考虑速度和特征丰富性，因为预测这些原型和系数是一项困难的任务，需要很好的特征。因此，主干探测器的设计紧跟RetinaNet[25]的步伐，强调速度。

YOLACT检测器
文章将ResNet-101 [26]与FPN [27]用作默认特征基干，并且基本图像尺寸为550×550。文章不保留纵横比以获取每个图像一致的评估时间。像RetinaNet一样，不生成P2，生成P6和P7，并在每个上放置3个宽高比为[1,1 / 2,2]的锚。P3的锚点具有24像素平方的面积，并且每个后续层的大小都是前一个的两倍（结果为[24,48,96,192,384]）。对于附加到每个Pi的预测头，所有三个分支共享一个3×3conv，然后每个分支并行获得自己的3×3conv。与RetinaNet相比，文章的预测头设计（见图4）更轻巧，更快。

文章将smooth-L1 loss应用于训练框回归器，并以与SSD [28]相同的方式对训练框回归坐标进行编码。为了训练类别预测，文章使用带有c个正标签和1个背景标签的softmax 交叉熵，使用OHEM [29]以3：1的neg：pos的比率选择训练示例。因此，与RetinaNet不同，文章不使用焦距损失，因为焦距损失在文章的情况下不可行。通过这些设计选择，文章发现处理相同尺寸图像，该主干网的性能比修改为使用ResNet-101的SSD更好，更快。

五、其他提升

文章还讨论了其他提高速度而对性能影响不大的改进，或者提高性能而不降低速度的方法。

快速NMS
传统的NMS是序列化排序和筛选，耗时较多，为了解决该问题，文章投出的快速NMS方法可以平行决定每一个候选框是否要被丢弃。

为了实现快速的NMS，文章首先计算一个c×n×n的成对IoU矩阵X，用于按每个类的分数排序的前n个检测框。GPU上的批处理排序很容易获得，计算IoU可以很容易地矢量化。然后，如果有任何得分更高的检测，并且相应的IoU比某个阈值t更高，则我们移除检测。我们通过首先设置X的下三角形和对角线为0:Xkij=0，∀k，j，i≥j，然后取列最大值：Kkj= maxi(Xkij)∀k,j来计算每个检测框的最大IoU值矩阵。最后，用t（K<t）对该矩阵进行阈值化，代表每个类保留哪些检测框。由于条件的放松，快速NMS稍微有移去过多的box。但是，与速度的开始增加相比，由此引起的性能冲击可以忽略不计（见表2a）。
语义分割损失
提升效果又不损失速度，其中一种方法是在训练那种测试时不执行的模块时对该模型应用额外的损失。这有效地增加了特征的丰富性，又不损失速度。因此，文章使用仅在训练期间评估的层在特征空间上应用语义分割损失，由于文章从实例标注构造了这个loss，所以这并不是严格意义上的语义分割（即不强制为一个像素指定一个类别）。为了在训练期间预测，文章只需将带有输出通道的1x1卷积层直接连接到基干中最大的特征图（P3）。语义分割损失被赋予1的权重，并导致0.4mAP的提升。

六、结果

文章在MSCOCO[30]和Pascal 2012 SBD[31]上进行了评估。其在MSCOCO上的效果如图6。

从上表可以看出：
（1） mAP性能相近的同时，比之前提速了3.9倍。
（2） YOLACT-400、YOLACT-550和YOLACT-700之间对比可以看出图像尺寸、性能和速度之间的权衡。
（3）如果是为了提速，文章不建议降低输入图像尺寸，而是使用ResNet50或者是DarkNet的方式。

结合图7，可以看到文章方法由于使用了更大的掩膜尺寸并没有使用特征repooling，使得mask更为细致准确高质量，从表1也看得出，随着AP的IoU指标上升，文章的YOLACT和Mask R-CNN的差距越来越小，而FCIS和Mask R-CNN之间随着IoU指标的上升，AP差距是一致的。

除此之外，文章还在Pascal 2012 SBD上评估了YOLACT with Res-50 ，YOLACT明显优于报告SBD性能的流行方法，同时速度也明显更快。

掩模质量
文章生成了尺寸为138×138的最终掩模，并且由于直接从原始特征创建掩模，文章对大目标的mask质量明显高于Mask R-CNN和FCIS。例如，从上图7中即可看到。而且，尽管总体上是5.9 mAP差，在95%IoU阈值下，文章的基本模型达到1.6 AP，而Mask R-CNN得到1.3。这表明repooling确实会导致mask质量的下降。
时间稳定性
尽管文章只使用静态图像进行训练，不应用任何时间平滑，但文章发现YOLACT模型在视频上生成的时间稳定性mask比Mask R-CNN要高。这是因为它们质量更高（因此帧之间的误差空间更小），也主要因为模型是单阶段的。分两个阶段生成的mask在很大程度上取决于第一阶段的区域建议。而文章模型，即使模型在不同帧之间预测了不同的框，原型也不会受到影响，产生更具时间稳定性的掩模。

七、讨论

尽管文章的掩模质量更高，并且具有良好的时间稳定性等特性，但在总体性能上落后于最先进的实例分割方法，尽管速度要快得多。大部分错误主要是：错误分类、box错位等。然而，文章发现了两个典型的错误是由YOLACT的掩码生成算法引起的。

定位失败
如果场景中的一个点中有太多对象，则网络可能无法将每个对象定位到其自己的原型中。在这些情况下，网络将输出比组中某些对象的实例分割更接近前景掩膜的内容；例如，在图6的第一张图像（第1行第1列）中，红色飞机下面的蓝色卡车没有正确定位。
泄露
文章的网络利用了这样一个事实，即mask是在组装之后裁剪的，并且不试图在裁剪区域之外抑制噪声。当边界框是精确的时，这个方法可以很好地工作，但是如果不是，这个噪声就会潜入到实例掩码中，从剪裁区之外产生一些“泄漏”。当两个实例彼此相距很远时，也可能发生这种情况，因为网络已经了解到，不需要定位很远的实例，因为剪裁将解决该问题。但是，如果预测的边界框太大，则掩码也将包含一些遥远实例的掩码。例如，图6（第2行第4列）显示了这种泄漏，因为任务分支认为三个滑雪者足够远，不必将他们分开。

除此之外，文章还论证了AP的差距主要是检测器性能的原因。

更多效果图见图8。

八、参考文献

[1]JifengDai,KaimingHe,YiLi,ShaoqingRen,andJianSun. Instance-sensitive fully convolutional networks. In ECCV, 2016.
[2]Liang-Chieh Chen, Alexander Hermans, George Papan- dreou, Florian Schroff, Peng Wang, and Hartwig Adam. Masklab: Instance segmentation by refining object detection with semantic and direction features. In CVPR, 2018.
[3]Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, and Alexander Berg. Ssd: Single shot multibox detector. In ECCV, 2016.
[4] Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali Farhadi. You only look once: Unified, real-time object de- tection. In CVPR, 2016.
[5] Joseph Redmon and Ali Farhadi. Yolo9000: Better, faster, stronger. In CVPR, 2017.
[6] Joseph Redmon and Ali Farhadi. Yolov3: An incremental improvement. arXiv:1804.02767, 2018.
[7]Vijay Badrinarayanan, Alex Kendall, and Roberto Cipolla. Segnet: A deep convolutional encoder-decoder architecture for image segmentation. CoRR, 2015.
[8]Michael Treml, Jose ́ Arjona-Medina, Thomas Unterthiner, Rupesh Durgesh, Felix Friedmann, Peter Schuberth, An- dreas Mayr, Martin Heusel, Markus Hofmarcher, Michael Widrich, et al. Speeding up semantic segmentation for au- tonomous driving. In NeurIPS Workshops, 2016.
[9] AdamPaszke,AbhishekChaurasia,SangpilKim,andEuge- nio Culurciello. Enet: A deep neural network architecture for real-time semantic segmentation. CoRR, 2016.
[10] Nikita Dvornik, Konstantin Shmelkov, Julien Mairal, and Cordelia Schmid. Blitznet: A real-time deep network for scene understanding. In ICCV, 2017.
[11] Hengshuang Zhao, Xiaojuan Qi, Xiaoyong Shen, Jianping Shi, and Jiaya Jia. Icnet for real-time semantic segmentation on high-resolution images. In ECCV, 2018.
[12] Saumya Jetley, Michael Sapienza, Stuart Golodetz, and Philip Torr. Straight to shapes: real-time detection of en- coded shapes. In CVPR, 2017.
[13] Jonas Uhrig, Eike Rehder, Bjo ̈rn Fro ̈hlich, Uwe Franke, and Thomas Brox. Box2pix: Single-shot instance segmentation by assigning pixels to object boxes. In IEEE Intelligent Ve- hicles Symposium, 2018.
[14] Kaiming He, Georgia Gkioxari, Piotr Dolla ́r, and Ross Gir- shick. Mask r-cnn. In ICCV, 2017.
[15] Thomas Leung and Jitendra Malik. Representing and rec- ognizing the visual appearance of materials using three- dimensional textons. IJCV, 2001.
[16] Josef Sivic and Andrew Zisserman. Video google: A text retrieval approach to object matching in videos. In ICCV, 2003.
[17] JianchaoYang,JohnWright,ThomasHuang,andYiMa.Im- age super-resolution via sparse representation. IEEE Trans- actions on Image Processing, 2010.
[18] Jinjun Wang, Jianchao Yang, Kai Yu, Fengjun Lv, Thomas Huang, and Yihong Gong. Locality-constrained linear cod- ing for image classification. In CVPR, 2010.
[19] Tianzhu Zhang, Bernard Ghanem, Si Liu, Changsheng Xu, and Narendra Ahuja. Low-rank sparse coding for image clas- sification. In ICCV, 2013.
[20] Shivani Agarwal and Dan Roth. Learning a sparse represen- tation for object detection. In ECCV, 2002.
[21] Xiaodong Yu, Li Yi, Cornelia Fermu ̈ller, and David Doer- mann. Object detection using shape codebook. In BMVC, 2007.
[22] Xiaofeng Ren and Deva Ramanan. Histograms of sparse codes for object detection. In CVPR, 2013.
[23] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, and Alexander Berg. Ssd: Single shot multibox detector. In ECCV, 2016.
[24] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dolla ́r. Focal loss for dense object detection. In CVPR, 2017.
[25] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In CVPR, 2016.
[26] Tsung-Yi Lin, Piotr Dolla ́r, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networks for object detection. In CVPR, 2017.
[27] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, and Alexander Berg. Ssd: Single shot multibox detector. In ECCV, 2016.
[28] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, and Alexander Berg. Ssd: Single shot multibox detector. In ECCV, 2016.
[29] Abhinav Shrivastava, Abhinav Gupta, and Ross Girshick. Training region-based object detectors with online hard ex- ample mining. In CVPR, 2016.
[30] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dolla ́r, and Lawrence Zitnick. Microsoft coco: Common objects in context. In ECCV, 2014.
[31] Bharath Hariharan, Pablo Arbela ́ez, Lubomir Bourdev, Subhransu Maji, and Jitendra Malik. Semantic contours from inverse detectors. In ICCV, 2011.