【实例分割】SOLO：Segmenting Objects by Locations

相关工作
模型结构
branch
损失函数
Inference
实验
Decoupled SOLO head

实例分割主要有两大类别，而这两大类方法都不够直接。

自上而下即detect-then-segment：太依赖于目标检测的准确率
自下而上：为每个像素学习一个嵌入向量（有点像Cornernet），该方法依赖于每个像素的嵌入学习和分组后处理。

出发点：一张图片中的实例基本的不同是什么？要么具有不同的中心点，要么具有不同的大小。所以是否可以直接利用这两个信息去区分实例？
实现：引入”实例类别“，也就是量化的中心点位置和物体大小，根据实例的位置和大小为实例中的每个像素分配类别。

中心点位置
一张图片可以被分为S×SS\times SS×S个网格，所以定义S2S^2S2个中心点位置类别。将这些类别加在通道上，对应的通道负责对应网格的实例掩码。
大小
利用FPN来预测多种尺度大小的实例。

模型结构

上图所示是简单的一个框架，并没有FPN。SOLO将实例分割分为两个子任务，类别预测和实例掩码生成，将一张图片划分为S×SS\times SS×S个网格，如果一个物体的质心落在某个网格(若有多个物体落在该网格？该思路的前提是每个网格必须属于一个实例，因此只有一个类别)，那么这个网格有两个任务：

预测该物体的类别
生成该物体的实例掩码

branch

如下图所示便是两个分支，分别对应上述的两个任务。除了输出卷积，其他卷积都是3×33\times 33×3，分类分支的Align代表的是自适应性池化、插值或者region-grid插值，这三种的效果都差不多。

对于每一个FPN，后面都会接一个上述的分支结构(SOLO head)，从而实现多尺度预测。

加入了FPN后提高了大约8个点，可见作用很大。

对于类别预测分支，当网格(i,j)(i,j)(i,j)和center region有大于阈值的重叠的则认为是正例。center region定义为(cx,cy,ϵw,ϵh)(c_x,c_y,\epsilon w,\epsilon h)(cx,cy,ϵw,ϵh)的区域，这里的中心点并不是bbox的中心，而是质心，其中ϵ=0.2\epsilon=0.2ϵ=0.2。这来源于center sampling，在Foveabox和FCOS中都有所体现。对于每个正例都有一个二值的mask，也就是在上分支中标记出正例所在的grid后，找到其所对应下分支S2S^2S2的通道中的一个通道进行标注。

对于Mask分支，之所以有S2S^2S2的通道，就是作者所说的中心点位置类别，第(i，j)(i，j)(i，j)个网格的instance mask对应第kkk个通道(k=i×S+jk=i\times S+jk=i×S+j )。
生成mask的分支类似于语义分割，是FCN(全卷积神经网络)，具有平移不变性，然而本方法的mask不是直接生成，而是基于网格的位置(S2S^2S2个通道)，所以需要平移可变性。
如何解决卷积带来的平移不变性？
借鉴于CoordConv，创建一个与输入相同的空间大小的张量，其中包含像素坐标，这些坐标被标准化至[-1，1]，并和原始的输入进行通道上的concat。若原始输入大小为H×W×DH\times W\times DH×W×D，则新输入张量的大小为H×W×(D+2)H\times W\times (D+2)H×W×(D+2)，其中最后两个通道为xyxyxy像素坐标，从而提供全局位置信息。

消融实验中，一个的CoordConv能提高3.6的精度，再加反而没必要，可见该操作确实提供了一些位置信息。

损失函数

定义损失函数如下式：
L=Lcate+λLmaskL = L_{cate}+\lambda L_{mask}L=Lcate+λLmask
LcateL_{cate}Lcate是分类分支的损失函数，用的是Focal Loss。
LmaskL_{mask}Lmask是mask生成的损失函数，如下式所示：

NposN_{pos}Npos表示的是正样本的个数(??)，p∗和m∗p*和m*p∗和m∗是分类和mask的target，IIIIII当pi,j∗p_{i,j}^*pi,j∗大于0时为1。对于dmaskd_{mask}dmask表示Dice Loss(因为这个损失相比于BCE、focal loss效果更好)。
LDice=1−D(p,q)L_{Dice}=1-D(p,q)LDice=1−D(p,q)

Inference

前向传播得到类别分数pi,jp_{i,j}pi,j和相应的mask mkm_kmk，其中k=i∗S+jk=i*S+jk=i∗S+j。
首先用置信度阈值0.1过滤掉分数比较低的预测，然后选取前500个排好序的mask进行NMS操作，然后用0.5的阈值进行mask二值化，保留前100个instance mask进行评估。

实验

Decoupled SOLO head

原来的head有S2S^2S2个通道，这计算量还是很大的，并且有实例的网格远远小于没有实例的网格，有些通道没有必要，所以作者提出了Decoupled SOLO head，将通道变为S+SS+SS+S，减少显存的同时精度也没有降低。

【深度学习】【实例分割】SOLO：Segmenting Objects by Locations相关推荐

[实例分割] SOLO: Segmenting Objects by Locations 论文阅读
转载请注明作者和出处: http://blog.csdn.net/john_bh/ 论文链接: SOLO: Segmenting Objects by Locations 作者及团队:阿德莱德大学 & ...
实例分割之SOLO: Segmenting Objects by Locations
SOLO: Segmenting Objects by Locations code 实例分割主要有两大类方法: 一种是"detect-then-segment",即先检测bbox ...
SOLO: Segmenting Objects by Locations 论文学习
SOLO: Segmenting Objects by Locations Abstract 1. Introduction 2. Related Work 3. SOLO 3.1 Problem F ...
[SOLO ]SOLO: Segmenting Objects by Locations代码解读笔记(ECCV. 2020)
Segmenting Objects by Locations 如果对你帮助的话,希望给我个赞~ 文章目录 SOLO head网络结构损失函数正样本的选取 1. SOLO/mmdect/model ...
转载系列【分割】：ECCV2020 | SOLO: Segmenting Objects by Locations
文章目录一.背景二.本文方法三.本文方法的具体做法 3.1 问题定义 3.1.1 Semantic category 3.1.2 Instance Mask 3.2 Network Archit ...
深度学习|实例分割：3D-BoNet
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达一.摘要本文提出了一个简单高效的新型3D点云实例分割框架3D-BoNet,核心思想是逐点多层感知(M ...
论文：SOLO: Segmenting Objects by Locations
作者摘要我们提出了一种新的.非常简单的实例分割方法.与许多其他密集预测任务(例如语义分割)相比,任意数量的实例使实例分割更具挑战性.为了预测每个实例的掩码,主流方法要么遵循"先检测后分割 ...
论文解读《SOLO: Segmenting Objects by Locations》
实例分割属于比较challenging的任务,他相当于是object detection和semantic segmentation的结合体.在SOLO出现之前,有两种常用的paradigm:(1)t ...
[计算机毕业设计]深度学习实例分割模型
前言
SOLO:Segmenting Objects by Locations
SOLO SOLO的中心思想是把instance segmentation的问题分解为两个相似的分类问题,分别是category-aware预测和instance-aware mask的生成. 把输入 ...

【深度学习】【实例分割】SOLO：Segmenting Objects by Locations