论文:https://arxiv.org/pdf/2107.06278.pdf

代码:MaskFormer

目录

1.背景

2.掩膜分类算法

2.1基于像素分类算法

2.2基于掩膜分类算法

2.3MaskFormer

2.3.1像素级模块

2.3.2transformer 模块

2.3.3分割模块

2.4掩膜分类推理

3.实验

3.1语义分割

整理不易,欢迎一键三连!!!


1.背景

图像语义分割问题一直以来都被当做一个像素级分类问题解决的。我们发现,把语义分割看成一个mask classification问题不仅更自然的把语义级分割(semantic-level segmentation)和实例级分割(instance-level segmentation)联系在了一起,并且在语义分割上取得了比像素级分类方法更好的方法。我们提出的MaskFormer模型在语义分割(ADE20K, 55.6 mIoU)和全景分割(COCO-panoptic, 52.7 PQ)上都取得了新的SOTA结果。

我们的一个重要发现:掩膜分类能有效解决语义分割和实例分割问题,事实上,在FCN之前,语义分割表现最好的方法是像O2P和SDS这样使用掩膜分类计算的算法。带着2个问题进入下面的学习:一个单独的掩膜分类模型能否简化语义和实例分割任务的前景呢?一个掩膜分类模型能优于现有的基于像素分类的算法吗?

为了解决这两个问题,我们提出了一种简单的MaskFormer方法,可以将现有的任意基于像素分类的算法无缝转换成掩膜分类算法。

可以从这张图上看到,左边的图中表示了 基于每个位置用相同的分类损失的像素分类的语义分割,右边的图中表示基于掩码分类预测一组二值掩码,并为每个掩码分配一个类。

2.掩膜分类算法

2.1基于像素分类算法

对于一个H*W大小的输入影像,基于像素分类算法目标是预测每个像素点被分成K个类别中的某一类,即:

其中K为类别数。真实label为:

loss为:

2.2基于掩膜分类算法

掩膜分类任务可以被分成2个任务:

  1. 将图像划分为N个区域(N不需要等于K),用二值掩膜表示。
  2. 对每个区域作为一个整体划分到K个类别中,注意,允许多个区域划分成相同类别,使得该算法能应用到语义和实例级分割任务中。

为了训练模型,需要计算预测值和真实值之间的匹配度,我们假设预测的结果为:

K+1是因为有一类是背景。

真实label为:

为第i个真实分割块的类别,所以预测的,真实的

,这两者尺寸是不同的,我们假设 ,并给真实值填充一组背景允许一对一匹配。

对语义分割来说,如果预测的区域数量 N 与类别标签的数量 K 相匹配,那么简单的固定匹配是可能的。因此,第 i 个预测与具有类别标签 i 的真实区域相匹配,如果预测区域i的类别在真实label中不存在,则与背景匹配。在我们的实验中,我们发现基于二分匹配的分配比固定匹配效果好。

计算损失,我们通过下式来表示:

2.3MaskFormer

2.3.1像素级模块

输入图像(H*W)在经过骨干网络之后,通常都会得到低分辨率的特征图(C_{f}*\tfrac{H}{S}*\tfrac{W}{S}),像素级模块中的pixel decoder模块会将特征图上采样到C_{\xi }*H*W大小,注意,任何基于像素分类的分割模型都适合像素级模块设计,包括最近的基于 Transformer 的模块。MaskFormer 将此类模型无缝转换为掩膜分类模型。

2.3.2transformer 模块

Transformer 模块使用标准的 Transformer 解码器 来计算图像特征F 和 N 个可学习的位置embedding(即query)其输出是 N 个分割embedding编码成每个分割的全局信息 MaskFormer预测。

2.3.3分割模块

在sofmax之后使用线性分类器,在每个分割embedding上,以产生每个分割的类别概率预测。对mask预测,采用2层隐层的MLP将分割embedding转换成mask embedding,最后,通过对mask embedding和pixel embedding操作计算得到经过点操作的mask的二值预测值,这里的点操作指的是sigmoid激活函数。

2.4掩膜分类推理

通常的分割推理是将图像按像素对每个像素值划分到N个类别中的某一类,划分的方式是先将每个像素计算N个类别的预测概率,然后用argmax函数求N个可能性的最大值,即此像素的分类类别。对语义分割来说,共享的几个分割块类别标签可以合并,对实例分割来说,这些分割块的标签不合并即可。每个像素的预测概率计算:

我们发现概率掩码对的边缘效果比普通分割推理的香酥鸡分类效果更好。然而,我们观察到
直接最大化每个像素类的概率会导致性能不佳。 我们假设,梯度均匀分布到每个query,但这使训练复杂化。每个像素类的概率计算:

3.实验

3.1语义分割

整理不易,欢迎一键三连!!!

【MaskFormer】Per-Pixel Classification is Not All You Needfor Semantic Segmentation相关推荐

  1. 【R-CNN】Rich feature hierarchies for accurate object detection and semantic segmentation (2014) 全文翻译

    作者 Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik (UC Berkeley, {rbg,jdonahue,trevor,ma ...

  2. 【Transformer】CLS(classification)有什么用?

    CLS]就是classification的意思,可以理解为用于下游的分类任务. 一句话理解:[CSL]就是一个向量,只是不是某一个字的向量,是一个够代表整个文本的的语义特征向量,取出来就可以直接用于分 ...

  3. 【论文】Awesome Relation Classification Paper(关系分类)(PART II)

    0. 写在前面 上一篇[论文]Awesome Relation Extraction Paper(关系抽取)(PART I)介绍了一些关系抽取和关系分类方面的经典论文,主要是以CNN模型为主,今天我们 ...

  4. 【论文】Awesome Relation Classification Paper(关系分类)(PART I)

    0. 写在前面 "正确的判断来自经验,而经验来自于错误的判断" 之前做过的百度今年的语言与智能技术竞赛,其中有一个子赛道就是关于信息抽取.信息抽取(Information Extr ...

  5. 【cs231n】图像分类-Linear Classification线性分类

    [学习自CS231n课程] 转载请注明出处:http://www.cnblogs.com/GraceSkyer/p/8824876.html 之前介绍了图像分类问题.图像分类的任务,就是从已有的固定分 ...

  6. 【 Notes 】Positioning system classification

    Positioning systems determine the location of a person or an object either relative to a known posit ...

  7. 【Paper-Attack】Attacking Graph-Based Classification without Changing Existing Connections

    Attacking Graph-Based Classification without Changing Existing Connections 背景 training dataset中包含pos ...

  8. 【转】像素 Pixel (Picture Element)

    原文链接:https://blog.csdn.net/zssureqh/article/details/78768942 1.像素Pixel 讲到概念,首选Wiki百科.当然我说的是英文版Pixel ...

  9. 【李宏毅】-机器学习2021-HW2-Phoneme Classification

    Data 这个任务是一个多分类问题: 从语音进行帧级音素预测. 数据分析 一个语音结果处理之后会得到一个特征向量,这个向量的是Txd, T是frame的长度,d是嵌入维度,使用不同的特征提取方法,得到 ...

最新文章

  1. 360董事长兼CEO周鸿祎:未来网络攻击或造成物理伤害
  2. 教育安全认证体系建设项目容灾备份体系建设项目
  3. 实景三维系列4 | 为什么需要单体化
  4. 用window.location.href实现刷新另个框架页面
  5. C++约瑟夫问题求解
  6. 博客园贵团队可以给个解释么?
  7. 重读《从菜鸟到测试架构师》--黑色的盒子里有什么(中)
  8. C#多线程强制退出程序
  9. C程序设计语言现代方法10:程序结构
  10. 【软考】面向对象程序设计复习指南
  11. Multiavatar 多元文化头像生成器
  12. Pytorch的可视化工具tensorboardX
  13. 火狐扩展下载失败_Firefox中扩展程序和主题安装失败的解决方法
  14. 因子分析模型 - 案例按步骤详解 - (SPSS建模)
  15. kali虚拟机安装教程
  16. 创业工场麦刚:不要把创业美化
  17. 中美创客大赛历年获奖作品展
  18. Matlab——图形绘制——三维立体图形 剔透玲珑球 动态图——彗星状轨迹图
  19. 长城汽车计划将P系列皮卡推向全球市场
  20. 面试连环炮:从HashSet开始,一路怼到CPU

热门文章

  1. 新的ES6语法01—let:使用let关键字声明块范围的变量
  2. 数据分析中的“产品思维”经验讲解
  3. B.FRIENDit壁虎忍者GC05电竞椅
  4. EasyDL-SDK树莓派部署1
  5. 微信公众号生成海报 将想要的东西拼凑成一张图片
  6. 高清还原图片(利用网站在线还原,最后用ps进一步优化)
  7. 腾讯CSIG、阿里(蚂蚁金服,支付宝,搜索引擎)、网易互娱、字节跳动面经
  8. 奥鹏教育多媒体计算机技术19秋在线作业2,[东北师范大学]《多媒体计算机技术》19秋在线作业21(100分)...
  9. CrossCore Embedded Studio——Perspectives Views in CCES(六)
  10. 信息安全密码学:RSA密码体制