语义分割,也称为像素级分类问题,其输出和输入分辨率相同(如题图中,左边为2048x1024分辨率的Cityscapes街景图像,输入模型,得到右边同样分辨率的语义图)。由此,语义分割具有两大需求,即高分辨率和高层语义,而这两个需求和卷积网络设计是矛盾的。

卷积网络从输入到输出,会经过多个下采样层(一般为5个,输出原图1/32的特征图),从而逐步扩大视野获取高层语义特征,高层语义特征靠近输出端但分辨率低,高分率特征靠近输入端但语义层次低。高层特征和底层特征都有各自的弱点,各自的分割问题如图1所示,第二行高层特征的分割结果保持了大的语义结构,但小结构丢失严重;第三行低层特征的分割结果保留了丰富的细节,但语义类别预测的很差。

图1:不同层特征分割结果(图源[4])。

一个自然的想法就是融合高低层特征,取长补短,分割经典工作FCN和U-Net均采用了这个策略,物体检测中常用的特征金字塔网络(FPN)也是采用了该策略。为下文需要,先介绍两类融合策略,一类是FPN,先自下而上获取高层语义特征,再通过自上而下逐步上采样高层语义特征,并融合对应分辨率的下层特征;另一类是HRNet,自下而上包含多个分辨率通路,不同分辨率特征在自下而上过程中及时进行融合。

图2:FPN(图源[5])
图3:HRNet(图源[6])

待融合的低分辨率高层特征一般通过双线性插值到低层特征的相同分辨率,然后通过相加或沿通道维拼接的方式进行融合。这里引入了两个问题,1.是否每个位置的高低层特征都是同等有效;2.高低层特征空间上存在对不齐的问题,简单上采样无法解决。

对问题1,我们提出了GFF,借鉴LSTM中的Gate机制,在不同位置给高低层特征根据有效性,给予不同的加权。

图4:GFF(图源[3])

对问题2,最近arXiv上先后放出了两篇工作[1, 2],都是借鉴光流(对齐不同帧图像)来对齐不同层特征。其中,Semantic Flow [1]是基于FPN的自上而下策略,AlignSeg [2]是基于HRNet的自下而上策略。

Semantic Flow实现非常简单,首先引入Flow Alignment Module (FAM,图5),然后改造FPN(图6)。该方法由于没有使用常用的高层用带孔卷积替代下采样操作,整个网络计算量小、显存消耗少。

图5: FAM (图源[1])
图6:SFNet(图源[1])

该方法的优势是既快又准,如下图所示,ResNet18 backbone以26 FPS速度取得了80.4 mIoU。

图7:分割精度 vs 速度。实时,80% mIoU;>100 FPS, ~75% mIoU.(图源[1])

AlignSeg采用类似HRNet保持分辨率的做法(图7),在保持分辨率过程中使用特征对齐模块(AlignFA)进行不同分辨特征之间的融合。

图8: AlignSeg(图源[2])

最新进展

  • Self-attention用于实现多层特征之间的融合[9]。
  • Self-attention同时作用于Space&Scale[10]。

这里面还要很多问题待探究,比如:

  1. 用于特征对齐的最优网络结构应该怎么设计?目前是采用了类似FlowNet-S的结构,FlowNet-C结构不适合于该任务,原因是高低层特征之间不能像前后帧图像对应层特征之间算相似性。
  2. 高低层特征对不齐的原因是什么?
  3. 能否在对不齐发生时就记录下来,而不是事后补救(类似SegNet那种记录Pooling Indices的方式)?
  4. 如何拓展到视频分割,同时处理时序上、高低层特征上的对不齐?
图9:Semantic Video Segmentation [7].

5. 如何处理超高分辨率图像分割?

图10:Very High-Resolution Segmentation [8].

参考文献

[1] Xiangtai Li, Ansheng You et al. Semantic Flow for Fast and Accurate Scene Parsing. ECCV, 2020.

[2] Zilong Huang et al. AlignSeg: Feature-Aligned Segmentation Networks. arXiv: 2003.00872.

[3] Xiangtai Li et al. GFF: Gated Fully Fusion for Semantic Segmentation. AAAI, 2020.

[4] Rudra P K Poudel et al. ContextNet: Exploring Context and Detail for Semantic Segmentation in Real-time. arXiv:1805.04554.

[5] Tsung-Yi Lin et al. Feature Pyramid Networks for Object Detection. CVPR, 2017.

[6] Ke Sun et al. Deep High-Resolution Representation Learning for Human Pose Estimation. CVPR, 2019.

[7] Junyi Feng et al. How to Train Your Dragon: Tamed Warping Network for Semantic Video Segmentation. arXiv:2005.01344.

[8] Ho Kei Cheng et al. CascadePSP: Toward Class-Agnostic and Very High-Resolution Segmentation via Global and Local Refinement. CVPR, 2020.

[9] Ping Hu et al. Real-time Semantic Segmentation with Fast Attention. arXiv:2007.03815.

[10] Dong Zhang et al. Feature Pyramid Transformer. ECCV, 2020.

[11] Yuxiang Wei et al. Learning Flow-based Feature Warping for Face Frontalization with Illumination Inconsistent Supervision. ECCV, 2020.

[12] Jun Gao et al. Beyond Fixed Grid: Learning Geometric Image Representation with a Deformable Grid. ECCV, 2020.

[13] Jianbo Liu et al. EfficientFCN: Holistically-guided Decoding for Semantic Segmentation. ECCV, 2020.

[14] Yimian Dai et al. AFF: Attentional Feature Fusion. arXive:2009.14082.

特征级融合_语义分割-多层特征融合相关推荐

  1. 场景解析和语义分割区别_语义分割概念及应用介绍

    摘要: 一份关于语义分割的基本概述,涵盖语义分割的特征和可能的用途,包括地质检测.自动驾驶.面部识别等. 近年来,以深度学习为中心的机器学习技术引起了人们的关注.比如自动驾驶汽车已经逐渐成为可能,但在 ...

  2. 特征级融合_自动驾驶多传感器融合技术浅析

    文章转自公众号:计算机视觉之路 原文链接: 头条 | 自动驾驶多传感器融合技术浅析​mp.weixin.qq.com 自动驾驶车上使用了多种多样的传感器,不同类型的传感器间在功用上互相补充,提高自动驾 ...

  3. 特征级融合_多知识图谱的融合算法探索

    作者: @ZhaoYue DXY 前言 在过去一年的文章中,我们讨论了很多关于知识图谱构建.结合NLP应用的方法.逐渐,这些算法开始深入到许多业务中的搜索.推荐工作中.很自然的做法是,为了契合各个业务 ...

  4. 类特征注意机制融合Deeplabv3+语义分割

    针对经典语义分割网络在高分辨率遥感图像语义分割中存在的边缘目标分割不准确.不同类型目标分割不一致.预测效率慢等问题,本文提出了一种融合改进的Deeplabv3+网络CFAMNet的分类特征注意机制,用 ...

  5. 特征级融合_更丰富的卷积特征用于目标边缘检测(文末附有论文及源码下载)...

    [导读]边缘检测是计算机视觉中的一个基本问题.近年来,卷积神经网络(CNNs)的出现极大地推动了这一领域的发展.现有的方法采用特定的深层CNN,但由于尺度和纵横比的变化,可能无法捕捉到复杂的数据结构. ...

  6. 用于语义分割的特征共享协作网络

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或 ...

  7. PaperWeekly 第28期 | 图像语义分割之特征整合和结构预测

    " 余昌黔 华中科技大学硕士 研究方向为图像语义分割 知乎专栏 https://zhuanlan.zhihu.com/semantic-segmentation 前言 近来阅读了 PASCA ...

  8. 制作自己的segnet数据集_语义分割【论文解读】经典网络SegNet 值得仔细反复阅读...

    摘要: 提出了一种新颖而实用的深度全卷积神经网络结构用于语义像素分割称为SegNet.这个核心的可训练分割引擎包括一个编码器网络,一个相应的解码器网络,以及一个像素级的分类层.编码器网络的架构与VGG ...

  9. 语义分割和实例分割_语义分割入门的一点总结

    点击上方"CVer",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者:Yanpeng Sun https://zhuanlan.zh ...

最新文章

  1. PHP5.3.8连接Sql Server SQLSRV30
  2. python 信号捕获处理 异常终止
  3. 修改Windows AD的LDAP查询限制
  4. 分层模型:OSI与TCP/IP
  5. mnist手写数字识别_手写数字识别
  6. 1.6 网络编程之 UDP通信
  7. python路线选择试题_python例题练习
  8. Silverlight Issue , Operation named 'CreateUser' does not conform to the required signature.
  9. C++ 删除字符串的首尾空字符
  10. 清浮动,防止上下margin重叠(浏览器顶部空白崩溃)
  11. 2011年计算机二级c++笔记:类的转换
  12. 清理清理火狐历史记录
  13. html背景图片自适应屏幕
  14. CS5532 HAL库版本工程代码
  15. matlab 模拟电子仿真,基于MATLABSimulink的模拟电子电路仿真
  16. Latex中PDF文档目录乱码解决方案
  17. 无锡太湖学院计算机科学技术,无锡太湖学院
  18. 走近汇编理解与内核编程(楚狂人)
  19. SHAP 可视化解释机器学习模型简介
  20. jquery中判断元素是否含有某个类名

热门文章

  1. 生活混乱怎办?FEED如何训练大脑?《大脑整理术》免费下载
  2. react源码分析:深度理解React.Context
  3. word文档怎样使用计算机,电脑Word文档怎么将旭日图插入使用
  4. 【校招VIP】前端JS语言之数据类型
  5. 加薪其实也不难:加薪五步曲
  6. Adobe 观察 |最低工资标准来了,学会这几招,让加薪更简单
  7. 解决微软Conrtana(小娜)搜索结果为空 | 搜索不到应用的问题
  8. 如何用html + css 绘制Google logo
  9. 解决校园Dr客户端端口占用问题(2)
  10. android画圆形边框