图像语义分割(2)-DeepLabV1: 使用深度卷积网络和全连接条件随机场进行图像语义分割

论文地址：SEMANTIC IMAGE SEGMENTATION WITH DEEP CONVOLUTIONAL NETS AND FULLY CONNECTED CRFS
论文代码：
工程链接1
工程链接2

1. 提出问题

首先明确一个概念-high level task，是指那些抽象度高且对细节不敏感的任务，low则恰好相反。
文章指出使用卷积神经网络进行图像语义分割的时候会面临两个问题：

(1) 下采样导致细节信息的丢失
(2) CNN的空间不变性。即对于分类任务来说，同一张图片进行空间变化(平移等)不影响最后结果，但对于分割任务来说完全不同。

2. 针对性方案

2.1 空洞卷积解决下采样问题

普通下采样减小了图像的尺寸使得单个像素对应了更大的感受野，但是同时也使得分辨率下降，丢失了部分局部信息。此时自然想到需要一个不采用max pooling且仍能对应大感受野的采样方法，引入空洞卷积来解决下采样问题。

2.2 Dense/FullyConnected CRF解决空间不变性问题

传统的图像分析中，CRF主要用来做平滑处理，又因为short-range CRFs 可能会对我们恢复局部信息的目标起到反作用，所以使用全连接CRF，考虑全局信息。
全连接条件随机场的能量函数如下：
E(x)=∑iθi(xi)+∑ijθij(xi,yj)E(x)=\sum_i \theta_i(x_i)+\sum_{ij} \theta_{ij}(x_i,y_j)E(x)=i∑θi(xi)+ij∑θij(xi,yj)

这个能量函数计算的是所有像素点的量和能量，其中后半部分pairwise部分显示，特征数量是n(n-1)[n指像素个数]，所以全连接条件随机场也被称为Dense CRF。
能量函数的前半部分是一个一元函数：
θi(xi)=−logP(xi)\theta_i(x_i)=-logP(x_i)θi(xi)=−logP(xi)

我们重点关注pairwise部分：
θij(xi,yj)=μ(xi,yj)∑m=1Kωm⋅km(fi,fj)\theta_{ij}(x_i,y_j)=\mu(x_i,y_j)\sum _{m=1}^K \omega_m \cdot k^m(f_i,f_j)θij(xi,yj)=μ(xi,yj)m=1∑Kωm⋅km(fi,fj)

其中：

这其中：
a. 前半部分称为appearance kernel，其中，ppp表示像素的位置-position[2维]；III是图像像素值[彩色，对应3维]；2σα22 \sigma _\alpha^22σα2,2σσ22 \sigma _\sigma^22σσ2,2σγ22 \sigma _\gamma^22σγ2表示了高斯分布的scale[方差]。从中我们可以看出：-像素距离越近，颜色越接近，feature越强，反之则减弱；-分母越大，feature就越难强起来 ⟹\Longrightarrow⟹ 在5维空间寻找想进像素并进行特征加强。
b. 后半部分就是一个平滑处理。

2.3 other-多尺度预测

multi-scale prediction将前四个max pooling后分别添加MLP(3x3x128和1x1x128)得到预测结果，将这四个预测结果与模型输出进行拼接(concentrate)，多了128x5个channels。
但是多尺度预测的结果不如Dense CRF，模型最后结合二者来进行预测。

3. 模型架构

3.1 对原有VGG-16的调整

将全连接层替换为卷积层
VGG网络中的后两个max pooling去掉(VGG有5个max pooling)，也可以将后两个池化层的步长从2变为1，并加padding=1，只进行8x下采样
后两个max pooling后的普通卷积层替换为空洞卷积
对VGG中的第一个全连接卷积层(核尺寸7*7)使用3x3或者4x4的卷积层来进行替代，这样能够控制感受野，减少计算量(计算时间减少2-3倍)

3.2 其他

损失函数使用交叉熵
训练数据label：原始Ground Truth进行8x下采样
测试数据label：预测结果双线性插值8x上采样

欢迎扫描二维码关注微信公众号深度学习与数学 [每天获取免费的大数据、AI等相关的学习资源、经典和最新的深度学习相关的论文研读，算法和其他互联网技能的学习，概率论、线性代数等高等数学知识的回顾]*

图像语义分割(2)-DeepLabV1: 使用深度卷积网络和全连接条件随机场进行图像语义分割相关推荐

【CV】DeepLab：使用DCNN、空洞卷积和全连接条件随机场的图像语义分割网络
论文名称:DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Full ...
Deep Image Prior：深度卷积网络先天就理解自然图像
点击我爱计算机视觉标星,更快获取CVML新技术昨天分享了文章ICCV 2019 | Adobe 无需大量数据训练,内部学习机制实现更好的视频修补,其中借鉴的Deep Image Prior (DIP ...
深度卷积网络CNN与图像语义分割
转载请注明出处: http://xiahouzuoxin.github.io/notes/html/深度卷积网络CNN与图像语义分割.html 级别1:DL快速上手级别2:从Caffe着手实践级 ...
经典论文复现 | 基于深度卷积网络的图像超分辨率算法
过去几年发表于各大 AI 顶会论文提出的 400 多种算法中,公开算法代码的仅占 6%,其中三分之一的论文作者分享了测试数据,约 54% 的分享包含"伪代码".这是今年 AAAI ...
JSIS3D:具有多任务点向网络和多值条件随机场的3D点云联合语义-实例分割
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达标题:JSIS3D: Joint Semantic-Instance Segmentation of ...
用于视觉识别的深度卷积网络空间金字塔池化方法
摘要现有的深卷积神经网络(CNN)需要一个固定大小的神经网络(例如224x224)的输入图像.这种要求是"人为的",可能会降低对任意大小/尺度的图像或子图像的识别精度.在这项工作 ...
（四十七：2021.08.25）《ENCASE：使用专业特征和深度卷积网络相结合来对ECG进行分类》
<ENCASE:使用专业特征和深度卷积网络相结合来对ECG进行分类(ENCASE: an ENsemble ClASsifiEr for ECG Classification Using Exp ...
使用Python进行Grad-CAM ++：深度卷积网络的改进视觉解释
在Grad-CAM ++和Guided Grad-CAM ++显著图中,**狗(多个对象)的可视化效果更好(第一行和第二行),并且该类的整个区域都处于局部状态(第三行和第四行),**而Grad-CAM ...
【转载】基于深度卷积网络方法的高光谱图像分类
图片来源网络本期为大家推介的是北京理工大学李伟教授关于高光谱图像分类的深度卷积网络方法的报告-Deep Convolutional Neural Network for Hyperspectral ...
吴恩达深度学习笔记11-Course4-Week2【深度卷积网络：实例探究】
深度卷积网络:实例探究实例探究(Case studies) 为什么要进行实例探究(Why look at case studies?) 从中获得灵感,借鉴一些效果很好的网络来完成自己的任务. 一.经 ...