摘要

在多类别图像分割和标记领域表现最优的技术采用的都是定义在像素或者图像域之上的条件随机场。虽然区域级的模型通常具有稠密二元连通性,但由于考虑到像素级模型相当的大所以只可以使用稀疏的图结构。在这篇论文中,我们考虑定义在一张图像中的完全像素集的全连接CRFs模型。这种结果图有几十亿条边,使得传统的判别算法变得不再合适。我们主要的贡献就是提出一种全连接CRF模型的近似判别算法,在这一模型中二元的边缘势函数被定义为两个高斯核的线性组合。我们的实验也证明在像素级上的稠密连通性实质上提升了分割以及标记的准确性。

介绍

在计算机视觉领域,多类分割和标记是最具有挑战性和被广泛研究的问题之一。其目标是使用几个已经确定好的物体种类之一来标记图中的每一个像素,因此同时实现识别与多类别分割。一般的方式是将这一问题转换成在定义于像素或图像块上的条件随机场做最大后验概率推断[8,12,18,19,9]。CRF势函数合并了在相似像素中最大化标签一致性的平滑项,并且可以整合建模各类别间上下文关系的更加复杂的项。
基本的CRF模型由单独的像素或图像块上的一元势函数和在相邻像素和图像块上的二元势函数组成[19,23,7,5]。所产生的邻接CRF结构在模拟图像中长程连接的能力有限并且通常导致物体边界过度平滑。为了改善分割和标记准确性,研究者已经将基础的CRF框架扩充到包含分层联通性和定义在图像域上的高阶势函数[8,12,9,13]。然而这些方法的准确性必定被用来计算模型处理区域的非监督的图像分割的准确性所约束。尽管很多有效的工作都做了,但这种约束限制了基于区域的方法在复杂物体边界周围产生准确标签对应的能力[9,13,14]。
在这篇论文中,我们探索了一种准确语义分割和标记的与众不同的模型架构。我们在图像中所有像素的组合上使用建立二元势函数的全连接CRF。全连接CRFs在过去就被使用在语义图像标记[18,22,6,17],但在全连接模型上推断的复杂性已经限制了它们在上百或更少的图像域集合上的应用。这些方法达到的分割准确性再一次被产生区域的非监督分割所限制。相反,我们的模型与图像中所有单个像素的组合相关联,能够极大的改进分割和标记。这个模型的主要挑战是尺寸,即使在低分辨率的图像上它都包含了成百上千的节点和数十亿的边。
我们的主要贡献就是针对任意一张图像中全连接CRF模型的高有效推断算法,在这一模型中二元势函数被定义高斯核的线性组合。这个算法基于一种对CRF分布的平均场近似。这种近似可以通过一系列的消息传递步骤来不断优化。每个步骤通过搜集从所有其他变量得到的信息来更新一个单独的变量。我们发现在全连接CRF中的所有变量的一个平均场更新能够使用在特征空间中的高斯滤波来完成。这就允许我们在大量变量中通过使用有效的近似高维滤波来降低从二次到线性消息传递的计算复杂度[16,2,1]。由此而产生的近似推断算法在模型中大量的边缘中是亚线性的。
Figure 1展示了提出的算法在MSRC-21数据集里的两张图像中对于多类分割和标记的表现。Figure 1(d)展示了在这些图片上使用全连接CRFs中的近似MCMC推断的结果[17]。MCMC过程运行了36小时并且底部图像只有部分收敛。我们也试验了在全连接模型中使用图割推断[11],但是在72小时内都没有收敛。相反,如Figure 1(e)所示,我们算法的一种单线程的实现在0.2秒内产生了一个细致的像素级标记。在MSRC-21和PASCAL VOC2010数据集上的定量估计在Section6提供。据我们所知,我们是第一个在像素级别上实现全连接CRF模型中的有效推断。

全连接CRF模型

在全连接CRFs上的有效推断

我们的算法是基于一个针对CRF分布的平均场近似。这种近似法为近似推断产生了一个迭代的消息传递。我们重要的观察结果是在我们提出的模型中的消息传递可以用特征空间的高斯滤波进行。这就使得我们可以利用高有效的近似法来进行高维滤波,这样也减少了从二次到线性的消息传递的复杂性,由此得出了全连接CRFs的一个近似推断算法,这个算法在变量N中是线性的并且在模型的边缘数中是亚线性的。
1、平均场近似
KL–散度
在补充材料中给出了上述等式的详细推导。这个更新等式引出了以下推理算法:

算法1中的每次迭代都执行了一个消息传递步骤,一个兼容性转换,和一个局部更新。兼容性转换和局部更新在线性时间内运行并且都是高效的。计算的瓶颈在于消息传递。对于每个变量,这一步需要计算所有其他变量的和,因此,一个简单的实现在变量N的数目上具有二次复杂度。接下来,我们将展示如何使用近似高维滤波来减少消息传递到线性的计算开销。
2、 使用高维滤波的有效消息传递

学习

实现

在我们实现方法中使用的一元势函数源于TextonBoost[19,13].我们使用Shotton[19]等人建议的17维滤波器组并且遵循Ladicky[13]的工作加入了颜色和HOG以及像素位置特征。对于一元势函数我们在MSRC-21数据集上的估计使用了TextBoost的扩展版本。对于VOC2010数据集我们包含了每个物体类别的bounding box物体检测器的响应作为20个额外的特征。这使得VOC2010的一元分类器的性能从13%增加到了22%。我们在强化分类器响应上通过训练一个逻辑回归分类器增加了额外的5%的性能。

评估

对于多类图像分割和标记我们在两个标准基准上评价提出的算法。第一个是MSRC-21数据集,这个数据集包含21个类别的具有相应ground truth标签的591幅尺寸为320×213的彩色图像。第二个是PASCAL VOC 2010数据集,这个数据集包含20个类别和一个背景类的尺寸接近500×400的1928幅彩色图像。使用公开的参数配置,将所提出的的方法与Shotten等人提出的邻接CRF和Kohli等人提出的鲁棒 CRF一同评价。为了保证一个公正的评判。所有的模型都使用了Section 5所述的一元势函数。所有的实验都是在一个2.80GHz的Intel i7-930处理器上完成。对于训练使用8个CPU核心;所有其他的实验都是在一个核心上完成。推断算法在一个单独的CPU进程中完成。
其他评估内容见原论文
原论文网址:https://arxiv.org/pdf/1210.5644.pdf

Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials相关推荐

  1. Efficient Inference in Fully Connected CRFs with Gaussian Edge Potential

    这里我们把每列当成像素, 每行当成不同的label, 这里有四种label. 然后我们需要算在每个点比如第一列第二行的点则为Q1(x1=第二种label)Q_1(x_1 = 第二种label)Q1​( ...

  2. 【DeepLab v1 2016】SEMANTIC IMAGE SEGMENTATION WITH DEEP CON- VOLUTIONAL NETS AND FULLY CONNECTED CRFS

    [DeepLab v1]SEMANTIC IMAGE SEGMENTATION WITH DEEP CON- VOLUTIONAL NETS AND FULLY CONNECTED CRFS 用深度卷 ...

  3. Deeplab v1:SEMANTIC IMAGE SEGMENTATION WITH DEEP CONVOLUTIONAL NETS AND FULLY CONNECTED CRFS

    1.解决问题 将DCNNs应用于图像标记任务中存在两个问题:信号下采样和空间"不敏感性"(不变性)问题. 第一个问题是在标准的DCNNs每一层重复使用最大池化max-pooling ...

  4. 韩松EIE:Efficient Inference Engine on Compressed Deep Neural Network论文详解

    EIE为韩松博士在ISCA 2016上的论文.实现了压缩的稀疏神经网络的硬件加速.与其近似方法的ESE获得了FPGA2017的最佳论文. 目录 一.背景与介绍 1.1 Motivation 1.2 前 ...

  5. CondConv: Conditionally Parameterized Convolutions for Efficient Inference论文解读

    CondConv: Conditionally Parameterized Convolutions for Efficient Inference(CVPR2020) paper:https://l ...

  6. 【论文笔记】CondConv: Conditionally Parameterized Convolutions for Efficient Inference

    论文 论文题目:CondConv: Conditionally Parameterized Convolutions for Efficient Inference 论文地址:https://arxi ...

  7. 【论文笔记】Resolution Adaptive Networks for Efficient Inference (CVPR2020)

    Resolution Adaptive Networks for Efficient Inference Motivation Method Experiments 借鉴意义与思考 论文地址:http ...

  8. [论文阅读] EIE: Efficient Inference Engine on Compressed Neural Network

    这是收录于ISCA16(International Symposium on Computer Architecture). 其是Deep Compression以及DSD的系列篇,其在Deep Co ...

  9. 韩松 EIE: Efficient Inference Engine on Compressed Deep Neural Network论文详解

    EIE为韩松博士在ISCA 2016上的论文,实现了压缩的稀疏神经网络的硬件加速. 与其近似方法的ESE获得了FPGA2017的最佳论文. 背景与介绍 最新的DNN模型都是运算密集型和存储密集型,难以 ...

最新文章

  1. 泰安服务器维护公司,神云 泰安服务器
  2. 枚举可以被子类化以添加新元素吗?
  3. Exchange Tech Issues 参考网站
  4. OpenCASCADE:MFC示例
  5. java中对象的生存期_Java中对象的生存周期
  6. 在 Linux 上使用 Docker 安装 Portainer
  7. 聊聊FluxFlatMap的concurrency及prefetch参数
  8. 使用python操作redis
  9. ubuntu安装 opencv-3.4.3
  10. 04.Unity ShaderGraph序列(Lightweight Pipeline相关扫盲)
  11. 奥哲徐平俊:乘风、冒险与未来
  12. 左程云算法课堂笔记(初级1)
  13. 初中信息技术说课稿_语文说课稿模板一等奖
  14. 简述Android模拟机和真机的区别,详解android模拟器emulator
  15. Opencv 轮廓提取
  16. 1736. Latest Time by Replacing Hidden Digits
  17. Python+OpenCV人脸识别签到考勤系统(新手入门)
  18. matlab车轮滚动动画,Fireworks动画教程:简单制作轮子滚动动画效果
  19. 编程计算下面的分段函数: y=e​√​x​​​​​−1 (0<x<1) y=|x|+2 (3≤x≤4) y=sin(x​2​​) (当x取其他值时)
  20. Python3制作鼠标拾色器并显示十六进制数值(有单独窗口显示取色)

热门文章

  1. win7怎样打开位置定位服务器,Win7系统如何打开系统服务?Win7系统打开系统服务的方法...
  2. 如何增加android模拟器的ROM(内部存储空间)
  3. HTML fieldset标签
  4. 那些年,面过的奇葩面试(java)
  5. cpythonjavagolang_golang调用python实战-阿里云开发者社区
  6. ssl加速卡_OpenSSL异步模式与Intel QAT加速卡(一)
  7. C++一元和二元作用域
  8. 杨洋组织的“太空营救”中,那2小时到底发生了什么?
  9. DTable7发布OleDB版本,可以链接ACCESS和其它更多的数据库
  10. Arcgis连接到数据库失败|出现基础数据库错误|没有注册类