图像语义分割(2)-DeepLabV1: 使用深度卷积网络和全连接条件随机场进行图像语义分割
论文地址:SEMANTIC IMAGE SEGMENTATION WITH DEEP CONVOLUTIONAL NETS AND FULLY CONNECTED CRFS
论文代码:
工程链接1
工程链接2
1. 提出问题
首先明确一个概念-high level task,是指那些抽象度高且对细节不敏感的任务,low则恰好相反。
文章指出使用卷积神经网络进行图像语义分割的时候会面临两个问题:
- (1) 下采样导致细节信息的丢失
- (2) CNN的空间不变性。即对于分类任务来说,同一张图片进行空间变化(平移等)不影响最后结果,但对于分割任务来说完全不同。
2. 针对性方案
2.1 空洞卷积解决下采样问题
2.2 Dense/FullyConnected CRF解决空间不变性问题
- μ(xi,yj)\mu(x_i,y_j)μ(xi,yj),label compatibility:指约束力的传导方向,只有相同的label能量才可以互相传导,例如"像素a可能是飞机"、“像素b可能是飞机”、“像素c可能是人”,1和2才可能相互作用[增强或减弱],二者和3并不能互相影响
- 加和项是典型的 权重 X 特征,代表了不同像素之间的亲密度:
km(fi,fj)=ω1exp(−∣∣pi−pj∣∣22σα2−∣∣Ii−Ij∣∣22σβ2)+ω2exp(−∣∣pi−pj∣∣22σγ2)k^m(f_i,f_j)=\omega_1 exp(-\frac{{||p_i-p_j||^2}}{2 \sigma _\alpha ^2}-\frac{{||I_i-I_j||^2}}{2 \sigma _\beta ^2})+\omega_2 exp(-\frac{{||p_i-p_j||^2}}{2 \sigma _\gamma^2})km(fi,fj)=ω1exp(−2σα2∣∣pi−pj∣∣2−2σβ2∣∣Ii−Ij∣∣2)+ω2exp(−2σγ2∣∣pi−pj∣∣2)
2.3 other-多尺度预测
multi-scale prediction将前四个max pooling后分别添加MLP(3x3x128和1x1x128)得到预测结果,将这四个预测结果与模型输出进行拼接(concentrate),多了128x5个channels。
但是多尺度预测的结果不如Dense CRF,模型最后结合二者来进行预测。
3. 模型架构
3.1 对原有VGG-16的调整
- 将全连接层替换为卷积层
- VGG网络中的后两个max pooling去掉(VGG有5个max pooling),也可以将后两个池化层的步长从2变为1,并加padding=1,只进行8x下采样
- 后两个max pooling后的普通卷积层替换为空洞卷积
- 对VGG中的第一个全连接卷积层(核尺寸7*7)使用3x3或者4x4的卷积层来进行替代,这样能够控制感受野,减少计算量(计算时间减少2-3倍)
3.2 其他
- 损失函数使用交叉熵
- 训练数据label:原始Ground Truth进行8x下采样
- 测试数据label:预测结果 双线性插值8x上采样
欢迎扫描二维码关注微信公众号 深度学习与数学 [每天获取免费的大数据、AI等相关的学习资源、经典和最新的深度学习相关的论文研读,算法和其他互联网技能的学习,概率论、线性代数等高等数学知识的回顾]*
图像语义分割(2)-DeepLabV1: 使用深度卷积网络和全连接条件随机场进行图像语义分割相关推荐
- 【CV】DeepLab:使用DCNN、空洞卷积和全连接条件随机场的图像语义分割网络
论文名称:DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Full ...
- Deep Image Prior:深度卷积网络先天就理解自然图像
点击我爱计算机视觉标星,更快获取CVML新技术 昨天分享了文章ICCV 2019 | Adobe 无需大量数据训练,内部学习机制实现更好的视频修补,其中借鉴的Deep Image Prior (DIP ...
- 深度卷积网络CNN与图像语义分割
转载请注明出处: http://xiahouzuoxin.github.io/notes/html/深度卷积网络CNN与图像语义分割.html 级别1:DL快速上手 级别2:从Caffe着手实践 级 ...
- 经典论文复现 | 基于深度卷积网络的图像超分辨率算法
过去几年发表于各大 AI 顶会论文提出的 400 多种算法中,公开算法代码的仅占 6%,其中三分之一的论文作者分享了测试数据,约 54% 的分享包含"伪代码".这是今年 AAAI ...
- JSIS3D:具有多任务点向网络和多值条件随机场的3D点云联合语义-实例分割
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 标题:JSIS3D: Joint Semantic-Instance Segmentation of ...
- 用于视觉识别的深度卷积网络空间金字塔池化方法
摘要 现有的深卷积神经网络(CNN)需要一个固定大小的神经网络(例如224x224)的输入图像.这种要求是"人为的",可能会降低对任意大小/尺度的图像或子图像的识别精度.在这项工作 ...
- (四十七:2021.08.25)《ENCASE:使用专业特征和深度卷积网络相结合来对ECG进行分类》
<ENCASE:使用专业特征和深度卷积网络相结合来对ECG进行分类(ENCASE: an ENsemble ClASsifiEr for ECG Classification Using Exp ...
- 使用Python进行Grad-CAM ++:深度卷积网络的改进视觉解释
在Grad-CAM ++和Guided Grad-CAM ++显著图中,**狗(多个对象)的可视化效果更好(第一行和第二行),并且该类的整个区域都处于局部状态(第三行和第四行),**而Grad-CAM ...
- 【转载】基于深度卷积网络方法的高光谱图像分类
图片来源网络 本期为大家推介的是北京理工大学李伟教授关于高光谱图像分类的深度卷积网络方法的报告-Deep Convolutional Neural Network for Hyperspectral ...
- 吴恩达深度学习笔记11-Course4-Week2【深度卷积网络:实例探究】
深度卷积网络:实例探究 实例探究(Case studies) 为什么要进行实例探究(Why look at case studies?) 从中获得灵感,借鉴一些效果很好的网络来完成自己的任务. 一.经 ...
最新文章
- Django快速开发之投票系统
- tcount在哪个文件里_在cad中tcount快速编号命令怎么用,求教
- OC本学习笔记Foundation框架NSString与NSMutableString
- Istio从懵圈到熟练 – 二分之一活的微服务
- netmiko 记录日志_Pythonnetmiko模块的使用 | 学步园
- 构建高性能ASP.NET站点 第七章 如何解决内存的问题(后篇)—托管资源优化—监常用优化措施...
- 励磁电感公式_ANSYS Maxwell 电感矩阵计算
- python三维图形等高线_python等高线
- Redis数据结构-sds
- C++计算单利与复利
- c#调用企业微信服务端API发送消息和图片
- pdf压缩工具_18MB秒变1MB,最好用的PDF在线压缩工具
- chatbot 资料汇总
- MP4文件批量转码成MP3
- Legacy autograd function with non-static forward method is deprecated
- 论文阅读笔记-GT U-Net: A U-Net Like Group TransformerNetwork for Tooth Root Segmentation
- 翼机通,别让垄断的剑刺向自己
- php 程序发送谷歌邮件
- 2022年春晚京东发15亿红包,摇一摇即可得
- ISO9001内审员需要知道的内容分享
热门文章
- jxl 导入导出Excel(有模板)
- 1. webpack 复制文件
- Mac下开机启动rc.common不生效的问题
- asp.net中使用水晶报表 ---pull
- swift-自定义Alert
- 确定要离开当前页面吗
- Fail to queue the whole FAL gap in dataguard一例
- MySQL对含有中文字符的字段排序
- linux 自动清理var log,Linux 系统 /var/log/journal/ 垃圾日志清理-Fun言
- ubuntu安装ffmpeg_手把手教你利用ffmpeg制作一个好用灵活的图片、视频压缩工具(再不需要去别的网站和用别的软件啦)...