来自:博文视点Broadview

自从深度学习被应用到计算机视觉领域,目标检测算法在短时间内有了很大的进步,甚至有人为了抢个车位用上了Mask R-CNN进行自动检测

能有这样的神仙操作,多亏了Mask R-CNN在物体检测中能得到像素级别的检测结果。Mask R-CNN能够对每一个目标物体,不仅给出其边界框,并且对边界框内的各个像素是否属于该物体进行标记!

本文选自《深度学习与目标检测》一书,带我们一同来了解一下这个神奇的Mask R-CNN~

2017年,Kaiming He等人提出了针对实例分割(instance segmentation)的Mask R-CNN模型[1],将Mask R-CNN看成在Faster R-CNN基础上进行的扩展,在其已有的基于边界框识别的分支上添加了一个并行的用于预测目标掩码的分支,以完成实例分割任务

实例分割简介

语义分割(semantic segmentation)通常是在像素级别上进行的,用于标注不同的类别。

例如,在自动驾驶项目中,一个类别可能是指行人、车辆、广告牌或者其他模型需要识别的类别。模型通过学习,最终会形成对行人、车辆、广告牌等不同类别的划分标准。但是,若仅进行语义分割,有时会出现问题,如图。

语义分割

上图是一幅标注得很精确的语义分割图片,不仅不同类别之间的边界清晰,而且分类准确。但是,图中所有的车都被标注成“车”这个类别(因为图片上的车之间有重叠,所以有些算法在理解这个信息时就会遇到问题)。毕竟这不是一辆长度为一个街区长度的履带式车辆,而是一系列前后排列的、单独停在路边的车辆。

语义分割只能区分不同的类别,但不能区分不同的实例(两辆车虽为同一类别,但它们作为不同实例的区别并不能在语义分割中体现)。

这时,实例分割的意义就显现出来了。实例分割可以作为目标检测与语义分割的结合,它不仅能在图像中正确地将目标检测出来,还能对每个目标实例进行精准的分割,效果如图。

实例分割

实例分割是在语义分割的基础上对不同的实例进行逐像素的分割。

与语义分割相比,实例分割对属于同一个类别的不同目标实例进行了区分。这样的标注更容易让自动驾驶车辆模型取得满意的结果。尽管基于实例的标注会花费较长的时间,但是对企业级的标注项目而言,可以通过这个细微的变化大幅提升精确度,进而得到更优秀的算法。

COCO数据集的像素级标注

Mask R-CNN的训练是在COCO数据集上进行的。

在COCO数据集的目标检测任务中,检测结果的保存格式有两种:一种是使用一个2D边界框来定位图像中不同的目标(在对定位精度要求较高的应用中显得有些粗糙);另一种是逐像素对目标进行分割(相应地,图像中的每个像素都会被标注出来)。尽管不同的标注方式来源于不同的项目需求,但近年来对像素级别的实例分割的需求正在增加。

COCO数据集逐像素分割的总体思路是:提供每一个目标实例在整幅图像的每个像素上的分割掩码(segmentation mask),用1和0区分目标和背景,掩码的像素级标签使用行程长度编码(run-length encoding,RLE)机制。RLE是一种简单、高效的二进制掩码储存格式。RLE首先将向量(或者向量化的图像)划分为一系列分段的连续区域,对每个区域储存其长度。例如,当 M=[0 0 1 1 1 0 1]时,其RLE计数为 [2 3 1 1],而当 M=[1 1 1 1 1 1 0]  时,其RLE计数为 [0 6 1]。RLE 计数的奇数位置上表示的总是0的数量。


[1]K. He, G. Gkioxari, P. Dollar, et al. Mask R-CNN. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, PP(99):1-1. 


曾因「抢车位」出圈儿,神奇的Mask R-CNN了解一下?相关推荐

  1. 【赠书】曾因「抢车位」出圈儿,神奇的Mask R-CNN了解一下?

    (给机器学习算法与Python学习加星标,提升AI技能) 来自:博文视点Broadview 上次送书活动([赠书]有图有真相--图神经网络到底是什么?)中奖的5位小伙伴在5月10号开始为大家邮寄了,大 ...

  2. 超像素分割算法matlab_像素不够,算法来凑。这个图像超分辨率项目帮你「拍」出高清照片...

    ​图像超分辨率是指由一幅低分辨率图像或图像序列恢复出高分辨率图像.图像超分辨率技术分为超分辨率复原和超分辨率重建.一位 Reddit 网友贴出了自己基于 Keras 的图像超分辨率项目,可以让照片放大 ...

  3. 科创人·知乎CTO李大海:技术服务内容、商业化依赖内容,曾被「呵呵」难到挠头

    李大海 知乎合伙人兼CTO 2006年,毕业于北京大学数学科学学院数学系,先后供职于谷歌.云云网和豌豆荚.加盟知乎后,李大海先后负责过广告技术团队.数据.算法和整体社区业务,目前统筹负责知乎大数据团队 ...

  4. 70 岁演 20 岁的自己,好莱坞「回春」特效是怎么做到的?

    场景描述:老演员们,如何在银幕上出演年轻的自己,是电影行业面临的一大难题.但现在依靠一些数字技术手段,尤其是 AI 等方式的加入,能够完成令人惊喜的减龄特效制作.但这些制作中,技术带来的进步和不足也逐 ...

  5. 初识「零知识」与「证明」

    副标题:探索零知识证明系列(一) 作者:郭宇 本文已更新至Github: https://github.com/sec-bit/learning-zkp/blob/master/zkp-intro/1 ...

  6. 人民创意联合《国家人文历史》独家首发「诗经」端午主题数字藏品

    利用数字技术开展文物保护.文化传承在全世界已经成为了一股强劲的浪潮.中共中央办公厅.国务院办公厅近日印发的<关于推进实施国家文化数字化战略的意见>中提出,到"十四五"时 ...

  7. 细思极恐!GPT-4太强,发明者们也不懂!智能到底是怎么突然「涌现」的?

    本文来源  新智元   编辑:LRS [新智元导读]不可解释的智能,未来该如何发展? 2023年至今,ChatGPT和GPT-4始终霸占在热搜榜上,一方面外行人都在惊叹于AI怎么突然如此强大,会不会革 ...

  8. 李想的理想 IPO :新造车「异类」背后的思考

    攀登新造车领域的过程中,李想偏执的「凿」出了一条全新的路.在超级务实的战略之下,我们看到了一个更接近「原子」层面的思考和战略. 今天凌晨,理想汽车正式向美国证监会提交首次公开募股(IPO)文件,股票代 ...

  9. AI「干掉」程序员后,又对艺术家下手了

    几十年前,柯达说出了那句经典的广告语,「你负责按快门,剩下的交给我们」.在未来,AI 兴许也会打起类似的广告,「你什么都不用干,剩下的交给我们」. 人工智能领域缺钱,但这两个月来,他们不缺「好消息」. ...

最新文章

  1. 二:serverless网站数据库操作
  2. angular核心原理解析3:指令的执行过程
  3. idea alt+insert快捷键中implement
  4. [Swift]LeetCode781. 森林中的兔子 | Rabbits in Forest
  5. TCP/IP / 三次握手之状态转换图和原因
  6. jQuery浏览器版本判断
  7. 技本功丨知否知否,Redux源码竟如此意味深长(下集)
  8. c51单片机led奇数偶数亮_两STM32单片机串口通讯实验
  9. js 获取中括号里面字符串_西门子SCL编程入门教程连载(18)——字符串
  10. unknown error: Chrome failed to start: crashed 解决方法
  11. __proto__VS。 JavaScript原型
  12. Bailian4097 报站【暴力】
  13. C语言编程比赛WBS
  14. fenking是什么意思?
  15. C2P工业云进销存管理有什么优势?
  16. python 单词拆音节_基于Trie树进行拆分字符串变成拼音音节(一):构建拼音音节模型...
  17. C语言小技巧之如何求平均数
  18. [Erlang危机](3.2)限制输入
  19. 智能科学与技术是不是属于计算机专业,智能科学与技术专业属于什么类别
  20. 武林外传之同福奇缘 【安卓游戏】

热门文章

  1. 利用BP神经网络教计算机识别语音特征信号(代码部分SLR)
  2. iPhone 隐私新规下的“大地震”:四大平台损失近百亿美元,“连用户是男是女都分不清……”
  3. 腾讯汤道生:数实融合成为行业“必答题”,腾讯未来打造四大引擎
  4. 「AI 质检员」在富士通上岗,效率比人工高 25%
  5. GPT2文本生成有问题?这里有些潜在解决思路
  6. 多模态人物识别技术及其在爱奇艺视频场景中的应用 | 公开课笔记
  7. 未来之城,管理者可能不是人......
  8. 在图数据上做机器学习,应该从哪个点切入?
  9. 机器学习的门槛再度降低,AI小白如何用5分钟搞定建模?
  10. 不服来战!多伦多大学教授500美元挑战整个机器学习圈子