Rich feature hierarchies for accurate object detection and semantic segmentation 阅读笔记

关键词:目标检测(Object Detection);候选区域(Region Proposal);卷积神经网络(Convolutional Neural Network)

目录

Rich feature hierarchies for accurate object detection and semantic segmentation 阅读笔记

1 前人研究成果汇总

2 作者核心贡献

2.1创新性观点

2.2研究思路与方法

2.3 具体实现过程

2.3.1 模型设计

2.3.2 训练部分

3 论文的理解与评价

4 英语单词积累


1 前人研究成果汇总

  1. 过去十几年,主要使用SIFT(scale invariant feature transform)和HOG(histogram of oriented gradients),这两种方法都是基于图像中梯度的方向直方图的特征提取方法。
  2. 之后提出了一种不受位置变化影响的模式识别机制的自组织神经网络模型(Neocognitron),该论文提出了一种用于视觉模式识别的无监督神经网络模型。该网络不受识别对象位置的影响,通过几何相似度的方法完成识别,但是其缺少监督训练算法,鉴于此缺点,学者提出通过反向传播的随机梯度下降法训练卷积神经网络。
  3. 卷积神经网络在1990s被大量使用,之后由于支持向量机的崛起导致其衰落下去,之后Krizhevsky使用CNN在ImageNet上的优异表现重新点燃了CNN。

2 作者核心贡献

2.1创新性观点

(1)   把高容量卷积神经网络自底向上的应用到候选区域以用来定位和分割物体。

(2)   当训练集的标签较少时,进行预训练以及特定区域的微调。

2.2研究思路与方法

作者主要聚焦于两个方面,一是通过深度网络进行物体定位,二是通过一个小规模的标注数据训练一个高容量的模型。

物体定位方面,一种方法是把定位问题看作回归问题,然而实际效果并不好。另一个方法是设计一个滑动窗口探测器,卷积神经网络使用该方法有20年的历史。我们考虑使用滑动窗口探测器来进行定位,但是输入图像有较大的感受野和步长,这使得滑块窗口探测器面临很大的挑战。为了解决这一问题,我们使用候选区域(Region Proposal)算法,通过输入图片产生2000个类别独立的候选区域,使用CNN从每个候选区域分离出固定长度的特征向量,之后使用类别线性分类器(category-specific linear SVMs)进行分类,实现过程如图所示。

数据集标注方面,目前已有的数据集稀缺,可用的数量不足以训练一个大型的CNN网络。传统的解决方法是进行无监督预训练,在此文章中则在一个较大的辅助数据集(ILSVRC)上采用监督预训练,然后在小的数据集(PASCAL)特点区域进行微调。

2.3 具体实现过程

2.3.1 模型设计

候选区域(Region proposals):生成类别独立的候选区域,使用选择性搜索算法“Selective search for object recognition”。

特征提取(Feature extraction):使用caffe框架,根据“ImageNet classification with deep convolutional neural networks”中的卷积神经网络进行特征提取。

训练分类:使用支持向量机进行训练分类。

最终区域选取,我们使用贪婪非极大值抑制法NMS(greedy non-maximum suppression),即对于两个重叠区域,一个区域的得分小于另一个区域,则该区域被丢弃,最终得到单个区域。

2.3.2 训练部分

监督预训练(Supervised pre-training):在ILSVRC 2012进行预训练。

特定区域微调(Domain-specific fine-tuning):用随机初始化的21路分类层替换CNN原先的1000路分类层。

类别分类器(Object category classifiers):通过IoU值大小,对类别进行筛选。

3 论文的理解与评价

该论文重新点燃了利用CNN进行目标检测的火种,它提出了简单、高效的目标检测算法,该算法揭露了监督预训练网络和特征区域微调手段对于目标检测是非常有效的。

但是该算法也有缺点:

  1. 训练对于时间和空间的消耗很大
  2. 目标检测速度较慢
  3. 训练步骤繁琐

4 英语单词积累

high-capacity convolutional neural networks (CNNs) :高容量卷积神经网络

ablation study :模型简化测试(取消掉一些模块后是否影响模型性能)

ground truth:标准答案

bounding box:你的答案

IoU:交并比

NMS(non-maximum suppression):非极大抑制,只保留极大值

SGD(stochastic gradient descent):随机梯度下降

R-CNN 文献阅读相关推荐

  1. 对于CNN的文献阅读和识别手写数字的复现

    摘要 一.文献阅读 1.题目 2.摘要 3.引言 4.CNN模型结构 5.实验过程 6.同GS算法的对比 二.CNN识别手写数字 1.两个性质 2.图像卷积 总结 摘要 在论文方面阅读了基于CNN网络 ...

  2. 【预训练视觉-语言模型文献阅读】VL-BERT: PRE-TRAINING OF GENERIC VISUAL- LINGUISTIC REPRESENTATIONS(ICLR 2020)

    [预训练视觉-语言模型文献阅读]VL-BERT: PRE-TRAINING OF GENERIC VISUAL- LINGUISTIC REPRESENTATIONS(ICLR 2020) 文章目录 ...

  3. 谣言检测文献阅读二—Earlier detection of rumors in online social networks using certainty‑factor‑based convolu

    系列文章目录 谣言检测文献阅读一-A Review on Rumour Prediction and Veracity Assessment in Online Social Network 谣言检测 ...

  4. 谣言检测文献阅读三—The Future of False Information Detection on Social Media:New Perspectives and Trends

    系列文章目录 谣言检测文献阅读一-A Review on Rumour Prediction and Veracity Assessment in Online Social Network 谣言检测 ...

  5. [文献阅读报告]:Take-over Time Prediction for Autonomous Driving in the Real-World: Robust Models, Data Aug

    [文献阅读报告]:Take-over Time Prediction for Autonomous Driving in the Real-World: Robust Models, Data Aug ...

  6. 文献阅读笔记----TieNet: Text-Image Embedding Network

    文献阅读笔记----TieNet: Text-Image Embedding Network for Common Thorax Disease Classification and Reportin ...

  7. 经典文献阅读之--Swin Transformer

    0. 简介 Transfomer最近几年已经霸榜了各个领域,之前我们在<经典文献阅读之–Deformable DETR>这篇博客中对DETR这个系列进行了梳理,但是想着既然写了图像处理领域 ...

  8. 【笔记】文献阅读[SORT]-SIMPLE ONLINE AND REALTIME TRACKING

    SORT: SIMPLE ONLINE AND REALTIME TRACKING 引言 2 文献综述 3 方法 3.1 检测 3.2 评估模型 3.3 数据关联 4 实验 4.1 指标 4.2 性能 ...

  9. 经典文献阅读之--NICE-SLAM(SLAM的神经隐含可扩展编码)

    0. 简介 对于深度学习而言,NeRF一定是最近两年最火的工作之一了,**NeRF(Neural Radiance Fields)**是最早在2020年ECCV会议上的Best Paper,其将隐式表 ...

  10. 【转载】关于文献阅读和科研选题

    本文转载自程明明老师博客:https://mmcheng.net/paperreading/ ‎ 对于论文的阅读和研究脉络的梳理很清晰,特别是在于找研究方向的建议上:从开山文献开始,会到当事人的角度去 ...

最新文章

  1. ios 部分string颜色_ios 设置字符串中某段字符的颜色
  2. 20.Android studio提示Cmake Error executing external native build for cmake...
  3. python有趣代码-一个有意思的 Python 训练项目集
  4. linux usb驱动框架
  5. Mysql数据库基础系列(二):表结构、键值
  6. C++ Primer 5th笔记(chap 16 模板和泛型编程)定义
  7. Django项目--csrf攻击
  8. bellman ford 算法 判断是否存在负环
  9. Vim 配置详解_wuyang
  10. ubuntu下txt文件中文显示乱码的方法【转载】
  11. podman—网络设置、开机自启及加速器配置
  12. rapidxml库生成xml小例子及需注意的问题
  13. mcafee升级包下载地址
  14. 晓日程-首款打通微信和桌面的免费日历应用
  15. 为啥淘宝网,拍拍网上的windows7激…
  16. 一根网线让两台笔记本对拷文件
  17. python二级考试操作题6答案_python二级考试试题6
  18. 网络出口究竟选择防火墙,还是路由器?
  19. FP、FN、TP、TN、精确率(Precision)、召回率(Recall)、准确率(Accuracy)是什么意思
  20. Linux 入门基本操作

热门文章

  1. 黄金配角吴孟达去世,他用二百多部影片见证了香港电影的辉煌和衰落……
  2. 年休假的工作年限如何确认和计算?
  3. java用for循环打印心形_怎么用for循环打出爱心
  4. 供应链管理(SCM)、牛鞭效应和供应商管理库存(VMI)的业务研究 - 1
  5. 【java8】自定义Spliterator
  6. Sketch n Cartoonize for mac(照片卡通化素描化编辑工具)
  7. unicode转码方法
  8. 11-k8s结合Metrics-Server实现自动伸缩
  9. 中国最佳创业投资机构TOP10
  10. C语言编程 5.3 任意输入三角形的三边长为a,b,c,编程判断能否构成三角形,若能,计算输出三角形的面积,否则输出不能构成三角形。