论文原文：	https://openaccess.thecvf.com/content_cvpr_2014/papers/Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf
代码：	GitHub - rbgirshick/rcnn: R-CNN: Regions with Convolutional Neural Network Features

标记意义
test	个人的理解
test	本段重点
test	本段次重点
test	不太懂的翻译
test(加粗)	重点关注文本

Rich feature hierarchies for accurate object detection and semantic segmentation

Abstract
1. Introduction
2. Object detection with R-CNN
        2.1. Module design
        2.2. Test-time detection
        2.3. Training
        2.4. Results on PASCAL VOC 2010-12
3. Visualization, ablation, and modes of error
        3.1. Visualizing learned features
        3.2. Ablation studies
        3.3. Detection error analysis
        3.4. Bounding box regression
4. Semantic segmentation
5. Conclusion
References

Rich feature hierarchies for accurate object detection and semantic segmentation

作者：Ross Girshick1 Jeff Donahue1;2 Trevor Darrell1;2 Jitendra Malik1
1UC Berkeley and 2ICSI

译者：I will，Sichuan University

Abstract

在标准PASCAL VOC数据集上测量的对象检测性能在过去几年已经趋于稳定。性能最好的方法是复杂的集成系统，通常将多个低级图像特征与高级上下文结合起来。在本文中，我们提出了一种简单且可扩展的检测算法，相对于VOC 2012年之前的最佳结果，将平均平均精度(mAP)提高了30%以上，达到53.3%。我们的方法结合了两个关键观点: (1)可以将高容量卷积神经网络(cnn)应用于自下而上的区域建议，以定位和分割对象; 和(2)当标记训练数据稀缺时，对辅助任务进行有监督的预训练，然后进行特定领域的微调，可以显著提高性能。因为我们将区域建议与cnn结合在一起，所以我们将方法称为R-CNN: Regions with CNN feature。我们还展示了一些实验，这些实验提供了对网络学习内容的深入了解，揭示了图像特征的丰富层次结构。完整系统的源代码可以在下面的网址找到：http://www.cs.berkeley.edu/˜rbg/rcnn

1. Introduction

特征问题。过去十年在各种视觉识别任务上的进展在很大程度上是基于SIFT[26]和HOG[7]的使用。但如果我们看看经典视觉识别任务的表现，PASCAL VOC对象检测[12]，人们普遍认为在2010-2012年期间进展缓慢，只是通过构建集成系统和采用成功方法的微小变体获得了少量收益。

SIFT和HOG是块方向直方图，我们可以将其大致与V1中的复杂细胞联系起来，V1是灵长类视觉通路的第一个皮层区域。但我们也知道，识别发生在下游的几个阶段，这表明计算特征可能存在分层的、多阶段的过程，这些过程对视觉识别来说更有信息量。

Fukushima 的“neocognitron”[16]，一个生物学启发的用于模式识别的分层和平移不变模型，就是这种过程的早期尝试。然而，neocognitron缺乏有监督的训练算法。LeCun 等人[23]通过展示随机梯度下降，其通过反向传播可以训练卷积神经网络(cnn)，cnn是一类扩展neocognitron的模型，提供了缺失的算法。

cnn在20世纪90年代被大量使用(例如[24])，但随着支持向量机的兴起，它就不再流行了，尤其是在计算机视觉领域。2012年，Krizhevsky等人[22]通过在 ImageNet Large Scale Visual Recognition Challenge (ILSVRC) [9,10]上显示出更高的图像分类精度，重新点燃了人们对cnn的兴趣。他们的成功源于在120万张标记图像上训练了一个大型CNN，以及在LeCun的CNN上进行了一些改进(例如，max(x;0)非线性修正和“Dropout”正规化)。

在ILSVRC 2012研讨会上，人们对ImageNet结果的重要性进行了激烈的讨论。核心问题可以提炼为以下内容: ImageNet上的CNN分类结果在多大程度上可以推广到PASCAL VOC挑战上的对象检测结果 ?

我们通过弥合图像分类和物体检测之间的鸿沟，果断地回答了这个问题。这篇论文第一次证明了与基于更简单的类HOG特征的系统相比，CNN可以在 PASCAL VOC 上有更高的目标检测性能。实现这一结果需要解决两个问题: 用深度网络定位目标，以及用少量注释检测数据训练大容量模型。

与图像分类不同，检测需要对图像中的对象进行定位(可能有很多)。一种方法将定位定义为回归问题。然而，Szegedy等人[31]和我们自己的研究表明，这一策略在实践中可能效果不佳(他们报告了2007年VOC的mAP为30.5%，我们的方法为58.5%)。另一种方法是构建一个滑动窗口检测器。cnn已经以这种方式使用了至少20年，通常用于受约束的对象类别，如人脸[28,33]和行人[29]。为了保持较高的空间分辨率，这些cnn通常只有两个卷积层和池化层。我们也考虑过采用滑动窗口方法。然而，在我们的网络中，它有五个卷积层，在输入图像中有非常大的感受野(195 × 195像素)和stride (32×32像素)，这使得在滑动窗口范例中的精确定位成为一个公开的技术挑战。

然而，我们通过在“使用区域识别”范式来解决CNN定位问题，正如Gu等人在[18]中所主张的那样。在测试时，我们的方法为输入图像生成大约2000个类别独立的提议区域，使用CNN从每个建议中提取固定长度的特征向量，然后使用类别特定的线性支持向量机对每个区域进行分类。我们使用一种简单的技术(仿射图像扭曲)从每个区域建议中计算固定大小的CNN输入，而不考虑区域的形状。图1展示了我们的方法的概述，并突出显示了我们的一些结果。由于我们的系统结合了区域建议和CNN，我们将该方法命名为R-CNN: Regions with CNN features [带有CNN特征的区域]。

Figure 1: Object detection system overview. 我们的系统(1)获取一个输入图像，(2)提取大约2000个自下而上的区域建议，(3)使用大型卷积神经网络(CNN)计算每个建议的特征，然后(4)使用特定类别的线性支持向量机对每个区域进行分类。R-CNN在PASCAL VOC 2010上实现了53.7%的平均精度(mAP)。为了进行比较，[32]使用相同的区域提议，报告了35.1%的mAP，但使用了空间金字塔和bag-of-visual-words 方法。流行的 deformable 模型的性能为33.4%。

检测中面临的第二个挑战是标记数据稀缺，目前可用的数量不足以训练一个大型CNN。这个问题的传统解决方案是使用无监督的预训练，然后紧接着用有监督的微调(例如[29])。本文的第二个主要贡献是表明，在大型辅助数据集(ILSVRC)上进行有监督的预训练，然后在小型数据集(PASCAL)上进行特定领域的微调，是在数据稀缺时学习高容量cnn的有效范例。在我们的实验中，用于检测的微调将mAP性能提高了8个百分点。经过微调，我们的系统在VOC 2010上的mAP达到54% ，比较之下，高调优的，基于HOG的deformable模型(DPM)为33%[14,17]。

我们的系统也相当的高率。仅有特定类的计算是一个相当小的矩阵向量积和贪婪的非极大值抑制。这种计算属性来自于所有类别共享的特征，并且比以前使用的区域特征低两个数量级(cf.[32])。

类HOG特征的一个优点是它们的简单性:更容易理解它们所携带的信息(尽管[34]表明我们的直觉可能会让我们失望)。我们能深入了解CNN学习到的表征吗? 也许，拥有超过5400万个参数的密集连接层才是关键? 事实并非如此。我们对CNN进行“lobotomized”，并发现其参数的一个惊人的大比例(94%)可以被去除，而检测精度只有适度的下降。相反，通过探测网络中的单元，我们看到卷积层学习了一组丰富的特征(图3)。

理解我们的方法的失效模式对于改进它也是至关重要的，因此我们报告了来自Hoiem等人的检测分析工具的结果。作为这一分析的直接结果，我们证明了一个简单的边界框回归方法显著减少了错误定位，这是主要的误差模式。

在开发技术细节之前，我们注意到，因为R-CNN操作区域，所以很自然地将其扩展到语义分割任务。经过微小的修改，我们也在PASCAL VOC分割任务上获得了最先进的结果，在VOC 2011测试集上的平均分割精度为47.9%。

2. Object detection with R-CNN

我们的目标检测系统由三个模块组成。第一个生成与类别无关的区域建议。这些建议定义了检测器可用的候选检测集。第二个模块是一个大型卷积神经网络，从每个区域提取一个固定长度的特征向量。第三个模块是一组特定类别的线性支持向量机。在本节中，我们将介绍每个模块的设计决策，描述它们的测试时使用情况，详细说明如何学习它们的参数，并显示其在PASCAL voc 2010-12上的结果。

2.1. Module design

Region proposals. 最近的许多论文提供了生成类别无关的建议区域的方法。例如: objectness[1]，selective search[32]，category-independent object proposals[11]，constrained
parametric min-cuts (CPMC)[5]，multi-scale combinatorial grouping[3]，还有Cires an等人[6]，他们通过将CNN应用于规则间隔的方形作物来检测有丝分裂细胞，这是区域建议的特殊情况。虽然R-CNN对特定区域的建议方法不可知，但我们使用选择性搜索来实现与先前检测工作的控制比较。

Feature extraction. 我们使用Krizhevsky等人描述CNN的Caffe[21]实现从每个区域提案中提取4096维特征向量。通过5个卷积层和2个全连接层前向传播一个平均值减去227 × 227的 RGB图像来计算特征。我们建议读者参考[21,22]以获得更多的网络架构细节。

为了计算区域建议的特征，我们必须首先将该区域的图像数据转换为与CNN兼容的形式(其架构要求输入固定的227 × 227像素大小)。在任意形状区域的许多可能的变换中，我们选择最简单的。不管候选区域的大小或纵横比如何，我们将其周围的紧密包围框中的所有像素扭曲为所需的大小。在进行扭曲之前，我们将紧边界框进行扩张，以便在扭曲的大小下，原始框周围有恰好p个扭曲图像上下文像素(我们使用p = 16)。图2显示了扭曲训练区域的随机抽样。图2显示了扭曲训练区域的随机抽样。补充材料讨论了经络的替代方案。

2.2. Test-time detection

在测试时，我们对测试图像进行选择性搜索，以提取大约2000个区域建议(我们在所有实验中使用选择性搜索的“快速模式”)。然后，对于每个类，我们对每个提取的特征向量使用为这个类训练的SVM。给定图像中的所有得分区域，我们应用贪婪的非最大抑制(对于每个独立的类)，如果一个区域与一个大于学习阈值的更高得分选择区域有交叉-联合(IoU)重叠，则拒绝该区域。

Run-time analysis. 有两个特性使检测变得高效。首先，所有CNN参数在所有类别中共享[我的理解是：提取所有提议区域的CNN网络是同一个]。其次，与其他常用方法相比，CNN计算的特征向量是低维的，例如带有bag-of-visual-word encodings 的空间金字塔。例如，UVA检测系统[32]所采用的特征比我们的大两个数量级(360k vs. 4k维)。

这种共享的结果是，花费在计算区域建议和特征上的时间(GPU上的13s/图像或CPU上的53s/图像)被摊销到所有类上。唯一特定类[应该是提议区域的类别]的计算是特征与SVM权重和非最大抑制之间的点积。在实践中，图像的所有点积都被批处理为单个矩阵-矩阵积。特征矩阵通常是2000×4096, SVM权重矩阵是4096×N，其中N是类的数量。

这一分析表明R-CNN可以扩展到数千个对象类，而无需求助于近似技术，如哈希。即使有100k个类，在现代多核CPU上，得到的矩阵乘法只需要10秒。这种效率不仅仅是使用区域建议和共享特性的结果。由于UVA系统的高维特性，它的速度会慢两个数量级，仅存储100k线性预测器就需要134GB的内存，而我们的低维特征只需要1.5GB。

将R-CNN与Dean等人最近使用dpm和哈希[8]进行可伸缩检测的工作进行对比也很有趣。他们报告说，当引入10k干扰类时，在每张图像5分钟的运行时间内，在VOC 2007的mAP约为16%。使用我们的方法，10k个类别的检测器可以在CPU上运行大约一分钟，并且由于没有进行近似，mAP将保持在59%(章节3.2)。

2.3. Training

Supervised pre-training. 我们在一个大型辅助数据集(ILSVRC 2012)上使用图像级标注(即，没有边界框标签)对CNN进行有区别的预训练。使用开源Caffe CNN库[21]进行预训练。简而言之，我们的CNN在ILSVRC 2012验证集上，几乎与Krizhevsky[22]的性能相匹配且高2.2个百分点，获得了top-1的错误率。

Domain-specific fine-tuning. 为了使我们的CNN适应新的任务(检测)和新的域(扭曲的VOC窗口)，我们继续使用来自VOC的扭曲区域提议对CNN参数进行随机梯度下降(SGD)训练。除了将CNN的 ImageNet特有的1000路分类层替换为带有随机初始化的21路分类层(用于20个VOC类加上背景)，其他CNN架构不变。我们将所有与标注框的IoU≥0.5的区域提案框视为正类，其余为阴类。我们以0.001的学习速率(初始训练前速率的1/10)开始SGD，这允许微调取得进展，同时不会破坏初始化。在每次SGD迭代中，我们统一采样32个正窗口(所有类)和96个背景窗口来构造一个大小为128的小批量。我们倾向于正窗口的抽样，因为与背景相比，它们是极其罕见的。

Object category classifiers. 考虑训练一个二进制分类器来检测汽车。很明显，一个紧密包围汽车的图像区域应该是一个正样本。同样，很明显，与汽车无关的背景区域应该是一个负样本。不太清楚的是，如何标注与汽车部分重叠的区域。我们通过设定IoU重叠阈值来解决这一问题，低于该阈值的区域被定义为负值。重叠阈值为0.3，是通过对在验证集上进行网格搜索{0,0.1,...,0.5}来选择的。我们发现，仔细选择这个阈值是很重要的。将其设置为0.5，如[32]，mAP将减少5个点。类似地，将其设置为0会使mAP减少4个点。正样本被简单地定义为每个类的ground-truth bounding boxes。

一旦特征提取和训练标签应用，我们优化每个类的线性SVM。由于训练数据太大，无法装入内存，我们采用标准的硬负挖掘方法[14,30]。硬负挖掘收敛得很快，在实践中，mAP在只经过一次所有图像后就停止增加。

在补充材料中，我们讨论了为什么在微调和SVM训练中，正负样本定义不同。我们还讨论了为什么需要训练检测分类器，而不是简单地使用经过微调的CNN的最后一层(fc8)的输出。

2.4. Results on PASCAL VOC 2010-12

遵循PASCAL VOC最佳实践[12]，我们在VOC 2007数据集上验证了所有的设计决策和超参数(章节3.2)。对于在VOC 2010-12数据集上的最终结果，我们在VOC 2012 train上微调了CNN，并在VOC 2012 trainval 优化了我们的检测支持向量机。对于两种主要的算法变体(包含和不包含边界盒回归)，我们只向评估服务器提交一次测试结果。

表1显示了在VOC 2010上的完整结果。我们将我们的方法与四个强基线进行比较，包括SegDPM[15]，它将DPM检测器与语义分割系统[4]的输出结合起来，并使用额外的检测器之间的上下文和图像分类器重新记录。最相关的比较是Ujlings等人[32]的UVA系统，因为我们的系统采用了相同的区域提议算法。为了对区域进行分类，他们的方法构建了一个四级空间金字塔，并用densely sampled SIFT, Extended OpponentSIFT, 和 RGBSIFT descriptors填充它，每个向量都用4000字的码本量化。使用直方图交集核支持向量机进行分类。与他们的多特征、非线性核支持向量机方法相比，我们在mAP上实现了很大的改进，mAP从35.1%提高到53.7%，同时速度也快得多(第2.2节)。我们的方法在VOC 2011/12测试中达到了类似的性能(53.3% mAP)。

3. Visualization, ablation, and modes of error

3.1. Visualizing learned features

第一层滤波器可以直接可视化且容易理解[22]。它们捕捉方向边缘和差异较大的颜色。理解后面的层更具挑战性。Zeiler和Fergus在[36]中提出了一种视觉上吸引人的反卷积方法。我们提出一个简单的(以及互补的)非参数方法，直接显示网络学习到的内容。

其思想是在网络中挑出一个特定的单元(特征)，并将其作为自己的对象检测器使用。也就是说，我们在一个大的保留区域提案集(大约1000万个)上计算选定单元的激活，按照激活度对区域提议从最高到最低进行排序，执行非最大抑制，然后显示得分最高的区域。我们的方法让选定的单元“为自己说话”，准确地显示它触发哪些输入。我们避免求平均值是为了看到不同的视觉模式，并深入了解单元计算的不变性。

我们可视化来自层pool5，这是网络的第五层也是最后一层的maxpooled输出。pool5特征图谱为6 × 6 × 256 = 9216维。忽略边界效应，每个pool5单元在原始的227×227像素输入中都有一个195×195像素的感受野。中央的pool5单元具有近乎全局的视图，而靠近边缘的pool5单元具有较小的剪切支撑。

图3中的每一行显示了来自CNN的pool5单元的前16个激活，这些CNN是我们根据VOC 2007 trainval进行微调的。256个功能独特的单元中的6个被可视化(补充材料包括更多)。这些单元被选中来展示网络学习的代表性样本。在第二行中，我们看到一个单元[模型中的一部分]主要是针对狗的面部和点数组。第三行对应的单元是红色斑点探测器。还有针对人脸和更抽象的图案(如文本和带窗口的三角形结构)的探测器。该网络似乎学习了一种表示，该表示将少量的类调优特征与形状、纹理、颜色和材料属性的分布式表示结合在一起。随后的全连接层fc6具有建模这些丰富特征的大量组合的能力。

Figure 3: Top regions for six pool5 units. 感受野和激活值被绘制在白色框中。一些单元与概念对齐，例如人(第1行都是人)或文本(第4行都是文本)。其他单元捕捉纹理和材料属性，如点阵列(2)和镜面反射(6)。

3.2. Ablation studies

Performance layer-by-layer, without fine-tuning. 为了了解哪些层对检测性能至关重要，我们在VOC 2007数据集上分析了CNN的最后三层的每个层的结果。pool5层在3.1节中有简要介绍。最后两层总结如下。

fc6层与pool5层全连接。为了计算特征，它将4096×9216权重矩阵乘以pool5特征图谱(相乘之前特征图谱被重新塑造为9216维向量)，然后添加一个偏差向量。这个中间矢量是按分量整流的半波整流(x <-- max(0;x))[这里其实就是将特征展平之后接全连接层后激活]。

fc7层是网络的最后一层。它是通过将fc6计算的特征乘以一个4096 × 4096权重矩阵[全连接层的计算过程]，同时加入偏置向量，应用半波整流[激活函数]实现的。

我们首先查看未经PASCAL微调的CNN结果，即所有CNN参数仅在ILSVRC 2012上进行预训练。逐层分析性能(表2第1-3行)表明，fc7生成的特征比fc6的特征泛化性更差。这意味着可以在不降低mAP的情况下删除29%(约1680万)的CNN参数。更令人惊讶的是，去除fc7和fc6会产生相当好的结果，即使pool5特征只使用CNN参数的6%来计算。CNN的大部分代表性力量来自它的卷积层，而不是来自更大的密集连接层。这一发现表明，仅使用CNN的卷积层，就可以计算任意大小图像的密集特征图。这表示可以在pool5特征之上使用滑动窗口检测器(包括DPM)进行实验。

Performance layer-by-layer, with fine-tuning. 我们现在看看CNN训练的参数在 VOC 2007 trainval 数据集上进行微调后的结果。改善是惊人的(表2行4-6): 微调将mAP提高了8.0个百分点，达到54.2%。fc6和fc7的微调带来的提升要比pool5大得多，这表明从ImageNet学习到的pool5特征是一般的，大部分改进是通过学习它们之上的特定领域的非线性分类器获得的。

Table 2: Detection average precision (%) on VOC 2007 test. 第1-3行显示未经微调的R-CNN性能。行4-6显示了CNN在ILSVRC 2012上预训练然后在VOC 2007训练上进行微调(FT)的结果。第7行包括一个简单的边界盒回归(BB)阶段，减少了定位误差(章节3.4)。第8-10行将DPM方法作为一个强基线。第一个只使用HOG，而接下来的两个使用不同的特征学习方法来增强或取代HOG。

Comparison to recent feature learning methods. 在PASCAL VOC检测中尝试的特征学习方法相对较少。我们看看最近建立在 deformable模型上的两种方法。作为参考，我们还包括标准的基于HOG的DPM[17]的结果。

第一种DPM特征学习方法DPM ST[25]，用“sketch token”的概率直方图来增强HOG特征。直观地说，sketch token 是通过图像补丁中心的轮廓的紧密分布。sketch token 概率由随机森林在每个像素上计算，该森林经过训练，将35×35像素补丁分类为150个sketch token 或背景中的一个。

The second method, DPM HSC [27], replaces HOG with histograms of sparse codes (HSC). To compute an HSC, sparse code activations are solved for at each pixel using a learned dictionary of 100 7 × 7 pixel (grayscale) atoms. The resulting activations are rectified in three ways (full and both half-waves), spatially pooled, unit ‘2 normalized, and then power transformed (x sign(x)jxjα). All R-CNN variants strongly outperform the three DPM baselines (Table 2 rows 8-10), including the two that use feature learning. Compared to the latest version of DPM, which uses only HOG features, our mAP is more than 20 percentage points higher: 54.2% vs. 33.7%—a 61% relative improvement. The combination of HOG and sketch tokens yields 2.5 mAP points over HOG alone, while HSC improves over HOG by 4 mAP points (when compared internally to their private DPM baselines—both use nonpublic implementations of DPM that underperform the open source version [17]). These methods achieve mAPs of 29.1% and 34.3%, respectively.[这段对比了一些以前的特征学习法，不重要。直接略过]

3.3. Detection error analysis

我们应用了来自的优秀检测分析工具Hoiem等人[20]为了揭示我们的方法的错误模式，了解微调如何改变它们，并且看看我们的错误类型和DPM的比较。

分析工具的完整摘要超出了本文的范围，我们鼓励读者参考[20]以了解一些更详细的细节(例如“标准化AP”)。由于分析最好是在相关图的上下文中进行，所以我们在图4和图5的标题中进行讨论。

Figure 4: Distribution of top-ranked false positive (FP) types. 每幅图都显示了FP类型随FPs数量的增加而变化的分布情况。每个FP被分为4种类型中的1种:Loc-poor localization(检测到IoU与正确类别在0.1到0.5之间重叠，或重复); sim-与类似类别的混淆; Oth-与不同对象类别[不类似的类别]的混淆; bg -个分类为背景的FP。与DPM(见[20])相比，我们的错误明显更多是由于定位不良，而不是与背景或其他对象类混淆，这表明CNN特征比HOG更具鉴别性。松散的定位可能是由于我们使用了自下而上的区域建议和从CNN进行全图像分类的预训练中学习到的位置不变性。第三列展示了我们的简单边界盒回归方法如何修复许多定位错误。

3.4. Bounding box regression

在误差分析的基础上，我们实现了一种简单的减小定位误差的方法[因为选择性搜索出来的区域和实际图像中对象区域肯定有出入，所以需要精修一下位置]。受DPM[14]中使用的边界盒回归的启发，我们训练一个线性回归模型来预测一个新的检测窗口，为选择性搜索区域提议提供pool5特征。详细情况见补充材料。表1、表2和图4中的结果表明，这种简单的方法修复了大量的错误定位检测，将mAP提高了3到4个点。

4. Semantic segmentation

本节主要介绍了R-CNN在分割上的效果，略。

5. Conclusion

近年来，目标检测性能停滞不前。表现最好的系统是将多个低级图像特征与来自物体检测器和场景分类器的高级上下文相结合的复杂集成。本文提出了一种简单且可扩展的对象检测算法，该算法相对于PASCAL VOC 2012上的最佳结果提高了30%。

我们通过两个方法实现了这一成果。第一种是将大容量卷积神经网络应用于自底向上的区域建议，以定位和分割对象。第二种是在标记训练数据稀缺时训练大型cnn的范例。我们证明，对于具有丰富数据的辅助任务(图像分类)，带监督的预训练网络是非常有效的，然后针对数据稀缺的目标任务(检测)对网络进行微调。我们推测，“有监督的预训练/特定领域的微调”范式将对各种数据稀缺的视觉问题非常有效。最后，我们指出，通过结合使用计算机视觉和深度学习(自底向上区域建议和卷积神经网络)的经典工具，我们获得了这些结果，这是非常重要的。这两者并不是科学探究的对立路线，而是天然的、不可避免的伙伴。

Acknowledgments. 这项研究得到了DARPA Mind 's Eye和MSEE项目的部分支持，得到了国家科学基金会IIS-0905647、IIS-1134072和IIS-1212798的资助，还有MURI N000014-10-1-0933，并得到丰田的支持。本研究中使用的图形处理器由NVIDIA公司慷慨捐赠。

References

B. Alexe, T. Deselaers, and V. Ferrari. Measuring the objectness of image windows. TPAMI, 2012.
P. Arbelaez, B. Hariharan, C. Gu, S. Gupta, L. Bourdev, and J. Malik. Semantic segmentation using regions and parts. In CVPR, 2012.
P. Arbelaez, J. Pont-Tuset, J. Barron, F. Marques, and J. Malik. Mul-tiscale combinatorial grouping. In CVPR, 2014.
J. Carreira, R. Caseiro, J. Batista, and C. Sminchisescu. Semantic segmentation with second-order pooling. In ECCV, 2012.
J. Carreira and C. Sminchisescu. CPMC: Automatic object segmentation using constrained parametric min-cuts. TPAMI, 2012.
D. Cires¸an, A. Giusti, L. Gambardella, and J. Schmidhuber. Mitosis detection in breast cancer histology images with deep neural networks. In MICCAI, 2013.
N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. In CVPR, 2005.
T. Dean, M. A. Ruzon, M. Segal, J. Shlens, S. Vijayanarasimhan, and J. Yagnik. Fast, accurate detection of 100,000 object classes on a single machine. In CVPR, 2013.
J. Deng, A. Berg, S. Satheesh, H. Su, A. Khosla, and L. Fei-Fei. ImageNet Large Scale Visual Recognition Competition 2012 (ILSVRC2012). http://www.image-net.org/challenges/LSVRC/2012/.
J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. ImageNet: A large-scale hierarchical image database. In CVPR, 2009.
I. Endres and D. Hoiem. Category independent object proposals. In ECCV, 2010.
M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman. The PASCAL Visual Object Classes (VOC) Challenge.IJCV, 2010.
C. Farabet, C. Couprie, L. Najman, and Y. LeCun. Learning hierarchical features for scene labeling. TPAMI, 2013.
P. Felzenszwalb, R. Girshick, D. McAllester, and D. Ramanan. Object detection with discriminatively trained part based models.TPAMI, 2010.
S. Fidler, R. Mottaghi, A. Yuille, and R. Urtasun. Bottom-up segmentation for top-down detection. In CVPR, 2013.
K. Fukushima. Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position. Biological cybernetics, 36(4):193–202, 1980.
R. Girshick, P. Felzenszwalb, and D. McAllester. Discriminatively trained deformable part models, release 5. http://www.cs.berkeley.edu/˜rbg/latent-v5/.
C. Gu, J. J. Lim, P. Arbelaez, and J. Malik. Recognition using regions. In CVPR, 2009.
B. Hariharan, P. Arbelaez, L. Bourdev, S. Maji, and J. Malik. Semantic contours from inverse detectors. In ICCV, 2011.
D. Hoiem, Y. Chodpathumwan, and Q. Dai. Diagnosing error in object detectors. In ECCV. 2012.
Y. Jia. Caffe: An open source convolutional architecture for fast feature embedding. http://caffe.berkeleyvision.org/,2013.
A. Krizhevsky, I. Sutskever, and G. Hinton. ImageNet classification with deep convolutional neural networks. In NIPS, 2012.
Y. LeCun, B. Boser, J. Denker, D. Henderson, R. Howard, W. Hubbard, and L. Jackel. Backpropagation applied to handwritten zip code recognition. Neural Comp., 1989.
Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-based learning applied to document recognition. Proc. of the IEEE, 1998.
J. J. Lim, C. L. Zitnick, and P. Dollar. Sketch tokens: A learned ´ mid-level representation for contour and object detection. In CVPR, 2013.
D. Lowe. Distinctive image features from scale-invariant keypoints.IJCV, 2004.
X. Ren and D. Ramanan. Histograms of sparse codes for object detection. In CVPR, 2013.
H. A. Rowley, S. Baluja, and T. Kanade. Neural network-based face detection. TPAMI, 1998.
P. Sermanet, K. Kavukcuoglu, S. Chintala, and Y. LeCun. Pedestrian detection with unsupervised multi-stage feature learning. In CVPR,2013.
K. Sung and T. Poggio. Example-based learning for view-based human face detection. Technical Report A.I. Memo No. 1521, Massachussets Institute of Technology, 1994.
C. Szegedy, A. Toshev, and D. Erhan. Deep neural networks for object detection. In NIPS, 2013.
J. Uijlings, K. van de Sande, T. Gevers, and A. Smeulders. Selective search for object recognition. IJCV, 2013.
R. Vaillant, C. Monrocq, and Y. LeCun. Original approach for the localisation of objects in images. IEE Proc on Vision, Image, and Signal Processing, 1994.
C. Vondrick, A. Khosla, T. Malisiewicz, and A. Torralba. HOGgles: visualizing object detection features. ICCV, 2013.
X. Wang, M. Yang, S. Zhu, and Y. Lin. Regionlets for generic object detection. In ICCV, 2013.
M. Zeiler, G. Taylor, and R. Fergus. Adaptive deconvolutional networks for mid and high level feature learning. In CVPR, 2011.

R-CNN 论文翻译相关推荐

Spatial As Deep: Spatial CNN for Traffic Scene Understanding论文翻译
Spatial As Deep: Spatial CNN for Traffic Scene Understanding论文翻译 Abstract摘要 Convolutional neural net ...
OSNet 论文翻译
OSNet 论文翻译摘要作为一个实例级的识别问题,行人再识别(ReID)依赖于具有识别能力的特征,它不仅能捕获不同的空间尺度,还能封装多个尺度的任意组合.我们称这些同构和异构尺度的特征为全尺度特征 ...
[论文翻译]据传比MTCCN的FaceBoxes《FaceBoxes: A CPU Real-time Face Detector with High Accuracy》
据传FaceBoxes比MTCCN速度还快,FaceBoxes 在cpu上FPS20,MTCNN在cpu上FPS16,到底真的是最快模型吗?我认为并不是. 论文地址:arxiv.org1708 论文代 ...
AlexNet论文翻译（中英文对照版）-ImageNet Classification with Deep Convolutional Neural Networks
图像分类经典论文翻译汇总:[翻译汇总] 翻译pdf文件下载:[下载地址] 此版为中英文对照版,纯中文版请稳步:[AlexNet纯中文版] ImageNet Classification with De ...
ECCV2020 Flow-edge Guided Video Completion20论文翻译
ECCV2020 Flow-edge Guided Video Completion20论文翻译摘要 1.介绍 2.相关工作 3.方法 3.1 综述 3.2 Edge-guided Flow Com ...
GPT-2 论文翻译
GPT-2 论文翻译基本是机器翻译,也进行了基本的人工矫正,凑活看吧原论文:<Language Models are Unsupervised Multitask Learners> ...
论文翻译-Hamming OCR A Locality Sensitive Hashing Neural Network for Scene Text Recognition
论文翻译-Hamming OCR A Locality Sensitive Hashing Neural Network for Scene Text Recognition 原文地址:https:/ ...
图像分类经典卷积神经网络—ResNet论文翻译（中英文对照版）—Deep Residual Learning for Image Recognition（深度残差学习的图像识别）
图像分类经典论文翻译汇总:[翻译汇总] 翻译pdf文件下载:[下载地址] 此版为中英文对照版,纯中文版请稳步:[ResNet纯中文版] Deep Residual Learning for Image ...
【R-CNN论文翻译】目标检测经典论文R-CNN最新版本（v5版）全面中文翻译
R-CNN目标检测的奠基性文章,学习目标检测必看的经典论文之一,后续有Fast R-CNN,Faster R-CNN一系列论文. 目前网上能找到的论文翻译版本要么不全,要么不是最新版本的(论文从201 ...
论文翻译1-PARSEC-Streaming 360-Degree Videos Using Super-Resolution
论文翻译-Streaming 360-Degree Videos Using Super-Resolution(2020infocom) 使用超高分辨率流式传输360度视频关键词:360◦视频,AB ...

R-CNN 论文翻译

Rich feature hierarchies for accurate object detection and semantic segmentation

Abstract

1. Introduction

2. Object detection with R-CNN

2.1. Module design

2.2. Test-time detection

2.3. Training

2.4. Results on PASCAL VOC 2010-12

3. Visualization, ablation, and modes of error

3.1. Visualizing learned features

3.2. Ablation studies

3.3. Detection error analysis

3.4. Bounding box regression

4. Semantic segmentation

5. Conclusion

References

R-CNN 论文翻译相关推荐

最新文章

热门文章