Res2net：多尺度骨干网络结构

《Res2Net: A New Multi-scale Backbone Architecture》

来自：南开大学程明明组

论文：https://arxiv.org/abs/1904.01169

>多尺度的信息

首先一张图片里物体可能有不同的大小，例如沙发和杯子就是不同大小的，第二，必要的上下文信息可能所占的面积要大于物体本身。例如，我们需要根据大桌子的信息来更好的确定桌上的是个杯子或是笔筒。第三点，对细精度分类和语义分割，理解局部，观察不同尺度下的信息是有必要的。

Alexnet按顺序堆叠卷积并得到比传统方法取得显著的效果。然而，由于网络深度和卷积核大小的限制，alexnet只有很小的感受野。

VGGnet增加了网络深度并使用更小的卷积核。更深的网络结构可以扩大感受野，从更大的尺度提取特征。通过堆叠更多大卷积核的层，是一种更容易扩大感受野的方法。VGG比Alexnet有更少的参数更强的表达能力。但是都是线性堆叠卷积，只能表达不灵活的感受野。

Googlenet采用并行的不同尺度的卷积来增强多尺度的表达能力。但是有受限于计算资源。因此多尺度表征的策略任然没能更大范围的感受野。

Resnet引入短连接，因此在有更深的网络结构的同时缓解了梯度消失的问题。特征提取的过程，短连接让不同的不同卷积相结合。类似的，densenet里的密集连接也使得网络能够处理一个很大范围的尺度。

残差块里头又有残差连接，所以取名res2net

>Res2Net的bottleneck模块

yi表示Ki()的输出。子特征xi和Ki-1()的输出加在一起，然后送入Ki()。所有的分块拼接后在送入1*1的卷积。分块在拼接的策略能增强卷积更有效处理特征。为了在增加s的同时减少参数，我们不对x1进行卷积。更大的s一般对应更强的多尺度的表达能力。（这样子y1,y2,y3,y4就拥有不同尺度的特征）

>Res2Net + 其他模块

1、中间的3x3卷积可以替换成c组卷积操作。　（ResNeXt）

2、实验也说明了能够通过SE进一步提高效果

>实验设置：

1、框架:都是用pytorch （代码还未开源）

2、在imagenet数据集上SGD，

3、weightdecay设为0.0001，momentum设为0.9，初始学习率是0.1，每隔30个epoch*0.1.每个模型都是训练100个epoch；

4、环境：4 Titan Xp GPUs

>实验结果

ImageNet上的实验：

Table1，table2 res2net在image上top-1和top-5都有1~2%的提升。

Table3 验证尺度的有效性，保持计算复杂度，随着尺度增加精度不断提升。 Res2Net-50在ImageNet数据集不同规模测试错误率结果。其中参数w为卷积宽度（通道数吧），s为scale

不同模块组合的对照结果（）

不同维度的对照试验（cifar100上的实验）

c是基数维度（参照ResNeXt）

可以看到网络深度提升效果较差

（1）s=2的的地方比增加基数的效果差，在s=2时只能通过增加1*1卷积来增加模型性能。

（2）s=5,6效果提升有限。因为cifar100图片大小32*32没有很多尺度（那在imagenet上呢？）。

类别响应图Class activation mapping

响应图更集中在小目标上。中等大小的物体上，两者效果差不多。大的物体上res2net就响应图包含整个物体。

下面的实验都是将backbone换成res2net

1）目标检测应用

Faster -Rcnn： ResNet-50 vs. Res2Net-50进行对比。小目标中目标大目标：都有提升 voc & coco 数据集上 AP 都有2%的提升

2）语义分割应用

数据集：PASCAL VOC12 10582 训练图片 and 1449验证图片

实验方法： Deeplab v3+

3）实例分割

数据集：coco

Mask-RCNN上：resnet-50 vs res2net-50

4）显著性检测（Salient Object Detection）　　

ResNet-50 和Res2Net-50的显著目标检测结果对比

分类: 目标检测

Res2net：多尺度骨干网络结构相关推荐

【CV】Reg2Net：一种用于计算机视觉任务的多尺度骨干架构
论文名称:Res2Net: A New Multi-scale Backbone Architecture 论文下载:https://arxiv.org/abs/1904.01169 论文年份:TPA ...
HRNet:打通多个视觉任务的全能骨干网络结构（分类，分割，检测，姿态，风格等）
HRNet是微软亚洲研究院的王井东老师领导的团队完成的,打通图像分类.图像分割.目标检测.人脸对齐.姿态识别.风格迁移.Image Inpainting.超分.optical flow.Depth e ...
论文机翻：Res2Net: A New Multi-scale Backbone Architecture（Res2Net 论文机翻）
Res2Net:一种新的多尺度主干架构摘要- 在众多视觉任务中,以多种尺度表示特征非常重要. 骨干卷积神经网络(CNN)的最新进展不断显示出更强大的多尺度表示能力,从而在整个应用范围内获得了一致的性 ...
超越ResNet：南开提出Res2Net，不增计算负载，性能全面升级！
https://www.toutiao.com/a6675932397910884877/ [新智元导读]近日,南开大学.牛津大学和加州大学默塞德分校的研究人员共同提出了一种面向目标检测任务的新模块R ...
Darknet53(YOLO V3骨干网络)
YOLO V3算法使用的骨干网络是Darknet53.Darknet53网络的具体结构如图所示,在ImageNet图像分类任务上取得了很好的成绩.在检测任务中,将图中C0后面的平均池化.全连接层和So ...
【最新刷榜】层次化视觉Transformer来啦！性能大幅优于DeiT、ViT和EfficientNet
[导读]本文主要介绍最新TransFormer成果,目前Swin Transformer在各大CV任务上,实现了SOTA的性能,在目标检测任务上刷到58.7 AP(目前第一)!实例分割刷到51.1 M ...
华中科大提出EAT-NAS方法：提升大规模神经模型搜索速度
神经模型搜索(Neural Architecture Search,NAS)是一种自动化的模型结构搜索方法,旨在代替深度学习专家选择最优的网络模型结构.传统的NAS方法都是针对小规模数据库设计的,直接 ...
计算机视觉：基于YOLO-V3林业病虫害目标检测
计算机视觉:基于YOLO-V3林业病虫害目标检测卷积神经网络提取特征根据输出特征图计算预测框位置和类别建立输出特征图与预测框之间的关联计算预测框是否包含物体的概率计算预测框位置坐标计算物体 ...
阿里达摩院开源DAMO-YOLO：兼顾速度与精度的新目标检测框架
作者丨陈威华阿里达摩院智能计算实验室编辑丨极市平台 1.简介 DAMO-YOLO是一个兼顾速度与精度的目标检测框架,其效果超越了目前的一众YOLO系列方法,在实现SOTA的同时,保持了很高的推理速 ...

Res2net：多尺度骨干网络结构

Res2net：多尺度骨干网络结构相关推荐

最新文章

热门文章