《Non-local Neural Network》

一、 主要贡献

1.提出了一种非局部连接(Non-local operations)的计算块 (building block),用于处理视频和图像的长程依赖关系(long-range dependency);

2.在视频数据集Kinetics and Charades datasets,目前最优(对比2D或3D卷积网络);

3.图像分类数据集COCO,能够提升精度。

二、 非局部连接操作

1. 启发性方法:非局部均值方法(non-local means methods)

非局部均值滤波是Buades等 在2005年提出的一种滤波方法。其基本思想是根据图像的自相似性来计算邻域像素的权重。NML算法首先需要选取两个窗,分别为相似窗和搜索窗,相似窗被选取用于比较两个像素的相似性,搜索窗被选择用于确定计算相似像素的范围。中心像素i与其邻域的像素j之间的相似性权重是根据两像素相似窗高斯加权的欧式距离决定。

总结一下方法:

a) 假设图像的噪声是高斯噪声,高斯噪声的求和趋向于0;

b) 在图像的不同区域或者不同时域,存在一定的区域是相似的,把这些相似区域不断相加(具有一定权重,权值与相似度有关),则累加的越多,高斯噪声的影响就趋向于0,则图像通过这样的算法越来越清晰。

2. 这样做的动机:

在卷积网络中,卷积层之前添加这些非局部操作,相当于在这些层之前进行降噪操作,消除feature map中的噪声。

同时应该也有获取非局部区域的信息相关性的考虑,即比如卷积是通过不断进行局部信息聚合(卷积)的操作来获取更大范围的相关性信息,而添加这种操作可以让卷积只关注局部信息,应该能起到减少层数的作用。

3. 非局部连接的数学公式:

【何凯明】非局部连接网络 <wbr>Non-local <wbr>Neural <wbr>Network

i代表输出的位置(时间点、空间点、时空点),j代表遍历全部可能点,f代表相似度的函数,g是输入缩放函数,c(x)是归一化因子。

4. f函数和g函数的选择(结论是对精度影响不大,可以选择硬件友好的,所以文中说不讨论L1 L2欧式距离)。

a) Gaussian

【何凯明】非局部连接网络 <wbr>Non-local <wbr>Neural <wbr>Network【何凯明】非局部连接网络 <wbr>Non-local <wbr>Neural <wbr>Network

b) Embedded Gaussian

【何凯明】非局部连接网络 <wbr>Non-local <wbr>Neural <wbr>Network【何凯明】非局部连接网络 <wbr>Non-local <wbr>Neural <wbr>Network

c) Self-attention module[47]这篇文章提出的,是f=softmax这样一个特例。

【何凯明】非局部连接网络 <wbr>Non-local <wbr>Neural <wbr>Network

d) Dot product

【何凯明】非局部连接网络 <wbr>Non-local <wbr>Neural <wbr>Network【何凯明】非局部连接网络 <wbr>Non-local <wbr>Neural <wbr>Network

e) Concatenation

【何凯明】非局部连接网络 <wbr>Non-local <wbr>Neural <wbr>Network

5. Non-local Block用于神经网络的一个基本块

数学表达:【何凯明】非局部连接网络 <wbr>Non-local <wbr>Neural <wbr>Network

Y是非局部操作,+X是残差连接(好处是这个结构可以插入到已经预训练的模型)。

示意图如下:

【何凯明】非局部连接网络 <wbr>Non-local <wbr>Neural <wbr>Network

Implement中减少参数量和计算量的trick:

① Wg, Wθ, and Wφ to be half of the number of channels in x;

② 下采样:公式中的Xj通过下采样进行遍历。

三、 实验结果

对比的是ResNet-50,使用2维卷积,数据集是Kinetics和Charades视频。在视频分类上,精度提升明显。

【何凯明】非局部连接网络 <wbr>Non-local <wbr>Neural <wbr>Network
【何凯明】非局部连接网络 <wbr>Non-local <wbr>Neural <wbr>Network

在图像分类方面,使用的是数据集COCO,精度一般提升1~2%。

【何凯明】非局部连接网络 <wbr>Non-local <wbr>Neural <wbr>Network

【何凯明】非局部连接网络 Non-local Neural Network相关推荐

  1. PNN网络(Product-based Neural Network)

    1. 概述 PNN(Product-based Neural Network)是在2016年提出的用于计算CTR问题的深度神经网络模型,PNN的网络结构对传统的FNN(Feedforward Neur ...

  2. Deep Residual Learning for Image Recognition 何凯明的深度残差网络

    中文翻译 深度残差网络PPT ICML 2016 Tutorial on Deep Residual Networks   (强烈推荐)

  3. 二值网络--TBN: Convolutional Neural Network with Ternary Inputs and Binary Weights

    TBN: Convolutional Neural Network with Ternary Inputs and Binary Weights ECCV2018 本文的思路就是: 对 weight ...

  4. 用于RGB-D语义分割的全局-局部传播网络

    点击上方"小白学视觉",选择加"星标"或"置顶"重磅干货,第一时间送达 小白导读 论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带 ...

  5. 何恺明等人新作:效果超ResNet,利用NAS方法设计随机连接网络 | 技术头条

    点击上方↑↑↑蓝字关注我们~ 「2019 Python开发者日」,购票请扫码咨询 ↑↑↑ 译者 | 刘畅 编辑 | 一一 出品 | AI科技大本营(ID:rgznai100) 受人工设计的启发,用于图 ...

  6. 学习何凯明在图像中的降噪技术和识别率问题

    之前玩微信由于图像噪音干扰太高一直导致没法在工业是过渡,我是从从事交通大类的神经计算开发,这个转年几年过去我对算法其实很多还是不同,太零碎了.并且实际开发过程涉及对硬件的流处理器和存储单位的思考和分配 ...

  7. non-local神经网络:通过非局部操作解决深度神经网络核心问题

    译者 | 李杰 出品 | AI科技大本营(ID:rgznai100) 回想一下我们熟悉的CNN.RNN.如下图所示,这些神经网络模型都是基于局部区域进行操作,属于local operations.为了 ...

  8. 何凯明团队又出新论文!北大、上交校友教你用ViT做迁移学习

    视学算法报道   编辑:LRS 好困 小咸鱼 [新智元导读]何凯明团队又发新论文了!这次他们研究的是如何将预训练好的ViT迁移到检测模型上,使标准ViT模型能够作为Mask R-CNN的骨干使用.结果 ...

  9. 何凯明团队又出新论文!联合北大、上交用ViT做迁移学习,效果惊人!

    ‍ 转自:新智元 [导读]何凯明团队又发新论文了!这次他们研究的是如何将预训练好的ViT迁移到检测模型上,使标准ViT模型能够作为Mask R-CNN的骨干使用.结果表明,与有监督和先前的自我监督的预 ...

最新文章

  1. SharePoint使用BCS开发你第一个应用程序(三)
  2. flash程序员2012最大转变
  3. mybatis对mysql if函数_Mybatis使用mysql函数if出现错误
  4. android 常用方法集合
  5. 目标检测Workshop | COCO三连冠带你探索检测新世界
  6. 双指针解决力扣两/三数之和问题
  7. REST、SOAP、protocolbuf、thrift、avro
  8. OpenCV-CL: OpenCL加速计算机视觉技术
  9. 一步步编写操作系统 23 重写主引导记录mbr
  10. KubeFlow安装指南
  11. 经验 | 非科班出身怎么转行计算机?
  12. springboot 监听所有异常_SpringBoot——目前Java开发最流行的框架(一)
  13. Excel 使用技巧之 -- 统计、过滤与引用数据
  14. docker在win7下的使用
  15. nmap扫描端口 python
  16. MFC工程中划定ROI区域
  17. RegShot(注册表比较工具)v2.0.1.68绿色中文版
  18. 平面广告设计课程中发散思维训练
  19. 梦幻答题软件测试,欢乐答题官方测试版
  20. 360加速插件谷歌字体服务停止运行

热门文章

  1. 使用命令行 编译 rider/vs项目
  2. 网棒球(曲棍球):比赛规则·棒球1号位
  3. 性能分析5部曲:瓶颈分析与问题定位,如何快速解决瓶颈?
  4. 视频叠加字幕显示原理与实现方法
  5. 软考高项——第五章进度管理
  6. Ptyhon 无角正方形
  7. 应避免在强磁场干扰下使用计算机,2016年计算机二级office高级应用考试题
  8. 【ArcGIS基础操作:获取多边形质心】
  9. matlab实现谱质心算法
  10. 虚拟机VMware安装Ubuntu系统(一)——创建虚拟机