【何凯明】非局部连接网络 Non-local Neural Network
《Non-local Neural Network》
一、 主要贡献
1.提出了一种非局部连接(Non-local operations)的计算块 (building block),用于处理视频和图像的长程依赖关系(long-range dependency);
2.在视频数据集Kinetics and Charades datasets,目前最优(对比2D或3D卷积网络);
3.图像分类数据集COCO,能够提升精度。
二、 非局部连接操作
1. 启发性方法:非局部均值方法(non-local means methods)
非局部均值滤波是Buades等 在2005年提出的一种滤波方法。其基本思想是根据图像的自相似性来计算邻域像素的权重。NML算法首先需要选取两个窗,分别为相似窗和搜索窗,相似窗被选取用于比较两个像素的相似性,搜索窗被选择用于确定计算相似像素的范围。中心像素i与其邻域的像素j之间的相似性权重是根据两像素相似窗高斯加权的欧式距离决定。
总结一下方法:
a) 假设图像的噪声是高斯噪声,高斯噪声的求和趋向于0;
b) 在图像的不同区域或者不同时域,存在一定的区域是相似的,把这些相似区域不断相加(具有一定权重,权值与相似度有关),则累加的越多,高斯噪声的影响就趋向于0,则图像通过这样的算法越来越清晰。
2. 这样做的动机:
在卷积网络中,卷积层之前添加这些非局部操作,相当于在这些层之前进行降噪操作,消除feature map中的噪声。
同时应该也有获取非局部区域的信息相关性的考虑,即比如卷积是通过不断进行局部信息聚合(卷积)的操作来获取更大范围的相关性信息,而添加这种操作可以让卷积只关注局部信息,应该能起到减少层数的作用。
3. 非局部连接的数学公式:
i代表输出的位置(时间点、空间点、时空点),j代表遍历全部可能点,f代表相似度的函数,g是输入缩放函数,c(x)是归一化因子。
4. f函数和g函数的选择(结论是对精度影响不大,可以选择硬件友好的,所以文中说不讨论L1 L2欧式距离)。
a) Gaussian
b) Embedded Gaussian
c) Self-attention module[47]这篇文章提出的,是f=softmax这样一个特例。
d) Dot product
e) Concatenation
5. Non-local Block用于神经网络的一个基本块
数学表达:
Y是非局部操作,+X是残差连接(好处是这个结构可以插入到已经预训练的模型)。
示意图如下:
Implement中减少参数量和计算量的trick:
① Wg, Wθ, and Wφ to be half of the number of channels in x;
② 下采样:公式中的Xj通过下采样进行遍历。
三、 实验结果
对比的是ResNet-50,使用2维卷积,数据集是Kinetics和Charades视频。在视频分类上,精度提升明显。
在图像分类方面,使用的是数据集COCO,精度一般提升1~2%。
【何凯明】非局部连接网络 Non-local Neural Network相关推荐
- PNN网络(Product-based Neural Network)
1. 概述 PNN(Product-based Neural Network)是在2016年提出的用于计算CTR问题的深度神经网络模型,PNN的网络结构对传统的FNN(Feedforward Neur ...
- Deep Residual Learning for Image Recognition 何凯明的深度残差网络
中文翻译 深度残差网络PPT ICML 2016 Tutorial on Deep Residual Networks (强烈推荐)
- 二值网络--TBN: Convolutional Neural Network with Ternary Inputs and Binary Weights
TBN: Convolutional Neural Network with Ternary Inputs and Binary Weights ECCV2018 本文的思路就是: 对 weight ...
- 用于RGB-D语义分割的全局-局部传播网络
点击上方"小白学视觉",选择加"星标"或"置顶"重磅干货,第一时间送达 小白导读 论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带 ...
- 何恺明等人新作:效果超ResNet,利用NAS方法设计随机连接网络 | 技术头条
点击上方↑↑↑蓝字关注我们~ 「2019 Python开发者日」,购票请扫码咨询 ↑↑↑ 译者 | 刘畅 编辑 | 一一 出品 | AI科技大本营(ID:rgznai100) 受人工设计的启发,用于图 ...
- 学习何凯明在图像中的降噪技术和识别率问题
之前玩微信由于图像噪音干扰太高一直导致没法在工业是过渡,我是从从事交通大类的神经计算开发,这个转年几年过去我对算法其实很多还是不同,太零碎了.并且实际开发过程涉及对硬件的流处理器和存储单位的思考和分配 ...
- non-local神经网络:通过非局部操作解决深度神经网络核心问题
译者 | 李杰 出品 | AI科技大本营(ID:rgznai100) 回想一下我们熟悉的CNN.RNN.如下图所示,这些神经网络模型都是基于局部区域进行操作,属于local operations.为了 ...
- 何凯明团队又出新论文!北大、上交校友教你用ViT做迁移学习
视学算法报道 编辑:LRS 好困 小咸鱼 [新智元导读]何凯明团队又发新论文了!这次他们研究的是如何将预训练好的ViT迁移到检测模型上,使标准ViT模型能够作为Mask R-CNN的骨干使用.结果 ...
- 何凯明团队又出新论文!联合北大、上交用ViT做迁移学习,效果惊人!
转自:新智元 [导读]何凯明团队又发新论文了!这次他们研究的是如何将预训练好的ViT迁移到检测模型上,使标准ViT模型能够作为Mask R-CNN的骨干使用.结果表明,与有监督和先前的自我监督的预 ...
最新文章
- SharePoint使用BCS开发你第一个应用程序(三)
- flash程序员2012最大转变
- mybatis对mysql if函数_Mybatis使用mysql函数if出现错误
- android 常用方法集合
- 目标检测Workshop | COCO三连冠带你探索检测新世界
- 双指针解决力扣两/三数之和问题
- REST、SOAP、protocolbuf、thrift、avro
- OpenCV-CL: OpenCL加速计算机视觉技术
- 一步步编写操作系统 23 重写主引导记录mbr
- KubeFlow安装指南
- 经验 | 非科班出身怎么转行计算机?
- springboot 监听所有异常_SpringBoot——目前Java开发最流行的框架(一)
- Excel 使用技巧之 -- 统计、过滤与引用数据
- docker在win7下的使用
- nmap扫描端口 python
- MFC工程中划定ROI区域
- RegShot(注册表比较工具)v2.0.1.68绿色中文版
- 平面广告设计课程中发散思维训练
- 梦幻答题软件测试,欢乐答题官方测试版
- 360加速插件谷歌字体服务停止运行