首先给出论文地址:[Recurrent Models of Visual Attention]【1】(https://arxiv.org/pdf/1406.6247v1.pdf)

先大概从整体上聊聊这篇文章,这篇论文,它的一个直接竞争对象就是卷积神经网络,文章指出卷积神经网络在任务中的准确率的确还不错,但是在训练方面的确是不尽如人意,大概训练一个模型需要花上几天的时间,而且还是在多GPU的情况下,尽管事先对图像进行了处理,比如:利用降采样来减少计算等。后来联想到人对图像的一个识别,人的眼睛一开始是看到一整个图像的,但是也是有注意点的,人的注意力会着重看到某一处,然后识别这个物体是什么。将这一机制运用到计算机的图像识别方面也是可行的,这就是visual attention的原始来源。

下面介绍一下这篇博文的大概框架(我觉得下面这两部分是论文中的核心部分):

1、模型介绍;

  • 模型
  • 奖罚机制

2、训练过程。

模型介绍

模型

这是论文提出的模型框架,也许第一次看到有点不知所措,没有关系,下面我会详细讲下这个模型的构成。

a)首先这里的lt−1l{_{t-1}}lt−1​是前一个时间传过来的位置信息,这里的xtx{_t}xt​是输入的数据,当位置信息lt−1l{_{t-1}}lt−1​传入xtx{_t}xt​时,将会对xtx{_t}xt​的lt−1l{_{t-1}}lt−1​位置进行采样,按照图里的样子,在这个特定的位置,要采集3个patchs,比如初始的采样图像大小为8*8,接着采样的大小为(8 * 2) * (8 * 2),(这里的“2”表示的是一个因子,是相对前一次采样的尺寸大小的乘子),最后一次采样的大小为(8 * 2 * 2) * (8 * 2 * 2),这3个采样的照片的中心位置不变,就是前面传过来的lt−1l{_{t-1}}lt−1​,接下来对这三个采样的照片进行一个resize,例如全部都重新设置成大小为8 * 8 尺寸的照片,最后得到ρ(xl,lt−1)\rho(x_{l}, l_{t-1})ρ(xl​,lt−1​)。这就是Glimpse Sensor。

b)给定位置信息lt−1l{_{t-1}}lt−1​和输入的图片xtx{_t}xt​,用 a)的Glimpse Sensor来提取数据ρ(xl,lt−1)\rho(x_{l}, l_{t-1})ρ(xl​,lt−1​),经过线性表示【也就是经过一个普通的神经网络】得到θg0\theta{_g}^0θg​0,位置信息lt−1l{_{t-1}}lt−1​也经过线性表示【同上】得到θg1\theta{_g}^1θg​1,然后θg0\theta{_g}^0θg​0和θg1\theta{_g}^1θg​1也经过一个线性层,结合两者得到θg2\theta{_g}^2θg​2。Glimpse网络fg(.;θg0,θg1,θg2)f_g(.; {\theta{_g}^0, \theta{_g}^1, \theta{_g}^2})fg​(.;θg​0,θg​1,θg​2)定义了用来产生glimpse representation gtg_tgt​ 的注意力网络的可训练带宽限制传感器。

c)这是一个整体的模型架构,总的来说,这是一个RNN模型。这个核心网络模型 fh(,;θh)f_h(,; \theta_h)fh​(,;θh​) 将glimpse 网络产生的输出和之前一个时间的核心网络产生的一个输出 ht−1h_{t-1}ht−1​,作为输入,产生当前的输出 hth_{t}ht​,位置网络和动作网络将当前产生的 hth_{t}ht​ 来产生下一个位置和动作/分类。

返回目录

奖罚机制

在执行一次活动之后(意思也就是对一个输入图片,经过这个系统之后得出分类结果),如果分类正确,则判为1,否则判为0.其表达式为R = ∑tTrT\sum_t^Tr_T∑tT​rT​。
返回目录


训练过程

在对一张图片进行分类的时候,我们需要最大化整个奖赏机制。
引入一个交互序列的分布s1:Ns_{1:N}s1:N​, 我们的目标是在这个分布的条件下最大化我们的奖赏函数:
J(θ)=Ep(s1:T;θ)[∑t=1Trt]=Ep(s1:T;θ)[R]J(\theta) = E_{p(s_{1:T}; \theta)} [\sum_{t = 1}^T r_t] = E_{p(s_{1:T}; \theta)} [R]J(θ)=Ep(s1:T​;θ)​[∑t=1T​rt​]=Ep(s1:T​;θ)​[R],其中p(s1:T;θ){p(s_{1:T}; \theta)}p(s1:T​;θ)取决于策略。
最大化JJJ不是一件简单的事情,因为这涉及到高维相互序列的期望,可能导致进入未知的环境空间。
按照论文的方法,得到下列解法:
ΔθJ=∑t=1TEp(s1:T;θ)[Δθlogπ(ut∣s1:t;θ)R]≈1M∑t=1M∑t=1TΔθlogπ(uti∣s1:ti;θ)Ri{\Delta}_{\theta} J = \sum_{t=1}^TE_{p(s_{1:T}; \theta)} [{\Delta}_{\theta} log\pi(u_t|s_{1:t}; \theta)R] \approx \frac{1}{M} \sum_{t=1}^M\sum_{t=1}^T\Delta_\theta log\pi(u_t^i|s_{1:t}^i;\theta)R^iΔθ​J=∑t=1T​Ep(s1:T​;θ)​[Δθ​logπ(ut​∣s1:t​;θ)R]≈M1​∑t=1M​∑t=1T​Δθ​logπ(uti​∣s1:ti​;θ)Ri
但是上面这个式子可能会引入高方差,以此在上式上进行修改:
ΔθJ=∑t=1TEp(s1:T;θ)[Δθlogπ(ut∣s1:t;θ)R]≈1M∑t=1M∑t=1TΔθlogπ(uti∣s1:ti;θ)(Ri−bt){\Delta}_{\theta} J = \sum_{t=1}^TE_{p(s_{1:T}; \theta)} [{\Delta}_{\theta} log\pi(u_t|s_{1:t}; \theta)R] \approx \frac{1}{M} \sum_{t=1}^M\sum_{t=1}^T\Delta_\theta log\pi(u_t^i|s_{1:t}^i;\theta)(R^i - b_t)Δθ​J=∑t=1T​Ep(s1:T​;θ)​[Δθ​logπ(ut​∣s1:t​;θ)R]≈M1​∑t=1M​∑t=1T​Δθ​logπ(uti​∣s1:ti​;θ)(Ri−bt​)

这里的 Rti=∑t′=1Trt′iR_t^i = \sum_{t'=1}^T r_{t'}^iRti​=∑t′=1T​rt′i​

Reference

[1]Recurrent Models of Visual Attention.

【Recurrent Models of Visual Attention】(讲解)相关推荐

  1. 计算机视觉中的注意力机制(Visual Attention)

    ,欢迎关注公众号:论文收割机(paper_reader) 原文链接:计算机视觉中的注意力机制(Visual Attention) 本文将会介绍计算机视觉中的注意力(visual attention)机 ...

  2. How to Visualize Your Recurrent Neural Network with Attention in Keras

    Neural networks are taking over every part of our lives. In particular - thanks to deep learning - S ...

  3. Orderless Recurrent Models for Multi-label Classification (CVPR2020)

    Orderless Recurrent Models for Multi-label Classification Paper PDF 文章目录 Introduction Innovation Met ...

  4. 《A Model of Saliency-based Visual Attention for Rapid Scene Analysis》翻译和笔记

    原文链接:A Model of Saliency-based Visual Attention for Rapid Scene Analysis 以机翻为主,人工校对. 摘要 A visual att ...

  5. 视觉显著性 matlab,转载图像/视觉显著性检测技术发展情况梳理(Saliency Detection、Visual Attention)...

    图像/视觉显著性检测技术发展情况梳理(Saliency Detection.Visual Attention) Sason@CSDN 转载:http://blog.csdn.net/anshan198 ...

  6. 【Attention】Visual Attention Network

    文章目录 一.背景 二.动机 三.方法 3.1 Large Kernel Attention 3.2 VAN 四.效果 4.1 分类 4.2 目标检测 4.3 语义分割 论文链接:https://ar ...

  7. 读论文,衣物检索:Clothing Retrieval with Visual Attention Model(2017.10.31)

    Clothing Retrieval with Visual Attention Model(2017.10.31) 创新点 VAM不需要强监督训练信息的landmark: 提出了Impdrop方法, ...

  8. VAN:Visual Attention Network

    Visual Attention Network [Submitted on 20 Feb 2022 (v1), last revised 11 Jul 2022 (this version, v5) ...

  9. 深度网络设计技巧(五)之VAN:Visual Attention Network#超越Swin的纯CNN#

    单位:清华,南开(程明明团队) ArXiv:https://arxiv.org/abs/2202.09741 Github: https://github.com/Visual-Attention-N ...

最新文章

  1. Excel 单元格隐藏
  2. 何时使用cla(),clf()或close()在matplotlib中清除图?
  3. 关于使用旋转四元数绕轴旋转θ角度时,使用参数是θ/2的理解
  4. 多种方法教你破解电信共享上网的限制
  5. 4.1.2(3) 数据交换方式
  6. centos7 下安装Poco
  7. Linux系统中解压缩指令汇总
  8. python中文件打开的合法模式组合_详解python中各种文件打开模式
  9. 显示2位小数 python3_自动化常用语言python,版本3和2有何变化?
  10. 框架对比_2020 年前端框架性能对比和评测
  11. 手风琴几排簧好_四排簧手风琴适合初学者么
  12. python爬楼梯多少种_LeetCode70爬楼梯-Python3-两种方法实现
  13. python词云库wordCloud中文乱码
  14. PerformanceTest
  15. 计算机xp怎么做备份,怎么备份电脑系统?XP环境使用Ghost备份操作系统的步骤
  16. python周末_python区分节假日、工作日、周末
  17. 在macOS系统电脑上怎么听不到任何耳机声音怎么办?
  18. python贷款_python算账,贷款表
  19. css5辅助线,苦练 CSS 基本功——图解辅助线的原理和画法
  20. SpringBoot整合Redis配置MyBatis二级缓存

热门文章

  1. sudo dpkg --configure -a的作用
  2. OpenGL基础图形编程(十)真实感图形基本概念
  3. 平安科技亮相重庆,「AI人脸识别+健康医疗」首秀;GE 推智能医疗影像系统UV6.0,已在3000家机构投入使用...
  4. 金融量化入门学习记录
  5. 转:性能测试解惑之并发压力
  6. M1 docker 安装mysql5.7
  7. 【SDX62】IPA log抓取操作说明
  8. django解决错误Reverse for 'show' with arguments '()' and keyword arguments '{}' not found. 办法
  9. sap测试IDOC include ZXTRKU02
  10. 服务器定时自动备份MySQL数据库