近期在学习See Better Before Looking Closer: Weakly Supervised Data Augmentation Network for Fine-Grained Visual Classification的pytorch版本代码地址
本文对论文要点进行解读,由于本人是小白,理解错误的地方请批评指正。

1.论文的亮点

  • 双线性注意力池化机制(BAP)
  • 类center loss的注意力监督机制
  • 基于注意力的数据增强策略 attention crop attention drop

2.重要模块

  • 1.BAP(Bilinear Attention Pooling)
    骨干网(代码默认使用Inception-V3)生成了F和A,即是feature maps和attention maps,其中attention map指向物体的特定部位,如聚焦鸟类的喙,脚丫,翅膀等特征。F和A的element-wise乘积产生Part Feature Maps(AKF)。而后并通过卷积(GAP)或者池化(GMP)来提取局部特征,即为:

    之后concat连接得到Feature Matrix

BAP过程如下:

  • 2.Attention Regularization
    为使得相同物体上同一部位的特征尽可能相似, 如某attention map Ak致力于描述海鸥的喙,WS-DAN采用类center loss来监督注意力的学习过程. loss函数定义如下:

    其中ck初始化为0,按照以下公式更新其值:
  • 3 Attention-guided Data Augmentation

! crop mask
依照Ak权重大小为概率,随机选出一张attention map Ak指导数据crop,Ak做normalize处理:

通过Ak*可获得crop mask.
! attention crop
找出一最小的bounding box来覆盖Ck(i,j)中所有的1, 通过bounding box来crop训练数据,并放大至原图大小, 细节信息会更清晰. 该过程称为attention crop.

! attention drop

如果当Dk(i,j)小于阈值时为1, 否则为0, 该过程称为attention drop. Attention drop操作可缓解多个attention map关注物体同一部位的问题.

  • 4 Object Localization and Refinement
    前面介绍的Attention-guided Data Augmentation可以更准确地预测物体位置. 在测试阶段,backbone模型输出粗粒度识别结果以及attention maps. 在此基础上, WS-DAN可以预测整个物体的位置并且可预测细粒度识别结果. 在测试阶段使用的attention map是 M个attention map的平均值

3.训练过程

训练过程:
(a) 弱监督注意力学习,通过弱监督注意力学习对每一张训练图片生成一个注意力图(attention maps)来表征对象对显著特征部分。
(b) 注意力引导数据增强,随机选择一张注意力图,通过attention crop和attention drop的方式去增强这张图片,最后原图和增强对数据都会被作为输入数据进行训练。

(c)loss函数

4.测试过程

  • 图解检测过程

    (a)首先原图通过弱监督学习输出目标的类别概率和注意力图;
    (b)然后通过目标定位和精炼定位目标的位置;
    ©最后将前两个阶段的数据结合。
  • 检测过程伪代码:
    * 检测结果

WS_DAN论文要点理解相关推荐

  1. [时序波动关联]模型CoFLUX论文要点整理

    时序波动关联模型CoFLUX论文要点整理 简介 在互联网公司里面,通常都会监控成千上万的时间序列,用于保障整个系统或者平台的稳定性.在这种情况下,如果能够对多条时间序列之间判断其是否相关,则对于监控而 ...

  2. 深度人脸识别:CVPR2020论文要点

    深度人脸识别:CVPR2020论文要点 Towards Universal Representation Learning for Deep Face Recognition 论文链接:https:/ ...

  3. 一段话描述相控阵论文要点(持续学习更新中...)

    一段话描述相控阵论文要点(持续学习更新中...) 2109005-许唐红,詹珍贤,胡帅帅,宋豪.T/R组件阻抗失配对相控阵天线性能的影响[J].微波学报,2021,37(03):82-84+98. 分 ...

  4. 《SQUID: Deep Feature In-Painting for Unsupervised Anomaly Detection》论文阅读理解

    <SQUID: Deep Feature In-Painting for Unsupervised Anomaly Detection>论文阅读理解 领域:用于医学图像的异常检测 论文地址 ...

  5. SIGIR阿里论文 | 可视化理解深度神经网络CTR预估模型

    小叽导读:尽管业界对于图像处理和自然语言处理领域,在算法可解释性方向上已经取得了一些进展,但对于电商与广告领域,目前还是空白.另一方面,深度学习技术已经开始被大规模应用到广告业务中.广告是很多互联网现 ...

  6. Visual Translation Embedding Network for Visual Relation Detection论文中的术语以及对论文的理解笔记...

    弄懂基本上的专有术语以后,阅读理解论文的速度就会大大增快,所以,看到每篇论文的生词就记录下来,方便以后查阅和学习! 2.中的术语:object dection(目标检测),region proposa ...

  7. 计算机本科毕业设计:毕业设计、论文要点及我们面对毕业答辩应持有的态度

    文章目录 前言 一.对于毕业设计 1.1.选题 1.2.中期自查 1.3.毕业设计答辩 二.对于毕业论文 三.我们应持有的态度 3.1.人尽其才 3.2.恪尽职守 3.3.全力以赴 3.4.做好自己 ...

  8. ❀论文篇❀注意力机制SE论文的理解

    Squeeze-and-Excitation Networks(SENet) 论文地址:https://arxiv.org/abs/1709.01507 主要思想: 提出SE block 优点: 增强 ...

  9. ACL2020-Modeling Label Semantics for Predicting Emotional Reactions 论文要点

    概要 本文研究任务: 预测故事中的事件会引起故事角色怎样的情绪,是一个多标签的分类任务. 以往的方法将label看作一些匿名类去做预测,对于每种情绪做二分类,忽略了情绪标签(emotion label ...

最新文章

  1. HTML5培训教程:HTML5基础介绍
  2. 两大顶级 AI 算法一起开源!Nature、Science 齐发 Alphafold2 相关重磅,双厨狂喜~...
  3. 微信小程序 时间操作
  4. 桌面时钟代码_iOS 14 制作自己的桌面 Widget
  5. [NOIP2005] 提高组 洛谷P1051 谁拿了最多奖学金
  6. 机器学习十大经典算法之AdaBoost
  7. 二叉搜索树的第k个节点
  8. 代码块作用域内外的静态变量
  9. python连接pymysql主机目标无响应_Python 解析pymysql模块操作数据库的方法
  10. 一文看懂人工智能行业
  11. 一起来学PCB-0.4-STM32F072C8T6最小核心板原理图设计
  12. 【英语:语法基础】B2.核心语法-动词
  13. 谈谈对springioc的理解
  14. 鼠标变成方块而不是竖线
  15. 局域网内设置共享打印机并连接使用
  16. 「UG/NX」NX2212手动安装方法教程
  17. 报错解决——RuntimeError: The size of tensor a (4) must match the size of tensor b (3) at non-singleton
  18. 202012-当我谈跑步时我谈些什么
  19. Android代码对齐快捷键
  20. 使用terrasolid批量导出给定图幅点云

热门文章

  1. 点击按钮,丝滑的返回顶部
  2. 加权平均法 -- 算法
  3. idea配置maven3.6.1以及配置阿里云镜像以及配置jdk版本,附maven下载地址百度网盘
  4. python3 url decode_python3 urlencode 和 urldecode 使用
  5. 数字化物流,不只是“货拉拉”
  6. Python3调用谷歌机翻的两种方法
  7. 在线CAD-梦想云图Node.JS服务
  8. Thymeleaf 详解
  9. Operator基础
  10. PDF转WORD 介绍一些网站