近期在学习See Better Before Looking Closer: Weakly Supervised Data Augmentation Network for Fine-Grained Visual Classification的pytorch版本代码地址
本文对论文要点进行解读，由于本人是小白，理解错误的地方请批评指正。

1.论文的亮点

双线性注意力池化机制(BAP)
类center loss的注意力监督机制
基于注意力的数据增强策略 attention crop attention drop

2.重要模块

1.BAP(Bilinear Attention Pooling)
骨干网（代码默认使用Inception-V3）生成了F和A，即是feature maps和attention maps，其中attention map指向物体的特定部位，如聚焦鸟类的喙，脚丫，翅膀等特征。F和A的element-wise乘积产生Part Feature Maps（AKF）。而后并通过卷积（GAP）或者池化(GMP)来提取局部特征,即为:

之后concat连接得到Feature Matrix

BAP过程如下：

2.Attention Regularization
为使得相同物体上同一部位的特征尽可能相似, 如某attention map Ak致力于描述海鸥的喙，WS-DAN采用类center loss来监督注意力的学习过程. loss函数定义如下：

其中ck初始化为0，按照以下公式更新其值：
3 Attention-guided Data Augmentation

! crop mask
依照Ak权重大小为概率，随机选出一张attention map Ak指导数据crop，Ak做normalize处理：

通过Ak*可获得crop mask.
! attention crop
找出一最小的bounding box来覆盖Ck(i,j)中所有的1, 通过bounding box来crop训练数据，并放大至原图大小, 细节信息会更清晰. 该过程称为attention crop.

! attention drop

如果当Dk(i,j)小于阈值时为1, 否则为0, 该过程称为attention drop. Attention drop操作可缓解多个attention map关注物体同一部位的问题.

4 Object Localization and Refinement
前面介绍的Attention-guided Data Augmentation可以更准确地预测物体位置. 在测试阶段，backbone模型输出粗粒度识别结果以及attention maps. 在此基础上, WS-DAN可以预测整个物体的位置并且可预测细粒度识别结果. 在测试阶段使用的attention map是 M个attention map的平均值

3.训练过程

训练过程：
(a) 弱监督注意力学习，通过弱监督注意力学习对每一张训练图片生成一个注意力图(attention maps)来表征对象对显著特征部分。
(b) 注意力引导数据增强，随机选择一张注意力图，通过attention crop和attention drop的方式去增强这张图片，最后原图和增强对数据都会被作为输入数据进行训练。

（c）loss函数

4.测试过程

检测过程伪代码：
* 检测结果

WS_DAN论文要点理解相关推荐

[时序波动关联]模型CoFLUX论文要点整理
时序波动关联模型CoFLUX论文要点整理简介在互联网公司里面,通常都会监控成千上万的时间序列,用于保障整个系统或者平台的稳定性.在这种情况下,如果能够对多条时间序列之间判断其是否相关,则对于监控而 ...
深度人脸识别：CVPR2020论文要点
深度人脸识别:CVPR2020论文要点 Towards Universal Representation Learning for Deep Face Recognition 论文链接:https:/ ...
一段话描述相控阵论文要点（持续学习更新中...）
一段话描述相控阵论文要点(持续学习更新中...) 2109005-许唐红,詹珍贤,胡帅帅,宋豪.T/R组件阻抗失配对相控阵天线性能的影响[J].微波学报,2021,37(03):82-84+98. 分 ...
《SQUID: Deep Feature In-Painting for Unsupervised Anomaly Detection》论文阅读理解
<SQUID: Deep Feature In-Painting for Unsupervised Anomaly Detection>论文阅读理解领域:用于医学图像的异常检测论文地址 ...
SIGIR阿里论文 | 可视化理解深度神经网络CTR预估模型
小叽导读:尽管业界对于图像处理和自然语言处理领域,在算法可解释性方向上已经取得了一些进展,但对于电商与广告领域,目前还是空白.另一方面,深度学习技术已经开始被大规模应用到广告业务中.广告是很多互联网现 ...
Visual Translation Embedding Network for Visual Relation Detection论文中的术语以及对论文的理解笔记...
弄懂基本上的专有术语以后,阅读理解论文的速度就会大大增快,所以,看到每篇论文的生词就记录下来,方便以后查阅和学习! 2.中的术语:object dection(目标检测),region proposa ...
计算机本科毕业设计：毕业设计、论文要点及我们面对毕业答辩应持有的态度
文章目录前言一.对于毕业设计 1.1.选题 1.2.中期自查 1.3.毕业设计答辩二.对于毕业论文三.我们应持有的态度 3.1.人尽其才 3.2.恪尽职守 3.3.全力以赴 3.4.做好自己 ...
❀论文篇❀注意力机制SE论文的理解
Squeeze-and-Excitation Networks(SENet) 论文地址:https://arxiv.org/abs/1709.01507 主要思想: 提出SE block 优点: 增强 ...
ACL2020-Modeling Label Semantics for Predicting Emotional Reactions 论文要点
概要本文研究任务: 预测故事中的事件会引起故事角色怎样的情绪,是一个多标签的分类任务. 以往的方法将label看作一些匿名类去做预测,对于每种情绪做二分类,忽略了情绪标签(emotion label ...

WS_DAN论文要点理解

1.论文的亮点

2.重要模块

3.训练过程

4.测试过程

WS_DAN论文要点理解相关推荐

最新文章

热门文章