我的第一篇在线论文阅读笔记-Adversarial Discriminative Domain Adaptation

  • 快速导览
    • 为什么采用这种形式
    • 对这篇文章的态度
    • 数据集和完成的任务
    • 名词解释
    • 重点语句分析(部分单词给出中文注释)
    • 符号标记和公式解读
    • 公式计算含义

快速导览

为什么采用这种形式

某日下午(2021.10.16)想着,看一篇论文,我在原文里面写注释和笔记,然后每次看完以后我都得把标注过的论文传到QQ或者微信里,这样方便下一台电脑接着看。这样刚开始好像没啥问题,可是时间长了,最新注释版本的论文也不知道放到哪里去了,也不知道哪个版本是最新的,那么为什么不放在网络的博客里面,这样既可以分享一下,还可以方便存储呢!

对这篇文章的态度

我会从我自己的角度,一个对迁移学习零基础入门的角度,阐释清楚这篇文章的整体结构和一些细节,包括专业术语、对比等等。

数据集和完成的任务

根据文章Introduction部分(第二页左侧倒数第七行),验证模型的数据集是 MNIST, USPS, and SVHN digits datasets。后面还说了为了检验ADDA跨形态检测能力,还用了NYUD dataset(RGB
and HHA encoded depth images as source and target domains respectively各自)

完成的任务有:在上述数据集上实现可视化的自适应结果,测试模型无监督下通过把目标分类器从RGB彩色图像转化为深度在减小更复杂的跨形态数据漂移带来的影响的方面的潜力

名词解释

阅读文献时难免遇到自己不懂的专业术语。我是初学者入门,不认识的还是太多了些。也希望这样能帮助和我一样的人能快速入门,也希望有精力的各位大佬们能接力下去。

标题
我给这篇文章起的中文标题是“对抗性区分域自适应”,Domain Adaptation是迁移学习算法。

Abstract部分(第一页):

名称 含义 位置
Domain Shift领域漂移 数据集不同,数据分布也不同,如猪尾巴(很短)和马尾巴(很长),原因是因为样本数据分布和待预测样本的不一样 第四行
Database Bias数据集偏差 现有数据集总有某种/些因素被倚重,和domainshift一样导致判断失误 第四行
tied weights 权重共享,直接拿训练好的模型投入自己的使用,如拿白人的人脸识别模型去识别黑人的 第十二行
GAN-based Loss GAN的loss公式,核心是最大化判别器、最小化生成器的loss 第十三行
untied weight sharing 无约束权重共享,迁移时权重可以改变 第十九行
domain-adversarial methods 域对抗方法,这应该不是某个特定的术语,是统称的方法,思想类似GAN 倒数五行

Introduction部分(第一、二页)

对于换页换侧换段的地方,会写出来,后面和它在同一页同一侧同一段的就不详细说明了。

名称 含义 位置
maximum mean discrepancy 最大平均差异,具体原理见MMD介绍,作为最后的Loss函数去优化 第二页左侧第四行
correlation distances 相关距离=1-相关系数 第五行
depth observation 观察图像深度,确定彩色图像颜色数 第五行

Related work部分(第二页右侧)

名称 含义 位置
domain invariance 域的不变性,是拓扑学中的概念,证明两个拓扑空间同胚 第三段倒数第四行
latent space 隐空间,降维数据后学习其根本特征 第二页最后一个词

3.1 Source and target mappings

名称 含义 位置
LeNet model 辨别手写字符的神经网络,有卷积和pooling运算从input中提取出feature map 第二段第八行
mapping consistency 这里写出来是为了防止和consistent mapping搞混,原文表达的意思就是源和目标要映射到同一个空间 第六段第三行
partial alignment 部分对准,个人理解,举个例子说明:源图是黑白点位数字,目标图是彩色连续高清版,利用前者训练出的数字识别模型去做后者的识别,“alignment"原意"对齐”,这里指的应该是做mapping后的结果,也就是找出两类图像的"数字骨架" 第六段第三行

3.2 Adversarial losses

名称 含义 位置
fixed-point properties 暂不知 第五页公式7下面
cross-entropy loss 交叉熵损失函数,常用于分类问题,具体可参考:损失函数|交叉熵损失函数 第五页公式8上面

4. Adversarial discriminative domain adaptation部分(第五页左侧下方)

名称 含义 位置
degenerate solution 退化解,意思大致是可行的非唯一解 第五页右侧第二段第六行
the inverted label GAN loss 暂不知 第五页公式9上方右侧

5. Experiments(第六页左侧)

名称 含义 位置
ReLU activation function 线性整流,神经网络的激活函数 第六页右侧第一段最后
Source Only 没有做适应之前的模型 Tabel 2第一个

重点语句分析(部分单词给出中文注释)

我自己的英文水平不算很高,有些单词还得加注中文,也许这也会给您省去查单词的时间。重点语句基本包含了文章对于模型的介绍,对于速度此文相信是莫有裨益。

Abstract部分(第一页)
1.对先前模型的批判(第9行):

Prior generative approaches show compelling引人入胜的 visualizations, but are not optimal on discriminative tasks and can be limited to smaller shifts. Prior discriminative approaches could handle larger domain shifts, but imposed tied weights 参数共享 on the model and did not exploit a GAN-based loss.

从这段话可以看出,文章中说的先前的模型有一下缺点:
(1)生成方法:可视化做得很好,但没有很好地优化判别任务,很容易受到小规模(领域)漂移的限制
(2)判别方法:能处理大规模领域漂移任务,但在模型里只是使用了权重共享

2.提出的模型的总体思路(第13行靠后):

We first outline a novel全新的 generalized framework for adversarial adaptation对抗性自适应, which subsumes归纳 recent state-of-the-art先进的 approaches as special cases, and we use this generalized概括性的 view to better relate与…联系起来 the prior approaches.

这段话写进摘要里应该不奇怪,虽然看上是在自夸,不过在摘要里也算正常了。

后面基本上就是开始说这个模型的特点和夸了——特点是结合了判别模型(discriminative modeling)、无约束权重共享(untied weight sharing)和GAN Loss。优点是比竞争性的域对抗方法更简单,在跨域字分析(各种奇怪的1、2、3、4)和跨形态物体分类比最前沿的无监督适应算法更有前景。

Introduction部分(第一、二页)
1.对领域漂移问题的传统解决方法和窘境:

The typical solution is to further fine-tune微调 these networks on task-specific datasets— however, it is often prohibitively difficult太过困难 and expensive to obtain enough labeled data to properly fine-tune the large number of parameters employed by deep multilayer networks.

参数既然不能直接拿来用,那当然是“微调”啦。可是这说着容易,想有足量的带标记数据去做微调(那差不多是重新学一遍了)还是太过于困难(迁移学习目标之一是利用训练好的模型去识别未标记的数据)。

2.介绍Adversarial adaptation的大概原理,和GAN类似:

Adversarial adaptation methods have become an increasingly popular incarnation化身 of this type of approach which seeks to minimize an approximate domain discrepancy差异 distance through an adversarial objective with respect to a domain discriminator关于域判别器的对抗目标(意思是最大化判别器的差异,这便是对抗性的含义).

3.介绍模型的总体流程

ADDA first learns a discriminative representation using the labels in the source domain and then a separate不同的 encoding that maps the target data to the same space using an asymmetric mapping learned through a domain-adversarial loss.

用在源域的标签学习一个判别模型,再用一个不同的编码方式,它能够利用非对称映射通过域对抗损失优化来把目标数据映射到同样的空间。(个人理解是想办法把猪尾巴弄成马尾巴)

这段话可以说是文章的主旨了,和第三页的流程图结合来看效果更佳:
下面是原文对上图的说明:现有的对抗性适应方法是我们实现的框架的特例,根据特点不同,对上面深色方框中问题给出的选择也不同。

那么对于ADDA,这个模型的选择又是什么呢?从上面那段话应该是可以看出答案的!当然了,原文第四页的表格更是直接把答案贴出来了。

从上表中显而易见,ADDA在source和target的映射间选取的基模型是判别式的,采用无约束权值共享,对抗目标是GAN的loss

第四部分其中原句:

Specifically, we use a discriminative base model, unshared weights, and the standard GAN loss

Related work部分(第二、三页)
对几种GAN变种模型的比较后:

In this paper, we observe that modeling the image distributions is not strictly necessary to achieve domain adaptation, as long as the latent feature space is domain invariant

ADDA模型认为,要做到域适应,并不一定要对图像分布建模,因为隐空间是有域不变形的。

后面开始讲模型了,重点语句分析后面基本上没什么内容,但也讲了很多其他迁移学习模型的常见做法,还是值得一读的。

3.2 Adversarial losses(第四页右侧、第五页左侧)
1.表明模型里,source和target的映射是独立的,要学的只有MMMt

Note that, in this setting, we use independent mappings for source and target and learn only Mt adversarially.

4. Adversarial discriminative domain adaptation部分(第五页左侧下方)
1.根据原文介绍,这段在流程图下面解释的话说明了模型整体的训练流程(sequential training procedure)

首先:使用含标签的源图像训练编码源的卷积神经网络

然后:学习一个能使得判别器无法准确辨别域标签的编码目标的卷积神经网络(打个比方:现在有个判断动物是否有尾巴的模型,source是马,target是猪,这个网络就是希望把它们“尾巴”的共同特征找到,而不是把短尾当没有)

测试中:目标图像经目标编码器映射到共享特征空间并被源分类器分类。虚线表明这是固定的网络参数(意思是直接套用的)。

An overview of our proposed Adversarial Discriminative Domain Adaptation (ADDA) approach. We first pre-train a source encoder CNN using labeled source image examples. Next, we perform adversarial adaptation by learning a target encoder CNN such that 使得 a discriminator that sees encoded source and target examples cannot reliably 准确地 predict their domain label. During testing, target images are mapped with the target encoder to the shared feature space and classified by the source classifier. Dashed lines 虚线 indicate fixed network parameters.


其实类似的话在上文也提到过很多次,不过是拆分来说的,细节还在第四部分继续说。

2.关于上述流程中第二部的几个细节问题回答:
(1)为什么要无约束权值共享?这是一个灵活的学习模式,能学习到更多领域特征。

This is a more flexible learning paradigm 学习模式 as it allows more domain specific feature extraction to be learned

(2)为什么要保留一部分权值?有可能产生退化解。

The target domain has no label access, and thus without weight sharing a target model may quickly learn a degenerate solution 退化解

(3)怎么解决?把对source预训练出的模型作为target表达空间初始版本再通过训练去改进。

We use the pre-trained source model as an intitialization for the target representation space and fix the source model during adversarial training.

3.优化步骤:

We choose to optimize this objective in stages 分阶段. We begin by optimizing Lcls\mathcal{L}_{\mathrm{cls}}Lcls​ over MsM_sMs​ and CCC by training, using the labeled source data, XsX_sXs​ and YsY_sYs​. Because we have opted to leave MsM_sMs​ fixed while learning MtM_tMt​, we can thus optimize LadvD\mathcal{L}_{\mathrm{adv_D}}LadvD​​ and LadvM\mathcal{L}_{\mathrm{adv_M}}LadvM​​ without revisiting the first objective term. A summary of this entire training process is provided in Figure 3.

5. Experiments(第六页左侧)
1.如何进行的实验:

We use the simple modified LeNet architecture provided in the Caffe source code. When training with ADDA, our adversarial discriminator consists of 3 fully connected layers: two layers with 500 hidden units followed by the final discriminator output. Each of the 500-unit layers uses a ReLU activation function.

符号标记和公式解读

首次出现位置的格式:(段落,行数)负数表示倒数第几行

3.Generalized adversarial adaptation(第三页)

名称 含义 首次出现位置
Xs source images源图像 1,3
Ys 源图像的标签 1,3
ps(x,y) source domain distribution源域分布 1,4
Xt target images目标图像 1,5
pt(x,y) target domain distribution目标域分布 1,5
Mt target representation目标模型 1,7
Ct 目标图像K分类器 1,7
Ms source representation mapping 1,-3
Cs source classifier 1,-2
LLLadvD_DD​ 判别器的loss 4,-2
LLLadvM_MM​ adversarial mapping loss 6,-1

公式位置表示(x,y):x=页数,y=0时表示在左侧,y=1时表示在右侧
先搞明白含义,把文章算法步骤搞懂后再来具体看是怎么算的

公式 解释 位置
C=Cs=Ct 源图像和目标图像的映射分布差距很小,可以直接把源图像的分类器用到目标图像上 3,2
优化源分类器的standrad supervised loss 3,2
Domain Discriminator的loss,需要最大化保证它看不出来数据是来自source还是target 3,2
原文说明此为“Generic Formulation",意思就是总体实现的目标:最大化判别器的loss,最小化源和目标在映射之后的差异,最下面的意思是实现一个特定的映射结构 3,2

3.1 Source and target mappings

符号名称 含义 首次出现位置
Mls source images的l层的参数 4,2
{l1,l2,…,ln} l=layer,第几层的意思 4,3
公式 解释 首次出现位置
整体的映射结构是每一层的映射结构组合在一起(原文用词constraints) 4,1
每一层的映射结构可以表示为该层的源或目标图像的计算参数 4,2

3.2 Adversarial losses

公式 解释 出现位置
adversarial mapping loss,判断映射的优劣 5,1
交叉熵损失的计算公式,D(Md(xd))表示分类器D把第d个样本xd映射为某个类的概率,Md含义和取12\frac{1}{2}21​的原因是label只有1/0,默认正确率取个一半 5,1
ADDA模型的无约束优化公式(unconstrained optimization),具体计算含义见下面公式解读部分 5,2

公式计算含义














Adversarial Discriminative Domain Adaptation阅读笔记(详细)相关推荐

  1. Adversarial Discriminative Domain Adaption 阅读笔记

    文章发表于 CVPR 2017 文章利用GAN网络的思想用于cross-domain识别 文章首先提到 1 先前的生成网络不适用于大的domain shift 2 先前的辨别网络施加固定的权重,没有利 ...

  2. ADDA: Adversarial Discriminative Domain Adaptation

    ADDA原理理解 ADDA中源域和目标域经过不同的映射来实现对齐. ADDA的目标函数包括三项: 1.源域的分类误差项 2.域分类器的分类误差项 3.生成器在目标域的误差项 1.源域的分类误差项 源域 ...

  3. Importance Weighted Adversarial Nets for Partial Domain Adaptation学习笔记

    Importance Weighted Adversarial Nets for Partial Domain Adaptation学习笔记 文章目录 Importance Weighted Adve ...

  4. Partial Adversarial Domain Adaptation学习笔记

    Partial Adversarial Domain Adaptation学习笔记 文章目录 Partial Adversarial Domain Adaptation学习笔记 tip Abstrac ...

  5. 文献阅读:ESAM: Discriminative Domain Adaptation with Non-Displayed Items to Improve Long-Tail Performanc

    文献阅读:ESAM: Discriminative Domain Adaptation with Non-Displayed Items to Improve Long-Tail Performanc ...

  6. 【paper笔记】ESAM: Discriminative Domain Adaptation with Non-Displayed Items to Improve Long-Tail

    ESAM: Discriminative Domain Adaptation with Non-Displayed Items to Improve Long-Tail Performance 阿里解 ...

  7. CYCADA: cycle-consistent adversaial domain adaption阅读笔记

    CYCADA: cycle-consistent adversaial domain adaption阅读笔记 目录 CYCADA: cycle-consistent adversaial domai ...

  8. Deep Domain Confusion:Maximinzing for Domain Invariance阅读笔记

    摘要 近期研究表明,通常而言,一个在大量数据上训练的监督学习深度CNN模型可以减少但是不能移除一个标准基准上的数据集偏差.在新的域内使用基于微调的深度模型对数据量有很高的需求,这种限制使得这种方法在很 ...

  9. Face-Morphing using Generative Adversarial Network(GAN)论文阅读笔记

    题目:Face-Morphing using Generative Adversarial Network(GAN) 参考文章:原文地址 摘要: 讲解了GAN的基本原理以及利用GAN换脸的原理. 在像 ...

  10. When Human Pose Estimation Meets Robustness: Adversarial Algorithms and Benchmarks阅读笔记

    当人体姿态估计满足鲁棒性:对抗性算法和基准 CVPR 2021 论文链接 代码链接 摘要:人体姿态估计旨在定位人体关键点位置,是一项基础且富有挑战性的计算机视觉任务.不同于人类视觉对各类数据损坏(如模 ...

最新文章

  1. 在WebStorm里面搜索文件中出现的中文字符
  2. .NET 使用 MySql.Data.dll 动态库操作MySql的帮助类--MySqlHelper
  3. docker mysql开机自启动_Docker学习4-学会如何让容器开机自启服务【坑】
  4. 深入解析thinkphp中的addAll方法
  5. 前端学习(1956)vue之电商管理系统电商系统之添加代码到仓库中
  6. 【OpenCV 例程200篇】36. 直角坐标与极坐标的转换
  7. CSDN Blog 之七宗罪
  8. azure未连接_查找影响Azure成本的未使用资源
  9. mysql io队列_网易视频云经验分享MYSQL 5.5 的IO控制
  10. c语言用链表实现成绩管理系统,C语言写的学生成绩管理系统(链表)
  11. 数学归纳法在数据结构与算法分析设计中的应用
  12. Python-英文小说词频统计
  13. 自制宿舍门禁,微信小程序蓝牙控制,比指纹更安全~
  14. 【无标题】drv8825步进电机驱动板子原理图
  15. com.apple.Boot.plist 和SMBIOS.plist 的设置
  16. CSDN绑定GitHub详细步骤,完成后可以得勋章哦,亲们国庆假期愉快!
  17. sublime text3设置快捷键在浏览器中打开
  18. flask后台开发之数据库交互
  19. 全国企业信用信息公示系统 查公司信息
  20. windows安装证书后无法信任问题解决

热门文章

  1. 微信小程序:聊天斗图微信表情包
  2. 英语单词词性顺口溜_英语单词速记顺口溜背诵技巧
  3. 深度学习蓄势待发,即将“爆破”欧拉方程
  4. Android仿QQ列表滑动
  5. cleaned_data python
  6. vs code git 编辑器中拉取(pull) 的时候报错 [rejected] v1.0.0 -> v1.0.0 (would clobber existing tag)
  7. 服务器中的软件如何备份文件夹在哪里找,PS的自动备份文件保存位置在哪里?
  8. iOS开发-class_ro_t和class_rw_t的区别
  9. 口袋之旅html5超强账号,《口袋之旅H5》攻略:各大排行榜冲榜攻略
  10. iOS 13 苹果登录实践 Sign In with Apple