Motivations

1、传统的SBIR可以视为简单任务，因为在参数学习过程中可以利用到所有类别的视觉信息，但是在实际场景中，训练集的类别并不能够保证涵盖查询图像和数据库中候选图像的所有类别。现有SBIR方法在zero-shot场景下往往效果很差，因为所学习到的检索模型对查询图像没有语义概念知识。

2、zero-shot SBIR hashing是zero-shot learning的一个特例，但现有的方法主要关注单模态的zero-shot recognition，不适合用于检索任务。zero-shot hashing虽然能解决大规模检索问题，但不适用于跨模态哈希和SBIR。

Contributions

zero-shot SBIR hashing需要解决跨模态哈希、SBIR和零样本学习的问题。

于是，根据以下问题设计 zero-shot sketch-image hashing (ZSIH) 模型：

1、并不是sketch/image的所有区域都是有用信息 (attention机制提取重要特征)

2、在训练过程中，需要消除sketch/image的异质性，来生成统一的哈希码进行匹配 ( Kronecker fusion layer融合sketch/image特征信息)

3、仅仅凭借视觉信息不足以处理zero-shot SBIR hashing问题，因此需要设计深度哈希方法，来将语义信息迁移到unseen class
（为了处理Zero-shot问题，graph convolution增强语义关系， generative hashing scheme从哈希码重建语义向量来保留语义信息）

ZSIH Model

Image/sketch encoding networks

Image/sketch encoding networks学习image/sketch到哈希编码的映射关系（哈希函数）。image/sketch首先经过卷积层（AlexNet最后一个池化层之前的部分）生成feature map，然后attention模型（可以看作weighted pooling）将重要信息部分混合成单个特征向量（一张image/sketch对应一个256维的特征向量）。再经过全连接层和sigmoid激活层，可以得到哈希码。在训练过程中，通过multi-model network的输出对image encoder f(·)和sketch encoder g(·)进行正则化（图中hash loss function），使得这两个encoder能学习到modal-free的编码表示。

Multi-modal network as code learner

Multi-modal network只用于训练过程。它能学习到sketch/image的联合表示，从而解决模态异质性问题。一种策略是利用sketch/image的特征融合层，这里用Kronecker product fusion layer，将一对sketch/image pair表示成单个特征向量（图中生成65536维特征）。
然而，仅仅消除模态异质性不能解决ZSIH问题，为了处理zero-shot任务，需要能够从seen class迁移语义信息到unseen class中。在联合编码学习过程中，在一个batch内，利用图卷积GCN来增强语义信息。这样，在这个batch内，具有较强潜在语义关系的数据就能在梯度计算过程中进行交互。
为了得到二进制编码作为 f(·)和g(·)的监督信息，利用stochastic generative model，在GCN后来生成哈希码。在此之后，利用decoder来重建语义信息。通过最大化似然，整个网络可以学习到带有语义信息的哈希码，从而更好地处理zero-shot问题。

Fusing sketch and image with Kronecker layer

Kronecker layer可以在有限的参数下，很大程度地扩展特征维度，从而更多地保留sketch和image之间的信息。

Semantic-relation-enhanced hidden representation with graph convolution

在一个batch内，训练数据；一个batch可以看作是有N_B个顶点的图；是第l层的特征表示，假设g_θ是卷积核，则。本文用，其中W是线性变换参数（全连接层），A是N_B*N_B维的自连接邻接矩阵，，D是对角矩阵，，D的对角元素是A行元素的和
直观上，该图卷积层可以理解为，根据A的图拉普拉斯变换，对经过全连接后的in-batch data（HW）进行行变换。这样，能够增强数据之间的语义关系，从而为 zero-shot hashing模型更好地挖掘语义信息。

Stochastic neurons and decoding network

sketch-image pair {x,y}经过GCN后得到的 b ∈ (0,1) ，是在0~1之间的实值，所以利用stochastic neurons来生成哈希码

进一步地，为了保留语义信息，在stochastic neurons后接decoder来重建语义向量（Gaussian likelihood with the reparametrization trick）

均值和方差都是由b经过全连接得到的

Learning objective and optimization

最大化输出二进制码的熵，能够保留语义信息

Out-of-sample extension

对于unseen class，可以得到哈希编码：

Experiments

ZSIH的效果是最好的。 SBIR方法中基于正负样本的Siamese CNN 和 GN Triplet方法效果还不错，说明有一定的泛化能力。zero-shot方法的SAE能达到与ZSIH相当的效果，但是只适用于单模态检索。

第1、2行说明Kronecker layer能扩展特征维度从而保留更多信息，第3行说明bit regularization容易导致过拟合，而且引入超参数不易于训练。第4行说明分类损失不能保留语义信息，泛化能力不够。第5、6说明图卷积能够增强语义关系。第7行t=0会导致图邻接矩阵太紧密，难以区分不同类别（邻接矩阵的元素都趋近1）。第8行t太小会导致邻接矩阵很稀疏，只有相同类别才有连接。

Conclusion

1、利用注意力机制提取重要的图像特征
2、利用图卷积来增强语义关系（这里是为了zero-shot问题迁移语义信息，是否也能尝试将语义信息构建成知识图谱等结构化信息）
3、重建词向量来保留语义信息（很多论文都用到reconstruction loss，也有的再加入分类损失来保证特征类别区分能力）
4、很多模型框架都是判别式方法，是否可以基于CVAE等生成模型框架
5、是否能用GAN等对抗生成思想处理domain adaption问题

【零样本草图检索】Zero-Shot Sketch-Image Hashing相关推荐

DeepLearning | Zero shot learning 零样本学习AWA2 图像数据集预处理
因为有打算想要写一组关于零样本学习算法的博客,需要用到AWA2数据集作为demo演示之前想只展示算法部分的代码就好了,但是如果只展示算法部分的代码可能不方便初学者复现,所以这里把我数据预处理的方法也 ...
DeepLearning | Zero Shot Learning 零样本学习（扩展内容、模型、数据集）
之前写过一篇关于零样本学习的博客,当时写的比较浅.后来导师让我弄个ppt去给本科生做一个关于Zero Shot Learning 的报告,我重新总结了一下,添加了一些新的内容,讲课的效果应该还不错,这 ...
《预训练周刊》第35期：零样本规划器的语言模型：为智能体提取可操作的知识、LaMDA：对话应用的语言模型...
No.35 智源社区预训练组预训练研究观点资源活动关于周刊本期周刊,我们选择了13篇预训练相关的论文,涉及动作规划.大模型改进.网络结构.零样本学习.对话模型.视频理解.机器翻译. ...
现代NLP中的零样本学习
2020-07-01 11:19:35 作者:Joe Davison 编译:ronghuaiyang 导读使用最新的NLP技术来进行零样本学习的一些进展和工作. 自然语言处理现在是一个非常令人兴奋的 ...
论文浅尝 | 通过阅读实体描述进行零样本的实体链接
笔记整理 | 赖泽升,东南大学本科生来源:ACL2019 动机先前实体链接的大多数工作都着重于与通用实体数据库的链接,通常希望链接到专门的实体词典,例如法律案件,公司项目描述,小说中的字符集或术语 ...
论文浅尝 | AAAI2020 - 基于生成对抗的知识图谱零样本关系学习
论文笔记整理:耿玉霞,浙江大学直博生.研究方向:知识图谱,零样本学习等. 来源:AAAI2020 论文链接:https://arxiv.org/pdf/2001.02332.pdf 本文是发表在AAA ...
论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述
随着监督学习在机器学习领域取得的巨大发展,如何减少人工在样本方面的处理工作,以及如何使模型快速适应层出不穷的新样本,成为亟待解决的问题.零样本学习(Zero-Shot Learning, ZSL)的提 ...
VideoCLIP-FacebookCMU开源视频文本理解的对比学习预训练，性能SOTA！适用于零样本学习！...
关注公众号,发现CV技术之美 0 写在前面在本文中,作者提出了VideoCLIP,这是一种不需要下游任务的任何标签,用于预训练零样本视频和文本理解模型的对比学习方法.VideoCLIP通过对比时间重 ...

【零样本草图检索】Zero-Shot Sketch-Image Hashing