Motivations

1、传统的SBIR可以视为简单任务,因为在参数学习过程中可以利用到所有类别的视觉信息,但是在实际场景中,训练集的类别并不能够保证涵盖查询图像和数据库中候选图像的所有类别。现有SBIR方法在zero-shot场景下往往效果很差,因为所学习到的检索模型对查询图像没有语义概念知识。

2、zero-shot SBIR hashing是zero-shot learning的一个特例,但现有的方法主要关注单模态的zero-shot recognition,不适合用于检索任务。zero-shot hashing虽然能解决大规模检索问题,但不适用于跨模态哈希和SBIR。

Contributions

zero-shot SBIR hashing需要解决跨模态哈希、SBIR和零样本学习的问题。

于是,根据以下问题设计 zero-shot sketch-image hashing (ZSIH) 模型:

1、并不是sketch/image的所有区域都是有用信息 (attention机制提取重要特征)

2、在训练过程中,需要消除sketch/image的异质性,来生成统一的哈希码进行匹配 ( Kronecker fusion layer融合sketch/image特征信息)

3、仅仅凭借视觉信息不足以处理zero-shot SBIR hashing问题,因此需要设计深度哈希方法,来将语义信息迁移到unseen class
(为了处理Zero-shot问题,graph convolution增强语义关系, generative hashing scheme从哈希码重建语义向量来保留语义信息)

ZSIH Model

Image/sketch encoding networks

Image/sketch encoding networks学习image/sketch到哈希编码的映射关系(哈希函数)。image/sketch首先经过卷积层(AlexNet最后一个池化层之前的部分)生成feature map,然后attention模型(可以看作weighted pooling)将重要信息部分混合成单个特征向量(一张image/sketch对应一个256维的特征向量)。再经过全连接层和sigmoid激活层,可以得到哈希码。在训练过程中,通过multi-model network的输出对image encoder f(·)和sketch encoder g(·)进行正则化(图中hash loss function),使得这两个encoder能学习到modal-free的编码表示。

Multi-modal network as code learner

Multi-modal network只用于训练过程。它能学习到sketch/image的联合表示,从而解决模态异质性问题。一种策略是利用sketch/image的特征融合层,这里用Kronecker product fusion layer,将一对sketch/image pair表示成单个特征向量(图中生成65536维特征)。
然而,仅仅消除模态异质性不能解决ZSIH问题,为了处理zero-shot任务,需要能够从seen class迁移语义信息到unseen class中。在联合编码学习过程中,在一个batch内,利用图卷积GCN来增强语义信息。这样,在这个batch内,具有较强潜在语义关系的数据就能在梯度计算过程中进行交互。
为了得到二进制编码作为 f(·)和g(·)的监督信息,利用stochastic generative model,在GCN后来生成哈希码。在此之后,利用decoder来重建语义信息。通过最大化似然,整个网络可以学习到带有语义信息的哈希码,从而更好地处理zero-shot问题。

Fusing sketch and image with Kronecker layer


Kronecker layer可以在有限的参数下,很大程度地扩展特征维度,从而更多地保留sketch和image之间的信息。

Semantic-relation-enhanced hidden representation with graph convolution

在一个batch内,训练数据;一个batch可以看作是有NB个顶点的图;是第l层的特征表示,假设gθ是卷积核,则。本文用,其中W是线性变换参数(全连接层),A是NB*NB维的自连接邻接矩阵,,D是对角矩阵,,D的对角元素是A行元素的和
直观上,该图卷积层可以理解为,根据A的图拉普拉斯变换,对经过全连接后的in-batch data(HW)进行行变换。这样,能够增强数据之间的语义关系,从而为 zero-shot hashing模型更好地挖掘语义信息。

Stochastic neurons and decoding network

sketch-image pair {x,y}经过GCN后得到的 b ∈ (0,1) ,是在0~1之间的实值,所以利用stochastic neurons来生成哈希码


进一步地,为了保留语义信息,在stochastic neurons后接decoder来重建语义向量(Gaussian likelihood with the reparametrization trick)

均值和方差都是由b经过全连接得到的

Learning objective and optimization


最大化输出二进制码的熵,能够保留语义信息

Out-of-sample extension

对于unseen class,可以得到哈希编码:

Experiments


ZSIH的效果是最好的。 SBIR方法中基于正负样本的Siamese CNN 和 GN Triplet方法效果还不错,说明有一定的泛化能力。zero-shot方法的SAE能达到与ZSIH相当的效果,但是只适用于单模态检索。

第1、2行说明Kronecker layer能扩展特征维度从而保留更多信息,第3行说明bit regularization容易导致过拟合,而且引入超参数不易于训练。第4行说明分类损失不能保留语义信息,泛化能力不够。第5、6说明图卷积能够增强语义关系。第7行t=0会导致图邻接矩阵太紧密,难以区分不同类别(邻接矩阵的元素都趋近1)。第8行t太小会导致邻接矩阵很稀疏,只有相同类别才有连接。

Conclusion

1、利用注意力机制提取重要的图像特征
2、利用图卷积来增强语义关系(这里是为了zero-shot问题迁移语义信息,是否也能尝试将语义信息构建成知识图谱等结构化信息)
3、重建词向量来保留语义信息(很多论文都用到reconstruction loss,也有的再加入分类损失来保证特征类别区分能力)
4、很多模型框架都是判别式方法,是否可以基于CVAE等生成模型框架
5、是否能用GAN等对抗生成思想处理domain adaption问题

【零样本草图检索】Zero-Shot Sketch-Image Hashing相关推荐

  1. DeepLearning | Zero shot learning 零样本学习AWA2 图像数据集预处理

    因为有打算想要写一组关于零样本学习算法的博客,需要用到AWA2数据集作为demo演示 之前想只展示算法部分的代码就好了,但是如果只展示算法部分的代码可能不方便初学者复现,所以这里把我数据预处理的方法也 ...

  2. DeepLearning | Zero Shot Learning 零样本学习(扩展内容、模型、数据集)

    之前写过一篇关于零样本学习的博客,当时写的比较浅.后来导师让我弄个ppt去给本科生做一个关于Zero Shot Learning 的报告,我重新总结了一下,添加了一些新的内容,讲课的效果应该还不错,这 ...

  3. 《预训练周刊》第35期:零样本规划器的语言模型:为智能体提取可操作的知识、LaMDA:对话应用的语言模型...

    No.35 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 本期周刊,我们选择了13篇预训练相关的论文,涉及动作规划.大模型改进.网络结构.零样本学习.对话模型.视频理解.机器翻译. ...

  4. 现代NLP中的零样本学习

    2020-07-01 11:19:35 作者:Joe Davison 编译:ronghuaiyang 导读 使用最新的NLP技术来进行零样本学习的一些进展和工作. 自然语言处理现在是一个非常令人兴奋的 ...

  5. 浅谈零样本网络表示学习

    ©PaperWeekly 原创 · 作者|汪佳龙 学校|澳门大学博士生 研究方向|图神经网络 什么是零样本网络表示学习 这个问题主要来自两篇论文 AAAI 2018 和 TKDE 2020,在正式开始 ...

  6. 论文浅尝 | 通过阅读实体描述进行零样本的实体链接

    笔记整理 | 赖泽升,东南大学本科生 来源:ACL2019 动机 先前实体链接的大多数工作都着重于与通用实体数据库的链接,通常希望链接到专门的实体词典,例如法律案件,公司项目描述,小说中的字符集或术语 ...

  7. 论文浅尝 | AAAI2020 - 基于生成对抗的知识图谱零样本关系学习

    论文笔记整理:耿玉霞,浙江大学直博生.研究方向:知识图谱,零样本学习等. 来源:AAAI2020 论文链接:https://arxiv.org/pdf/2001.02332.pdf 本文是发表在AAA ...

  8. 论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

    随着监督学习在机器学习领域取得的巨大发展,如何减少人工在样本方面的处理工作,以及如何使模型快速适应层出不穷的新样本,成为亟待解决的问题.零样本学习(Zero-Shot Learning, ZSL)的提 ...

  9. VideoCLIP-FacebookCMU开源视频文本理解的对比学习预训练,性能SOTA!适用于零样本学习!...

    关注公众号,发现CV技术之美 0 写在前面 在本文中,作者提出了VideoCLIP,这是一种不需要下游任务的任何标签,用于预训练零样本视频和文本理解模型的对比学习方法.VideoCLIP通过对比时间重 ...

最新文章

  1. Uva 10074【递推dp】
  2. 实现点击在当前位置画一个黑点,打印出当前点击的坐标
  3. WebTrends Log Analyzer
  4. 领域模型命名规约【PO,VO,POJO,BO,DTO,DO,JavaBean】
  5. 高端android手机,高端机型很难选择?这几款手机就很不错,你肯定有中意的
  6. java里dir是什么意思_关于文件系统:为什么user.dir系统属性在Java中工作?
  7. Jekyll + Coding Pages 搭建静态博客
  8. Unity+KBEngine实战系列1——棋牌(含完整教程与源码)
  9. 全国哀悼日网站页面变成灰色的filter方法
  10. 浅谈“如何学习编程——学会用编程软件编程”
  11. Day33:Swift 和 Object - C
  12. # 18医工独家|学习方法分享·学游戏打英语
  13. ipad和android同步照片,4种方式将照片从iPhone传输到iPad
  14. matlab残差分析取离散点,matlab残差分析图
  15. 核心竞争力和壁垒 | 讲概念
  16. web前端入门到实战:img中alt和title属性的区别
  17. 【UML建模】(5) UML建模之活动图
  18. 计算机基础知识 综述题,计算机应用的基础知识:文本表示综述及其改进
  19. oracle 断电起不来,解决方案
  20. epplus保存为流_.NET Core 2从内存流下载Excel文件 - c#

热门文章

  1. LINUX 下使用Address Sanitizer ,以及不能运行的问题
  2. 360 html禁止自动填充,360极速浏览器如何停用“自动填充”功能
  3. 添加两个tomcat 并能同时运行,修改
  4. 用 Win2003 架设邮件服务器
  5. 百度云+AI战略升级,加速推动人工智能工业化进程
  6. android 6.0 存储空间,Android 6.0 SD记忆卡储存空间合并新功能,原厂没给的教你如何免 Root 手动合并吧!...
  7. Delphi StyleControls之标题栏按钮
  8. 利用itchat接口进行微信好友数据分析
  9. 姜海强:PHP语言的开发效率最高,服务器等成本也最低
  10. 第十四章、Linux 账号管理与 ACL 权限配置