本文是NIPS2015的一篇文章,整篇文章主要是解决一个视觉类比问题。
摘 要: 视觉类比问题非常值得研究。这个研究问题主要是:图像A类比图像B,那么图像C类比什么图像。视觉类比问题主要是深入挖掘图像A和图像B之间的映射关系,从而搜索出图像C对应的映射图像D。本文嵌入类比损失函数到深度卷积神经网络中,学习图像之间的类比关系,最后解决了自然图像之间的视觉类比问题。

引言:
图像类比就是原始图像映射到目标图像。类比的思维在人类认知科学中占有比较重要的低维。类比思维可以用认知科学的一些理论或者模型来进行解释,如共享结构,共享抽象,主题关系,蕴含推演等。最常见类比信息是找到一种映射,可以使原始信息按照一定的规则映射到目标信息。这种处理方法非常像美国本科入学考试的一种题:A相对B,那么C相对什么?

本文,我们主要解决图像的类比问答问题。假设这儿有三张图像,分别为Ia,Ib,IcI_a,I_b,I_c,。如果图像。如果图像类比于图像IbI_b,那么图像IcI_c类比于数据集中的什么?所以我需要选出IdI_d,满足Ia:Ib=Ic:IdI_a:I_b=I_c:I_d。如果利用当前的一些特征提取算法我们就需要对图像进行严格的对齐,严格的推理以及大量的训练数据。相反地,我们设计了一个类比损失函数,通过简单的向量映射,让卷积神经网络自动的学习到图像之间的这种类比关系。这就是一种从原始图像到目标图像之间的映射关系。
我们的目标就是,给定一些训练相同类比关系的图像训练集,通过样本赋予机器自动挖掘图像的类比关系,从而得到一个图像类比机器。如图1所示就是一个简单图像类比器。


图1 图像类比器

可以从图中看出,一个棕熊类比了一个白熊,可以看出,这个类比是颜色上的变化,那么一只棕色狗利用这个类比关系得到什么样的答案呢,那么我们从图1中间行的图像进行搜索,我们可以从图1最后一排的结果排序答案看出,这只棕色狗类比了最好的是白色狗。
从图1的结果可以看出,这个研究是非常有意思的。我们提出利用类比函数来学习这个类比关系,让相似的类比更加接近。特别的我们在卷积神经网络中(如图2所示)嵌入了一个类比函数,能让图像得到的特征在空间中转化。因此我们只需要加入类比损失函数来对卷积神经网络的最后一层输出进行fine-tune,这个类比函数就是为了使相同的类比更加接近,不相似的类比更加远。我们使用标准的CNNs训练图像的分类网络。训练数据集包含自然图像和人工图像。我们的评价采用不同数目的错误答案和正确答案来对我们的网络进行测试。
在本文中,我们研究了图像类比问答问题,旨在生成图像类比问答器。我们的方法通过学习类比函数来学习图像之间的类比映射关系。我们对自然图像的属性和行为进行标定来训练这个视觉问答系统(Visual Analogy Question Answering,VAQA)。同时我们对3D凳子设计了一个VAQA系统,这些3D凳子包含了不同的风格和视角。结果表明了我们的算法能够很好解决了VAQA问题。

2.提出的方法
我们提出一个视觉类比问答问题—I1:I2::I3:?I_1:I_2::I_3:?。这个问题是I1I_1类比I2I_2,然后我们从数据集中找出I4I_4,I3I_3和I4I_4的类比关系,所以我们需要找到一个函数TT(参数θ\theta),能使每一对图像(I1,I2I_1,I_2)映射到一个向量x12=T(I1,I2;θ)x_{12}=T(I_1,I_2;\theta).目的是为了得到一个参数θ\theta使得x12≈x34x_{12}\approx x_{34},从而得到图像类比关系I1:I2::I3:I4I_1:I_2::I_3:I_4。我们可以输入一对图像,这对图像通过卷积神经网络(ConvNet)的差异性得到函数TT的值。

2.1类比卷积神经网络
训练一个类比卷积神经网络,我们需要输入四张图像I1,I2,I3,I4I_1,I_2,I_3,I_4。这四张的关系为I1I_1和I2I_2的类比关系等于I3I_3和I4I_4的类比关系.我们的目的是I1I_1和I2I_2的类比特征和I3I_3和I4I_4的类比特征在空间中能够映射到一个点上。为了能够实现这个目标,我们利用一个类比损失函数LL使同一类比的两对图像在特征转换空间靠近,让不同类比关系的两对图像在特征转换空间中远离。假设一对输入图像类比特征定义为dd维空间向量xx,那么我们这个类比损失函数可以定义为如下:
Lm(x12,x34)=y||x12−x34||+(1−y)max(m−||x12−x34||)L^{m}(x_{12},x_{34})=y||x_{12}-x_{34}||+(1-y)max(m-||x_{12}-x_{34}||)
其中x12x_{12}和x34x_{34}分别是图像I1,I2I_1,I_2和I3,I4I_3,I_4类比空间特征向量。当输入的四张图像满足I1:I2::I3:I4I_1:I_2::I_3:I_4时,y=1y=1,当输入的四张图像不满足类比关系的时候,y=0y=0。m为边界参数,当y=1的时候,这四张图两两满足类比关系,它使x12x_{12}和x34x_{34}在空间的距离变近,当y=0y=0的时候,这四张图不满足两两类比关系,那么就是这错误的结果大于mm,其中m>0m>0。我们对式(1)求偏导得到目标函数损失,利用随机批量下降(stochastic gradient descent, SGD) back propagated到前面的前面的卷积神经网络中来调节网络的权重θ\theta。
整个网络如图2所示。


图2 类比卷积神经网络,每一个网络都共享参数 θ\theta,给定图像I1,I2,I3,I4I_1,I_2,I_3,I_4,为了让正确的视觉类比距离靠近,错误的视觉类比距离远离。
我们计算特征转换向量x,我们利用了图2中的卷积神经网络框架。每一张图像通过卷积神经网络前馈得到图像特征,这个卷积神经网络的参数都是一样的。类别y代表了我们输入的四张图像是否构成类比关系。

视觉类比VISALOGY: Answering Visual Analogy Questions--NIPS2015相关推荐

  1. 视觉伺服控制工具Visual Servoing Platform---VISP(7)----vpServo这个看懂了就会用VISP了,很简单

    看好了,基本上我们实现真实的机械臂控制的所有方法需要用到的类都可以在这个博客中找到. 这个类是整个VISP的核心部分了,因为其他的部分可以用现有的所有算法替换,但是这个vpServo和另一个姿态估计类 ...

  2. 论文笔记 EMNLP 2020|Event Extraction by Answering (Almost) Natural Questions

    文章目录 1 简介 1.1 动机 1.2 创新 2 方法 3 实验 1 简介 论文题目:Event Extraction by Answering (Almost) Natural Questions ...

  3. 【论文阅读】Query Graph Generation for Answering Multi-hop Complex Questions from Knowledge Bases

    <Query Graph Generation for Answering Multi-hop Complex Questions from Knowledge Bases> 论文来源:A ...

  4. 论证是一门学问 如何让你的观点有说服力-12 类比论证 Arguments by Analogy

    类比论证 Arguments by Analogy 对于规则7("不要只举一个例子"),有一种情况例外.与通过堆砌例证来支持某个概论不同,通过类比论证从一个具体的例子退到出另一个, ...

  5. 什么是视觉里程计(Visual Odometry)?

    1.概念:什么是里程计? 在里程计问题中,我们希望测量一个运动物体的轨迹.这可以通过许多不同的手段来实现.例如,我们在汽车轮胎上安装计数码盘,就可以得到轮胎转动的距离,从而得到汽车的估计.或者,也可以 ...

  6. 词向量相似性(Word Similarity)、类比任务(Word Analogy)实验数据

    词向量验证的方法通常有: 词的相似性任务(Word Similarity) 以及 词的类比任务 (Word Analogy). 词的相似性任务-Word Similarity 常用的英文数据集:Wor ...

  7. 视觉伺服控制工具Visual Servoing Platform---VISP(6)----基于4个平面点的姿态估计

    本教程重点介绍平面或非平面点的姿势估计.从它们在图像平面中的二维坐标以及在对象坐标系中指定的相应三维坐标,ViSP能够估计相机和对象坐标系之间的相对姿势.此姿势作为齐次矩阵cMo返回.请注意,要估计姿 ...

  8. 人类视觉系统(Human Visual System,HVS)

    人类通过人类视觉系统(HVS)来获取外界图像信息,当光辐射刺激人眼时,将会引起复杂的生理和心理变化,这种感觉就是视觉. 人类视觉系统(HVS)作为一种图像处理系统,它对图像的认知是非均匀和非线性的.人 ...

  9. 视觉伺服控制工具Visual Servoing Platform---VISP(2)----使用ViSP滤波图像。

    在本教程中,您将学习如何使用vpImageFilter类中实现的ViSP过滤函数. #include <visp/vpDisplayD3D.h> #include <visp/vpD ...

最新文章

  1. 双料状元收割神器来了!清华设立计算机金融双学士学位
  2. Linux SVN命令详解
  3. Microsoft Visual Studio 2010 Load Test Feature Pack安装排错
  4. TP5 自带分页类的传参
  5. eclipse下创建Maven项目
  6. 知己知彼:一篇来自前端同学对后端接口的吐槽!
  7. 众信金融获“2015最佳绿色贡献奖”
  8. maven安装Ojdbc6
  9. Centos 7.9系统安装网卡驱动
  10. gooflow学习笔记
  11. ADAS/AD控制器模块开发13 - Feature开发之LDWLKA
  12. 苹果雪豹操作系统正式版_苹果放出iOS 13andiPadOS beta 2:加入SMB网络共享、APFS硬盘支持...
  13. 一二线城市互联网公司汇总,助你拿高薪!
  14. typo:in word ‘ ‘ 问题解决方法
  15. html5导航栏向应折叠,超实用!网站导航栏设计形式总结
  16. springBoot+thymeleaf框架实现cms内容管理和商城系统
  17. MotoSimEG-VRC软件:多机器人信号交互与PLC功能
  18. Linux:ip addr命令分析
  19. 黑客代码cmd集合/幻隐网络科技
  20. Android开发:BaseExpandableListAdapter的使用

热门文章

  1. SFC模拟器coming soon
  2. 下一个20年全球开发者将过亿?Tesra超算网络与开发者一起迎接AI时代的到来!
  3. ajax与Java后台互相传数据
  4. 闭锁java_Java 闭锁实例
  5. JAVA中long[]转Long[]
  6. 深度学习之格式转换笔记(三):keras(.hdf5)模型转TensorFlow(.pb) 转TensorRT(.uff)格式
  7. 如何使用 DOI 快速找到论文的全文下载网址
  8. 传输线理论(一)传输线参量
  9. java.sql.SQLException: HOUR_OF_DAY: 2 -> 3
  10. Android ViewBinding和DataBinding的几个使用方式 - 上