Intention Oriented Image Captions with Guiding Objects

原文地址

时间:2019 CVPR

Intro

image caption的过程缺少可控性,一张图片中可以包括很多个目标,但是一个描述只能包括其中一小部分


尽管我们能找到并分类出所有目标,但是我们不能强制语言模型描述我们关心的目标

本文提出了image captions with guiding objects(CGO)模型,CGO模型可以保证用户选择的目标包含在一个caption中,它可以是任何从图片中检测到的目标,即便在训练集中没有遇到过

Approach

给定一张图片,CGO能够将选择的目标融合到生成的句子中,这个过程中,两个LSTM生成目标两侧的文本,一个记为LSTM-L,另一个记为LSTM-R

Problem Formulation

给定图片III,我们想要生成序列y=(y1,y2,...,yT)y=(y_1,y_2,...,y_T)y=(y1,y2,...,yT),词汇表的长度为VVV,记θ\thetaθ是encoder-decoder的参数,我们的目标是找到最佳的参数,使得



其中ftf_tft是图片的特征,在不同模型中的使用方法不同,比如在NIC中,图片特征图fff仅仅在time step = 0的时候提供,而使用attention机制的模型会在每一步attend image feature


如果我们想要生成包括某个词的序列,则目标序列变成y=(y1,...,yk,...,yT)y=(y1,...,y_k,...,y_T)y=(y1,...,yk,...,yT),其中yky_kyk就是想要包括的词,此时的目标为

LSTM-L

给定图片III和词yky_kyk,LSTM-L生成左边的序列

然而这里存在一个问题,因为目标可以在序列的任何位置,比如’there is a banana and an apple on the table’以及’there is an apple and a banana on the table‘,且LSTM-L无法得知右边的序列,如图所示

目标在被描述之前就已经被决定了,就像人类在描述物体前已经得到了物体的大部分信息,因此,我们首先假设有一个集合的目标会出现在描述中,然后设定这些目标的顺序是安排好的,然后我们就可以得到一系列应当出现在右侧序列的目标标签,我们记目标标签为S={object1,...,objectm}S=\{object_1,...,object_m\}S={object1,...,objectm}SSS中的目标不会出现在LSTM-L生成的序列中,但会影响生成的内容,如上图(b)所示,序列S也作为LSTM-L的输入,现在LSTM-L以图片III,序列SSSyky_kyk作为输入

当生成<END>的时候,序列生成结束,句子到达句首,计算损失为

LSTM-R

当左边的序列生成完成后,LSTM-R以LSTM-L的生成结果作为输入,然后完成另一部分的生成,现在模型训练目标为

实践中,我们没有将右边的序列当作部分序列来训练,而是使用通常的LSTM误差,两者的区别在于

全序列的误差,可以看作为左边序列长度为0的情况

Novel Word Embedding

CGO中,当一个novel object 被选择为guiding object的时候,我们可以使用另一个见过的与这个object相似的object,可以通过WordNet或者word2vec中word embeeding的距离来选择,传统的image caption中,使用相似的embedding并不能生成novel word,而CGO中的novel word因为不是通过decoder生成的是直接写入句子的,所以能够生成(copy)novel word

Model details

实验中LSTM-R LSTM-L都使用up-down模型

Result


Conclusion

本文提出了CGO来进行object guided image caption,以图片和期望的object词作为输入,模型可以生成包括object的caption,这个过程是由LSTM-L和LSTM-R分别从Object词两边生成句子完成的

问题

本文的生成效果很好,只是反向地生成句子,围绕着词的两侧生成句子是反直觉的

Intention Oriented Image Captions with Guiding Objects相关推荐

  1. 论文笔记:Intention Oriented Image Captions with Guiding Objects

    Intention Oriented Image Captions with Guiding Objects 1.提出问题 现在的图像描述生成过程的控制方面受到限制,例如一张图片可能包含许多对象,但描 ...

  2. 用引导对象生成图像描述(Intention Oriented Image Captions with Guiding Objects 翻译)

    论文来自CVPR2019 论文地址: https://ieeexplore.ieee.org/document/8954294/ 用引导对象生成图像描述 概要 虽然现有的图像描述模型可以使用递归神经网 ...

  3. Image Captioning概述

    目录 任务描述 应用领域 主要问题 主流框架 常用数据集 Metrics Metrics的部分内容参考自知乎 任务描述 输入:图片III 输出:由 nnn个单词组成的图片内容描述S={s1,...,s ...

  4. 【CVPR2019】论文完整列表一

    CVPR 2019 Paper list No.1-1000 ?CVPR2019 完整列表二 论文题目与链接 Finding Task-Relevant Features for Few-Shot L ...

  5. 【今日CV 视觉论文速览】20 Nov 2018

    今日CS.CV计算机视觉论文速览 Tue, 20 Nov 2018 Totally 114 papers Daily Computer Vision Papers [1] Title: OrthoSe ...

  6. CVPR2019论文题目中文列表

    英文题目 中文题目   Finding Task-Relevant Features for Few-Shot Learning by Category Traversal 少镜头学习中用类别遍历法寻 ...

  7. (九:2020.08.27)CVPR 2019 追踪之论文纲要(译)

    CVPR 2019 追踪之论文纲要(修正于2020.08.28) 讲在前面 论文目录 讲在前面 论坛很多博客都对论文做了总结和分类,但就医学领域而言,对这些论文的筛选信息显然需要更加精细的把控,所以自 ...

  8. cvpr 2019 image caption

    文章目录 第一类: Adversarial Semantic Alignment for Improved Image Captions (这篇文章在第三类也会出现,但说问题的角度不同) Descri ...

  9. 论文阅读笔记-场景图谱-图谱生成:Scene Graph Generation from Objects, Phrases and Region Captions

    文章目录 摘要 引言 正文部分 Conclusionn Li Y, Ouyang W, Zhou B等. Scene Graph Generation from Objects, Phrases an ...

最新文章

  1. [代码]--WinForm 窗体之间相互嵌套
  2. 还在做Excel分析师?HR:对不起,我们还要求会Python!
  3. fsb,fev文件格式转换,提取与打包
  4. 常用来进行钢结构节点输出的软件是什么_纯干货:钢结构设计入门知识及简易方法(建议收藏)...
  5. js一个按钮弹出两个按钮_车内常见按钮,你却一个不认识?一分钟带你认识车内常见按钮...
  6. javascript提醒
  7. 福利工具,如何利用小程序免费下载积分文件呢?【第02期】
  8. 基本知识 100024
  9. 使用 Kind 在 5 分钟内快速部署一个 Kubernetes 高可用集群
  10. 百度地图(地图生成)
  11. 前端学习之路---node.js(二)
  12. 树莓派耳机接口有电流声、杂音
  13. SQL SERVER 使用stuff函数进行分组且合并
  14. 计算机桌面输入法怎么恢复,电脑输入法图标不见了怎么办 电脑输入法图标消失找回【图文】...
  15. 如何进行安全性测试?
  16. 原生js实现滑块拖动功能
  17. 测度论--长度是怎样炼成的[zz]
  18. NSA组网下2G/3G/4G/5G系统协同策略的研究
  19. 【MYSQL中(@i:=@i+1)的使用】
  20. 超声波液位计测量原理及应用领域

热门文章

  1. Java静态绑定与动态绑定
  2. Django期末考试复习
  3. SuperMap iDesktop 之 BIM优化流程——建筑篇
  4. Week15 作业 A - ZJM 与霍格沃兹 HDU - 1880
  5. Win7系统服务优化攻略
  6. JVM垃圾回收说为学日益,为道日损
  7. html把字母a显示为其asc码,HTML ASCII码
  8. 网易im即时聊天php怎么接入,网易云信IM即时通讯功能接入方式与流程_如何收费_企业服务汇...
  9. 网易云信消息抄送php,消息功能-服务端API文档-IM即时通讯-网易云信开发文档
  10. 微内核和宏内核的区别是什么