文章目录

  • 第一类:
    • Adversarial Semantic Alignment for Improved Image Captions (这篇文章在第三类也会出现,但说问题的角度不同)
    • Describing like Humans: on Diversity in Image Captioning
  • 第二类:
    • Good News, Everyone! Context driven entity-aware captioning for news images
    • Unsupervised Image Captioning
    • MSCap: Multi-Style Image Captioning with Unpaired Stylized Text
    • Dense Relational Captioning: Triple-Stream Networks for Relationship-Based Captioning
    • Engaging Image Captioning via Personality
  • 第三类:
    • Adversarial Semantic Alignment for Improved Image Captions
    • Fast, Diverse and Accurate Image Captioning Guided By Part-of-Speech
    • Self-critical n-step Training for Image Captioning
    • Pointing Novel Objects in Image Captioning
    • Look Back and Predict Forward in Image Captioning
    • Exact Adversarial Attack to Image Captioning:via Structured Output Learning with Latent Variables
    • Auto-Encoding Scene Graphs for Image Captioning
    • Intention Oriented Image Captions with Guiding Objects
    • Context and Attribute Grounded Dense Captioning
    • Show, Control and Tell: A Framework for Generating Controllable and Grounded Captions

相关博客: cvpr 2018 image caption generation论文导读(含workshop)

2019cvpr image captioning的论文总共16篇左右,其中主要包括三个方向:
第一:就是评价指标;
第二:就是提出新任务,一般都附带一个新的数据库;
第三:就是发现原先captioning当中的的问题,提出一定的解决方案。通过整体阅读,会发现,最后一种当中精度提升都一般,只要选择合适的比较算法,然后讲好自己的故事,就是很优秀的work。下面,我们来简单整体看一下相关论文。

第一类:

Adversarial Semantic Alignment for Improved Image Captions (这篇文章在第三类也会出现,但说问题的角度不同)

数据库的bias,是这篇文章的重点(具体见第三类第一篇论文,这里重点是评价指标部分)。除了传统的评价指标bleu,CIDEr等。最近有用分类器的做的。作者为了“跨模型评估”提出了叫做semantic score的一个指标,是收到一个叫inception score指标的启发,这个inception score是评价图像生成算法生成图像质量的一个指标。也是利用有监督的标签做一个分类器。具体这里的优势没有讲太多,只是说和人类更符合,因为这篇文章的重点是前面的bias,指标只是顺道提出的。
Semantic score是基于cca(canonical correlation analysis)的。具体操作就是为了暗哨bias,多加了一个im2text的数据库进来,然后直接计算图像和文本的cca.

从下图可以看出,semantic score和meteor还是具有一定一致性的。

Describing like Humans: on Diversity in Image Captioning

为描述的多样性提出了一个指标,基于SVD做的。

第二类:

Good News, Everyone! Context driven entity-aware captioning for news images

当前的caption任务都是生成一个描述性句子,但是对人类来说,都是带着先验知识来理解描述图片。这里提出了一个新任务,就是给一张新闻图片,给一段新闻,生成一个描述。

从方法上来看,卷积提取图像特征,Glove提取文本特征,加上attention来用LSTM生成句子。因为有新闻作为先验条件,所以可以生成包含实际地名的句子。

Unsupervised Image Captioning

无监督,重点。作者首先梳理了不同的captioning任务,最后自然的引出了自己的任务,看下面的图。

(a)一个图对应一个句子。(b)重点就是新目标。图像中有训练集没有出现过的东西,生成的时候要想办法包含。©第三个是cross-domain captioning,这个的论文没怎么看过,个人理解在成对的数据上训练完,非成对的要利用类似检索的策略来做?(d)就是利用一个pivot,简单就是目标是生成英文描述,我们利用汉语来作为pivot。先生成汉语描述,然后直接翻译生英语。(e)半监督,部分是成对的。(f)最后就是完全不相关。
虽然任务很惊艳,但是实现的方法很简单,就是先做目标检测。

无监督的大概指标:

MSCap: Multi-Style Image Captioning with Unpaired Stylized Text

新任务,多个style的。去年有一篇是故事性的。这个工作就是给数据库,方法很简单。
任务如下:

方法如下:

Dense Relational Captioning: Triple-Stream Networks for Relationship-Based Captioning

又是一个新任务,基于关系。简单来说,就是先检测一个关系,在生成句子。一个图可以说明问题:

方法如下:

Engaging Image Captioning via Personality

新任务,带一点个性,具体还是用例子来体会一下:

在新数据库上,作者使用了经典的show tell , show attend and tell还有updown来进行生成,但是效果并不好,所以作者提出了一个检索的模型。

第三类:

Adversarial Semantic Alignment for Improved Image Captions

数据库的bias,是这篇文章的重点。因为数据库本身的原因,模型回overfit一些共同出现的目标,比如数据库中全是猫和狗在一起,模型以为他们永远在一起,给一张猫和老虎的照片,模型生成的描述当中,无法识别出并包含老虎,可能还会强行带着狗。这就特别尴尬了。所以作者提出用对抗的思想,有一个带有context识别的生成器和联合注意力机制的判别器来完成这个任务。

因为任务是bias,所以一般的测试集也验证不出来呀,所以作者提出一个新的测试集,在这个测试集里,上面举的例子经常出现(数据库中全是猫和狗在一起,模型以为他们永远在一起,给一张猫和老虎的照片,模型生成的描述当中,无法识别出并包含老虎,可能还会强行带着狗),这样就能看出,到底有没有识别出真正的目标,而不是被强行带bias。

Fast, Diverse and Accurate Image Captioning Guided By Part-of-Speech

多样性,从名字我们可以看出这个工作的重点。如何做呢?之前用GAN或者VAE做,虽然多样性增加了,但是准确率降低了。本文作者提出可以使用part-of-speech作为桥梁来生成多样性的标注,并且用n-grams的不同来度量多样性,来说明本文方法的优越性。

因为重点是多样性,所以传统的度量指标用的都是相对的,而且绝对精度并不高

Self-critical n-step Training for Image Captioning

这篇是说怎么训练的。说之前用交叉熵损失函数不合适。这里用了增强学习,增强学习我也不是很了解,文中各种强化学习的公式。所以这个论文。。。。
贴个图感受一下结果吧

Pointing Novel Objects in Image Captioning

Domain knowledge,应该是这里的重点,我的理解其实就是学一些目标识别,先看下面的例子。

比较本文提出方法(LSTM-P)和普通方法的差异,也就是有没有准确识别出racket和bus。方法如下图,就是提出了一个并行的识别目标的模块,最后在生成单词的时候同时考虑原本的lstm输出和识别目标模块的输出。

Look Back and Predict Forward in Image Captioning

前后都看看。在预测当前单词的时候,利用前面的视觉特征注意力输出和当前隐藏状态输出做一个注意力,然后往后看就是一下子预测两个单词(这两个单词的LSTM权重共享)。

结果如下图:

Exact Adversarial Attack to Image Captioning:via Structured Output Learning with Latent Variables

这个做对抗攻击的。但是没明白攻击的是哪里。给个例子

左边一列不用说了,是原本的,中间一列,给出半个句子模板,模型往里面填写单词,肯定是错的呀,人类也不可能把一个已经错了的句子填对吧?也可能是我没理解作者的意图。。。

Auto-Encoding Scene Graphs for Image Captioning

利用图卷积引入先验知识克服数据库的bias。分两步,第一步先从S-G-D-S训练一个D。第二步I-G-D-S生成句子。

结果相当不错:

Intention Oriented Image Captions with Guiding Objects

清华的这个论文有意思了,不走寻常路:

先检测一个名词,然后左右生成,有了这个思路,方法也就不难想了:

Context and Attribute Grounded Dense Captioning

做Dense captioning(已经不是一般意义的image captioning了,扫一眼就行)的时候,需要考虑最终bounding box的上下文信息,如下图

Show, Control and Tell: A Framework for Generating Controllable and Grounded Captions

有名的题目,show tell系列,这里增加了控制因素,这里的控制信号是image region的一个set或者sequence,因为这个控制信号其实相当于提供了各位的信息,所以效果提升的很大。

方法框图如下:

很厉害的结果提升:

cvpr 2019 image caption相关推荐

  1. CVPR 2019 Unsupervised Image Caption

    CVPR 2019 Unsupervised Image Caption 无监督的图像描述,和之前的全监督图像描述相比,它不使用图像和描述之间的关联关系,而仅仅使用图像集.一个额外的语料库和一个目标检 ...

  2. 刷新记录,算法开源!字节跳动获人体姿态估计竞赛双冠 | CVPR 2019

    整理 | Jane 出品 | AI科技大本营(id:rgznai100) [导读]6 月 16--20 日,计算机视觉与模式识别领域顶会 CVPR 2019 在美国长滩举行.每年的 CVPR 盛会除了 ...

  3. 商汤62篇论文入选CVPR 2019,一览五大方向最新研究进展

    (图源自视觉中国) 作为与ICCV.ECCV并称为计算机视觉领域三大国际会议之一,本届CVPR大会共收到5265篇有效投稿,接收论文1300篇,接收率为25.2%. 商汤科技CVPR 2019录取论文 ...

  4. CVPR 2019超全论文合集新鲜出炉!| 资源帖

    整理 | 夕颜 出品 | AI科技大本营(ID: rgznai100) 实不相瞒,这是一个资源福利帖--CVPR 2019 接收论文超全合集! 此前关于 CVPR 2019 论文和合集出过不少,但是这 ...

  5. 告别低分辨率网络,微软提出高分辨率深度神经网络HRNet | CVPR 2019

    来源 | 微软研究院AI头条(ID:MSRAsia) 作者简介:孙可,中国科学技术大学信息学院在读博士生,目前在微软亚洲研究院视觉计算组实习,导师是王井东和肖斌老师.他的研究兴趣包括人体姿态估计.语义 ...

  6. 17篇论文入选CVPR 2019,百度AI都在关注什么?(附论文地址)

    整理 | 阿司匹林 出品 | AI科技大本营(公众号id:rgznai100) 计算机视觉和模式识别大会CVPR 2019即将于6月在美国长滩召开,作为人工智能领域计算机视觉方向的重要学术会议,CVP ...

  7. 首发 | 13篇京东CVPR 2019论文!你值得一读~ 技术头条

    点击上方↑↑↑蓝字关注我们~ 「2019 Python开发者日」全日程揭晓,请扫码咨询 ↑↑↑ 编者按:计算机视觉和模式识别大会 CVPR(Conference on Computer Vision ...

  8. 微软亚研院提出用于语义分割的结构化知识蒸馏 | CVPR 2019

    作者 | CV君 来源 | 我爱计算机视觉 今天跟大家分享一篇关于语义分割的论文,刚刚上传到arXiv的CVPR 2019接收论文<Structured Knowledge Distillati ...

  9. 西工大开源拥挤人群数据集生成工具,大幅提升算法精度 | CVPR 2019

    作者 | 周强(CV君) 转载自 我爱计算机视觉(公众号id:aicvml) 近年来,因为拥挤人群计数在视频监控.公共安全方面的应用广泛,引起了不少学者的关注. 简单说来这个任务就是给定图像,返回该图 ...

最新文章

  1. 李飞飞、颜宁等9位华人当选美国艺术与科学院院士,DeepMind创始人也成新晋院士!...
  2. C++实现huffman哈夫曼编码的算法(附完整源码)
  3. 大剑无锋之DQL、DML、DDL、DCL,简单举个例子【面试推荐】
  4. 【Git、GitHub、GitLab】一 Git安装与Git最小配置
  5. python组件化软件github_GitHub - 872409/wepy: 小程序组件化开发框架
  6. Sketch 80 for mac(矢量绘图设计软件)
  7. Code Review关注点
  8. 软件性能测试包括哪些方面,简述软件系统性能指标主要包括哪些方面
  9. 完美解决织梦CMS加入lian666自动友情链接代码正常显示
  10. C++使用ADO连接Access数据库方法
  11. 腾讯AlloyTeam招募Web工程师(社招/校招/实习生)
  12. matlab sym是什么意思,matlab sym什么意思
  13. 微信小程序一行代码实现微信公众号页面代码复用
  14. 诡异!意识何以意识到意识自身?道翰天琼认知智能机器人API接口平台为您揭秘。
  15. Oracle HR 样例用户的建立 10g,11g均可
  16. Asciinema终端SSH录屏神器使用
  17. Tekton系列之理论篇【二】
  18. 外卖O2O硝烟初起 巨头们各自是啥思路?
  19. jn-社团申请、及时雨、风采展示三个模块bug修改
  20. php7随机数random_int()

热门文章

  1. GridView动态添加Templete项
  2. Git出现|MERGING解决
  3. 青龙毛毛快手极速版果园
  4. 这么牛的毕业生,来当CTO吧!
  5. GitHub 6大热门实时人脸识别开源项目!哪个最适合初级开发者?
  6. Switch must be exhaustive, consider adding a default clause
  7. 爱、信任、责任、勇气、信念 -----《功夫熊猫》观感
  8. 西门子S7-1200系列PLC输入/输出接线
  9. matlab学习笔记(待续)
  10. html链接美化,CSS--超级链接的美化