Engaging Image Captioning via Personality

原文地址

时间:2019 CVPR arxiv 2018

模型结构图画的很清晰:trained、pretrained、frozen都标的很清楚

Intro

一般的image caption系统给出了caption都是显然的、无个性的结果,而人类考虑的是有吸引力的和高效的caption来避免说一些显然的东西,本文的工作是通过融入个性生成有吸引力的(engaging)caption,建立了PERSONALITY-CAPTIONS数据集,其中包括241858个captions,每一个caption都属于某个personality

PERSONALITY-CAPTIONS

数据集

Models

本文考虑了两个caption model,一个是retrieval model,一个是generative model

Image Encoders

两种image encoder,resnet152和resnext 32 × \times × 48d,预训练过的

caption generation models

本文复现了三个常用的SoTA image caption 模型,SHOWTELL,SHOWATTTELL和UPDOWN
Image and Personality Encoders,使用之前提到的image encoder编码成2048维向量给SHOWTELL,对于SHOWATTTELL和UPDOWN,编码7×7×2048给它们,最终,图片的特征会变成一个512维的向量,在SHOWTELL模型中,使用线性变换做到,在另外两个模型中,先用1×1卷积,得到7×7×512的张量,然后使用attention机制将7×7区域变成1×1,当使用personality trait的时候,每个personality trait被编码成512维的向量,类似word embedding

caption decoders,caption model和原来的模型有一些差别,详见论文原文

training and inference,本文使用SCST的两阶段训练方法

caption retrieval models

我们设计了一个简单的retrieval结构,称为TransResNet,它将图片、个性、caption映射到相同的空间 S S S

Image and Personality Encoders,使用2048的图片特征,然后输入到多层神经网络中得到500维的特征,将每个trait编码成500维的向量,然后将两个结果加起来

caption encoders,每个caption被编码为向量,使用Transformer结构,后面跟上两个全连接,通过点乘来匹配,使用log-likelihood和k个负样本来训练,为了对比,使用了一个简单的bag-of-words encoder,给定图片和personality trait ( I , P ) (I,P) (I,P)以及candidate C C C,得分计算为 s ( I , P , C ) = ( r I + r P ) r C s(I,P,C)=(r_I+r_P)r_C s(I,P,C)=(rI+rP)rC

training and inference,给定 I , P I,P I,P和candidates集合 ( c 1 , . . . , c N ) (c_1,...,c_N) (c1,...,cN),inference time选择score最大的 c c c,训练的时候我们将一系列得分传递给softmax层然后来最大化log-likelihood,整个结构如图所示

Experiments



结论

本文提出了同时理解图片内容并生成有吸引力的caption的模型,提出了新的数据集PERSONALITY-CAPTIONS,提出了新的retrieval模型,TranResNet

Engaging Image Captioning via Personality相关推荐

  1. 【CVPR2019】完整论文列表二

    CVPR 2019 Paper list No.1001-1294 ?CVPR2019 完整列表一 论文题目与链接 Semantic Component Decomposition for Face ...

  2. 37 篇! Facebook 今年被 CVPR 收录的论文都说了啥?

    CVPR 2019 已于 6 月 16 日至 20 日在美国加利福利亚州长滩市盛大举办,吸引了超过万人参加,雷锋网 AI 科技评论的记者也前往现场为大家带来了精彩的大会报道.作为工业界的学术实力干将之 ...

  3. 谷歌查看html地址_104篇CVPR 2019论文,追踪谷歌、Facebook、英伟达研究课题

    [新智元导读]人工智能顶级会议CVPR刚刚公布了最佳论文,谷歌.Facebook和英伟达也随后公布了自家发表的论文共计104篇,本文列出了三家大厂论文的完整列表. 本周,在美国加利福尼亚州长滩举办了C ...

  4. CVPR2019论文题目中文列表

    英文题目 中文题目   Finding Task-Relevant Features for Few-Shot Learning by Category Traversal 少镜头学习中用类别遍历法寻 ...

  5. (九:2020.08.27)CVPR 2019 追踪之论文纲要(译)

    CVPR 2019 追踪之论文纲要(修正于2020.08.28) 讲在前面 论文目录 讲在前面 论坛很多博客都对论文做了总结和分类,但就医学领域而言,对这些论文的筛选信息显然需要更加精细的把控,所以自 ...

  6. 5个令人兴奋的机器学习深度技术项目

    From time to time I would read some ML/AI/DL papers just to keep up with what's going on in the tech ...

  7. cvpr 2019 image caption

    文章目录 第一类: Adversarial Semantic Alignment for Improved Image Captions (这篇文章在第三类也会出现,但说问题的角度不同) Descri ...

  8. 新的一年,想发有关对话系统的paper?快关注时下最大热点:智能化与个性化...

    TL;DR: 为大家介绍和分析一个即将成为未来一年研究热点的 sub-topic: Personalized Dialog System!有强烈发 paper 的小伙伴们注意啦,上面这句话对你们来说翻 ...

  9. CV之IC: 图像描述(Image Captioning) 的简介、使用方法、案例应用之详细攻略

    CV之IC:    图像描述(Image Captioning) 的简介.使用方法.案例应用之详细攻略 目录 图像描述(Image Captioning) 的简介 1.常用数据集 2.评价指标 3.循 ...

最新文章

  1. 理解RESTful架构
  2. qq邮箱高频率邮件来源自动屏蔽的信任办法
  3. python基础教程:函数作用域
  4. vb访问mysql容易死机_VB访问MySQL
  5. 动手学深度学习(PyTorch实现)(十二)--批量归一化(BatchNormalization)
  6. Android 自定义ViewGroup
  7. bs和php,BSPHP - WEB源码|源代码 - 源码中国
  8. scala和java数据类型转换
  9. 核酸检测系统的潜在性能问题猜想
  10. java实验——回文是一种“从前向后读”和“从后向前读”都相同的字符串,如“上海自来水来自海上”。设计一个程序,判断字符串是否是回文。
  11. oracle 无法归档日志,报all online log need archiving
  12. c语言仿ce内存搜索工 源代码_CE的AOB_scan功能源码内存搜索特征码
  13. AI+视频技术助力保障校园安全,校园智能安防平台该如何建设?
  14. html中表格修改标题间距,css表格间距怎么调?
  15. java如何设置例外站点_java添加例外站点
  16. 中俄边界上的田园综合体:被额尔古纳河环抱着的“世外桃源”
  17. 推荐几个清华交大学霸的公众号
  18. Quaternion类
  19. sublime markdown 配色
  20. protege连接mysql_Protege4.0使用说明+问题整理.doc

热门文章

  1. 计算机汉字的编辑教案,人教版四年级信息技术《第三课 做个巧手小编辑》教案(精品获奖)...
  2. dsplay:table页面合并表格
  3. NESSUS漏洞扫描实战
  4. matplotlib入门之plt.plot折线图跟常用基本函数
  5. 人到中年,生活是怎样?
  6. 月报|公众号 3 月文章汇总
  7. 报考NPDP的条件是什么?
  8. 安卓游戏ClashOfClans个人服务器搭建及使用
  9. 迭代器模式 - Unity
  10. 人脸识别准确率大幅度提升