Engaging Image Captioning via Personality
Engaging Image Captioning via Personality
原文地址
时间:2019 CVPR arxiv 2018
模型结构图画的很清晰:trained、pretrained、frozen都标的很清楚
Intro
一般的image caption系统给出了caption都是显然的、无个性的结果,而人类考虑的是有吸引力的和高效的caption来避免说一些显然的东西,本文的工作是通过融入个性生成有吸引力的(engaging)caption,建立了PERSONALITY-CAPTIONS数据集,其中包括241858个captions,每一个caption都属于某个personality
PERSONALITY-CAPTIONS
数据集
Models
本文考虑了两个caption model,一个是retrieval model,一个是generative model
Image Encoders
两种image encoder,resnet152和resnext 32 × \times × 48d,预训练过的
caption generation models
本文复现了三个常用的SoTA image caption 模型,SHOWTELL,SHOWATTTELL和UPDOWN
Image and Personality Encoders,使用之前提到的image encoder编码成2048维向量给SHOWTELL,对于SHOWATTTELL和UPDOWN,编码7×7×2048给它们,最终,图片的特征会变成一个512维的向量,在SHOWTELL模型中,使用线性变换做到,在另外两个模型中,先用1×1卷积,得到7×7×512的张量,然后使用attention机制将7×7区域变成1×1,当使用personality trait的时候,每个personality trait被编码成512维的向量,类似word embedding
caption decoders,caption model和原来的模型有一些差别,详见论文原文
training and inference,本文使用SCST的两阶段训练方法
caption retrieval models
我们设计了一个简单的retrieval结构,称为TransResNet,它将图片、个性、caption映射到相同的空间 S S S中
Image and Personality Encoders,使用2048的图片特征,然后输入到多层神经网络中得到500维的特征,将每个trait编码成500维的向量,然后将两个结果加起来
caption encoders,每个caption被编码为向量,使用Transformer结构,后面跟上两个全连接,通过点乘来匹配,使用log-likelihood和k个负样本来训练,为了对比,使用了一个简单的bag-of-words encoder,给定图片和personality trait ( I , P ) (I,P) (I,P)以及candidate C C C,得分计算为 s ( I , P , C ) = ( r I + r P ) r C s(I,P,C)=(r_I+r_P)r_C s(I,P,C)=(rI+rP)rC
training and inference,给定 I , P I,P I,P和candidates集合 ( c 1 , . . . , c N ) (c_1,...,c_N) (c1,...,cN),inference time选择score最大的 c c c,训练的时候我们将一系列得分传递给softmax层然后来最大化log-likelihood,整个结构如图所示
Experiments
结论
本文提出了同时理解图片内容并生成有吸引力的caption的模型,提出了新的数据集PERSONALITY-CAPTIONS,提出了新的retrieval模型,TranResNet
Engaging Image Captioning via Personality相关推荐
- 【CVPR2019】完整论文列表二
CVPR 2019 Paper list No.1001-1294 ?CVPR2019 完整列表一 论文题目与链接 Semantic Component Decomposition for Face ...
- 37 篇! Facebook 今年被 CVPR 收录的论文都说了啥?
CVPR 2019 已于 6 月 16 日至 20 日在美国加利福利亚州长滩市盛大举办,吸引了超过万人参加,雷锋网 AI 科技评论的记者也前往现场为大家带来了精彩的大会报道.作为工业界的学术实力干将之 ...
- 谷歌查看html地址_104篇CVPR 2019论文,追踪谷歌、Facebook、英伟达研究课题
[新智元导读]人工智能顶级会议CVPR刚刚公布了最佳论文,谷歌.Facebook和英伟达也随后公布了自家发表的论文共计104篇,本文列出了三家大厂论文的完整列表. 本周,在美国加利福尼亚州长滩举办了C ...
- CVPR2019论文题目中文列表
英文题目 中文题目 Finding Task-Relevant Features for Few-Shot Learning by Category Traversal 少镜头学习中用类别遍历法寻 ...
- (九:2020.08.27)CVPR 2019 追踪之论文纲要(译)
CVPR 2019 追踪之论文纲要(修正于2020.08.28) 讲在前面 论文目录 讲在前面 论坛很多博客都对论文做了总结和分类,但就医学领域而言,对这些论文的筛选信息显然需要更加精细的把控,所以自 ...
- 5个令人兴奋的机器学习深度技术项目
From time to time I would read some ML/AI/DL papers just to keep up with what's going on in the tech ...
- cvpr 2019 image caption
文章目录 第一类: Adversarial Semantic Alignment for Improved Image Captions (这篇文章在第三类也会出现,但说问题的角度不同) Descri ...
- 新的一年,想发有关对话系统的paper?快关注时下最大热点:智能化与个性化...
TL;DR: 为大家介绍和分析一个即将成为未来一年研究热点的 sub-topic: Personalized Dialog System!有强烈发 paper 的小伙伴们注意啦,上面这句话对你们来说翻 ...
- CV之IC: 图像描述(Image Captioning) 的简介、使用方法、案例应用之详细攻略
CV之IC: 图像描述(Image Captioning) 的简介.使用方法.案例应用之详细攻略 目录 图像描述(Image Captioning) 的简介 1.常用数据集 2.评价指标 3.循 ...
最新文章
- 理解RESTful架构
- qq邮箱高频率邮件来源自动屏蔽的信任办法
- python基础教程:函数作用域
- vb访问mysql容易死机_VB访问MySQL
- 动手学深度学习(PyTorch实现)(十二)--批量归一化(BatchNormalization)
- Android 自定义ViewGroup
- bs和php,BSPHP - WEB源码|源代码 - 源码中国
- scala和java数据类型转换
- 核酸检测系统的潜在性能问题猜想
- java实验——回文是一种“从前向后读”和“从后向前读”都相同的字符串,如“上海自来水来自海上”。设计一个程序,判断字符串是否是回文。
- oracle 无法归档日志,报all online log need archiving
- c语言仿ce内存搜索工 源代码_CE的AOB_scan功能源码内存搜索特征码
- AI+视频技术助力保障校园安全,校园智能安防平台该如何建设?
- html中表格修改标题间距,css表格间距怎么调?
- java如何设置例外站点_java添加例外站点
- 中俄边界上的田园综合体:被额尔古纳河环抱着的“世外桃源”
- 推荐几个清华交大学霸的公众号
- Quaternion类
- sublime markdown 配色
- protege连接mysql_Protege4.0使用说明+问题整理.doc