Engaging Image Captioning via Personality

原文地址

时间：2019 CVPR arxiv 2018

模型结构图画的很清晰：trained、pretrained、frozen都标的很清楚

Intro

一般的image caption系统给出了caption都是显然的、无个性的结果，而人类考虑的是有吸引力的和高效的caption来避免说一些显然的东西，本文的工作是通过融入个性生成有吸引力的（engaging）caption，建立了PERSONALITY-CAPTIONS数据集，其中包括241858个captions，每一个caption都属于某个personality

PERSONALITY-CAPTIONS

数据集

Models

本文考虑了两个caption model，一个是retrieval model，一个是generative model

Image Encoders

两种image encoder，resnet152和resnext 32 $\times$ 48d，预训练过的

caption generation models

本文复现了三个常用的SoTA image caption 模型，SHOWTELL，SHOWATTTELL和UPDOWN
Image and Personality Encoders，使用之前提到的image encoder编码成2048维向量给SHOWTELL，对于SHOWATTTELL和UPDOWN，编码7×7×2048给它们，最终，图片的特征会变成一个512维的向量，在SHOWTELL模型中，使用线性变换做到，在另外两个模型中，先用1×1卷积，得到7×7×512的张量，然后使用attention机制将7×7区域变成1×1，当使用personality trait的时候，每个personality trait被编码成512维的向量，类似word embedding

caption decoders，caption model和原来的模型有一些差别，详见论文原文

training and inference，本文使用SCST的两阶段训练方法

caption retrieval models

我们设计了一个简单的retrieval结构，称为TransResNet，它将图片、个性、caption映射到相同的空间 $S$ 中

Image and Personality Encoders，使用2048的图片特征，然后输入到多层神经网络中得到500维的特征，将每个trait编码成500维的向量，然后将两个结果加起来

caption encoders，每个caption被编码为向量，使用Transformer结构，后面跟上两个全连接，通过点乘来匹配，使用log-likelihood和k个负样本来训练，为了对比，使用了一个简单的bag-of-words encoder，给定图片和personality trait $(I, P)$ 以及candidate $C$ ,得分计算为 $s(I,P,C)=(r_I+r_P)r_C$

training and inference，给定 $I, P$ 和candidates集合 $c_1,...,c_N)$ ，inference time选择score最大的 $c$ ，训练的时候我们将一系列得分传递给softmax层然后来最大化log-likelihood，整个结构如图所示

Experiments

结论

本文提出了同时理解图片内容并生成有吸引力的caption的模型，提出了新的数据集PERSONALITY-CAPTIONS，提出了新的retrieval模型，TranResNet