阿里妹导读:在现实世界中,信息通常以不同的模态同时出现。这里提到的模态主要指信息的来源或者形式。例如在淘宝场景中,每个商品通常包含标题、商品短视频、主图、附图、各种商品属性(类目,价格,销量,评价信息等)、详情描述等,这里的每一个维度的信息就代表了一个模态。如何将所有模态的信息进行融合,进而获得一个综合的特征表示,这就是多模态表征要解决的问题。今天,我们就来探索多模态表征感知网络,了解这项拿过冠军的技术。

作者 | 越丰、箫疯、裕宏、华棠

摘要

近些年,深度学习飞速发展,在很多领域(图像、语音、自然语言处理、推荐搜素等)展现出了巨大的优势。多模态表征研究也进行入深度学习时代,各种模态融合策略层出不穷。

在这里,我们主要对图像和文本这两个最常见的模型融合进行探索,并在2个多模态融合场景中取得了目前最好的效果。

  1. 在文本编辑图像场景中,我们提出了双线性残差层 ( Bilinear Residual Layer ),对图像和文本两个模态的特征进行双线性表示 ( Bilinear Representation),用来自动学习图像特征和文本特征间更优的融合方式。
  2. 在时尚图像生成场景中(给定文本直接生成对应的图像),我们采用了跨模态注意力机制(Cross Attention)对生成的图像和文本特征进行融合,再生成高清晰度且符合文本描述的时尚图像。最后,在客观评分和主观评分上取得了最好的成绩。

文本编辑图像

图像编辑是指对模拟图像内容的改动或者修饰,使之满足我们的需要,常见的图像处理软件有Photoshop、ImageReady等。随着人们对于图像编辑需求的日益提升,越来越多的图像要经过类似的后处理。但是图像处理软件使用复杂且需要经过专业的培训,这导致图像编辑流程消耗了大量人力以及时间成本,为解决该问题,一种基于文本的图像编辑手段被提出。基于文本的图像编辑方法通过一段文本描述,自动地编辑源图像使其符合给出的文本描述,从而简化图像编辑流程。例如图1所示,通过基于文本的图像编辑技术可以通过文字命令改变模特衣服的颜色,纹理甚至款式。

图1 基于文本的图像编辑技术示例

然而,基于文本的图像编辑技术目前仍然难以实现,原因是文本和图像是跨模态的,要实现一个智能的图像编辑系统则需要同时提取文本和源图像中的关键语义。这使得我们的模型需要很强的表示学习能力。

现有方法

目前已有一些针对基于文本的图像编辑所提出的方法。他们都采用了强大的图像生成模型GAN(Generative adversarial network)作为基本框架。Hao[1]训练了一个conditional GAN,它将提取出来的text embeddings作为conditional vector和图像特征连接在一起,作为两个模态信息的混合表示,然后通过反卷积操作生成目标图像 (如图2)。

图2 使用传统conditional GAN实现的基于文本的图像编辑方案

Mehmet[2]对以上方法做了改进,他认为特征连接并不是一种好的模态信息融合方式,并用一种可学习参数的特征线性调制方法3去学习图像和文本的联合特征。FiLM减少了模型的参数,同时使得联合特征是可学习的,提高了模型的表示学习能力 (如图3)。

图3 使用FiLM+conditional GAN实现的基于文本的图像编辑方案

我们的工作

我们的工作从理论角度分析了连接操作和特征线性调制操作间特征表示能力的优劣,并将这两种方法推广到更一般的形式:双线性 (Bilinear representation)。据此,我们提出表示学习能力更加优越的双线性残差层 (Bilinear Residual Layer),用来自动学习图像特征和文本特征间更优的融合方式。

Conditioning的原始形式

首先,本文将介绍conditional GAN中的连接操作和它的形式化表达,假设imageimage分别为前一层的输出和conditional vector,其中D和image为特征维度,连接的表示为image,后一层的权重image,其中imageimage分别为imageimage对应的权重,O为输出维度,我们可得到如下变换:


其中image为输出张量。

FiLM形式

FiLM源自于将特征乘以0-1之间的向量来模拟注意力机制的想法,FiLM进行特征维度上的仿射变换,即:

其中,image是缩放系数image的权重。显而易见,当image为全1矩阵时,FiLM退化成Conditioning的原始形式,由此,可以得出FiLM是连接操作的更一般情况。

Bilinear形式

以上的方法都只是线性变换,我们的工作在此基础上,提出了双线性的形式,即输出张量第i维的值由权重矩阵image控制:image

经过证明,Bilinear形式可以看做FiLM的进一步推广,它具有更加强大的表示学习能力。证明如下:

为了证明FiLM可以由Bilinear的形式表示,首先要将FiLM变换写成单个特征值的情况,假设imageimage分别对应imageimage中第个i输出值对应的权值,FiLM可以写成:


以上形式等同于:


其中image,而image可以通过随机选择image中的一个非零元素image来构造,从而image构造如下:

image中除了第k行其他位置的元素全为0。显而易见imageimage的秩均为1,由此可得出image,也就是说,当Bilinear变换矩阵image是稀疏的并且有不大于2的秩时,Bilinear形式等同于FiLM。这间接说明Bilinear形式是FiLM的推广。

Bilinear的Low-rank简化形式

虽然Bilinear有更强的表示能力,但它的参数实在是太多了,为了降低模型复杂度,实际中常常采用一种低秩的方法[4]简化计算,通过将image分解为两个低秩阵imageimage,其中d为指定的秩。由此,Bilinear的Low-rank简化形式可写为:


然后通过矩阵image将输出张量投影到输出维度上:

我们将imageimage和P作为网络内部可学习的层,并结合短路结构,提出双线性残差层 (Bilinear Residual Layer, BRL),具体可见图4。

算法的整体框架如图4,网络由生成器和判别器构成,生成器有三个模块:编码模块,融合模块,解码模块。编码模块由预训练好的文本编码器image和图像特征提取器image构成,图像特征提取器直接使用VGG16模型conv1-4层权值。融合模块由4个双线性残差层 (Bilinear Residual Layer, BRL)构成,解码模块则是将处理好的特征上采样成图像。

图4 方法的整体框架

训练时,模型得到图像-文本对的输入image,t为匹配图像x的对应描述,假设用于编辑图像的文本为image
,生成器接收image和x作为输入得到:

其中,F表示融合模块。对抗训练过程中,判别器被训练以区分语义不相关的图像文本对,因此我们需要从文本库中选择不匹配的文本image作为负样本,判别器的损失函数如下:

其中前两项为了区分正负样本对,第三项为了尽可能识别生成图像和文本image的不匹配。同时生成器G被训练以生成和文本image匹配的图像:

整体目标函数即由imageimage所构成。

实验结果

我们的方法在Caltech-200 bird[5]、Oxford-102 flower[6]以及Fashion Synthesis[7]三个数据集上进行了验证。定性结果如图5所示,第一列为原图,第二列表示Conditional GAN原始形式的方法,第三列表示基于FiLM的方法,最后一列是论文提出的方法。很明显前两者对于复杂图像的编辑会失败,而论文提出的方法得到的图像质量都较高。

图5 生成样本定性结果

除此之外,实验还进行了定量分析,尽管对于图像生成任务还很难定量评估,但是本工作采用了近期提出的近似评价指标Inception Score (IS)[8]作为度量标准。由表6可见,我们的方法获得了更高的IS得分,同时在矩阵秩设定为256时,IS得分最高。

表6 生成样本定量结果

时尚图像生成

在调研多模态融合技术的时候,有一个难点就是文本的描述其实对应到图像上局部区域的特性。例如图7,Long sleeve对应了图像中衣服袖子的区域,并且是长袖。另外,整个文本描述的特性对应的是整个图像的区域。基于这个考虑,我们认为图像和文本需要全局和局部特征描述,图像全局特征描述对应到整个图像的特征,局部特征对应图像每个区域的特征。文本的全局特征对应整个句子的特征,文本的局部特征对应每个单词的特征。然后文本和图像的全局和局部区域进行特征融合。

针对这种融合策略,我们在时尚图像生成任务上进行了实验。时尚图像生成(FashionGEN)是第一届Workshop On Computer VisionFor Fashion, Art And Design中一个比赛,这个比赛的任务是通过文本的描述生成高清晰度且符合文本描述的商品图像。我们在这个比赛中客观评分和人工评分上均获得的第一,并取得了这个比赛的冠军。

我们的方法

我们方法基于细粒度的跨模态注意力,主要思路是将不同模态的数据(文本、图像)映射到同一特征空间中计算相似度,从而学习文本中每个单词语义和图像局部区域特征的对应关系,辅助生成符合文本描述的细粒度时尚图像,如图7所示。

图7 不同单词描述图像不同区域示例

传统的基于文本的图像生成方法通常只学习句子和图像整体的语义关联,缺乏对服装细节纹理或设计的建模。为了改进这一问题,我们引入了跨模态注意力机制。如图8左边区域,已知图像的局部特征,可以计算句子中不同单词对区域特征的重要性,而句子语义可以视为基于重要性权重的动态表示。跨模态注意力可以将图片与文字的语义关联在更加精细的局部特征层级上建模,有益于细粒度时尚图像的生成。

图8 跨模态注意力机制,左图表示通过图像局部特征计算不同单词的重要性,右图表示通过词向量计算不同图像局部特征的重要性

我们用bi-LSTM作为文本编码器,GAN作为对抗生成模型,并将生成过程分为由粗到精,逐步增加分辨率的两个阶段:

  • 第一阶段利用句子的整体语义和随机输入学习图像在大尺度上的整体结构。
  • 第二阶段利用单词层级的语义在第一阶段低分辨率输出上做局部细节的修正和渲染,得到细粒度的高分辨率时尚图像输出。

图9 整体框架概览,顶部分支利用文本整体语义学习低分辨率的图像大致结构,底部分支在上一阶段的输出上做图像细节的修正,生成更加细粒度的时尚设计或纹理。

对抗生成网络

传统的生成式对抗网络由判别器和生成器两部分组成,判别器的目标是判别生成图像是否在真实数据集的分布中,而生成器的目标是尽可能的骗过判别器生成逼近真实数据集的图像,通过两者的迭代更新,最终达到理论上的纳什均衡点。这个过程被称为对抗训练,对抗训练的提出为建立图像等复杂数据分布建立了可能性。

对于文本生成图像的任务,需要更改生成器的输入以及目标函数,我们将两个阶段的生成器分别设为imageimage,整个流程可被形式化为:

其中image是句子向量,D为双向LSTM两个方向上输出的维度和,image是词向量矩阵,T指代单词的个数,image表示第一阶段激活值输出,image表示生成的图像。我们需要优化的目标函数定义为:

其中image是对抗损失,image是生成图像和对应描述的相似性损失,image由两部分组成:

其中第一项非条件损失表示图像本身的真伪,第二项条件损失表示图像和句子语义是否匹配。对image也同理。

判别器image,同时也被训练以最小化交叉熵损失:

该项对image也同理。

基于跨模态注意力的相似性

本节将详细介绍在我们的方法中用到的跨模态注意力机制,给出图像-文本对image,我们取Inceptionv3中mixed-6e层的输出768×17×17作为图像区域特征,我们将空间维度展平得到768×289,averagepooling层的输出2048作为图像全局特征,对这些特征使用投影矩阵imageimage变换到imageimage。由此,可以得到相似度矩阵:

其中元素image代表了第i个单词和第j个子区域的点积相似性。

图像-文本相似性

对于第i个单词,我们最终可以建立不同区域特征的加权和(越相似赋予越大的权重):

其中image是对应于第i个单词,图像特征的动态表述。

对第i个单词,求得imageimage的余弦相似度:

综合可得图片对image的相似度为:

其中超参数image表示最相关的单词-图像区域对对最终相似度得分的影响程度。在一个batch的图像-文本对中,我们最大化正确对的相似度,最小化错误对的相似度:

其中,

M为batchsize的大小。

文本-图像相似性

同理的,文本-图像的相似性可以形式化为:

全局相似性

以上我们计算了局部特征上的相似性得分,在全局区域,我们可以利用imageimage的余弦距离作为全局相似度:

综上,有:

通过优化以上损失函数,我们最终得到的生成的服装图片的效果图如下所示:

附上算法效果图:

总结

我们主要对图像和文本这两个最常见的模型融合进行探索,在文本编辑图像任务上,我们提出基于双线性残差层 (Bilinear Residual Layer)的图文融合策略,并取得了最好的效果,相关工作已经发表在ICASSP 2019上,点击文末“阅读原文”即可查看论文。在时尚图像生成任务上,我们使用了细粒度的跨模态融合策略,并在FashionGen竞赛中取得第一。

关于我们

阿里安全图灵实验室专注于AI在安全和平台治理领域的应用,涵盖风控、知识产权、智能云服务和新零售等商业场景,以及医疗、教育、出行等数亿用户相关的生活场景,已申请专利上百项。2018年12月,阿里安全图灵实验室正式对外推出“安全AI”,并总结其在知识产权保护、新零售、内容安全等领域进行深度应用的成果:2018年全年,内容安全AI调用量达到1.5万亿次;知识产权AI正在为上千个原创商家的3000多个原创商品提供电子“出生证”——线上与全平台商品图片对比,智能化完成原创性校验,作为原创商家电子备案及后续维权的重要依据;新零售场景的防盗损对小偷等识别精准度达到100%。

原文链接
本文为云栖社区原创内容,未经允许不得转载。

原来,阿里工程师才是隐藏的“修图高手”!相关推荐

  1. 别人家的爸爸!为了解释区块链,阿里工程师给儿子画了一本童话书

    明天是儿童节了,有个阿里工程师,给7岁儿子准备了一份很温馨的儿童节礼物:自己画的童话故事书. 这就是传说中的别人家的爸爸! 我厂的程序员,画起漫画来也是脑洞清奇:他用一个老鼠大王想吃上最正宗的奶酪的故 ...

  2. 阿里工程师如何叫外卖?99%的人猜不到

    阿里妹导读:为了解决订餐的烦恼,来自高德的阿里工程师勤硕,用技术做了一个非常好玩的事情,希望能给你带来一些启发,让我们一起快乐工作.认真生活. 情景重现 "啪啪啪-",在一阵急促的 ...

  3. 阿里工程师谈什么是好的代码?

    衡量代码质量的唯一有效标准:WTF/min -- Robert C. Martin 阿里工程师谈什么是好的代码? Bob 大叔对于好代码的理解非常有趣,对我也有很大的启发.我们编写的代码,除了用于机器 ...

  4. 报告!这群阿里工程师在偷偷养猪

    今天下午,期盼已久的阿里巴巴技术脱贫大会就要开始了. 很多人都知道,我们在1年前就投入100亿元人民币成立阿里巴巴脱贫基金.从教育到健康,再到女性.生态和电商扶贫,这五个方向分别由五位阿里合伙人直接牵 ...

  5. 报告!这群阿里工程师在偷偷养猪 1

    今天下午,期盼已久的阿里巴巴技术脱贫大会就要开始了. 很多人都知道,我们在1年前就投入100亿元人民币成立阿里巴巴脱贫基金.从教育到健康,再到女性.生态和电商扶贫,这五个方向分别由五位阿里合伙人直接牵 ...

  6. 如何评估深度学习模型效果?阿里工程师这么做

    小叽导读:复杂的深度模型中,如果效果不好,是因为网络设计的欠缺?还是数据天然缺陷?是训练代码的bug?还是Tensorflow自身的问题?基于此,阿里工程师推出了DeepInsight深度学习质量平台 ...

  7. 如何把照片压缩到20k一下_如何将图像压缩10倍?阿里工程师有个大胆的想法!...

    小叽导读:如何将单张图片由120k 压缩到了平均13k?阿里工程师做到了!并且将欧式距离计算平均耗时做到9微秒.今天,阿里巴巴技术专家萧冷将公开从初步尝试到优化的过程,希望对你有所帮助.背景在手机上用 ...

  8. 阿里工程师总结的《MySQL 笔记高清 PDF 》 开放下载

    下面是阿里工程师整理的MySQL笔记,高清PDF版,涉及到mysql的方方面面,内容质量特别高,文末有获取方式. 获取方式,扫码发送:102

  9. 免费下载!《阿里工程师的自我修养》公开10位阿里大牛解决问题的思维方式

    简介: 今天,阿里技术公布一波阿里P8.P9技术大牛的思维模型,将他们的思维模式呈现出来.你可以在阿里资深专家职业生涯的真切感悟中,找到应对危机的最佳方法.<阿里工程师的自我修养>现已正式 ...

最新文章

  1. Java培训的学费标准是多少
  2. 每天一个linux命令(9):touch 命令
  3. Python零碎知识(7):硬性出错
  4. python 全栈开发,Day79(Django的用户认证组件,分页器)
  5. MyBatis运行原理(二)SqlSession对象创建过程分析
  6. 你真敢ZAO吗?解读换脸AI “细思极恐” 的用户协议
  7. 什么是 Visual VM?
  8. teechart绘制实时曲线_快速学会CAD绘制传输线路图纸
  9. linux内核分成如下五个子系统,linux内核主要由5个子系统 Linux内核由哪几个子系统组成?...
  10. python测试嵌入式_用Python测试嵌入式系统的测试框架
  11. 员工入职是一连串事件(转)
  12. 简库软件库工具箱综合源码_iApp源码
  13. Tomcat安装配置及IDEA配置方法【亲测有效】
  14. Accessibility辅助功能的使用
  15. 永恒之塔人最多的服务器,[官方]永恒之塔新增服务器最新列表
  16. python画圆形螺旋线_【Python基础】利用 Python 搞定精美网络图!
  17. BO学习第二天 问题流水
  18. Elasticsearch 脚本安全使用指南
  19. 虚拟机centos7安装python_Win10家庭版通过Hyper-V安装Centos7+Python3.7过程总结
  20. 使用Three.js在浏览器绘制OFF格式的3D文件

热门文章

  1. 1.使用Runnable和Thread完成线程创建和基本操作
  2. 黑群晖折腾之docker系列之安装宝塔面板
  3. 极客日报:”腾讯起诉网站买卖微信号获赔109万;百度贴吧五年内流失九成用户;苹果计划明年推出挖孔屏iPhone
  4. Stata:敏感性分析-rcr
  5. android字体链接,Android TextView内容设置超链接、颜色、字体
  6. VMware NAT 网络连接 将能连同主机,以及能够上外网
  7. dota全屏 去黑边 win7
  8. 论文查重需要多长时间?
  9. PB用虚拟打印机导出PDF的问题
  10. 8916平台添加APN