背景

这里要分析的一篇文章,题为“从辅助源学习图像的主观属性”。近些年,人工智能领域出现了对图像、视频“主观属性”的研究:以图像为例,“主观属性”指的是那些与图像内容信息非客观(客观信息如图像中的物体、颜色、纹理等等),高度依赖受众的主观感受、认知的属性(如喜爱、憎恶等)。如下面的例子:

这个例子讲到了主观属性“喜爱”,假定将人们对于图像“喜爱”这个刻画程度以区间[0,1]来表示,对于不同的受众群体,被狗狗救过、对狗过敏、被狗咬伤这些经历,对主观属性“喜爱”的程度自然有深浅 。
\qquad文章指出,主观属性是非常有价值的,因为在许多应用程序中,图像是为大群体的需要而定制的,大群体由许多有着固有不同想法和偏好的个人组成。例如,营销专家选择图像来在消费者的脑海中建立特定的联想,新闻制作者选择图像来给受众留下深刻印象,而心理学家则寻找具有足够情感的图像来治疗。因此,这些领域的专家将极大地受益于一种根据主观属性对图像进行自动排序的方法。
\qquad这篇文章利用基于已知的聚合分布将这些主观信息传递到图像级标签上,文中进行的实验包括:根据社会媒体营销和人格心理学领域知识的主观属性来对图片进行排序。实验研究表明,使用辅助信息在多媒体领域进行主观属性预测具有一定的可行性。

贡献

\qquad文章的出发点在于,利用好相关的实体(作为“辅助资源”),当现实生活中的实体(如人或组织等)与图像交互时,主观属性尤其会发挥作用,当品牌在社交媒体上分享图片或用户在推特上分享图片时。这些实体可能有额外的信息,这些信息反映在与它们交互的图像的选择上,也就是说,它们根据它们的主观属性选择图像。本文的工作,就是利用这些实体的贡献和交互作用,可以推断出图像的主观属性
\qquad本文提出了一种能够将辅助资源域(实体)的信息迁移到图像域的方法, 并且提出了一种概率优化算法,该算法能够通过概率框架从一组图像中推断出主观属性,从而对这些属性的不确定性建模。
数据的组织方式如下:

上图左侧是一组含有某些潜在主观属性(yiy_iyi​)的图像(xix_ixi​),挖掘出图像中的主观属性就是最终目的(也就是这篇文章要做的事);中间是实体ziz_izi​具有的各种已知属性yiy_iyi​(属性名和属性值均已知);右侧是实体(ziz_izi​)曾经与图像(xix_ixi​)有过的交互信息(也是已知条件)
模型如何反映出辅助域的知识迁移到图像域中了呢?
假设有张图像xxx,现在只考虑两个要发掘的属性yi,yjy_i,y_jyi​,yj​,如果与这张图像有过交互的实体自身在i,ji,ji,j两个属性上存在属性值大小关系是yi>yjy_i>y_jyi​>yj​,这要求模型(用nnnnnn表示)的输出要能够满足以下条件:
sign(nn(xi)−nn(xj))={1if yi>yj−1otherwisesign(nn(x_i)-nn(x_j)) = \begin{cases} 1 &\text{if } y_i>y_j \\ -1 &\text{otherwise} \end{cases} sign(nn(xi​)−nn(xj​))={1−1​if yi​>yj​otherwise​

模型结构

图像主观属性的预测采用的是多层感知机(MLP),首先通过一个多层感知机MLP1MLP_1MLP1​来学习图像表征xhx_hxh​,图像的原始特征xxx通过一个预训练的CNN(这里使用的应该是VGG16)抽取得到:
xh=LL3(ε(LL2(ε(LL1(x)))))x_h = LL_3(\varepsilon(LL_2(\varepsilon(LL_1(x))))) xh​=LL3​(ε(LL2​(ε(LL1​(x)))))
LL1,LL2,LL3LL_1,LL_2,LL_3LL1​,LL2​,LL3​均为线性层,ε\varepsilonε是Leaky ReLU激活函数。
利用得到的图像特征xhx_hxh​,作为多个多层感知机的输入(每一个主观属性分配一个MLP)通过多个多层感知机来预测多个主观属性。每个多层感知机内部包括有线性层和相应的激活函数。
o1,o2,...,oN=MLPm1(xh),MLPm2(xh),...,MLPmN(xh)o_1,o_2,...,o_N = MLP_{m1}(x_h),MLP_{m2}(x_h),...,MLP_{mN}(x_h) o1​,o2​,...,oN​=MLPm1​(xh​),MLPm2​(xh​),...,MLPmN​(xh​)

概率学习部分

\qquad文章假定对于实体的每个属性iii都是服从一维的正态分布(均值取该实体在iii属性上的值,方差未知,通过模型自行学习得到),这样一来,选定一个辅助实体(aux_1)和与它有过一组图片(假定是K个),和另一个辅助实体(aux_2)及与该实体有过交互的一组图片(也是K个),作为模型的输入。
\qquad模型对于两个实体的两组图像数据分别进行输出,文章对两组输出数据的分布进行了建模,假定两个实体在相应属性上的真实分布是PPP,输出的数据分布记为QQQ,这里通过KL散度进行约束,迫使模型输出的分布与真实分布的差异尽可能小。通过建模分布而不是数据点本身,学习方法不受离群点的影响,只拟合那些接近共识的图像,因此增加了模型的鲁棒性。
DKL(Pb∣∣Qb)=∑iPb(i)log2Pb(i)Qb(i)D_{KL}(P_b||Q_b) =\sum_iP_b(i)log_2\dfrac{P_b(i)}{Q_b(i)} DKL​(Pb​∣∣Qb​)=i∑​Pb​(i)log2​Qb​(i)Pb​(i)​

算法过程及示意图



这里Batchsize为3,K为5。模型的约束主要是两部分,两个实体各自对应的一组图像数据的输出(以实体相应的属性值大小关系做标签)之间做Pairwise Loss,两个实体各自组的图像输出的分布与该属性真实分布的KL散度约束

实验

实验所使用的数据集有两个,品牌市场营销数据(Marketing)和人格心理学数据(Personality psychology)。

\qquad简要介绍下各个字段的含义:以Marketing数据集为例,主要是brand和post之间的关系。
DDD代表所有post图像集合,DAD_ADA​是品牌数目(也即实体数目aux_num),DID_IDI​是实体和与它们有过交互的图像,DID_IDI​中划分出了训练集和测试集。ziz_izi​是各种实体集合(对Marketing数据集来说是从Instagram收集到的各大品牌,对Personality数据集来说是推特用户);yiy_iyi​是实体可取的属性集合,本文提供了多个属性集合供选择;(xi,zi)∈DI(x_i,z_i)\in D_I(xi​,zi​)∈DI​成立的条件,品牌ziz_izi​转发过postxix_ixi​或者用户ziz_izi​转发推特xix_ixi​.

评价标准

\qquad实验通过R2决定系数、皮尔逊相关系数以及斯皮尔曼相关系数来衡量模型的效果。即模型预测输出的图像主观属性值与实体真实主观属性值的相关性或者拟合度。
R2系数计算方式:
假定yyy是真实值,y^\hat yy^​是预测输出值,yˉ\bar yyˉ​是真实值的均值。那么计算拟合度为:
R2(y,y^)=1−∑i=0Nsamples−1(yi−y^i)2∑i=0Nsamples−1(yi−y^)2R^2(y,\hat y) = 1-\dfrac{\sum_{i=0}^{N_{samples}-1}(y_i-\hat y_i)^2}{\sum_{i=0}^{N_{samples}-1}(y_i-\hat y)^2} R2(y,y^​)=1−∑i=0Nsamples​−1​(yi​−y^​)2∑i=0Nsamples​−1​(yi​−y^​i​)2​
模型越好R2越接近于1,越差则越接近于0.
皮尔逊系数(Pearson)和 斯皮尔曼系数(Spearman)取值范围[-1,1].绝对值越接近1则相关性越强(接近正1表示正相关,接近负1表示负相关,0表示线性无关)。
由于判断的是输出值和真实值之间的关系,本文是R2越接近1越好,两个相关系数越接近正1越好。在brand-post数据集上,以“Upper Class”和"Fun"两个主观属性为例的实验结果(分别使用多实例学习、平均值、固定标准差、未知标准差(由模型自行学习获得)):

由实验结果数据,可见本文提出的方法框架对挖掘图像主观属性具有可行性。

品牌内容发现(二)Learning Subjective Attributes of Images from Auxiliary Sources相关推荐

  1. 榆熙电商:为什么说拼多多品牌内容营销迎来新的发展契机?

    做拼多多电商的朋友都知道,开一家好店需要做推广,为店铺积累流量和口碑.现在拼多多上营销推广方式五花八门,拼多多商家如何找到适合自己的营销方式呢?内容制胜的运营思路是现阶段最常见的玩法,商家想要产品出圈 ...

  2. CentOS工作内容(二)关闭SELinux

    CentOS工作内容(二)关闭SELinux CentOS安装完成后,有很多配置要改,不过最重要就是关闭SELinux SELinux是增强安全性的一项功能,不是SELinux不好,而是当功能安全性较 ...

  3. 【推荐实践】Hulu-视频理解在个性化推荐与内容发现中的应用.pdf(附下载链接)...

    今天给大家分享Hulu谢晓辉先生在CTA核心技术及应用峰会上做的分享<视频理解在个性化推荐与内容发现中的应用>,该分享包含如下三大部分,希望对您有用. 1.About Hulu and i ...

  4. java根据内容生成二维码

    java根据内容生成二维码 一.首先导入jar包:google.zxing.jar jar包可以从maven网站下载:meven仓库 这里可以找到你想要的绝大多数jar包,可以是依赖,也可以是jar包 ...

  5. 活动二维码怎么制作?如何将活动内容做成二维码图片?

    现在二维码的应用场景越来越多,很多的内容都可以用二维码来展示,比如表单.图片.视频.文字.文件都可以通过制作二维码来分享给他人,那么当遇到举办活动情况时,如何将活动的计划或者菜单做成二维码展示呢?下面 ...

  6. 用Python实现文本内容生成二维码

    大数据时代,我们的日常学习和生活离不开手机,作为一个资深低头族,本人的手机一天二十三小时以上不会离开它的主人超过0.5米远.QQ,微信,微博等常见应用基本上是每个关注时事的年轻人的每日必登录APP. ...

  7. 使用前端QrCode.js实现根据输入内容生成二维码,并提供二维码下载功能(已使用在交付项目中)

    前端QrCode 根据输入内容生成二维码,并提供二维码下载功能 简介:这是一个使用前端QrCode自动生成二维码并下载二维码图片的项目. 项目背景:在某个项目的交付阶段,客户提出需要一个可手动生成二维 ...

  8. C#判断用户是否使用微信浏览器,并据此来显示真实内容或二维码

    平时我们看一些网页的时候会发现这样的功能:有的页面只能在微信里访问,如果在电脑上访问就只显示当前地址的二维码.这个用C#怎么实现呢?我们结合代码来看看. 首先,我们需要先判断用户使用的是什么浏览器,这 ...

  9. 电子数码品牌内容软文营销,坚持这8个习惯打造优质营销文案

    亚里士多德曾说:"优秀不是一种行为,而是一种习惯."这句话在软文营销方面同样适用.因为内容软文营销不是一劳永逸的营销策略,而是一个战略性的长期方法.所以,内容软文营销应该成为一种习 ...

最新文章

  1. display:inline-block的妙用!!列表布局!!
  2. Linux 常用命令之系统信息
  3. APP上线后,去除Log打印的问题
  4. asp.net错误.在应用程序级别之外使用注册为 allowDefinition='MachineToApplication' 的节是错...
  5. 你是否已经忘了Serlvet是什么?
  6. signature php今日头条,今日头条_signature 求解
  7. Web前端笔记(1)
  8. java list增改查_Java编程通过list接口实现数据的增删改查代码示例
  9. 深入理解Nginx:模块开发与架构解析
  10. 学霸如何使用计算机,学霸必备软件!超强的灵格斯词霸怎么用?
  11. 详解.class文件
  12. 电脑小手图标怎么去除_取消共享文件夹图标上的小手
  13. html qq在线状态,qq各种在线状态意思
  14. SVN更新报the working copy needs to be upgraded解决办法
  15. 【蓝队攻防演练思路】From 滴滴蓝军
  16. [SHOI 2008]小约翰的游戏
  17. 图论应用 floyd(弗洛伊德)算法、dijkstra(迪杰斯特拉)算法
  18. autocad2014点击保存闪退_AutoCAD2014闪退的具体原因和解决方法介绍
  19. Linux 文件与目录的管理
  20. Web-html、css、JavaScript_02

热门文章

  1. 计算机管理主分区改成逻辑分区,如何在Win7系统中将主分区更改为逻辑分区?...
  2. 《笨办法学Python》 第23课手记
  3. 我用【c++】写出了会说话的学生考勤系统
  4. 4014基于邻接表的长度为k的简单路径的求解
  5. 【C++】探讨std::move()作用,查到的《C++11右值引用和std::move语句实例解析》
  6. 2002年CRM沙场秋点兵
  7. 阿尔·里斯-市场营销的22条法则(22条商规)-4
  8. 视频监控边缘分析盒 yolov5
  9. 生成对抗网络(GAN)详解与实例
  10. DDR为什么需要DQS信号?