M3R论文笔记-2014-ACM Multimedia
Multi-modal Mutual Topic Reinforce Modeling for Cross-media Retrieval
- 摘要
- 结论
- 引言
- 相关工作
- 方法——M3RM^3RM3R模型
- Problem Formulation
- Correlation and Supervision Modeling
- The Generative Process
- Inference
- Multi-modal Retrieval
- 实验
- Data Sets
- Evaluation Metrics
- Parameter Tuning
- Compared Methods
- Results
- 1.Performance Comparison
- 2.Results Demonstration
翻译论文及一些个人笔记
摘要
多模态数据理解是多媒体领域中的一个重要而富有挑战性的问题,其目的是以协作的方式探索不同模态之间的内在语义信息。为了解决这一问题,一种可能的解决方案是通过对不同模态的潜在主题之间的内在关联进行建模,有效地、自适应地捕捉共同的跨模态语义信息。受这一任务的启发,我们提出了一种有监督的多模态交互主题强化建模(M3RM^3RM3R,multi-modal mutual topic reinforce modeling,为编辑方便后文皆为M3R)方法,旨在通过模型因素(如类别、潜在主题和观察到的多模态数据)之间的适当交互来构建联合跨模态概率图模型来发现相互一致的语义主题。【其实NN也是一种概率图,点为状态变量(输入文档,隐变量主题,输出类别或另一种形式的文档),点之间的连线为转移概率(即权值)】原则上,M3R能够同时完成以下两个学习任务:1)特定模态(例如,特定图像或特定文本)的潜在话题学习;2)跨模态相互话题一致性学习【跨模态是直接从文档潜主题推导出图像?还是通过潜主题,推导与文档同一类别的图像?亦或是从文档潜主题推导同一类别的文档,再输出其配对图像???】。通过研究跨模态主题相关的分布信息【主题的分布】,M3R鼓励厘清语义上一致的跨模态主题(包含一些跨不同模态的共同语义信息)。换句话说,在模型学习过程中,M3R通过自适应地将相互增强的消息传递给彼此,来增强语义共现的跨模态主题。为了进一步增强习得的潜在主题表征的辨别能力,M3R在贝叶斯建模过程中加入了辅助信息(类别或标签),增强了建模捕获类间辨别信息的能力。在两个基准数据集上的实验结果,证明了该方法在跨通道检索中的有效性。
Categories and Subject Descriptors
H.3.3 [Information Search and Retrieval]: Retrieval models
结论
本文提出了多模态数据理解的M3R方法。M3R是一种有监督的多模态交互主题强化建模(M3R)方法,通过引入主题交互和标签信息,可以学习多模态数据的相关但具有辨别性的潜在表示。我们已经证明了M3R在跨模态检索的两个数据集上的几个评估指标具有优越性能。M3R在多模态检索中获得了可解释的潜在表示,并在MAP、Percentage和MRR方面有效地实现了跨模态检索。
引言
如今,许多现实世界的应用程序都涉及多模态文档,其中的信息本质上是由不同模态的数据组成的,比如带有松散关联的叙述性文本描述的web图像,或者带有配对文本和图像的新闻文章。由于多模态文档利用了多模态数据的共生关系来传递高级语义,因此希望厘清多模态文档中具有不同模态的数据对象之间的潜在关联,并支持跨不同模态的相似度搜索。然而,所谓的异质性差距(heterogeneity-gap) 已经被广泛认为是多模式文档建模的基本障碍。因此,有效地理解多模态数据及其潜在的语义属性,在跨媒体分析中起着至关重要的作用。
为了实现多模态数据理解的目标,最近的文献中提出了大量多模态文档建模的方法。根据模型构建机制,这些方法通常可以分为两类:统计依赖建模和概率图形建模。具体来说,统计依赖建模主要侧重于最大化共同潜在空间中不同模式的统计相关性(例如,由互信息衡量)[12,24,23,7]。概率图形建模则是以概率的方式对不同模态的数据对象进行联合建模[2,22,26]。这些方法倾向于最大化观察到的多模态数据的潜在主题的可能性。它们通常基于一些关于多模态数据如何关联的假设,如所有模态共享相同的主题比例,或一对一的主题对应,或共享共同的主题。(共现概率mmvec属于这两者之一吗???)
为了学习具有辨别性的相关潜在表示,提出了一种将附加信息(例如,类标签等)集成到多模态文档建模过程中的方法,以提高含类多模态数据的表示性能。例如,文献[8]将典型相关分析(canonical correlation analysis, CCA)和支持向量机(support vector machine, SVM)结合到多视图分类中。在[5]中提出了一种通用的多视图潜空间马尔可夫网络,以共同最大化多视图数据及其监控标签的可能性 。广义多视图分析(GMA)[24]通过引入类标签信息,将原来的无监督双视图CCA扩展到对等的有监督多视图 。在[31]中,引入了耦合字典学习(dictionary learning ,DL)来发现多模态数据的相关性。值得注意的是,在多模式数据建模的许多场景中,各种形式的附加信息潜在地提供“free”监督,如类别归属、用户标签、评级等。
然而,上述多模态建模方法通常无法明确、有效地建模各模态之间的内在相互作用,往往存在以下两个方面的建模缺陷:1)潜在主题在识别多模态数据理解中的相对重要信息;2)发现跨模态主题的一致性信息。为了缓解这一局限性,我们提出了一种多模态交互主题增强模型(M3R)方法,该方法可以通过多模态增强模型自适应地编码跨模态主题的一致性信息。这里的“跨模态主题(cross-modal topic)”是指同一多模态文档内的多模态数据(即图像和文本)同时标注的主题。利用这种跨模态主题的一致性信息,M3R能够通过多模态主题之间的交互,自适应地学习一组更具语义意义的潜在主题。因此,对相互一致的跨模态主题(反映相同的语义信息)赋给较高的优先级,而其余特定于模态的主题仍然保留但优先级不高。因此,发现相互一致的跨模态主题的过程与相互主题强化的概念有关。
图1给出了M3R的直观说明。给定一个带有图像和相应文本的关于“狮子”的多模态文档,文本单元(例如,单词或句子)或视觉单元(例如,斑块或区域)分别描述单个模态特定的文本主题(例如,外观,生物和栖息地)或视觉主题(例如,外观,背景和栖息地)的不同概率。特殊的是,一些文本单位和视觉单位都标记了几个共同的跨模态主题(例子中,外观和栖息地)。原则上,M3R倾向于通过交互主题强化为跨模态主题分配高优先级,同时保留其他特定于模态的主题。
为了获得具有鉴别性的多模态数据表示,我们进一步将类标签信息纳入概率图形建模的过程中,然后将M3R表述为由监督学习方式驱动的生成概率模型 。因此,我们工作的主要贡献有两方面。首先,我们将多模态交互主题强化的概念引入到多模态数据理解中。其次,我们建立了一个混合生成-判别概率图形模型,该模型通过以监督学习的方式跨模态交互主题强化,来自适应学习一组有语义意义的潜在主题。
相关工作
如前所述,多模式文档的建模通常可以分为两类:统计依赖关系建模和概率图形建模。统计依赖关系建模的代表是典型相关分析(Canonical Correlation Analysis, CCA)[12]及其扩展[24,23],它将多模态数据投影到一个公共(或共享)子空间中,从而使多模态数据之间的相关性得到保留或最大化。例如,在[23]中,通过CCA得到文本和图像特征的最大相关子空间后,采用logistic回归进行跨媒体检索。广义多视图分析 (Generalized Multiview Analysis,GMA[24])作为CCA的监督核化扩展,将不同模态空间中的数据映射到单个(非)线性子空间。上述方法虽然能够有效地发现所需的潜在表征,但由于得到的表征是公共空间中多模态数据的投影,没有明显的可解释性含义,往往缺乏直观的解释。
概率图形建模的代表包括多模态潜在Dirichlet分配(mmLDA,multi-modal latent Dirichlet allocation)[2]、对应LDA(Corr-LDA)[2]、主题回归多模态LDA(tr-mmLDA)[22]和因子化多模态主题模型[26]。这些方法引入了共享的潜在变量,这些变量要么像mmLDA中那样指示主题比例,要么像CorrLDA[2]中那样指示主题索引。因此,他们要么假设所有模态共享相同的主题比例,要么具有一对一的主题对应,要么具有共同的共享主题。然而,这些预先定义的假设内在地限制了跨媒体检索在涉及非受控多模态数据 的设置中更灵活的应用。因此,提出了其他基于主题模型的方法,如多模态文档随机场(MDRF)[14],以处理更真实的场景。尽管上述模型都能提供直观的概率解释,但它们都是在无监督的情况下学习多模态数据的潜在表示。与本文最相似的是非参数贝叶斯监督多模态主题模型[16],它提出了一种非参数贝叶斯方法来学习上游监督主题模型,用于分析多模态数据。然而,我们提出的方法是一个下游有监督的主题模型 ,并鼓励通过主题分布的交互来学习跨模态主题。
其他基于字典学习的多视图/多模式检索方法,如在[13]和[31]中提出了分解/耦合字典学习。还有一些基于学习排序的跨模态相似度度量学习方法,如[18]和[28]中作者提出了通过结构支持向量机进行单向和双向跨模态排序的方法。基于哈希的多模态相似度搜索方法由Bronstein等人在CMSSH[4]中提出。之后分别提出CVH[15]、MLBE[30]和稀疏多模态哈希[29]。这些方法与CCA及其扩展有一些相似之处,它们直接利用模态内和模态间相似性将多模态数据映射到可比的子空间,因此对潜在表示缺乏可解释性。
近年来,由于深度学习取得了显著的进展,人们已经开展了多种深度体系结构来学习联合多模态表示。在[25]中提出了一种用于学习多模态数据生成模型的多模态深度Boltzmann机。堆叠式自动编码器[21]和深度CCA[1]等方法也有类似的动机。然而,这些方法都是以无监督的方式构建模型的。在[10]中,提出了一种深度视觉语义嵌入模型,利用标记图像数据和未标注文本的语义信息来识别视觉对象。但是,这种监督深度学习方法是用于图像标注的,不能直接扩展到多模态分析。
方法——M3RM^3RM3R模型
在本节中,我们将阐明模型的详细信息。首先给出了符号和公式,然后是生成过程和模型推理,最后我们利用我们的模型推导出多模态检索的预测算法。
Problem Formulation
利用多模态文档的训练数据及其对应的标签,我们的目标是学习相互增强的跨模态主题的潜在表示,同时保持多模态文档的可辨别性信息。来自文本建模的术语,如“单词”、“文档”和“词汇表”【Vocabulary包含字或词与index的关系,可将文本转换为index】,在其他模态的建模数据中被一般化,并在整个论文中使用。
假设我们有一个来自C类别的有M种模式的带标签的多模态文档训练集D:Ω=[xd=(Xd1,⋅⋅⋅,Xdm,⋅⋅⋅,XdM,cd)]d=1DΩ = [xd= (Xd1,· · · ,Xdm,· · · ,XdM, cd)]^D_{d=1}Ω=[xd=(Xd1,⋅⋅⋅,Xdm,⋅⋅⋅,XdM,cd)]d=1D,其中总共有Ndm单词(例如,文本单词是文本而视觉单词是图片){xdmn}的Xdm,表示第d个多模态文档内的第m种内部模式的单模态文档,而cd∈{1···C}代表第d个多模态文档的类别 。我们假设Xdm中的每个单词xdmn从其特定模态的词汇表[Vm]M=1M[Vm]^M_{M =1}[Vm]M=1M中取一个离散值。没有限制所有多模式文档必须具有所有M模式,我们只是为了表示方便而假设完全对应。这将在生成过程一节中很明显。
如前所述,多模态文档中的模态相关性通过潜在主题分布的相互作用自适应学习,而鉴别则通过将标签信息集成到概率图形模型中来获得。图2以图形模型的形式说明了我们的模型。阴影节点表示观测值,其他节点表示潜在变量。虚线表示每个单模态文档的主题比例不仅由先验确定,还由与其具有相同多模态文档的其他单模态文档的主题比例确定。注意,M3R系统地建模了观察到的多模态数据、类标签和跨模态潜在主题之间的交互。
接着看图2中的符号,我们的模型遵循了传统的潜在狄利克雷分配(LDA),即主题比例πd1,···,πdM是由超参数α的狄利克雷分布生成 的,而具有某种模态的文档中单词的主题Zdmn则是从多项式分布中提取的。每个词xdmn取自对应的topic-word多项式分布φmk,而φmk取自具有先验β1:Mβ_{1:M}β1:M的Dirichlet分布。此外,我们还介绍了多模态文档中主题比例与监督(标签)信息之间的关联(交互)。
Correlation and Supervision Modeling
给定第d个多模态文档xd,不同模态数据[xdm]m=1M[xdm]^M_{m=1}[xdm]m=1M之间必须存在一定的相关性,才能综合表达多模态xd所传递的全部语义。例如,给定一个具有图像和对应文本的多模式文档,图像和对应文本对于描述嵌 入在多模式文档中的相同语义是彼此互补的。在这里,我们假设如果一个多模态文档中的两个数据对象相似或相关,那么它们的主题比例是相同的。因此,我们通过主题比例相似性学习了相关性并进一步强化了多模态文档中不同模态的跨模态主题 。如果πi和πj分别是一个多模态文档中两个数据对象的主题比例,则主题比例πi和πj之间的相似度可以通过如下的势函数计算[14]:
为了对辨别(标签)信息建模,我们参考了下游监督模型 ,如[3]和[27]中的监督潜在Dirichlet分配(LDA)及其变体,这些模型在单模态场景下的文档或图像分类等许多应用中获得了很大的成功。受这些工作的启发,通过softmax函数对多模式文档的标签信息进行建模。我们基于多模态文档的经验主题频率使用softmax回归生成标签,这些经验主题频率是多模态文档中单模态文档的经验主题频率的串联。
因此,参照图2,我们模型的参数包括主题比例的超参数α,topic-word分布在不同模态下的一组M个超参数β1:Mβ_{1:M}β1:M,相关(相互作用)项的参数λ,以及一组C类系数η1:Cη_{1:C}η1:C。每一系数ηc均是值为实值的M×K维向量。
The Generative Process
为了在多模态文档中生成单模态文档,我们首先选择多模态文档的类别标签,然后生成该单模态文档的主题比例;接下来为该单模态文档中的每个词分配主题,最后根据主题生成单词。重复这个过程,直到我们绘制整个多模式文档。用Dirichlet分布和多项分布表示为“Dir”和“Multi”,整个生成过程可以描述如下:
1.对于每个模态m中的每个主题k,采样Vm维topic-word分布φmk∼Dir(φ|βm)
2.对于每个多模态文档xd:
其中Z是归一化常数。如果某个多模态文档中缺少某些模态,我们只需将M调整为多模态文档中的准确模态数量。例如,在检索阶段,M=1且忽略第一项(相似项)。a)πdmi是d个多模态文档的第mi模态的某个单模态文档的主题比例
给定参数α, η, β和λ,按照上面的生成过程,我们现在可以写出有D个多模态文档的语料库的联合概率:
Inference
在这一部分中,我们将介绍我们模型的学习策略。该模型的隐藏变量是整个语料库的topic-word分布参数φ、主题比例π和主题分配z。与其他主题模型一样,模型的准确推论通常很难解决。一些常用的近似方法通常作为参数推断的替代方法,如变分推断[2]、期望传播[20]或Gibbs抽样[11]。在本文中,我们利用收缩的Gibbs抽样方法【例如,LDA不会在三个参数(z,θ,φ)中都进行抽样,因为只要得到了z,就可以直接根据z得到π和φ】,因为它简单有效。
在语料库的联合概率公式(3)的情况下,我们进行收缩的Gibbs抽样推理。Gibbs抽样根据某个词的条件概率的观测值对一个词的主题分配进行抽样,并给定其他词的主题分配,同时积分出潜在变量π和φ。在本例中,我们只对z执行Gibbs采样。通过积分潜在变量,来计算以超参数为条件的观测概率和抽样变量:
式中,nmkv是模态m的主题k中词v的出现次数,ndmk是多模态文档xd中分配给Xdm主题k的单词数量。
注意,多模式文档中不同模态数据的主题比例是耦合的,这使得整合很困难【同一语义的不同表达形式,如图像和文字,虽形式不同但由于相关性强,故整合困难】。受[2]的启发,我们引入了一个经验主题比例,而不是原始的一个主题比例,以放松我们的模型的耦合主题比例。我们在论文的其余部分使用经验模型。在给定主题分配的情况下,我们定义了经验主题比例分布:
此时,一个单词的主题分配的马尔可夫链更新基于观察结果和其他单词的主题分配可以导出如下:
其中nmkx是模态m的主题k中单词xdmn的出现次数,ndmk是多模态文档xd中分配给Xdm主题k的单词出现次数,两者都不包含当前的词 。π^dm,−z\hat{π}_{dm,−z}π^dm,−z是不含当前词的多模态文档xd中Xdm的经验主题分布,π^dm,z=k\hat{π}_{dm,z=k}π^dm,z=k是当前词的主题为k时,多模态文献d的模态m的经验主题分布。
求出z后,可根据公式(5)估算π,且φ的计算公式如下:
为了确定超参数,我们选择自动更新超参数。我们初始化α为所有维度的相同,初始化β为所有模态的相同,然后根据如[19]的方式训练数据更新超参数【为什么这样更新???】:
其中Ψ(·)是双Gamma函数,Ψ(x)=ddxlnΓ(x)Ψ(x)=\frac{d}{dx}lnΓ(x)Ψ(x)=dxdlnΓ(x)。对于η的更新,我们采用了softmax回归参数更新的广义梯度下降法。我们总结了算法1中的学习过程。
Multi-modal Retrieval
在训练阶段之后,我们的目标是验证所提出的M3R算法应用于跨媒体检索时,是否能够在特定模态(text)查询下找到相应的模态数据(image),并对相应的模态数据(image)中的所有类别进行排序(包括与查询text同类别的image、其他类别的image)。假设我们从第p个模态得到由N个单词构成的查询x,x={x1,x2,···,xN},目的是通过跨媒体检索从第q个模态中找到它的相似数据。我们首先计算所有第q个模态数据的主题比例,然后使用查询文档的似然分数对第q个模态数据进行排序,其计算公式如下:
其中πi是第q个模态数据的第i个文档的潜在主题比例,而p(xn|z=k)考察在训练阶段学习到的第p个模态的topic-word分布φ^pk\hat{φ}_{pk}φ^pk。注意,边际概率p(xn|πi)可以在学习时间内预先计算,因此我们使用这种方法而不是两个模态的主题比例之间的KL发散,以避免对每个查询进行耗时的推理步骤。【si是第q个模态检索的第i个文档与x的似然概率分数(即在πi的条件下,查询x出现的概率),si越大该文档排序越靠前。主题比例到底是文本的话题分布】
实验
在本节中,我们将评估我们提出的方法在应用于跨媒体检索(指定于图像-查询-文本和文本-查询-图像)时的性能。我们首先介绍了我们采用的数据集和评价标准,然后详细阐述了我们实验中的参数设置和调优。最后,将该方法与其他先进算法进行了比较,并对结果进行了验证和展示。
Data Sets
我们的一个实验数据集是来自维基百科特性文章[23]的Wiki Text-Image数据。Wiki Text-Image包含来自10个不同类别的2866个文本-图像对,每个图像都与描述图像的文本片段相关联。提取SIFT特征 [17]后,进行k-means聚类,得到每个图像的视觉词袋 (bag-of-visual-words,简称BoVW)[9]表示。每个文本被表示为一个由术语频率 表示的5000维的文本词袋 (bag-of-textual-words,简称BoTW)向量。在这个数据集中,每个图像平均有117.5个文本词。我们随机选取1/5对的数据集进行测试,剩下的4/5对进行训练。
我们使用的另一个数据集是NUS-WIDE数据集[6],它包含有1000维标签和81维概念的133,208张图像。在NUS-WIDE中,每个带有注释标签的图像都可以视为一对图像-文本数据,而概念则被视为标签。我们只选择那些属于10大类别(概念)的配对,每对都时独属于某一个类别。因此,我们得到26813对数据样本,然后我们随机选择其中的1/5对进行测试,剩下的4/5对进行训练。我们使用基于SIFT特征的500维BoVW表示每个图像,使用作者提供的1000维标签表示每个文本。对于这个数据集,每个图像平均有7.7个文本单词。
Evaluation Metrics
在实验中,我们从以下两个方面对不同方法的量化性能进行了评估:(1)对查询数据和检索结果之间的类别相关性进行评估。如果检索到的结果属于与查询数据[24]相同的类别,则该检索结果被认为是相关的。(2)图像-文本对的跨模态相关性研究。相关的检索结果指的是与查询[14]配对的对应的唯一数据对象(如查询图像,检索出相关的文本)。前者反映的是学习辨别性跨模态潜在表征的能力,而后者反映的是学习相关潜在概念的能力。在本文中,我们从以下两个方面使用了三个度量:
MAP:这里定义的MAP是用来衡量检索到的数据与查询是否属于同一类别(相关)或不属于同一类别(不相关)。给定一个查询(一个图像或一个文本)和一组相应的R检索结果,平均精度(Average Precision)定义为
其中,L是检索集合中的相关数据的数量,prec®表示前r个检索数据的精度(即,相关结果在前r个检索结果中的比率)。如果第r个检索到的数据对象与查询相关,则δ®=1;否则δ®=0。MAP被定义为所有查询的平均AP。与[30]相同,我们在实验中设置R=50。
Percentage(百分比):由于关于上述第(2)方面评估的每个图像/文本只有一个基本事实(ground-truth )匹配(即只有唯一数据对象),为了评估多模态性能,我们可以求助于基本事实文本/图像在获得的排序列表中的位置。通常认为该查询图像(或文本)被正确检索,如果其对应的基本事实文本(或图像)出现在根据提交查询[14]而获得的排序列表前t%中。百分比是正确检索的查询样本占所有查询样本的比率。在我们的实验中,t被设置为0.2。
MRR:使用平均倒数排序 (Mean Reciprocal Rank, MRR)来评估在我们的实验中不同方法的性能,被定义为相应的唯一地确实与查询配对的位置。平均倒数排序(MRR)的定义如下:
其中|Q|为查询样本个数,ranki表示在检索列表中与第i个查询相应的唯一地确实配对的位置。
Parameter Tuning
如前所述,我们模型的参数是主题比例的超参数α、topic-words分布在不同模态下的一组M个超参数β1:Mβ_{1:M}β1:M、相关(相互作用)势函数的参数λ、以及一组C类系数η1:Cη_{1:C}η1:C。
超参数α和β1:Mβ_{1:M}β1:M可以使用公式(8)和公式(9)直接从训练数据中学习。α和β1:Mβ_{1:M}β1:M的初始值被设置为文本建模中常用的值[11]。
类系数η1:Cη_{1:C}η1:C也可以在训练过程中学习,但它们的初始值可能会影响结果。因而我们为所有类别和所有维度设置η1:Cη_{1:C}η1:C的初始值,使其成为基于单个值η的变量 。
然后对λ和η进行网格搜索。λ和η在Wiki数据集上的设置分别为500和0.6,而在NUS-WIDE数据集上为40和6。
Compared Methods
我们用以下三种最先进的监督跨模态方法进行比较:
SLDA-KL:SLDA[3]是第一个单独用于获得每个图像或文本的潜在表示(即主题比例)。当一个图像(文本)被提交时,我们得到其最近邻图像(文本),取对应的配对文本(图像),然后根据配对文本(图像)与检索文本(图像)的主题比例进行对称KL-散度,得到检索文本(图像)的排序列表。
广义多视图分析(GMA)[24]:广义多视图分析是一种有监督的跨模态检索方法,它同时利用了多模态数据的成对信息和标签信息。正如作者所说,GMA是CCA的可监督核化扩展,将不同模态空间中的数据映射到单个子空间。
用于多模态检索的带组合结构的有监督耦合字典学习 (SliM2)[31]:SliM2是一种具有分组结构的有监督字典学习方法,它利用类别信息来联合学习区分多模态词典以及不同模态之间的映射函数用于多模态检索 。
Results
1.Performance Comparison
每种算法的性能在MAP、百分比和MRR方面如表1和表2所示。
本文评估了两种跨媒体检索任务:(1)提交一幅图像来检索文本(image-query-text);(2)提交一篇文本来检索图像(text-query-image)。从表1和表2可以看出,M3R在两个数据集的几乎所有度量中都取得了最好的平均性能。与次优方法相比,在Wiki数据集上,我们在MAP、百分比和MRR上分别获得了相对7.8%、7.8%和0.84%的平均性能提升,在NUS-WIDE数据集上,我们在百分比和MRR上分别获得了相对7.8%和33%的平均性能提升。
对于NUS-WIDE数据集,GMA和SliM2在MAP度量的平均性能上优于M3R。原因可能是,在NUS-WIDE中,一张图像平均只与大约7个单词相关,这限制了本文提出算法的能力。此外,对于跨媒体检索,百分比和MRR指标被认为比MAP指标更准确地反映真实性能。由于跨媒体检索的潜在动机是了解不同模式下的数据对象之间的相关性,并跨不同模式进行相似度搜索,根据与查询匹配的唯一地真正对应的位置来评估性能的百分比和MRR度量,比根据标签来评估性能的MAP度量更接近于跨模态检索的目标。
对于文本-查询-图像任务,M3R在几乎所有指标上都取得了最好的性能,除了MAP测量的NUS数据集外,其原因也可用上述文字来解释。
对于图像-查询-文本任务 ,除了MRR测量的NUS-WIDE数据集外,slim2性能更好。slim2通过耦合多模态字典学习最小化重构误差 来实现跨媒体检索。slim2的性能明显不平衡。原因是,slim2容易在一种模态数据上过度拟合,同时在另一种模态数据上欠拟合。从数学上讲,图像-查询-文本检索方向上的最小化重构误差,必然会增加文本-查询-图像方向上的重构误差。然而,M3R实现了一个吸引人的跨媒体检索平衡性能,这是由于它通过多模态互主题强化建模来学习统一空间(如主题空间)的内在力量,其中图像和文本文档的配对对应确保了对学习度量的相同贡献,这在实际应用中至关重要。
我们还根据Wiki数据集上潜在空间维度不同的百分比度量,在最佳参数设置中对不同方法进行性能比较,如图3所示。上面一行的结果来自图像-查询-文本,下面一行的结果来自文本-查询-图像。从图3可以看出,我们的方法优于所有其他方法,并且在潜在空间维度上相对稳定。
2.Results Demonstration
作为一种基于主题模型的方法,该模型在挖掘可解释的潜在主题方面具有优势。由于文本主题具有更明确的语义,而视觉主题很难说明,因此我们只展示文本模态中的潜在主题。我们选择一些明显与类别相关的主题(由其对应的主题词表示),并在表3中进行说明,每个主题被分配到其最相关的类别。从表中可以看出,我们的方法能够发现潜在的主题。例如,与音乐相关的主题由“Punk”、“video”、“bands”等词组成,这些词都从不同的角度揭示了音乐的语义。
图4演示了Wiki图像-文本数据集上的图像-查询-文本的一个示例和文本-查询-图像的一个示例。比较了不同方法的检索结果。
查询图像和查询文本来自“地理”类别的成对文档。下划线语义主要是“Fanno creek”、“park”和“trail”。
对于图像-查询-文本的示例,我们使用相应的图像和检索文本的关键字来演示结果。虽然检索到的所有文本(及其对应的图像)都来自与查询图像相同的“地理”类别,但GMA的第三个检索文本在语义上与查询图像无关。【输入查询图像,该图像的配对文本,同一类别中与该文本相关的其他文本,输出文本检索结果,当然图4也展示了对应的图像】
对文本-查询-图像的示例,通过slim2和我们的方法(M3R)检索到的图像都来自“地理”类别,而其他两种方法获得的一些图像来自其他类别,而不是“地理”类别。检索到的在语义上与查询无关的结果用红色标记。从结果可以看出,我们提出的方法与图像和文本的查询在语义上更相关。【输入查询文本,同一类别中与该文本相关的其他文本对应的图像,输出图像检索结果】
M3R论文笔记-2014-ACM Multimedia相关推荐
- [论文笔记] [2014] Deeply-Supervised Nets
这篇论文是比较早的工作了,但论文中提到 Deep Supervision 的概念在后面的工作中常会被提到.这篇论文的亮点就在于对每一隐层都引入 companion objective.简单说来就是每一 ...
- 中国团队狂揽5项大奖!北航团队获2021 ACM MultiMedia唯一最佳论文奖
来源:新智元 又一场计算机学术盛会落下帷幕! 10月24日,2021 ACM MultiMedia会议顺利闭幕.会议公布了多个奖项:包括最佳论文奖.最佳学生论文奖.最佳Demo奖.最佳开源奖等9个奖项 ...
- 《Improved Crowd Counting Method Based onScale-Adaptive Convolutional Neural Network》论文笔记
<Improved Crowd Counting Method Based onScale-Adaptive Convolutional Neural Network>论文笔记 论文地址 ...
- 论文笔记(八):360 VR Based Robot Teleoperation Interface for Virtual Tour
360 VR Based Robot Teleoperation Interface for Virtual Tour 文章概括 摘要 1. 介绍 2. 方法和系统设计 2.1 系统结构 2.2 远程 ...
- 《区块链跨链技术进展研究》论文笔记
<区块链跨链技术进展研究>论文笔记 1 前言 2 区块链的跨链需求及技术难点 2.1 区块链跨链的研究目的 2.2 区块链跨链主流的解决方案 2.2.1 公证人机制 2.2.2 侧链/中继 ...
- 论文笔记 《Maxout Networks》 《Network In Network》
原文出处:http://zhangliliang.com/2014/09/22/paper-note-maxout-and-nin/ 论文笔记 <Maxout Networks> & ...
- 论文笔记:Mind the Gap An Experimental Evaluation of Imputation ofMissing Values Techniques in TimeSeries
pVLDB 2020 1 abstract & intro 这篇论文横向比较了12种 time-series imputation的方法.作者声称这是第一篇深入讨论这些模型的准确度.效率和参数 ...
- 论文笔记目录(ver2.0)
1 时间序列 1.1 时间序列预测 论文名称 来源 主要内容 论文笔记:DCRNN (Diffusion Convolutional Recurrent Neural Network: Data-Dr ...
- 论文笔记:WORD TRANSLATION WITHOUT PARALLEL DATA
引用文章 Facebook MUSE 无监督跨语言迁移学习任务 face - Word Translation without Parallel Data 文献阅读笔记:Word Translatio ...
最新文章
- 深度解析MegEngine亚线性显存优化技术
- R语言使用plotly绘制3D散点图实战
- 【mycat】分库分表
- 学python用什么教材-金融学专业学python用什么教材或课外资料比较好?
- 地图篇-01.获取用户位置
- Eclipse新建工程编译R cannot be resolved to a variable问题
- 使用随机数以及扩容表进行join代码
- python读取 application_python PyQt5.QtWidgets.QApplication类(sys.argv)(app应用对象类)...
- ServletUriComponentsBuilder遇到Nginx反向代理时,无法识别HTTPS
- Token 认证的来龙去脉,DRF认证,DRF权限,DRF限制
- Java核心技术笔记 异常、断言和日志
- 洛谷 P4012 深海机器人问题【费用流】
- MPI 环境搭建问题-运行程序闪退
- 一大波程序员血赚到腰疼...
- 用JavaScript语言制作简易版轮播图
- 元宇宙游戏控制这几个因素,正确姿势解锁元宇宙游戏开发盈利痛点
- 南京地图南京全套的卫星地图下载 百度高清卫星地图包括道路、标签信息叠加...
- python 欠采样_Python sklearn 实现过采样和欠采样
- Spring Cloud之路---1.注册中心eureka与服务提供者
- c语言中fabs是什么意思,c语言fabs是什么意思