论文解读者:北邮 GAMMA Lab 硕士生  王贞仪

1 引言

使用图模型解决问题时,面对实际环境中来源多样、形式复杂的数据,怎样将多种信息进行合理融合是一个值得关注的问题。本文将介绍两篇发表于KDD 2020的与图模型信息融合相关的工作。

第一篇工作为《HGMF: Heterogeneous Graph-based Fusion for Multimodal Data with Incompleteness》,该工作主要是基于异质图来解决多模态学习中在信息融合时会遇到的模态缺失问题。

第二篇工作为《Improving Conversational Recommender Systems via Knowledge Graph based Semantic Fusion》,该工作通过引入两个外部知识图谱丰富会话的语义信息,并通过互信息最大化弥补知识图谱间的语义鸿沟以提升会话推荐系统的表现。

2 HGMF: Heterogeneous Graph-based Fusion for Multimodal Data with Incompleteness

2.1 引言

多模态数据指的是从多种来源收集到的异构数据,例如人机交互场景中识别人类行为与情感时收集到的视觉、声音、语言数据;进行生物医学数据分析时收集的实验、基因序列以及医疗记录数据等。多模态数据能为实际问题提供相互补充的信息,对其进行学习具有很高的价值。多模态学习包含多模态数据融合、多模态情感分析以及图像问答等多个分支,本文关注的是多模态数据的融合任务,即将高度交互的多种模态数据进行合理融合后用作下游任务的决策。

然而,在实际的多模态数据收集过程中,由于传感器故障、数据损坏以及人为失误等多种原因,最终收集的数据常常存在不同程度的模态缺失。下图展示了一个具有模态缺失问题的三模态数据集。

模态缺失导致多模态数据在融合过程中会遇到以下三个技术挑战:

  1. 数据丢失降低了可用数据规模

  2. 样本具有不同程度的模态丢失,从而具有不一致的特征空间以及维度

  3. 有效的多模态融合需要同时学习模态内部特有以及多模态间的交互信息

总之,如何有效地将不完整并高度交互的多模态数据进行融合仍是一个极具挑战性的问题。与已有的基于不完整数据的直接删除或数据插补(data imputation)的解决方案不同的是,本文提出了一种通过构建异质图并在异质图嵌入的同时实现不完整多模态数据融合的方法。

2.2 模型

作者提出的Heterogeneous Graph-based Multimodal Fusion(HGMF)模型总览如下:

首先,作者将具有不完整模态的数据点构建成为一张异质超点图;接下来,作者通过一个基于图神经网络的学习框架,从高度交互的不完整多个模态中提取互补信息并将信息从不同子空间融合至一个统一的空间内。

2.2.1 异质超点图的构建

异质超点图中的节点具有不同数量以及维度的特征,被称为超点;一条边可同时连接个共享相似信息的数据点,被称为超边

本文中,作者定义不完整模式为模态的一种组合方式。对于一个具有模态缺失问题的模态数据集,数据共可能存在种模态组合可能(排除空模态组合),即存在种不完整模式。

作者首先将数据集中的所有数据按照可用模态的不同组合方式分为块,同一块中的所有数据有相同的可用模态,一块中的两点、可按照以下公式计算正则化距离:

为当前块对应的模态集合,为正则化系数,为模态的浅层特征。计算出当前块中两点之间的距离后,每个点与它的近邻通过超边连接。

将所有块分别构建得到的子图统一到一个图中,可以得到最终的异质超点图。注意到,在这样的一种构图方法中,两个数据点的部分公共模态特征相近就可能被超边连接,即缺失某种模态的数据点与含有该种模态的数据点可能被连接,从而在一定程度上减轻模态不完整的问题。

2.2.2 节点内编码器

每个超节点内部本身就包含高度交互的多模态内容,作者对这部分内容进行了编码。

作者首先使用CNN、Bi-LSTM或全连接网络等DNN对单模态特征进行嵌入,得到第个数据的模态嵌入为。接下来对每种模态组合计算其对应的模态交互表示。

若只含有一种模态,那么按如下方式计算模态特有信息:

若含有多种模态,那么按如下方式计算模态交互信息:

编码器通过对节点内部模态内部以及模态间交互的捕捉,将原始的模态特征集编码为新的特征集。

2.2.3 多折双层图注意力

由于不同节点的模态组合不同,上步编码之后得到的图仍是异质的。为实现异质图上的多模态信息融合,作者使用双层图注意力机制。首先聚合同种模式下邻居的信息,接着聚合不同模式信息。

  • 模式内聚合

对于节点,定义其在模式下的邻居集合为,分别使用(5)式和(6)式计算不同邻居在聚合过程中的注意力值大小以及在模式下的聚合表示:

  • 模式间聚合

在聚合完模式内部信息之后,下一步是学习不同模式之间的关系,使得有不同模态缺失情况的数据点可以彼此学习,弥补缺失信息。聚合一个数据点的不同模式表示采用类似的注意力机制:

衡量了在节点上,模式对于模式的影响大小。节点在模式下更新后的表示如下:

堆叠多个以上双层图注意力层以实现异质多模态数据的层级交互与融合。

2.3 实验

实验包含3D物体识别以及情感识别两个任务,前者使用双模态数据集ModelNet40以及NTU进行,后者选择三模态数据集IEMONAP进行。为了模拟实际应用中可能出现的模态缺失情况,作者设置了多模态不完整比例,从数据集中随机删除数据,使得一个大小为的模态数据集中每种模式都对应个数据。

HGMF以及其他baseline在不同多模态不完整比例下进行3D物体识别实验的结果如下(CPL代表模态数据完整):

三粒度情感识别的实验结果如下:

可以看到,HGMF在模态不完整比例较高时的表现与其他baseline相比得到了稳定提升,说明其确实具有缓解模态缺失问题的能力。

3 Improving Conversational Recommender Systems via Knowledge Graph based Semantic Fusion

3.1 引言

会话推荐系统(Conversation Recommender System, CRS)作为一种通过与用户的交互式对话生成高质量推荐商品的推荐系统,近年来越来越多地受到人们的关注。一个电影推荐场景下的CRS工作示例如下所示。

CRS需要推荐模块和对话模块的无缝整合。对话模块负责理解用户意图,并生成恰当的回复语句;而推荐模块负责学习用户偏好,并基于上下文内容为用户推荐高质量商品。目前针对CRS的研究中主要存在以下两个问题需要解决。

  1. 与传统推荐系统能够利用用户的历史交互序列或用户属性不同的是,CRS使用的对话数据缺少足够的上下文内容帮助精确理解用户偏好;

  2. 对话以自然语言的形式展示,而实际的用户偏好是反映在商品或实体上的。这两类数据信号间存在天然的语义鸿沟。

为解决上述问题,本文提出了基于知识图谱的语义融合模型KG-based Semantic Fusion(KGSF),通过引入面向词语的知识图谱ConceptNet和面向商品的知识图谱DBPedia丰富对话信息,并通过互信息最大化消除两个知识图谱之间的语义鸿沟。基于对齐之后的语义表示,作者还设计了KG增强的推荐模块用于生成精确推荐以及KG增强的对话模块用于在回复文本中生成信息量丰富的关键词或商品。

3.2 模型

3.2.1 编码外部知识图谱

  • 编码面向word的知识图谱

本文使用GCN编码ConceptNet,每次更新时执行以下聚合操作:

  • 编码面向item的知识图谱

Item间的关系比词语间要复杂的多,本文使用关注节点间关系的R-GCN来学习item的表示:

3.2.2 使用互信息最大化的知识图谱融合

消除word与item在表示上的语义鸿沟的核心思想在于使对话中共现的word和item在知识图谱中有相近的节点表示,这样能够统一两个语义空间中的数据表示。本文使用互信息最大化的方法达到以上目的。

给定两个变量和(本文中对应的是word和item的表示),它们之间的互信息定义如下:

其中,为和联合分布和边缘分布点积之间的KL散度。

互信息的准确数值通常很难计算得到,通常转化为计算其下界,通过抬高互信息下界值来间接使得互信息最大化:

其中,和分别代表正样本对(共现word-item对)和负样本对(随机word-item对)的得分期望。得分函数如下:

由(4)式和(5)式,可以得到知识图谱嵌入模块的优化目标函数。

3.2.3 知识图谱增强的推荐模块

本文将对话经知识图谱嵌入并使用自注意力机制后得到的词向量和门控组合后获得用户的偏好表示:

商品被推荐给用户的概率为:

使用如下交叉熵损失函数学习参数:

其中,为互信息最大化损失,用于微调知识图谱嵌入模块。

3.2.4 知识图谱增强的回复生成模块

本文沿用了Transformer的编码器-解码器架构,并对解码器进行了改进,在自注意力子层之后,又使用了两个融合知识图谱的注意力层:

其中,代表多头注意力函数,而则定义了一个全连接前向网络。

回复生成模块的损失函数如下:

3.2.5 参数学习

参数学习的完整流程如下:

首先通过互信息最大化对两个知识图谱的嵌入图神经网络进行预训练;接下来通过推荐item的交叉熵损失学习推荐模块参数并同时微调图神经网络参数;最后是回复生成模块参数的单独学习。

3.3 实验

本文在CRS数据集ReDial上分别进行推荐任务以及对话生成任务实验,并对比了KGSF与其他baseline的表现。

3.3.1 推荐任务

可以看到,不论是在常规推荐场景下还是冷启动(上下文未提及任何商品或属性)场景下,KGSF都能取得最优表现。

MIM模块在提升模型表现的同时,也能缩短模型的收敛时间。

3.3.2 对话生成任务

KGSF在对话生成任务上也能取得最优效果。

4 总结

本文介绍的第一篇工作研究如何将有模态缺失问题的多模态数据集构建成为异质图并在图上进行合理的多模态信息交互,达到相互补充与融合的效果;第二篇工作则在引入面向word以及面向item的两个知识图谱后,通过互信息最大化对齐这两个知识图谱在语义上的表示空间,从而提升会话推荐效果。

本期责任编辑:杨成

本期编辑:刘佳玮


下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套!后台回复【五件套】
下载二:南大模式识别PPT后台回复【南大模式识别】

说个正事哈

由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:

(1)点击页面最上方深度学习自然语言处理”,进入公众号主页。

(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。

感谢支持,比心

投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

推荐两个专辑给大家:

专辑 | 李宏毅人类语言处理2020笔记

专辑 | NLP论文解读

专辑 | 情感分析


整理不易,还望给个在看!

KDD20 | 图模型的信息融合专题相关推荐

  1. 【复杂网络】图模型在欺诈检测应用一点看法

    转自:https://blog.csdn.net/hero_fantao/article/details/78745263 感谢博主 在三十而立的日子,把很久之前写的东西发出来,以纪念这个特殊的日子. ...

  2. 信息融合动态与发展趋势

    摘 要:描述了信息融合理论与技术当前研究动态,提出了第三代信息融合概念.模型.特征和功 能模式,强调了人在感知观测-判断-决策-行动(OODA)环中的主导作用,为情报战博弈和按我 方意图塑造战场态势以 ...

  3. R语言使用lm构建线性回归模型、并将目标变量对数化实战:可视化模型预测输出与实际值对比图、可视化模型的残差、模型系数(coefficient)、模型总结信息(summary)、残差总结信息

    R语言使用lm构建线性回归模型.并将目标变量对数化(log10)实战:可视化模型预测输出与实际值对比图.可视化模型的残差.模型系数(coefficient).模型总结信息(summary).残差总结信 ...

  4. ML:通过数据预处理(分布图/箱型图/模型寻找异常值/热图/散点图/回归关系/修正分布正态化/QQ分位图/构造交叉特征/平均数编码)利用十种算法模型调优实现工业蒸汽量回归预测(交叉训练/模型融合)之详

    ML之LightGBM:通过数据预处理(分布图/箱型图/模型寻找异常值/热图/散点图/回归关系/修正分布正态化/QQ分位图/构造交叉特征/平均数编码)利用十种算法模型调优实现工业蒸汽量回归预测(交叉训 ...

  5. opencv 通过标定摄像头测量物体大小_视觉激光雷达信息融合与联合标定

    点击上方"新机器视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 编者按 最近在为车辆添加障碍物检测模块,障碍物检测可以使用激光雷达 ...

  6. CIKM 2021 | 图模型在广告检索(Ad Retrieval)中的应用

    ▐ 1. 摘要 图模型能够有效的挖掘数据中的关系信息来增强数据表示,在研究和工业领域都被广泛应用.阿里妈妈搜索广告技术团队于2019年开源了工业界首个支持大规模分布式的深度图学习平台Euler(htt ...

  7. ICCV 2019丨基于跨视角信息融合的三维人体姿态估计

    点击我爱计算机视觉标星,更快获取CVML新技术 52CV曾经在该论文刊出的第一时间对其报道:ICCV 2019 | 微软开源跨视图融合的3D人体姿态估计算法,大幅改进SOTA精度,该文为原作者解读. ...

  8. form:errors path 不显示出错信息_视觉激光雷达信息融合与联合标定

    一.引言 最近在为车辆添加障碍物检测模块,障碍物检测可以使用激光雷达进行物体聚类,但是我们使用的是16线的velodyne,线数还是有些稀疏,对于较远的物体过于稀疏的线数聚类效果并不好,因此考虑使用视 ...

  9. 图的概念与主要类型、图模型的应用场景

    前言 图(Graph)是一个常见的数据结构,现实世界中有很多任务都可以抽象成图问题,比如社交网络,蛋白体结构,交通路网数据,以及很火的知识图谱等,甚至规则网络结构数据(如图像,视频等)也是图数据的一种 ...

  10. 基于信息融合的供应链合作伙伴选择刍议 (zt)

    摘 要:文章基于信息融合技术对供应链管理中的合作伙伴选择问题进行了探讨,分析了信息融合技术在该问题中的适应性.基本融合模型.难点问题和融合策略等,认为应用集成多源信息和合适融合方法的信息融合技术可以提 ...

最新文章

  1. LeetCode简单题之最后一块石头的重量
  2. (已解决)IT IS POSSIBLE THAT SOMEONE IS DOING SOMETHING NASTY。Someone could be eavesdropping on you
  3. MonoDevelop 1.0 和 Mono 1.9(2.0 beta)发布了
  4. Java中@Override的作用
  5. php连接redis 主从复制,redis怎么进行主从复制
  6. Java 中的多线程你只要看这一篇就够了
  7. springwebflux 页面_Spring Webflux 响应式框架入门
  8. iOS之深入解析类Class的底层原理
  9. VS2008 解决方案配置器,即Debug,Release 模式选择
  10. 补肾分男女,养肾如养命
  11. 厉害了!阿里安全图灵实验室在ICDAR2017 MLT竞赛刷新世界最好成绩
  12. 格力电器2018年年度权益分派方案出炉:共派发90亿元
  13. 顶配售价 18499 元,用上 M1 的 iPad Pro 性能与价格“直逼”电脑,这届苹果发布会有你喜欢的吗?
  14. mysql三阶段提交实现_基于两阶段提交的分布式事务实现(UP-2PC)
  15. 买了个国产平台,竟然无法自行安装系统
  16. 阿里PaaS平台下开发建设
  17. 软考嵌入式系统设计师2011年上午试题总结
  18. java流程控制原理与方法_1.从本质上看,计算机控制系统的工作原理可归纳为三个步骤,以下不属这三个步骤的是 ( )。_学小易找答案...
  19. 如何下载原生纯净的Windows系统?(MSDN)
  20. 大数据标准管理体系流程

热门文章

  1. DataFrame数据转为list,再逐行写入Excel
  2. MUI class=mui-switch开关 JQuery 控制开关
  3. Software Defined Networking(Week 2, part 2)
  4. Windows Workflow Foundation开发环境配置
  5. java day39【HTTP协议:响应消息 、Response对象 、ServletContext对象】
  6. springboot中解决servlet乱码问题,使用配置类注册过滤器解决
  7. paroot忘记root密码
  8. 《转载》python爬虫实践之模拟登录
  9. RQNOJ 140 分配时间:dp
  10. 微信端修改title