©PaperWeekly 原创 · 作者Nlper

多模态类比推理是一种使用类比和模拟的方法,用于帮助人们理解抽象的概念、解决问题和形成新的知识。在多模态类比推理中,人们通过将一个概念或情境与另一个相似的概念或情境进行比较,来理解和解决问题。这种方法可以帮助人们通过熟悉的概念来理解抽象的概念,并使用自己在这些概念中获得的经验来解决问题。

多模态类比推理在许多领域,如教育、工程、计算机科学和心理学等,都有广泛的应用。它是一种有效的思维工具,可以帮助人们在理解、解决问题和形成新知识时产生创造性的思维。

——From ChatGPT

论文标题:

Multimodal Analogical Reasoning over Knowledge Graphs

论文链接:

http://arxiv.org/abs/2210.00312

代码链接:

https://github.com/zjunlp/MKG_Analogy

Huggingface Demo:

https://huggingface.co/spaces/zjunlp/MKG_Analogy

Motivation

类比推理是一种感知和利用两种情况或事件之间的关系相似性的能力,在人类认知中占有重要地位,并且在众多领域例如教育、创造发挥着重要作用。一些学者考虑将类比推理与人工智能进行结合,在计算机视觉和自然语言处理领域都进行了广泛应用。其中,CV 领域将视觉与关系、结构和类比推理相结合,测试模型对于基本图形的的理解和推理能力;NLP 领域通过词语的线性类比来验证模型的文本类比推理能力。

上述任务大多遵循 的形式对深度学习模型的类比推理能力作了初步分析,但都仅限于单模态,没有考虑神经网络是否有能力从不同模态中捕获类比信息。然而,Mayer 认知理论 [1] 指出,人类通常在多模态资源中能表现出更好的类比推理能力,那人工智能模型是否具有这种性质呢?

这篇论文提出了一个基于知识图谱的多模态类比推理任务,任务形式可以形式化为 。本文构建了一个多模态类比推理数据集 MARS 和一个多模态知识图谱数据集 MarKG 作为支撑。

为了评估多模态类比推理过程,本文基于心理学理论的指导,对多模态知识图谱嵌入基线和多模态预训练 Transformer 基线在 MARS 上进行了综合实验。本文进一步提出了一个新型多模态类比推理框架MarT,它可以随时插入任何多模态预训练的 Transformer 模型中,并能产生更好的类比推理性能。

Task Definition

▲ 图1 基于知识图谱的多模态类比推理任务设定示意图

本文提出的多模态类比推理任务如上图所示,类似于没有显示提供关系的链接预测任务,可以被形式化定义为 。其中, 是给定的类比示例, 是问题-答案实体对,类比推理的任务基于背后的知识图谱 G 来预测未知的答案实体。

本文还将任务进一步分为 Single Analogical Reasoning 和 Blended Analogical Reasoning 等两种设定,两种设定的区别在于实体的模态信息不同,Blended 设定下模态信息更为复杂,对推理能力的要求也更高。

Dataset Collection

▲ 图2 数据构建流程示意图

多模态类比推理数据集 MARS 和背后的多模态知识图谱 MarKG 的构建过程如上图所示。首先,从两个文本类比推理数据集 E-KAR 和 BATs 中收集种子实体和种子关系;其次,将这些实体和关系映射到大型知识库 Wikidata 中并进行实体和关系的统一规范化;之后,从 Google 图片引擎以及多模态数据 Laion-5B 中检索实体图片并使用一系列的措施去过滤低质量图片;最后,从中检索高质量的类比数据来构建 MARS 数据集。

▲ 图3 数据统计示意图

数据的统计情况如上表所示,本文所提出的 MARS 数据集不仅包含了图片和文本等多模态的数据,并且在数据规模上也超过了以往的一些数据集。

Method

▲ 图4 方法示意图

本文在一些基线模型上进行了测试,包括三个多模态知识图谱嵌入模型(IKRL, TransAE, RSME)和五个基于 transformer 的多模态预训练模型(VisualBERT, ViLT, ViLBERT, FLAVA 和 MKGformer)。

4.1 多模态知识图谱嵌入模型

对于多模态知识图谱嵌入模型,本文采用 Pipeline 的方式来求解类比推理问题。包括 Abduction - Mapping - Induction 等三个步骤。其中,Abduction 用来预测类比示例 的潜在关系,Mapping 将预测出的潜在关系映射到类比问题实体上,最后,Induction 步骤用来预测最终的类比答案实体。

4.2 多模态预训练模型

本文将每个实体和关系视为特殊 token 添加到预训练模型的词表中,并使用可学习的向量来进行表示。受 [2] 和 [3] 启发,本文设计了类似于掩码语言建模的掩码实体和关系建模任务来学习这些向量,使其包含实体和关系的信息。

如图 4(b) 所示,首先在 MarKG 数据集上预训练多模态 Transformer 模型。MarKG 数据集中包含了实体的文本描述信息、图片信息以及实体之间的关系信息,这里期望模型可以从这些多源信息中学习到实体和关系的表示。为此,本文设计了一个提示模板,以完形填空的形式让模型预测 [MASK] 对应的实体或关系。此外,本文还为模型提供了实体的不同模态信息,包括文本描述和图片等。

在预训练结束后,采用带有显示结构映射的提示学习类比推理技术,来将预训练 Transformer 模型应用到下游数据集 MARS 上。如图 4(c) 所示,输入分为两部分,|| 左边的部分对应于 Pipeline方式中 Abduction 的步骤,|| 右边的部分对应于Induction 步骤,而 Mapping 步骤在模型内部完成。

使用特殊 token [R] 来代表类比示例实体之间的潜在关系,并将输入中包含的实体 用预训练过程中学习到的实体 embedding 进行替代。最终,通过在特殊 token 词表空间中预测 [MASK] 对应的特殊 token 来得到类比答案实体。

4.3 MarT框架

▲ 图5 MarT框架

尽管上述方法可以使得预训练 Transformer 模型可以建模多模态类比推理任务,但只是浅层的考虑了 Abduction 和 Induction 步骤,忽略了类比示例与类比问题-答案对之间的细粒度关联。因此,本文进一步提出了用于 Transformer 模型的 MarT 框架,它包含了自适应类比交互和面向关系的结构映射等两个模块。

1. 自适应类比交互

之前通过设计类比提示模板讲类比示例与类比问题-答案对拼接送入的 Transformer 模型,在 Attention 计算时两部分会进行一定程度交互。然而,类比示例对于类比答案的预测至关重要,但反过来类比问题-答案对对于类比示例的建模可能帮助甚微。此外,不同样例中类比示例提供的帮助不同。因此,本文使用自适应关联门来调节 Attention 计算中两部分的交互程度,将 Attention 计算拆解过程进行了拆解:

其中, 和 为 intra-analogy attention, 和 为 inter-analogy attention。这里使用门控 G 来控制 iter-analogy attention 的交互:

2. 面向关系的结构映射

关系映射理论 [4] 指出在类比推理中关系结构的映射要比目标之间的相似性更为重要。例如,电池可以类比为蓄水池是因为它们都存储潜力,而不是它们的形状是圆柱形。受此启发,本文提出了针对类比推理的松弛损失来让模型更加关注关系结构的迁移:

其中, 为类比示例中的特殊 token [R] 在 MLM head 中的隐藏特征, 为余弦相似度计算。

Experiment

5.1 主要结果

如下表所示,MKGE 的方法和 MPT 的方法在 MARS 数据集上取得了可比的性能;在模型中加入类比模块后,性能都有了大幅的提升,具体表现为 MKGE 方法使用 ANALOGY 作为 Backbone 时 Hit 指标和 MRR 指标都有了明显提升,MPT 方法加入了 MarT 框架后提升也十分显著;MarT_MKGformer 表现出了最优越的性能,原因可能是 MKGformer 是针对多模态知识图谱任务设计的,对此类任务更为敏感。

本文提供了一个排行榜:

https://zjunlp.github.io/project/MKG_Analogy/

▲ 表1 MARS实验结果

5.2 消融实验

本文对不同模块进行了消融分析,以验证不同模块的有效性:MarKG 可以为模型提供实体和关系的先验知识;类比模块以及类比示例对于类比答案实体的推理至关重要。

▲ 表2 消融实验结果

5.3 样例分析

样例分析进一步说明原生的模型在多模态类比推理任务中表现是偏弱的,加入类比相关组件可以提高模型性能。

▲ 图6 样例分析示意图

5.4 ChatGPT效果

小编出于好奇在阅读本文的时候拿 ChatGPT 去测试了一下,发现经过指导的大模型具备一定程度的多模态类比推理能力,但当类比的对象比较抽象时也会犯错误。

教 ChatGPT 多模态类比推理任务:

ChatGPT 多模态类比推理的错误:

类比示例是地球对应银河系,正确答案是伦敦对应英国和水对应海洋,ChatGPT 直接回答图片的内容。

Conclusion

在人类智能中,类比是一个很基本的能力,在某种程度上,可以认为是人类智能的源头之一。人们通过将一个概念或情境与另一个相似的概念或情境进行比较,来理解和解决问题。这种方法可以帮助人们通过熟悉的概念来理解抽象的概念,并使用自己在这些概念中获得的经验来解决问题。

本文提出了基于知识图谱的多模态类比推理任务,对此任务进行了形式化的定义并提供了一个多模态类比推理数据集 MARS 和多模态知识图谱数据集 MarKG。在多个知识图谱嵌入模型和预训练 Transformer 模型上的实验表明了这个任务的困难性和可挖掘性。

参考文献

[1] Multimedia learning. In Psychology of learning and motivation, volume 41, pp. 85–139. Elsevier, 2002.

[2] MEM-KGC: Masked Entity Model for Knowledge Graph Completion With Pre-Trained Language Model. IEEE Access 2021.

[3] Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge Graph Completion. SIGIR 2022.

[4] Structure-mapping: A theoretical framework for analogy. Cogn. Sci. 1983

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

​ICLR 2023 | 基于知识图谱的多模态类比推理相关推荐

  1. 3月15日 | 开启 ICLR 2023预讲会专场二

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 哔哩哔哩直播通道 扫码关注AI TIME哔哩哔哩官方账号预约直播 2023年3月15日 09:30-12:00  14:30-15:30 ...

  2. 【知识图谱】本周文献阅读笔记(4)——周三 2023.1.11:英文)基于动态知识图谱的虚假评论检测 + 基于知识图谱的推荐系统研究综述 + 基于知识图谱的推荐算法研究综述+新一代知识图谱关键技术

    声明:仅学习使用~ 对于各文献,目前仅是泛读形式,摘出我认为重要的点,并非按照原目录进行简单罗列! 另:鉴于阅读paper数目稍多,对paper内提到的多数模型暂未细致思考分析.目的是总结整理关于KG ...

  3. 基于知识图谱的知识推理

    阅读笔记:基于知识图谱的知识推理 论文:A review: Knowledge reasoning over knowledge graph 基本概念.定义 前沿的知识图谱: 基于知识图谱的知识推理: ...

  4. 基于知识图谱构建新一代数据智能基础设施

    知识图谱构建.多领域数据集.相关资料 导读:人工智能作为国家新基建战略的重点建设项目,是新一轮产业变革的核心驱动力量.当前人工智能正由感知智能走向认知智能,而知识图谱是实现认知智能的基石.知识图谱作为 ...

  5. 基于知识图谱的多模内容创作技术

    导读:由于大数据时代的发展,知识呈指数级增长,而知识图谱技术又在近年来逐步火热,因此诞生了利用知识图谱技术进行智能创作的新想法.本文将分享基于知识图谱的多模内容创作技术及应用.主要包括以下四大部分: ...

  6. 基于知识图谱和推荐系统的统一药物靶点相互作用预测框架

    本文介绍一篇来自浙江大学侯廷军教授课题组.中南大学曹东升教授课题组.浙江大学贺诗波教授课题组和腾讯量子实验室联合发表在Nature Communications的一篇文章. 基于知识图谱和推荐系统的统 ...

  7. 基于知识图谱的智能问答方案

    向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程   公众号:datayx 三个角度理解知识图谱 2012年谷歌首次提出"知识图谱"这个词,由此知识图 ...

  8. 美团基于知识图谱的剧本杀标准化建设与应用

    来源:美团技术  作者:李翔 陈焕 志华等 剧本杀作为爆发式增长的新兴业务,在商家上单.用户选购.供需匹配等方面存在不足,供给标准化能为用户.商家.平台三方创造价值,助力业务增长. 本文介绍了美团到店 ...

  9. 同济大学王昊奋:知识图谱在多模态大数据时代的创新和实践 | 世界人工智能大会达观数据论坛

    在2020年世界人工智能大会云端峰会中,达观数据与浦东青联联合举办了"智能时代,语你同行"行业论坛,围绕语言智能,在云端与多位行业专家与学者展开了一场精彩线上交流盛宴. 同济大学特 ...

最新文章

  1. MySQL面试题 | 附答案解析(二十)
  2. 解压bzi2文件出错,分析和处理
  3. Bootstrap4+MySQL前后端综合实训-Day02-AM【Bootstrap4(入门、环境搭建、文字排版、颜色、表格、图片、进度条、折叠、输入框组、模态框)、Font Awesome字体图标】
  4. pyhive 连接 Hive 时错误
  5. python tkinter库函数详解_Python使用tkinter库进行GUI编程中常用事件处理方式汇总
  6. java 输入流可以合并吗_Java 使用IO流实现大文件的分割与合并实例详解
  7. 基于ActiveMQ的Topic的数据同步——初步实现
  8. iOS 初识CoreBluetooth
  9. python之将python代码编译成.so
  10. 实战ReactNative 从入门到精通 重要技术解析,5分钟搭建iOS, Android App 实战一
  11. 数电-汽车尾灯控制电路设计
  12. 安装 Unity Hub 发现 进不了 Unity3D 了
  13. plc几种常用的编程语言特点
  14. 白嫖JetBrains全家桶第二波与第三波
  15. 手动连接wifi失败分析
  16. CorelDRAW2022中文正式版特色功能介绍
  17. ijkplayer源码---倍速
  18. 2018年年中个人总结
  19. apa引用要在文中吗_如何根据 APA 格式排版?
  20. 电脑和手机实现网页互相切换

热门文章

  1. NLP之TM之Dirichlet:朴素贝叶斯NB的先验概率之Dirichlet分布的应用
  2. EtherCAT IGH 驱动一个步进电机
  3. 虚拟主机配置邮件服务
  4. ZOJ3944 People Counting ZOJ3939 The Lucky Week (模拟)
  5. 数值计算复习笔记之(一)误差定义
  6. 商品档案新建,金蝶安卓盘点机PDA金蝶精斗云PDA条码扫描
  7. 频谱仪trace扫频轨迹设置流程
  8. 【EMC电磁兼容】01.06——标准测试类目之EMS
  9. 编写一个Singleton类(单例模式)
  10. centos 的各种应用