来自:复旦DISC

引言

本文介绍了复旦大学数据智能与社会计算实验室(Fudan DISC)在Findings of ACL 2021上录用的一篇关于论辩挖掘的工作:Leveraging Argumentation Knowledge Graph for Interactive Argument Pair Identification,通过构建论辩领域的知识图谱并融合其中的相关知识,提升互动论点对识别任务的准确性。

文章摘要

互动论点对识别(Interactive Argument Pair Interaction)是对话式论辩挖掘研究领域中的一个核心任务。现有对于互动论点对识别的研究将其视为句子匹配问题,并且在很大程度上依赖于文本信息来计算文本相似性。然而,论点之间的互动通常会涉及论题的背景知识,并需要知识概念之间的推理,这超出了文本相似度层面的信息。

在本文中,我们提出利用外部知识来增强交互式论点对的识别。我们从在线论坛中不同主题的讨论语料中构建论辩知识图谱。在此基础上,被引用论点和回复论点之间的交互便可被表示为知识图谱中的推理路径。在实际中,我们利用图卷积网络 (GCN) 来学习知识图中的概念实体表示,并使用基于 Transformer 的编码器来学习推理路径的表示。最后,采用信息对齐网络来捕获概念信息(实体级和路径级)和文本信息的交互。实验结果表明,我们的模型在基准数据集中达到了最先进的性能。进一步的实验分析证明了我们模型通过知识图谱中的概念路径来执行知识推理的合理性及有效性。

研究背景

论辩挖掘旨在分析论辩性文本中的语义和逻辑结构。目前论辩挖掘的研究方向大致可以分为单篇式论辩(Monological Argumentation)以及对话式论辩(Dialogical Argumentation)。二者的主要区别在于,单篇式论辩的研究对象通常为单篇式的论辩场景,如学生议论文、公开演讲等一整篇论辩性文章或一段论辩文本,相关的任务包括论辩部件预测、说服力评估和论辩总结等;而对话式论辩的研究对象通常为辩论赛或者在线论坛场景下,由持有不同观点的多方参与者之间的互动所产生的文本,相关任务包含互动论点对识别、抽取等。

现有对于互动论点对识别的研究将其视为句子匹配问题,并且在很大程度上依赖于文本信息来计算文本相似性。虽然相关深度学习模型取得了一定的判别效果,但对于互动论点对中真正具有互动关系的概念实体的利用程度仍有不足,也就是说该任务需要超出文本相似度的知识信息。下图展示了两条现有模型无法正确识别的互动论点对示例。在第一个例子中,两句论点之间的联系由"president"和"Obama"以及"John Boehner"和"speaker of the house"所构建,这属于自然语言中常见的常识类知识;而在第二个例子中,两句论点之间的联系则需要通过"global warming"导致"sea level"提高来体现,这段推理过程中所出现的关系为论辩领域中所特有的因果联系。

因此,我们希望在互动论点对识别的任务中融入上述两类知识,来提升该任务上模型的效果,并提供更直接的可解释性。具体做法上,本文构建了论辩领域的知识图谱,并以图谱中推理路径的方式来融合相关知识。在模型层面,本文通过使用图卷积网络(GCN)编码相关实体,并使用Transformer编码器编码相关推理路径,再将这两个级别的概念编码与文本编码进行信息对齐,从而完成对于互动论点对识别任务的增强。

图谱构建

  1. 原始图谱构建

本文在Tan等人所构建的CMV文本数据集的基础上,采用OpenIE来抽取出其中的(实体、关系、实体)三元组,将所有的实体作为节点,所有的关系作为边,得到了原始的知识图谱。该阶段中加入的知识对应于研究背景中提到的第二类知识——因果联系。该阶段的图谱统计信息如下图所示。

  1. 概念对齐

为了进一步提升我们所构建的图谱质量,同时也为了加入研究背景中所提到的第一类常识知识,本文在得到上述原始图谱后,进行了概念对齐操作。对于两个知识图谱中的实体,如果它们在Wiikipedia中的搜索结果相同,则将它们之间加入”等价“的实体关系。概念对齐后的知识图谱相关统计信息如下图所示。结果显示概念对齐后,图谱的连通性明显增加,稀疏性的问题得到了一定程度上的解决。

方法描述

本文提出了将论辩图谱知识融入互动论点对识别任务的模型框架(如下图所示)。该框架主要包含三个模块,文本编码器、概念编码器以及信息对齐网络。

  1. 论点对文本信息建模

给定一对候选引用-回复论点对,我们将其拼接后通入BERT句子对分类模型,取出其中的[CLS]符号的表示即可得到论点对的文本层面表示。

  1. 论点对概念信息建模

给定一对候选引用-回复论点对的上下文,我们抽取出其中所包含的概念实体,接下来从实体和路径两个层面进行概念信息建模。

2.1 实体级别

我们采用平均池化的BERT词向量得到每个节点的初始化表示,接着使用二层GCN网络来对每个节点信息进行汇总融合,从而得到了每个提及的实体的概念表示。

2.2 路径级别

在本文中,推理路径定义为论辩双方所提到的概念实体对之间在知识图谱中经过遍历而顺次连接得到的序列。在得到上述实体的表示后,我们从图谱中枚举出双方所有的概念实体对之间的最短路径,再经过Transformer编码器来对其进行编码表示,进而得到了每条推理路径的表示

  1. 信息对齐网络

得到基于每个实体以及每条路径的概念表示之后,我们构建了信息对齐网络来将不同的实体以及路径汇总得到概念层面的总表示。具体来说,我们利用文本信息表示来对所有的推理路径进行注意力池化汇总得到推理路径的总表示,在利用推理路径总表示来对所有的实体进行注意力池化汇总得到概念实体的总表示。

在得到以上文本和概念层面的总表示后,我们将这些维度的特征拼接并通过一个线性层,来预测当前候选论点对成为互动论点对的匹配分数,从而得到最终的判别结果。

实验

  1. 互动论点对识别性能

下表展示了在互动论点对识别数据集上的各模型性能。实验结果显示本文提出的模型在P@1和MRR指标上均优于已有模型,一方面体现在文本信息建模方面,预训练模型BERT的性能超过了之前最先进的DVAE模型;另一方面体现在上下文信息建模方面,通过融入论辩图谱对于论点概念的编码表示的组件超过了之前的层次化CNN上下文建模给模型所带来的提升。

  1. 消融实验

下表展示了本文所提模型的消融实验,从结果中可以发现三个主要模块中对模型性能影响最大的是文本信息编码;在概念编码中对于模型性能提升最明显的是路径编码器。

  1. 进一步分析

本文对于得到的知识图谱中推理路径进行了进一步探究,主要分为四个子实验:(a)概念对连通性:实验显示对于存在互动关系的正确论点对以及不存在互动关系的负样本,双方概念中存在推理路径(即联通)的实体对分别占54%和41%,即连通性对于判断是否存在互动关系有一定判别作用;(b)推理路径长度分布:实验显示在正确论点对中的推理路径平均长度会略低于负样本中的推理路径,即更长的推理路径倾向于出现在无关的论点对中;(c)推理路径中的关系分布:我们通过统计出现在所有推理路径中的关系,并应用一些词典资源(如+/-EffectWordnet/Connotation Frames等)对关系进行分类,结果显示在所有推理路径中,常识知识的关系和因果知识的关系占比非常接近,各占了所有关系的40%左右;(d)路径长度截断:本文通过对路径长度做限制,去掉超过限制长度的推理路径并重复实验,结果显示对于互动论点对识别的任务,当推理路径的长度限制设置在4的时候达到最好效果,经分析这可能是推理路径数量(路径长度越大路径数越多)和推理路径质量(路径长度越小越有可能为正样本中的路径)之间的权衡。

总结

本文提出了一个模拟人类辩论推理过程的模型框架。具体实践中,我们首先从在线辩论论坛ChangeMyView出发,利用OpenIE工具、词典资源和Wikipedia相关API进行概念对齐,构建了一个对话式辩论领域的知识图谱。接着利用基于路径的图模型对辩论双方的概念对之间的推理路径进行编码,并将概念信息与预先训练好的语言模型BERT获得的语义信息进行对齐。在互动论点对识别任务上的实验表明该模型能够有效、透明地利用外部知识,进一步关于推理路径的实验也显示出基于我们构建的知识图谱所生成的推理路径具有较高的质量。

说个正事哈

由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:

(1)点击页面最上方深度学习自然语言处理”,进入公众号主页。

(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。

感谢支持,比心

投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

点击上面卡片,关注我呀,每天推送AI技术干货~

整理不易,还望给个在看!

【复旦】基于论辩图谱的互动论点对识别相关推荐

  1. 基于社交图谱的多层关系挖掘推荐

    基于社交图谱的多层关系挖掘推荐 一.需求分析 1.推荐功能 2.亲密度衡量标准 3.实现思路 二.案例测试 1.准备样例数据 2.构建查询 3.优化 一.需求分析 1.推荐功能 根据多层人员互动类关系 ...

  2. python毕业设计开题报告-基于Python的教学互动系统的设计与实现开题报告

    基于Python的教学互动系统的设计与实现开题报告 背景: 在各种信息技术与课堂的不断探索中,我们一直在寻找一个能提高教学效率的方式,同时可以发现要提高教学效率,在课堂教学中必不可少的就是师生间的互动 ...

  3. 论文浅尝 | 基于事理图谱的脚本事件预测

    论文笔记整理:邱圣广,南京大学硕士,研究方向为自然语言处理. 链接:https://www.ijcai.org/proceedings/2018/0584.pdf 绪论 1.  脚本事件预测 脚本事件 ...

  4. 基于金融知识图谱的会计欺诈风险识别方法

    点击上方蓝字关注我们 基于金融知识图谱的会计欺诈风险识别方法 陈强1, 代仕娅2 1 兴业银行信息科技部,上海 201201 2 蚂蚁科技国际事业群数据算法技术部,上海 200120 摘要:针对商业银 ...

  5. 干货!基于常识图谱和混合策略的情绪支持对话系统

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 情绪支持对话系统旨在理解人类用户的情绪困扰,并通过提供共情回复和疏导建议给予情感陪伴. 为了让对话系统拥有更强大的理解能力,我们在论文& ...

  6. 论文阅读|基于领域知识图谱的多文档摘要生成与应用

    论文地址:基于领域知识图谱的多文档摘要生成与应用 先验知识 1.多文档摘要技术: (理解:类似于每篇文章的摘要.关键词,方便通过标签筛选是否是你需要的内容) 利用计算机将同一主题下或者不同主题下的多篇 ...

  7. 人工智能方案设计——基于事件图谱的类案同判

    重点说明,此篇人工智能方案设计已获奖,如要转载,必须说明出处,谢谢合作. 基于事件图谱的类案同判 项目简介: 意义: 现今,针对现有的案多法官少的情况,我们采用基于事件图谱的类案同判以期望给法官提供辅 ...

  8. 基于neo4j图谱搭建问答系统

    前言 承接前文,本文介绍如何根据已有的neo4j图谱来搭建一个简单的问答系统. ps:因为是基于neo4j图谱的,所以这个问题必须是在图谱中有答案才能进行回答. 完整项目github地址:https: ...

  9. 基于深度学习的手写数字识别算法Python实现

    摘 要 深度学习是传统机器学习下的一个分支,得益于近些年来计算机硬件计算能力质的飞跃,使得深度学习成为了当下热门之一.手写数字识别更是深度学习入门的经典案例,学习和理解其背后的原理对于深度学习的理解有 ...

最新文章

  1. erlang supervisor simple_one_for_one实例
  2. 简明 Vim 练级攻略(转)
  3. ElasticSearch 索引 VS MySQL 索引
  4. 我的世界php开服环境_PHP初学者如何搭建环境,并在本地服务器(or云端服务器)运行自己的第一个PHP样例...
  5. 关于 stl的内存分配的深浅拷贝
  6. 使用MITab操作MapInfo地图文件
  7. windows10下搭建spark平台
  8. Linux编译并更新内核(替换Linux内核)
  9. 开源OLAP系统对比
  10. OpenCVSharp 分水岭算法
  11. ElasticSearch 聚合查询 JavaApi
  12. 第八篇order订单专题(2)订单通知及属性
  13. 集合的简单实现(斗地主牌的实现 )
  14. inet_aton和inet_ntoa
  15. Hadoop百度百科
  16. microPython驱动tft屏幕显示中文终极解决方案
  17. oracle 统计表总数
  18. 原画设计咨询回复话术
  19. 服务器显示器无信号,终于懂了显示器无信号输出怎么解决?
  20. 与网站访问者建立信任的5种方法

热门文章

  1. 打印总是遇到问题?一文教你如何在优麒麟上使用 CUPS 管理打印机
  2. mv /* /topath/ 后恢复方法
  3. 程序猿投资理财篇——基金投资技巧2
  4. 【速览】2021年中国番石榴主产地种植生产情况及整体进出口贸易分析[图]
  5. Eclipse 搭建ESP32开发环境
  6. JavaScript原生-网页版计算器
  7. 计算两个日期的天数差
  8. 毕业不要做新媒体短视频运营
  9. 苹果刷linux系统下载官网下载,如何安装苹果系统
  10. 数字图像处理与Python实现-颜色空间转换-RGB颜色空间与HSV颜色空间转换