文章目录

摘要
引言
相关工作
- CEE
- ECE
方法
- 任务定义
- 特征抽取
- 并行知识桥接的因果交互
- - CSK-Enhanced Graph Attention Module
  - Emotional Interaction Module
  - Actional Interaction Module
- 原因话语预测
实验
- 基线和比较的模型
- 实验结果
- 消融实验
- 总结

摘要

论文出自哈工大赵妍妍老师和秦兵老师的团队
Causal Emotion Entailment(CEE)旨在识别对话中目标情绪话语的原因。之前的工作局限于对对话上下文的透彻理解以及对情绪原因的准确推理。为此，我们提出了知识桥接的因果交互网络(Knowledge-Bridged Causal Interaction Network,KBCIN)，其中常识知识被用作3个桥梁。具体地，我们为每个对话构造了一个图，并通过CSK-Enhanced图注意力模块，将以事件为中心的常识知识作为semantics-level的桥梁(S-bridge)来捕获深层的话语间的依赖。此外，社会交互的常识知识作为emotion-leve的桥梁(E-bridge)以及action-level的桥梁(A-bridge)用来连接候选话语，并为情绪交互模块和行为交互模块来推理目标情绪提供了显示的因果线索。实验结果表明我们的模型要优于现有的基线模型。我们的代码地址为：https://github.com/circle-hit/KBCIN.

引言

现有的大多数工作聚焦于对话中的情绪识别。然而，情绪推理任务比如识别对话中情绪背后的原因仍然未被探索。Poria等人认为RECCON有利于改善情感模型的可解释性和性能。同时他在很多领域上诸如情感支持系统和共情对话系统上有很多潜在应用。因此Poria等人提出一个新的任务和数据集，它包含两个不同的子任务：Causal Span Extraction和Causal Emotion Entailment。我们在这篇论文中关注CEE子任务，该任务的目标旨在从对话历史中识别出非中性目标话语的原因话语。
在CEE任务中，主要存在两个挑战，第一就是要解决说话者之间的情绪动态性，而这需要通过复杂的对话上下文建模来理解话语间的深层语义关联；第二就是很难去准确地将候选话语与目标情绪联系起来，因为因果线索并不总是在上下文中明确提及，而应该基于推理来暗示，这就会导致候选和目标之间的一个推理差距。然而，Poria等人只是简单地将CEE作为一个话语对分类问题，这缺乏了充分的上下文建模和有效的情绪原因推理。为解决上述挑战，我们将常识知识引入到CEE中。
一方面，以事件为中心的常识知识，即反映了所发生在话语中事件之前或之后的事情，可以被看做语义级的桥梁来连接一个对话的发展以及增强相关话语之间的依赖，这样可以对上下文进行透彻的理解。如图1所示，话语#7中的事件（PersonA想要单独呆着）发生在事件（PersonA告诉PersonB离开，跟#1和#5相关）之后。
另一方面，根据（Moors and A.2013)，人类的感觉和行为倾向是情感的两个重要部分，并且为目标情绪的生成贡献了很多因果线索。为此，根据说话者的感觉和行为倾向所传递的因果线索，我们利用社会交互的CSK来作为情感级的桥梁，而行为级的桥梁来连接候选话语和目标话语。在图1中，#4中PersonB的的辩解和批评让PersonA感到生气，这与目标话语#7中的情感一致。进一步，#5的内容暗示了PersonA想要独自一人的行为倾向，它直接导致了#7中所表达的内容。

在这篇论文中，我们提出了知识桥接的因果交互网络（KBCIN）来有效进行对话上下文的建模和情绪原因推理。具体来说，我们将对话抽象成一个对话图来建模话语之间的依赖。然后，引入以事件为中心的CSKs包括(isAfter和isBefore)，并设计了CSK-Enhanced图注意力模块来将知识作为S-bridge用于图中的信息传递。进一步，为了填补候选和目标之间的差距，社会交互的CSKs包括(x(o)Want）,行为( x(o)React)作为A-bridge和E-bridge。我们设计了情绪交互模块和行为交互模块来准确的推理情绪原因。以上3个模块形成了知识桥接的因果交互块，而且它以多头的形式并行来重复呢建模话语之间的依赖，并且准且的将目标情绪和候选话语之间关联。
为了评估我们的模型，我们在Poria提出的基准数据集上进行实验。实验结果表明要优于现有基线模型，包括CEE基线，ECE和ECPE任务的较强基线。我们的贡献如下：

我们引入了常识知识到CEE中来填充候选话语和情绪话语之间的推理差距。
我们提出一个新颖的模型KBCIN来进行对话上下文建模和准确的情绪原因推理(利用常识知识作为bridge)。
实验表明我们的结果要优于其它模型。

方法

任务定义

给定包含t个连续话语的对话以及它们的情绪标签，该任务的目标是预测目标话语的对话历史中哪些话语是原因话语。我们的模型图如下所示，我们假设5个话语构成的对话是输入，同一个speajer说的话语颜色相同。

特征抽取

话语级的特征抽取：我们利用Transformer。
知识获取：我们使用ATOMIC-2020作为常识知识库。这是一个CSK图，涵盖了社会、物理和事件方面的日常推理知识。
为了全面理解话语间的语义依赖，以及填充候选和目标间的推理差距，我们利用CSK作为3个桥梁，分别是S-bridge, E-bridge和A-bridge。更具体来说，我们探测了ATOMIC-2020中的六种不同类型的CSK。如图2所示。一方面，根据以事件为中心的CSK(isAfter和isBefore)所反应的时序性和因果性，去构建更深层的话语间的语义依赖。另一方面，社会交互的CSK(xReact, oReact, xWant, oWant)。
x(o)Want表示事件发生后，PersonX或others最想要做的，而x(o)React反映了PersonX或others在事件发生后的感觉。从人类的感觉和行为倾向来说，这两个帮助填充了候选和目标之间的推理差距。
为了生成CSK的表示，我们采用COMET（Bosselut et al. 2019），具体来说，我们采用COMET的BART-based变种模型，给定每个话语ui，形成输入(ui, r, [GEN])。COMET会生成推断内容，我们采用最后一层的隐藏层表示作为知识表示。这样，我们会得到六种不同类型的知识表示。

并行知识桥接的因果交互

受到多头注意力的启发，我们提出并行的知识桥接的因果交互block来理解对话上下文和推理原因。对于每个block，它由3个部分组成：CSK增强的图注意力模块，情绪交互模块和行为交互模块。

CSK-Enhanced Graph Attention Module

相对于Poria等人的方法来说，我们将一个对话中的话语抽象为一个对话图，其中当前话语只跟它的历史话语相连，这样我们能够保证话语之间的交互能够满足因果的自然性，即原因智能从过去推断。每个节点通过话语级的特征ci进行初始化。此外，我们计算了候选和目标之间的相对距离，并利用相对距离信息来增强话语表示。由于每个话语的情绪在CEE中扮演着重要角色，我们将它也考虑进去，所以每个节点的表示为：

基于普通的图注意网络，我们设计了CSK增强的图注意力来传播图中的信息，并利用以事件为中心的CSK作为S-bridge来衡量话语间的语义依赖。每个节点的更新方式如下：

Emotional Interaction Module

经过CSK增强的对话上下文建模，我们利用social-interaction的CSK：xReact和oReact得到的知识作为E-bridge来填充推理差距。这个想法是受到理论：feelings是人类情感最重要的组成部分的启发。因此目标话语与那些具有相似或相同情感更相关。此外为了区别说话者自己和说话者间的依赖，xReact和oReact被作为intra E-bridge和inter E-bridge。情绪相似性计算方式如下：

然后我们利用情绪相似性分数来给候选话语加权，并利用目标话语的表示来丰富候选话语：

Actional Interaction Module

由于行为倾向是另一个推理人类情绪的重要组成部分，我们使用xWant和oWant来作为A-bridge来连接候选和目标。同时，也分为intra A-bridge和inter A-bridge，行为相似性分数：

最后，在每个知识桥接的因果交互块，为了在推理阶段合成结果，我们将对话上下文表示，情绪表示和行为表示相加，最后每个话语的表示为：

原因话语预测

我们将并行头的每个表示拼接作为输入，然后利用一个因果话语预测其来决定候选话语是否为原因：

实验

数据集：RECCON-DD。我们只考虑对话历史中的原因话语，移除掉重复的因果对。数据集如下:

基线和比较的模型

RoBERTa-Base/Large(Poria et al. 2021)
KEC(Li et al. 2022)扩展了ERC中的DAG网络来构造了知识增强的DAG网络，他们利用了social-interaction知识来提升势必中性话语原因的性能，值得注意的是他们将中性话语也作为了目标话语，导致了更多的负样本。
KAG(Yan et al. 2021)提出了一个基于图的方法来缓解位置偏差问题，主要是利用实体相关的CSK来增强候选子句和情绪子句之间的依赖。
Adapted(Turcan et al. 2021)通过自适应知识模型引入常识知识，并以多任务的方式联合识别情绪和情绪原因。
ECPE-2D、ECPE-MLL、RankCP。

实验结果

RoBERTa-Base/Large和ECPE的方法直接引用了Poria等人的，我们在我们的实验设置下复现了KEC和ECE的方法，可以看到我们的方法在Pos.F1和macro F1要优于现有模型。
对于ECE和ECPE的模型，我们发现他们与我们的模型不能相比，这表明直接将文本中的方法建模对话上下文不太合适，而且KAG结果可能是因为实体相关的CSK在某种程度能增强子句的依赖，但是却不能提供有价值的社交因果线索来用于推理目标情绪。
对于CEE的基线，我们可以得出结论：一方面显示建模对话上下文很重要；另一方面，准确的因果情绪推理，以及常识知识提供的因果线索用于填充推理差距都非常重要。尽管KEC也用到了CSK，它只聚焦于情绪级的知识来推理情绪，而且推理过程中受限于窗口大小的范围，可能会导致位置偏差和泛化能力的削弱。

消融实验

为了验证CSK构造的3种桥梁，我们移除掉任意一个桥梁。

为了去研究情绪信息的作用，我们去除掉了情绪信息或者将真实的情感标签替换成由ERC模型预测的情绪标签。

总结

这篇论文提出了KBCIN网络用于CEE。将常识知识作为桥梁来有效进行对话上下文建模和情绪原因推理。具体来说以事件为中心的常识知识作为S-bridge，通过CSK增强的图注意力模块增强话语间的依赖，而E-bridge和A-bridge提供了因果线索用于准确的因果情绪推理。
未来会探索如何结合预训练知识模型的知识与外部知识库的知识。进一步会联合识别情绪和情绪原因。

论文阅读——Knowledge-Bridged Causal Interaction Network for Causal Emotion Entailment相关推荐

论文阅读：Saliency-Guided Region Proposal Network for CNN Based Object Detection
论文阅读:Saliency-Guided Region Proposal Network for CNN Based Object Detection (1)Author (2)Abstract (3 ...
论文阅读Batch Normalization: Accelerating Deep Network Training byReducing Internal Covariate Shift
论文阅读Batch Normalization: Accelerating Deep Network Training byReducing Internal Covariate Shift 全文翻译 ...
论文阅读11——《Mutual Boost Network for Attributed Graph Clustering》
是聚类让我们"聚类",我整理了部分深度图聚类代码,希望大家多多支持(GitHub代码):A-Unified-Framework-for-Deep-Attribute-Graph-C ...
【论文阅读】Gait Quality Aware Network: Toward the Interpretability of Silhouette-Based Gait Recognition
Gait Quality Aware Network: Toward the Interpretability of Silhouette-Based Gait Recognition 摘要 Intr ...
论文阅读——CcNet:A cross-connected convolutional network for segmenting retinal vessels using multi-scale
论文阅读:CcNet:A cross-connected convolutional network for segmenting retinal vessels using multi-scale ...
论文阅读：Tube Convolutional Neural Network (T-CNN) for Action Detection in Videos
Tube Convolutional Neural Network (T-CNN) for Action Detection in Videos 文章目录 Tube Convolutional Neu ...
【论文阅读】Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud
最近在看3d目标检测的文章,感觉看完东西还是要记一下自己的想法,尤其是有思考的文章. 论文题目:Point-GNN: Graph Neural Network for 3D Object Detect ...
论文阅读：iCAN: Instance-Centric Attention Network for Human-Object Interaction Detection
iCAN(BMVC2018) 文章在InteractNet上做的改进,达到了 V-COCO 45.3%. 在由h或者o计算a的分数时,不止用它们本身的特征,还concat了context特征,c ...
论文阅读-2022.1.2-A Neural Network Approach for_2016_一种用于知识驱动响应生成的神经网络方法
摘要 We present a novel response generation system.我们提出了一种新颖的响应生成系统. The system assumes the hypothesis ...

论文阅读——Knowledge-Bridged Causal Interaction Network for Causal Emotion Entailment