ACL2020-Modeling Label Semantics for Predicting Emotional Reactions 论文要点

概要

本文研究任务：预测故事中的事件会引起故事角色怎样的情绪，是一个多标签的分类任务。
以往的方法将label看作一些匿名类去做预测，对于每种情绪做二分类，忽略了情绪标签（emotion label）本身的语义信息。

本文主要思路：本文提出使用情绪标签的语义，来引导模型在表示输入故事时的attention（即，改进输入故事的编码过程）；进一步地，本文发现，一个事件所能引起的几种情绪通常是相关的，一个引起人们开心情绪的事件很少会伴随着伤心情绪的产生。因此，本文显式地使用label embedding的方式来表示模型的label类别；同时，在训练及推断的过程中追踪label之间的关联。【label embeddings + label correlations】
代码：github

任务形式 Emotion Inference

本文涉及的Emotion Inference任务定义于ROCStories数据的一个子集上，需要在给定故事context的情况下，推断出每个事件所引起的各个故事角色的反应。
事件由story中的一个句子所组成，表示为 $x_s$ ，该事件前的所有提到过角色 $c$ 的句子记作 $x_c$ ，需要编码 $x_s$ 和 $x_c$ ，并将其作为输入送入多标签分类层。总共有8种emotion。

label语义表示 Label Semantics using Embeddings

首先使用Label对应的单词（如joy、fear等）的embedding来对label的embedding进行初始化，然后采用以下两种方式进行label embedding的使用：

Label Attention Network
Label Embedding可以用于指导编码网络抽取emotion相关的信息，本文采用了Label-Embedding Attentive Network（LEAM）架构来产生与label相关的表示，其主要思想计算label与输入之间的attention值，以此来加权各个单词对于最终表示的贡献。
用 $B_t$ 表示由BERT模型得到的每个单词的表示，用 $J$ 进行label的表示，计算出attention值，并对句子表示H进行单词加权，然后用于emotion分类。
Label as Additional Input
上一种方法中label embedding的表示是模型从头开始学习的，在第二种方法中作者想要利用BERT等预训练语言模型的知识，因此作者在原始的输入文本后拼接了8句表示emotion label的句子，记作 $L_s$ ，其中每句话的形式表示为：[character] is [emotional state]。这样就可以通过BERT模型得到label的表示，再和句子表示进行上述过程。
应该没理解错吧，没有开源代码。这步创新点好像有点小，但很合理。

label语义关联 Label Semantics using Correlations

首先，需要确定的一个问题是，Label的关联是否存在？为了得到这个问题的答案，作者计算了数据集中各种label的相关系数，得到如下的热力图。从下图可以发现，label之间的是有相关关系的，如JOY和SAD之间存在着高度的负相关，而JOY和TRUST之间则存在着高度的正相关。因此，利用上label之间的关联，可能可以提高模型的表现。

作者使用一个额外loss来进行惩罚，使得与真实label正相关的类也能得到概率的增加。

这个loss借鉴了Review-Driven Multi-Label Music Style Classification by Exploiting Style Correlations ： However, the widely used discrete label representation does not apply to the task of music style classification, because the music styles are not mutually exclusive and highly related to each other The discrete distribution without label relations makes the model over-distinguish the related labels …
在这篇论文当中，我们可以首先得到一个原始的label概率分布 $z$ ，然后，通过一个表示Label之间关联程度的矩阵 $\mathcal{G}$ ，将label概率分布进行变换，得到分布 $e$ ，label本身对应的0-1向量也做相应转换得到 $y^{'}$ ，这样就可以得到更加soft的分布，体现各个类之间的联系。最后原始分布和soft化之后的分布一起训练。

这里的矩阵 $\mathcal{G}$ 在本文中是由学习得到的（a learned correlation matrix）。

无监督数据半监督 Semi-supervision on Unlabeled Data

大概是因为标注比较困难，ROCStories数据集中只有一小部分被用于本任务，有大约40k数据没有进行多标签的标注，因此作者想要利用上这一部分数据进一步提高模型表现。
下面的 $e$ 表示的是通过Label Graph所计算出来的soft概率。
为了减小 $\mathcal{L_{reg}}$ ，label正相关的样本所得出来的logits分布会接近，而负相关的样本所得出的logits分布差异会变大。
这对于多标签的任务算是半监督了。

实验结果

case study：Label语义和Label关联的作用。