本论文作者为加泰罗尼亚大学、OSIRO和MIT共同完成的关于情境中情感认知的研究。

摘要

在日常生活中，我们每天都可以通过他人的面部表情来推断这个人今天经历了什么，他的心情是什么样的。如果机器也可以通过人类认识方式来了解他人的情感信息，那将对我们的生活有着更好的影响。然后，当前还没有一个系统可以完成这样的工作。先前关于计算机视觉的研究主要致力于分析面部表情，分为六类基本情感。然而，环境在人类情感认知方面也是有着很重要的决定因素。作者提出了一种“情景情感数据库”EMOTIC，这是一种非受控环境中包含人景的图像数据集。在这些数据集中，将人们的感情分为26类，带有continuous dimensions valence, arousal and dominace. 使用该数据集，作者训练卷积神经网络来联合的分析人以及整个情境下对情感状态的认知信息，以此表明情景在人类情感认知方面的重要性。

引言

理解一个人的情感在社会交际中起到很重要的作用。

情景对情绪的感知有着重要的作用，图中，小男孩面露渴望，从情景中可以看出，女孩可以吃巧克力，而男孩只能吃面前的苹果，所以他露出了强烈的渴望情绪。情景中苹果，巧克力，女孩这些线索就成了分析得到男孩面部表情含义的必要因素。同时，如果看不到一个人的表情的时候，我们也可以通过这个人所处的情景推断出他的情绪。

上面两个图片我们看不到红色框内人物的表情，但是根据他们所处的情景，可以推断出，peace and happy。
这篇论文主要强调研究的就是 情景对人物情绪感知的作用。
通过建模仿真得出两个结论：情景对情感感知有作用，第二，结合categories and continuous dimensions 训练卷积神经网络会产生一个更加鲁棒的系统。

情景数据库中的情绪

数据库中的图片来自MSCOCO Ade20k 以及谷歌下载图片，包括18316个图片和23788位带注释的人物。数据库结合了两种不同的情绪表示方法–如图中所示：离散分类—26种情绪分类表示方法图二，

连续维度下分类----VAD情绪状态模型，该模型标定范围为1-10 图三，

为了定义提出来的情绪分类方法，论文使用大概四百个来自字典、情绪书籍的词汇来形容情绪表达。也就是说最终将这400个词汇分别归为26类，分类规则包括：第一不相交性，第二，视觉可分性。

1 Peace: well being and relaxed; no worry; having positive thoughts or sensations; satisfied
2 Affection: fond feelings; love; tenderness
3 Esteem: feelings of favorable opinion or judgment; respect; admiration;gratefulness
4 Anticipation: state of looking forward; hoping on or getting prepared for possible future events
5 Engagement: paying attention to something; absorbed into something;curious; interested
6 Confidence: feeling of being certain; conviction that an outcome will be favorable; encouraged; proud
7 Happiness: feeling delighted; feeling enjoyment or amusement
8 Pleasure: feeling of delight in the senses
9 Excitement: feeling enthusiasm; stimulated; energetic
10 Surprise: sudden discovery of something unexpected
11 Sympathy: state of sharing others emotions, goals or troubles; supportive;compassionate
12 Doubt/Confusion: difficulty to understand or decide; thinking about different options
13 Disconnection: feeling not interested in the main event of the surrounding; indifferent; bored; distracted
14 Fatigue: weariness; tiredness; sleepy
15 Embarrassment: feeling ashamed or guilty
16 Yearning: strong desire to have something; jealous; envious; lust
17 Disapproval: feeling that something is wrong or reprehensible; contempt; hostile
18 Aversion: feeling disgust, dislike, repulsion; feeling hate
19 Annoyance: bothered by something or someone; irritated; impatient; frustrated
20 Anger: intense displeasure or rage; furious; resentful
21 Sensitivity: feeling of being physically or emotionally wounded; feeling delicate or vulnerable
22 Sadness: feeling unhappy, sorrow, disappointed, or discouraged
23 Disquietment: nervous; worried; upset; anxious; tense; pressured; alarmed
24 Fear: feeling suspicious or afraid of danger, threat, evil or pain; horror
25 Pain: physical suffering
26 Suffering: psychological or emotional pain; distressed; anguished

图像注释

作者设计了一种AMT接口依据所提出的分类法来给情绪做标注，同时对性别，年龄范围作出标注。作者从两方面保证标注质量，第一，分类工作者需要通过一个资格任务，第二，每18个图片中增加两个控制图片来监视分类工作的表现。最终将这个数据集的70%用来训练，10%用来校验，20%用来测试。其中，测试集由三名不同人员进行标注，以此核验不同人标注的一致性。
特别说明，一个人选择分类结果与另外两人分类结果一致的概率为23.97%（这个概率怎么来的呢），同时我们也计算了fleiss’ kappa值（一致性校验）为0.27，50%以上的图片的K>0.33。这个统计结果表明分类合理的一致程度（如果是随机分类，kappa的值是0）。
对于连续维度下的分类情况，不同人员分类结果的标准差在valence下是1.41，在arousal 下是0.70，在dominance下是2.12；表明人员在dominance下的分类结果差异性较大，差异在平均值±2周围。

数据集统计

对于23788位被标注人像中，66%是男性，34%为女性，11%为孩子，11%为青年，78%为成年人，

图五是26种情绪中每一种情绪的连续维度的得分分布。

分析图5结果是说的通的，valence 积极程度，痛苦下积极程度必然最低，当自信时，积极程度最高。图中分类结果也是符合我们的常识的。在此强调，随机选取了300个图片，其中看不到人面部表情的大约占25%，还有很多人像面部部分遮挡，因此，要完全估计出每个人的情绪是一个较大的挑战。

提出CNN模型

作者提出了端到端的模型，同时估计离散分类结果和连续维度分类结果，结构有三个模块组成：两个特征提取模块一个融合模块。第一个模块提取人物情绪特征及相关特征，第二个模块从整个图片中提取全局特征。第三个模块以前两个模块提取出的特征为输入，通过融合网络处理，估算出两类分类结果。三个模块的参数联合学习所得。每个特征提取模型由低阶滤波卷积神经网络构成，该网络的优势是可以在参数个数和计算复杂度较低的情况下，提供高精确度。原网络结构由16个一维单核卷积层组成，有效的建立8层二维核卷积层。两个模块提取出来的特征与单独的融合网络结合，该融合模块首先在每个特征映射上使用一个全局平均池化层来减少特征的数量，然后，第一个完全连接的层作为连接池化特征集的降维层。这一层的输出是一个256维的向量。随后，作者纳入一个大的完全连接层，以使培训学习每个任务能独立表示。这一层分为两个支路，一支为连续维度，另一支为离散分类。在每一个卷积层之后都添加了批处理归一化和整流线性单元。三个模块的参数由动量随机梯度下降法进行联合学习。
批量处理大小设置为离散分类种类数的两倍，即26*2=52，每个类别通过均匀抽样，使每个批处理中的每个离散类别至少有一个实例。
学习模型的总损耗定义如下：
L c o m b = λ d i s c L d i s c + λ c o n t L c o n t L _ {comb} = \lambda_{disc}L_{disc}+\lambda_{cont}L_{cont} Lcomb=λdiscLdisc+λcontLcont
其中

N N N是分类数。 y ^ i d i s c \hat{y}_{i}^{disc} y^idisc是第 i i i个分类的估计输出， y i d i s c y_i^{disc} yidisc是地面真实标签。 w i w_i wi是每种分类的权值。权值表达如下： w i = 1 ln ⁡ ( c + p i ) w_i=\frac{1}{\ln(c+p_i)} wi=ln(c+pi)1，其中 p i p_i pi是第 i i i种分类的概率， c c c是权值控制范围。

其中 C = { V a l e n c e , A r o u s a l , D o m i n a n c e } C={\{Valence, Arousal, Dominance\}} C={Valence,Arousal,Dominance}
v k = 0 , i f ∣ y ^ k c o n t − y k c o n t ∣ < θ v_k = 0, if \left | \hat{y}_k^{cont}-y_k^{cont}\right |<\theta vk=0,if∣y^kcont−ykcont∣<θ
否则： v k = 1 v_k=1 vk=1。

实验与讨论

实验训练了不同配置下的卷积神经网络模型，结果显示，除了esteem（尊敬）类，使用人物结合背景为输入的模型效果最好，说明图片背景能够给人物情绪感知提供必要的信息，但单靠背景信息还不能对人物情绪感知作出完整的推断。

图八对文中提出的联合模型进行了另一种评价，通过验证集，计算识别结果的杰卡德（jaccard）系数

结果显示，所提出的感知模型能结合情景很好的给出人物情绪分类，尤其在人物面部无法识别的情况下，效果甚好。

结论

本文主要谈论情境下情感状态识别问题，首先提出情景情感数据集，并采用两种方法对数据集进行分类，同时提出CNN模型进行估算识别，结果证明了方法的有效性。

Emotion Recognition in context 情景中的情绪的感知相关推荐

❀论文篇❀Context Based Emotion Recognition Using EMOTIC Dataset论文翻译
摘要在我们的日常生活和社会交往中,我们经常试图感知人们的情绪状态.已经有很多在为机器提供类似的识别情绪的能力方面有很多研究.从计算机视觉的角度来看,以前的大部分努力都集中在分析人的情绪状态.在某些情 ...
❀论文篇❀EmotiCon: Context-Aware Multimodal Emotion Recognition using Frege’s Principle论文翻译
情绪识别论文:EmotiCon: Context-Aware Multimodal Emotion Recognition using Frege's Principle 论文地址:https://a ...
论文阅读--Adapted Dynamic Memory Network for Emotion Recognition in Conversation
Adapted Dynamic Memory Network for Emotion Recognition in Conversation Xing S , Mai S , Hu H . Adapt ...
行为识别论文阅读（2）——3D Human Sensing, Action and Emotion Recognition in Robot Assisted Therapy of Children
行为识别论文阅读(2)--3D Human Sensing, Action and Emotion Recognition in Robot Assisted Therapy of Children ...
Multimodal Emotion Recognition With Transformer-Based Self Supervised Feature Fusion
Multimodal Emotion Recognition With Transformer-Based Self Supervised Feature Fusion 标题 Multimodal E ...
“Emotion“ 表示【情感】OR【情绪】
[引子]近期进入了新的环境,想给自己换一个新的方向,之前的学习工作就告一段落了,很遗憾没有动力写篇博文纪念一下逝去的岁月.就让过去的经历在心中沉淀着,等到发酵的时间到了再给自己一个机会来回顾那些时光吧 ...
Video-based Emotion Recognition Using Multi-dichotomy RNN-DNN
Video-based Emotion Recognition Using Multi-dichotomy RNN-DNN 译自:https://download.csdn.net/download/ ...
2020_ACL_A Transformer-based joint-encoding for Emotion Recognition and Sentiment Analysis
A Transformer-based joint-encoding for Emotion Recognition and Sentiment Analysis 论文地址:https://aclan ...
Hierarchical Attention-Based Multimodal Fusion Network for Video Emotion Recognition
Hierarchical Attention-Based Multimodal Fusion Network for Video Emotion Recognition 基于层次注意的视频情感识别多模 ...

Emotion Recognition in context 情景中的情绪的感知

摘要

引言

相关工作