本论文作者为加泰罗尼亚大学、OSIRO和MIT共同完成的关于情境中情感认知的研究。

摘要

在日常生活中,我们每天都可以通过他人的面部表情来推断这个人今天经历了什么,他的心情是什么样的。如果机器也可以通过人类认识方式来了解他人的情感信息,那将对我们的生活有着更好的影响。然后,当前还没有一个系统可以完成这样的工作。先前关于计算机视觉的研究主要致力于分析面部表情,分为六类基本情感。然而,环境在人类情感认知方面也是有着很重要的决定因素。作者提出了一种“情景情感数据库”EMOTIC,这是一种非受控环境中包含人景的图像数据集。在这些数据集中,将人们的感情分为26类,带有continuous dimensions valence, arousal and dominace. 使用该数据集,作者训练卷积神经网络来联合的分析人以及整个情境下对情感状态的认知信息,以此表明情景在人类情感认知方面的重要性。

引言

理解一个人的情感在社会交际中起到很重要的作用。


情景对情绪的感知有着重要的作用,图中,小男孩面露渴望,从情景中可以看出,女孩可以吃巧克力,而男孩只能吃面前的苹果,所以他露出了强烈的渴望情绪。情景中苹果,巧克力,女孩这些线索就成了分析得到男孩面部表情含义的必要因素。同时,如果看不到一个人的表情的时候,我们也可以通过这个人所处的情景推断出他的情绪。


上面两个图片我们看不到红色框内人物的表情,但是根据他们所处的情景,可以推断出,peace and happy。
这篇论文主要强调研究的就是 情景对人物情绪感知的作用。
通过建模仿真得出两个结论:情景对情感感知有作用,第二,结合categories and continuous dimensions 训练卷积神经网络会产生一个更加鲁棒的系统。

相关工作

大多数计算机视觉的研究致力于面部表情分析,两位著名心理学家艾克曼和富利森开发了各种各样的情绪认知方法对六种基本的情绪进行研究。其中一种是基于面部动作解码系统来实现的。这种系统使用一系列特殊面部动作 (动作单元)来解码面部表情。这些动作单元一般由几何图形或者(and/or)从面部图片提取的外貌特征来确定。同时也有使用一种** VAD情绪状态模型来研究情感认知分类。valence代表从消极到积极的度;arousal代表一种行为的激活程度,从不行动状态到非常想或者时刻准备好行动的状态。dominance代表受控程度,范围从被控状态到领导指挥状态。同时,21种情绪分类可能是基本情绪的组合,这样分类更加仔细。也有研究使用身体语言(姿势)**来解释或感知人物情绪。包括肩膀的位置等等除去面部表情来感知人物情绪。

情景数据库中的情绪

数据库中的图片来自MSCOCO Ade20k 以及谷歌下载图片,包括18316个图片和23788位带注释的人物。数据库结合了两种不同的情绪表示方法–如图中所示:离散分类—26种情绪分类表示方法图二,

连续维度下分类----VAD情绪状态模型,该模型标定范围为1-10 图三,

为了定义提出来的情绪分类方法,论文使用大概四百个来自字典、情绪书籍的词汇来形容情绪表达。也就是说最终将这400个词汇分别归为26类,分类规则包括:第一 不相交性,第二,视觉可分性。

  • 1 Peace: well being and relaxed; no worry; having positive thoughts or sensations; satisfied
  • 2 Affection: fond feelings; love; tenderness
  • 3 Esteem: feelings of favorable opinion or judgment; respect; admiration;gratefulness
  • 4 Anticipation: state of looking forward; hoping on or getting prepared for possible future events
  • 5 Engagement: paying attention to something; absorbed into something;curious; interested
  • 6 Confidence: feeling of being certain; conviction that an outcome will be favorable; encouraged; proud
  • 7 Happiness: feeling delighted; feeling enjoyment or amusement
  • 8 Pleasure: feeling of delight in the senses
  • 9 Excitement: feeling enthusiasm; stimulated; energetic
  • 10 Surprise: sudden discovery of something unexpected
  • 11 Sympathy: state of sharing others emotions, goals or troubles; supportive;compassionate
  • 12 Doubt/Confusion: difficulty to understand or decide; thinking about different options
  • 13 Disconnection: feeling not interested in the main event of the surrounding; indifferent; bored; distracted
  • 14 Fatigue: weariness; tiredness; sleepy
  • 15 Embarrassment: feeling ashamed or guilty
  • 16 Yearning: strong desire to have something; jealous; envious; lust
  • 17 Disapproval: feeling that something is wrong or reprehensible; contempt; hostile
  • 18 Aversion: feeling disgust, dislike, repulsion; feeling hate
  • 19 Annoyance: bothered by something or someone; irritated; impatient; frustrated
  • 20 Anger: intense displeasure or rage; furious; resentful
  • 21 Sensitivity: feeling of being physically or emotionally wounded; feeling delicate or vulnerable
  • 22 Sadness: feeling unhappy, sorrow, disappointed, or discouraged
  • 23 Disquietment: nervous; worried; upset; anxious; tense; pressured; alarmed
  • 24 Fear: feeling suspicious or afraid of danger, threat, evil or pain; horror
  • 25 Pain: physical suffering
  • 26 Suffering: psychological or emotional pain; distressed; anguished

图像注释

作者设计了一种AMT接口依据所提出的分类法来给情绪做标注,同时对性别,年龄范围作出标注。作者从两方面保证标注质量,第一,分类工作者需要通过一个资格任务,第二, 每18个图片中增加两个控制图片来监视分类工作的表现。最终将这个数据集的70%用来训练,10%用来校验,20%用来测试。其中,测试集由三名不同人员进行标注,以此核验不同人标注的一致性。
特别说明,一个人选择分类结果与另外两人分类结果一致的概率为23.97%(这个概率怎么来的呢),同时我们也计算了fleiss’ kappa值(一致性校验)为0.27,50%以上的图片的K>0.33。这个统计结果表明分类合理的一致程度(如果是随机分类,kappa的值是0)。
对于连续维度下的分类情况,不同人员分类结果的标准差在valence下是1.41,在arousal 下是0.70, 在dominance下是2.12;表明人员在dominance下的分类结果差异性较大,差异在平均值±2周围。

数据集统计

对于23788位被标注人像中,66%是男性,34%为女性,11%为孩子,11%为青年,78%为成年人,

图五是26种情绪中每一种情绪的连续维度的得分分布。

分析图5结果是说的通的,valence 积极程度,痛苦下积极程度必然最低,当自信时,积极程度最高。图中分类结果也是符合我们的常识的。在此强调,随机选取了300个图片,其中看不到人面部表情的大约占25%,还有很多人像面部部分遮挡,因此,要完全估计出每个人的情绪是一个较大的挑战。

提出CNN模型


作者提出了端到端的模型,同时估计离散分类结果和连续维度分类结果,结构有三个模块组成:两个特征提取模块一个融合模块。第一个模块提取人物情绪特征及相关特征,第二个模块从整个图片中提取全局特征。第三个模块以前两个模块提取出的特征为输入,通过融合网络处理,估算出两类分类结果。三个模块的参数联合学习所得。每个特征提取模型由低阶滤波卷积神经网络构成,该网络的优势是可以在参数个数和计算复杂度较低的情况下,提供高精确度。原网络结构由16个一维单核卷积层组成,有效的建立8层二维核卷积层。两个模块提取出来的特征与单独的融合网络结合,该融合模块首先在每个特征映射上使用一个全局平均池化层来减少特征的数量,然后,第一个完全连接的层作为连接池化特征集的降维层。这一层的输出是一个256维的向量。随后,作者纳入一个大的完全连接层,以使培训学习每个任务能独立表示。这一层分为两个支路,一支为连续维度,另一支为离散分类。在每一个卷积层之后都添加了批处理归一化整流线性单元。三个模块的参数由动量随机梯度下降法进行联合学习。
批量处理大小设置为离散分类种类数的两倍,即26*2=52,每个类别通过均匀抽样,使每个批处理中的每个离散类别至少有一个实例。
学习模型的总损耗定义如下:
L c o m b = λ d i s c L d i s c + λ c o n t L c o n t L _ {comb} = \lambda_{disc}L_{disc}+\lambda_{cont}L_{cont} Lcomb​=λdisc​Ldisc​+λcont​Lcont​
其中

N N N是分类数。 y ^ i d i s c \hat{y}_{i}^{disc} y^​idisc​是第 i i i个分类的估计输出, y i d i s c y_i^{disc} yidisc​是地面真实标签。 w i w_i wi​是每种分类的权值。权值表达如下: w i = 1 ln ⁡ ( c + p i ) w_i=\frac{1}{\ln(c+p_i)} wi​=ln(c+pi​)1​,其中 p i p_i pi​是第 i i i种分类的概率, c c c是权值控制范围。

其中 C = { V a l e n c e , A r o u s a l , D o m i n a n c e } C={\{Valence, Arousal, Dominance\}} C={Valence,Arousal,Dominance}
v k = 0 , i f ∣ y ^ k c o n t − y k c o n t ∣ &lt; θ v_k = 0, if \left | \hat{y}_k^{cont}-y_k^{cont}\right |&lt;\theta vk​=0,if∣y^​kcont​−ykcont​∣<θ
否则: v k = 1 v_k=1 vk​=1。

实验与讨论

实验训练了不同配置下的卷积神经网络模型,结果显示,除了esteem(尊敬)类,使用人物结合背景为输入的模型效果最好, 说明图片背景能够给人物情绪感知提供必要的信息,但单靠背景信息还不能对人物情绪感知作出完整的推断。


图八对文中提出的联合模型进行了另一种评价,通过验证集,计算识别结果的杰卡德(jaccard)系数

结果显示,所提出的感知模型能结合情景很好的给出人物情绪分类,尤其在人物面部无法识别的情况下,效果甚好。

结论

本文主要谈论情境下情感状态识别问题,首先提出情景情感数据集,并采用两种方法对数据集进行分类,同时提出CNN模型进行估算识别,结果证明了方法的有效性。

Emotion Recognition in context 情景中的情绪的感知相关推荐

  1. ❀论文篇❀Context Based Emotion Recognition Using EMOTIC Dataset论文翻译

    摘要 在我们的日常生活和社会交往中,我们经常试图感知人们的情绪状态.已经有很多在为机器提供类似的识别情绪的能力方面有很多研究.从计算机视觉的角度来看,以前的大部分努力都集中在分析人的情绪状态.在某些情 ...

  2. ❀论文篇❀EmotiCon: Context-Aware Multimodal Emotion Recognition using Frege’s Principle论文翻译

    情绪识别论文:EmotiCon: Context-Aware Multimodal Emotion Recognition using Frege's Principle 论文地址:https://a ...

  3. 论文阅读--Adapted Dynamic Memory Network for Emotion Recognition in Conversation

    Adapted Dynamic Memory Network for Emotion Recognition in Conversation Xing S , Mai S , Hu H . Adapt ...

  4. 行为识别论文阅读(2)——3D Human Sensing, Action and Emotion Recognition in Robot Assisted Therapy of Children

    行为识别论文阅读(2)--3D Human Sensing, Action and Emotion Recognition in Robot Assisted Therapy of Children ...

  5. Multimodal Emotion Recognition With Transformer-Based Self Supervised Feature Fusion

    Multimodal Emotion Recognition With Transformer-Based Self Supervised Feature Fusion 标题 Multimodal E ...

  6. “Emotion“ 表示【情感】OR【情绪】

    [引子]近期进入了新的环境,想给自己换一个新的方向,之前的学习工作就告一段落了,很遗憾没有动力写篇博文纪念一下逝去的岁月.就让过去的经历在心中沉淀着,等到发酵的时间到了再给自己一个机会来回顾那些时光吧 ...

  7. Video-based Emotion Recognition Using Multi-dichotomy RNN-DNN

    Video-based Emotion Recognition Using Multi-dichotomy RNN-DNN 译自:https://download.csdn.net/download/ ...

  8. 2020_ACL_A Transformer-based joint-encoding for Emotion Recognition and Sentiment Analysis

    A Transformer-based joint-encoding for Emotion Recognition and Sentiment Analysis 论文地址:https://aclan ...

  9. Hierarchical Attention-Based Multimodal Fusion Network for Video Emotion Recognition

    Hierarchical Attention-Based Multimodal Fusion Network for Video Emotion Recognition 基于层次注意的视频情感识别多模 ...

最新文章

  1. CSDN官方发布的《180道Python面试题,助你一举通过面试》浅析一
  2. 关于错误 1 error C4996: 'getch': The POSIX name for this item is deprecated.问题解决方式
  3. 动态代理,动态代理设计模式 ,JDK动态代理,cglib动态代理
  4. C#使用Xamarin开发可移植移动应用进阶篇(10.综合演练,来一份增删改查CRUD)
  5. 真机调试及上线简略流程
  6. npm安装vue-cli时报错解决方法
  7. Leetcode - 142. Linked List Cycle II
  8. P5 MySQL数据类型和类型选择
  9. linux shell ls -1 列显示文件
  10. LMAX Disruptor——一个高性能、低延迟且简单的框架
  11. js基础-21-事件委托
  12. java acr122 读取数据_acr122读写器软件下载-Acr122读写软件 1.59 官方版 - 河东下载站...
  13. Aster及其它遥感数据下载地址
  14. 信号与系统 第一章 信号与系统概述 思维导图
  15. python网格搜索优化参数_Python中基于网格搜索算法优化的深度学习模型分析糖尿病数据...
  16. 嵌入式状态机编程-QP状态机框架与常见状态机方法
  17. 将计算机图标调整成光盘形状,win7系统本地磁盘图标变成U盘形状的解决方法
  18. C++编程FFMpeg实时美颜直播推流实战-基于ffmpeg,qt5,opencv视频课程-夏曹俊-专题视频课程...
  19. 神经网络及其matlab仿真
  20. 【PHP】 解决报错:Error: php71w-common conflicts with php-common-5.4.16-43.el7_4.x86_64

热门文章

  1. 斐波那契数列编程python_fibonacci数列-斐波那契数列-python编程
  2. C++ 将十进制数转换为二进制数方法
  3. javaweb JAVA JSP聊天室程序源码(局域网聊天系统 即时通讯)网页聊天系统
  4. rsa算法举例_RSA算法简单实例
  5. pHP 眼病,眼科疾病phpv什么意思 深入了解永存原始玻璃体增生症
  6. 基于javaweb的演唱会售票管理系统(java+ssm+jsp+javascript+jquery+mysql)
  7. 怎么让安卓的真机的屏幕在电脑上显示?
  8. 2.授之以渔--自由
  9. 如何制作一份合格的简历
  10. mysql点哪个是确定指令_mysql命令大全