Video-based Emotion Recognition Using Multi-dichotomy RNN-DNN

译自：https://download.csdn.net/download/melancholyming/10746288 ，如理解有误，敬请指出

摘要：

本论文介绍了被2017年多模态情绪识别挑战使用的基于视频对情感进行识别的研究工作，受到计算机视觉任务中广泛使用的基于卷积神经网络的特征提取方法的鼓舞，我们利用微调的VGGFace16网络为每个人脸图像生成特征。我们探索了一种以多重二分法（递归神经网络和深度神经网络）为基础框架对情感进行分类。该框架首先通过RNN图将来自相同视频的基于VGGFace的面部特征聚合到全局特征表示，并使用二分法DNN层将全局特征表示映射到情绪类别。挑战数据库的实验结果证明了我们提出的系统与基线相比的有效性。具体而言，我们的最佳结果分别达到验证和测试数据的宏观平均精度分别为52.3％和42.7％。

artificial intelligence (AI)

1，介绍

最近，AI成为了一个我们生活中非常热门的话题，许多公司发布了他们公司自己的AI产品，包括语音助手，美颜相机，汽车，机器人等，为了成为我们智慧生活的入口，AI产品被设计的更加便民以及与我们交互的更加自然，尽管关于情感计算的学术研究已经进行了数十年，然而目前为止他们很少涉及情感智能。情感计算是一个非常具有挑战性的问题以至于需要持续研究去把实验研究的技术成果应用于真实产品中去。基于视频的情感识别是情感计算的一个重要分支。在这次报告中，主要聚焦于2017年多模态情感识别挑战（MEC 2017）中介绍的基于视频的情感识别研究
为了从视频中识别情感，可以通过三个步骤：第一步是从视频中检测和对齐人脸，然后在此步骤之后为每个视频获得一个原始面部序列。第二歩是从每一个检测到的面部表情帧中提取特征，在相关研究工作中被广泛应用的特征包括传统的面部特征，像局部二值模式(LBP)[2]、局部相位量化(LPQ)[3]、梯度方向直方图(HOG)[4]等等,以及基于卷积神经网络（CNN）的特征，例如VGGFACE-16（16层）和RESNET（91层）[6, 7 ]的输出层。最后一步是制作情感分类模型。支持向量机，超限学习机和深度神经网络是主流的选择
如上所述，许多最新的视频识别方法基于CNN特征提取。然而把这些技术应用到情感识别的主要挑战是缺乏足够的训练数据。为了克服这个问题，使用了一个CNN模型，被称为VGGFace-16,对大规模的人脸识别数据进行预训练然后重新训练挑战数据去适应情感分类任务。基本思想是利用重新训练的VGGFace-16作为我们工作的特征提取器。我们使用递归神经网络（RNN）结合八个二分深层神经网络（DNN）对视频中的这些基于VGGFace-16的特征表示进行建模，我们在工作中称多重二分法RNN-DNN。RNN网络
的目的是保存视频剪辑的时变面部信息，而多重二分法DNN网络负责最后的分类任务。为了缓解不同情感类别之间的数据失衡问题，我们建议为具有不同结构的不同情绪类别定义二分DNN模型，以实现不同的网络容量。此外，我们重新定义一个新的损失函数来同时优化宏平均精度（MAP）和准确度（acc），他们是2017年多模态情感识别挑战的主要度量和第二度量。
论文的其余部分组织如下:第二部分是数据库和可视化特征提取。第三节描述了我们提出的多二分类RNN-DNN网络，以及如何使用定制的损失函数来优化参数。第四部分报告实验结果。最后，在第五节给出了最后的结论

2.数据库和可视化特征提取

图1是基于视频情感识别的流程，从图中可以看出，这个任务需要三个步骤：人脸检测与对齐，特征提取和RNN-RNN分类。在这部分，我们主要关注前两歩，首先简单介绍了使用的数据库，有助于理解这两个步骤。

A：CHEAVD2.0数据库和评估指标

2017年《中国自然情感》发表视听数据库(CHEAVD-2.0)作为挑战数据，这是基于MEC 2016[11]中使用的数据，通过添加更多的视频素材来构建的。选择这些数据的目的是提供接近真实世界环境的自然情绪数据，并包含八种常见情绪(即快乐、悲伤、愤怒、惊讶、厌恶、恐惧、焦虑、中性)的视频片段。总计有7030个数据，其中4917条被划分为训练集，707条为验证集，1406条测试集。更多细节在表1 中可看到，与其他实验室环境数据库不同，例如，扩展的Cohn-Kanade数据集（CK+）[12],不同类别和野生环境之间不平衡的数据增加了挑战任务的难度. 所以宏平均精度（MAP）和ACC一起被用来作为这次挑战的主要指标。
在C类分类任务中，对于类i,TPi表示正确分类数量，FPi表示被归为i类的其他类,
(1)为精确度，(2)为MAP，ACC定义为所有测试样本数中完全正确分类的样本和的百分比。见（3）

在深度学习领域，训练数据越多，模型越大，预期值越好。例如，在类似的基于视频的情感识别任务中[6]，另外，在训练集和验证集中添加了带有情感标签的148K图像，以提高性能,但是对大多数研究人员来说，情感注释是一个相当耗时，劳动密集和昂贵的任务。因此，在这篇论文中，我们努力在没有额外的情感数据标记的情况下得到更好的结果。严格讲，我们只使用CHEAVD-2.0的数据进行模型训练，且使用的预训练模型与情感注释完全不相关

B，人脸检测与对齐

首先提取保持原始长宽比的视频帧，然后，OpenFace工具包[13,14,15,16]和SeetaFace工具包[17,18,19]都用于在我们工作的每一帧中裁剪检测到的人脸。然而，由于视频中不受控制的情况，例如不同的背景情况(室内/室外)，光照强度，头部运动，多人在一个图像和自发表达等几个片段在数据库中，以上两个工具包都不能检测到任何人脸，在这里，我们比较了这两个工具包在人脸检测方面的能力，并在表2 中给出了性能比较，从表中可以看出SeetaFace的人脸检测能力在challenge数据库中明显优于OpenFace，因此，我们使用SeetaFace来进行人脸检测和比对，如下所示。此外，在测试阶段，对于一小部分SeetaFace无法检测到任何人脸的视频，我们决定将它们标记为类中性（‘neutral’）。

C, 面部特征提取（基于VGGFace-16）

最初提出用于图像分类任务的许多CNN架构被普遍应用于在各种计算机视觉任务中从输入像素直接提取深CNN特征。这些结构包括VGGFace-16[5,6]、AlexNet[20]和GooLeNet-22[21]。在这个挑战中，我们选择了具有代表性的VGGFace-16网络结构，它由13个卷积层和3个全连接层组成。
具体流程如图二，我们使用的VGGFace-16具有与原始版本相似的网络架构，除了FC8层被重新定义为八个情绪类别对应的八个节点。具体来说，我们使用FC7特性(即最后一个特性层，4096维)。FC7是许多其他计算机视觉任务中应用最广泛的深度特征提取方法。应该注意的是，在FC7特性之后，我们还额外使用了主成分分析(PCA)过程，用于
降维。利用所有的训练数据并保留主成分的98%来训练PCA参数，在PCA之后生成1240维特征表示。

此外，为了提取与挑战相匹配的面部特征，我们继续训练VGGFace-16，这是在大尺寸（2.6M人脸图像）面部数据库中使用挑战数据进行预先训练的[22],考虑到CHEAVD-2.0是一个小型(6865个视频片段)数据库，我们只对最后三个全连接层进行了重新训练，以避免过拟合。
VGGFace-16再训练的输入数据由每个视频片段检测到的人脸图像组成。然而，来自不同视频片段的人脸图像数量是不同的。为了减轻不同视频剪辑之间的面部图像数量不平衡，我们决定通过上下采样从每个剪辑中选择固定数量的检测到的面部图像。基于对验证集的评估，我们最终确定了每个视频片段的采样人脸图像的数量为15。
通过重新训练的VGGFace-16，对于每个检测到并对齐的面部图像，我们实现了尺寸为1240的紧凑表示向量。对于一个完整的视频剪辑，我们获得了一个序列，该序列由上面的帧级表示随着时间的推移而组成。

3，RNN-DNN框架

“挑战”数据库对每个视频片段都有一个情感标签，而不是每个内部框架。如果将视频标签作为训练分类模型在单个帧上的目标，就会引入大量的噪声。在本节中，我们从前一节计算出的框架级表示因此由RNN学习以聚合更高级别的视频表示。然后在RNN后面添加一些DNN，将这些聚合的表示映射到情感标签。图三阐述了我们使用的RNN-DNN框架，同时，我们为分类器构建了一个新的损失函数，以便在宏平均精度(MAP)上产生改进，这是该挑战的主要指标

A，用RNN 学习序列

长短期记忆网络（LSTM）结构的RNNs因擅长从序列数据中学习时变信息而著称，并被用于解决语音识别、手写识别、复音音乐建模等各种问题[23]，在近些年，在情感分类领域也得到了广泛的应用。基于此，我们使用LSTM来帮助我们记住工作中输入序列的时间信息。由于许多文章和教程都对LSTM的结构和原理做了很多介绍，所以本文省略了这些细节。
如图3所示，我们构造了一个简单的LSTM，用一个周期性的隐藏层，将基于VGGFace-16的特征表示序列V = (V0;V1;:::;VN−1)聚合,在前一节中,为每个视频剪辑提取到一个全局特征向量表示Y¯。考虑到Vs的长度从1到数百不等，为了减轻不同视频片段之间的数据不平衡，我们在喂入LSTM层之前应用上采样技术将它们标准化为固定长度序列X =（X0; X1; :::; XM-1）s，在我们的情况下，基于对验证集的评估，我们最终归一化所有这些基于VGGFace-16的表示序列，其长度为30（即M = 30）。也就是说，我们为一个视频片段生成一个大小为30x1240的表示序列.
接下来，我们在LSTM输出Y =（Y0; Y1; :::; YM-1）上实现随时间的平均池化，并将平均向量Y¯传递给以下DNNs。这个平均向量可以解释为每个视频剪辑的全局表示。

B. 使用多重二分法DNN建模分类

我们为每个视频片段获得一个聚合的特征表示Y¯。然后如图三描述，利用8个3层全连接（3-FC）二分类DNNs进行后续处理。具体来说，每个二分类的DNN被构造成负责一个2类(即(是或否)八种情绪类之一的分类任务。使用八个单独的二分类DNN而不是一
个单一的8类DNN的深层原因是复制挑战数据库的数据不平衡问题。如表一所示，有四种类型的情感数据（happy，angry,neutral,worried）占更大的比例,而其他四种（surprise，disgust，anxious，sad）占相对较小的比例。
因此，我们为不同的两分类任务设计了不同的计算能力：在这些较大的情绪类别上的任务设置为128FC-ReLU-64FC-1FC DNNs，而在这些较小的情绪类别上的任务设置为32FC-ReLU- 8FC - 1FC DNNs。最后，我们使用softmax层将八个DNN输出映射到八个情绪类的概率.
然后，我们将上面描述的RNN部分和DNNs部分整合成一个整体，即如图3所示的RNN-DNN网络。从图中可以看出，基于VGGFace-16的特征表示V s是RNN-DNN网络的输入，O = (O0;O1;:::;O C-1)s为相应的输出。整个RNN-DNN框架使用挑战训练数据进行训练。以下是对培训策略的详细描述。

C,定义损失

传统的神经网络训练的损失函数是由交叉熵得到的。形式上，给定训练样本{V，E}，其中V是一个视频剪辑的提取特征表示（参见图3）,E =（E0; E1; :::; EC-1）（C = 8）是相应的独热码标签向量，如果我们进一步将V的网络预测表示为O =（O0; O1; :::; OC-1）
（参见图3），则样本{V, E}的交叉熵损失lCE 见公式（4）
众所周知，交叉熵的损失函数最初是为了优化分类准确度而设计的。为了同时优化准确度和(宏平均精度)MAP，我们定义了一个新的损失函数来补足LCE。为此，我们首先定义一个受标准精度函数（1）启发的类i的软精度Psoft-i，见公式（5），
TPsoft-i指正确分类样本的类i的概率的总和,FPsoft-i表示概率之和的其他类被分为类i的概率和。不像标准的精度,(5)的分子和分母可以连续值,这是为什么我们称它为软精度。同时，将软宏平均误差(soft- MAE)函数定义为公式（6），

其中C为分类任务的类数量。我们定义的损失函数由两部分组成，如下所示（公式7），
α在[0,1]之间调整以控制两部分loss的比例

4，实验结果

在本节中，我们描述了一系列的实验，目的是确定验证集的最佳设置。具体来说，我们研究了VGGFace-16视频表示和提出的多重二分RNN-DNN方法的结合。表3总结了验证和测试集上不同方法的MAPs和ACCs。
从表3可以看到，我们对VGGFace-16模型分别进行了FC7层4096和2048节点的重新训练。同时我们用2和3层全连接构造二分法DNNs,且α为0.01。可以看到，其中VGGFace-16结合了4096个节点的FC7和3个FC层的RNN-DNN，同时在验证和测试数据上实现了52.3%和42.7%的MAP。测试数据上最好的MAP是相对于挑战基线的49.2%的相对增长。相反，当将VGGFace-16的FC7改为2048的大小时,ACCs增加(验证和测试集分别为50.6%和47.9%)，而MAPs减少(验证和测试集分别为41.1%和36.5%)。

除了提出的多重二分类RNN-DNN框架外，我们还在一个8类DNN而不是8个二分类DNN中建立了另一个RNN-DNN结构。它的MAPs在验证和测试数据上达到50.0%和42.4%，略低于我们最好的MAPs(52.3%和42.7%).图4为提出的具有3个FC层的多二分类RNN-DNN验证数据的训练曲线，使用VGGFace-16和4096个节点的FC7进行特征生成。对应于最佳MAP结果的验证数据的混淆矩阵如图5所示。

在我们的实验中，作为损失函数的一部分的soft-MAE (c.f.(6))对批量大小很敏感。批量较大更有利于改进MAP的训练过程。经过多
次试验，我们将批量大小设置为240，保证了训练的稳定性。此外,低αs(7)往往会导致更好的培训过程和性能。图5为验证数据中最高
MAP(52.3%)相关的混淆矩阵。

5.总结
本文介绍了我们为2017年多模态情绪识别挑战赛建立的基于视频的情绪识别系统。我们利用SeetaFace引擎从视频片段中检测和对齐
人脸，并重新训练VGGFace-16网络来提取面部特征。最重要的是，我们提出了一种基于多分类RNN-DNN的情绪识别分类框架。所有的
实验结果都超过了挑战基线，表明使用从重新训练的vggp -16中提取的视频特征的好处，以及提出的基于RNNDNN的框架的有效性。

在未来，我们将继续研究多模态情感识别技术，通过添加音频和文本信息。此外，在我们目前的工作中，我们发现网络有很多需要探
索的参数。例如，层的结构、学习率、批次的数量等，都需要大量的实验才能获得更好的性能。为了解决这个问题，我们将把遗传算
法注入到我们的框架中，以帮助减少手工工作并获得更好的结果