D3Net：厦门大学发表于ACM MM 2021

原论文链接：有道云笔记

本文的第一作者是信息学院计算机科学与技术系2019级硕士生莫榕云，通讯作者是信息学院计算机科学与技术系严副教授。论文提出了一种基于多任务框架的双分支干扰分离的人脸表情识别方法（D3Net），包括表情分支和干扰分支，可以同时分离常见干扰特征和潜在干扰特征，提取更有效的表情特征。其中，干扰分支包含两个子分支。一个子分支利用其它人脸数据集的干扰标签和迁移学习的方式来训练，可以提取常见干扰特征。另一个子分支结合非参数贝叶斯先验——印度自助餐过程（IBP）先验，以无监督的方式学习潜在干扰特征。同时，该方法通过对抗训练来区分干扰特征和表情特征。最后，优化联合损失，促使表情分支更专注于提取高判别力的表情特征。实验结果表明，该方法在3个室内数据集和2个室外数据集上都达到了优越的识别性能。

ICCV作为计算机视觉领域国际顶级会议之一，由IEEE举办，被澳大利亚ICT学术会议排名和中国计算机学会等机构评为最高级别学术会议，在业内具有极高的评价。本次ICCV共计6236篇有效提交论文，其中有1617篇论文被接收，接收率为25.9%。 ACM MM是计算机学科公认的多媒体领域的国际顶级会议，被中国计算机学会列为A类会议，本次全球1942篇投稿中，542篇论文被录用，接收率为27.9%。

1. Motivation

面部表情识别(FER)的主要问题之一是解决各种干扰因素，包括身份、姿势、光照、性别、种族、年龄等常见的干扰因素和潜在的干扰因素(如发型、配饰、遮挡等)。

2 PROPOSED METHOD

2.1.Expression Branch

继主干网之后，表达式分支由三个FC层组成。我们通过最小化交叉熵损失来训练表达式分支，交叉熵损失定义为:

2.2.Disturbance Branch

2.2.1 Label-A ware Disturbance Sub-Branch (LAS).

LAS是为了捕捉常见干扰因素的干扰信息而开发的。然而，在大多数FER数据库中，只有身份和姿势的标签可用。幸运的是，一些大规模的人脸数据库提供了常见干扰因素的标签。例如，Multi-PIE [13]和RAF-DB [25]分别提供了身份、姿势、照明和性别、种族、年龄的标签。因此，我们能够利用迁移学习来利用这些可用的标签，实现fer数据库中常见干扰因素的明确解纠缠。

我们对人脸数据库中常见干扰因素的干扰信息进行预处理，为训练LAS提供参考干扰特征。

LAS通过在预先训练的模型上进行迁移学习，实现了对常见干扰因素的明确分解。

先使用DDL(下图)训练个模型，用来学习干扰因素D维特征分布。

该模型参考原文：https://note.youdao.com/s/S58rncuR

或者看我上一篇博客，就是介绍该模型的，当然只有PPT~

具体过程：

用下面公式监督LAS(两个FC层)拟合出DDL可以提取的D维特征。

2.2.2Label-Free Disturbance Sub-Branch (LFS)

说不清楚，介建议看原文~

2.2.3Adversarial Training

大多数方法[15，18，20]同时执行图像重建和解纠缠。虽然图像重建有利于捕捉详细信息，但不利于执行解纠缠。与这些方法不同，我们利用对抗性训练来最大化无标签干扰特征和表情特征之间的差异(而不是使用解码器进行图像重建)，从而提高分类性能。

我们不会强制实施从LFS和LAS提取的特征之间的差异，因为这些特征不是相互不相关的(例如，一些常见的干扰因素(如性别)和一些潜在的干扰因素(如发型)之间的相关性可能很高)。

对抗训练包含两个步骤。

首先，给定扰动特征作为输入，训练一个额外的分类器来预测表达式。注意，在对抗训练之前，ful包含一些表达信息。因此，它仍然可以用来预测表达式。因此，Cu建议通过最小化分类损失来更新。

第二，特征提取通过最大化来自LFS的预测的不确定性，将该特征训练为随机预测。我们定义了一个混淆损失，它最小化预测之间的交叉熵和表达式标签上的均匀分布，公式如下所示：

因此，对抗性损失表示为：

类似地，我们还执行对抗性训练，以从表情特征中去除标签感知干扰特征。

点评：Adversarial Training这个设计和上一篇差不多，都是使用对抗的方式，让fiu和fia里面都不包含和表情相关的特征。

设计一个分类器，让它能够从fiu的特征里面准确的做表情分类任务，这里fiu不动，分类器的参数在优化
设计一个 confusion loss ，让fiu通过上面的分类器时的分类不确定性加大，也就是通过重新提取fiu，让分类器的分类准确度降低。最后达到提取的fiu提取到的干扰信息更加准确，不包括表情特征。

但这样的设计都只能让上面的两个分支提取到的干扰信息更加准确。和最下面的表情分支，让其更专注于提取高判别力的表情特征好像关系不大。

2.3 Joint Loss

3.EXPERIMENTS

人脸表情识别解干扰论文解读2：D3Net：Dual-Branch Disturbance Disentangling Networkfor Facial Exp相关推荐

深度动态序列人脸表情识别——论文笔记
原文已上传Deep Facial Expression Recognition: A Survey (IEEE) 人脸表情识别分为动态序列识别和静态图片识别,本文只与动态序列有关这里也有一篇推送解析 ...
CVPR 2020几篇论文内容点评：目标检测跟踪，人脸表情识别，姿态估计，实例分割等
CVPR 2020几篇论文内容点评:目标检测跟踪,人脸表情识别,姿态估计,实例分割等 CVPR 2020中选论文放榜后,最新开源项目合集也来了. 本届CPVR共接收6656篇论文,中选1470篇,&q ...
【人脸表情识别】不得不读的重要论文推荐（2019-2020篇）
上一篇专栏文章我们介绍了2015-2018年基于图片的人脸表情识别代表性方法.本文将延续上一篇的内容,继续盘点2019-2020基于图片的人脸表情识别的代表性工作. 作者&编辑 | Menpi ...
【人脸表情识别】不得不读的重要论文推荐（2015-2018篇）
前两篇专栏我们介绍了人脸表情识别的相关概念以及研究现状,并且了解了基于图片的人脸表情识别常用的数据集和预处理方法.接下来两篇专栏,笔者将从近5年基于图片的人脸表情识别的论文中推荐一些个人觉得具有代表性 ...
有用facs做计算机表情识别的嘛,基于肌肉运动的人脸表情识别-计算机应用技术专业论文.docx...
基于肌肉运动的人脸表情识别-计算机应用技术专业论文中文摘要情感计算,是未来计算机领域发展的一个重要方向,是让计算机可以了解人的情感和情绪,并且能够以带有感情的方式与人进行交互.而最简单也是最直接 ...
基于MobileNet的人脸表情识别系统（MATLAB GUI版+原理详解）
摘要:本篇博客介绍了基于MobileNet的人脸表情识别系统,支持图片识别.视频识别.摄像头识别等多种形式,通过GUI界面实现表情识别可视化展示.首先介绍了表情识别任务的背景与意义,总结近年来利用深度 ...
【完结】如何掌握基于图像和视频的人脸表情识别，这9篇文章可以作为一个参考...
文/编辑 | 言有三人脸表情识别(Facial Expression Recognition,FER)作为人脸识别技术中的一个重要组成部分,近年来在人机交互.安全.机器人制造.自动化.医疗.通信和驾 ...
深度学习项目-人脸表情识别
人脸表情识别简介使用卷积神经网络构建整个系统,在尝试了Gabor.LBP等传统人脸特征提取方式基础上,深度模型效果显著.在FER2013.JAFFE和CK+三个表情识别数据集上进行模型评估. 环境 ...

人脸表情识别解干扰论文解读2：D3Net：Dual-Branch Disturbance Disentangling Networkfor Facial Exp