文章目录

1. 总览
2. 模型结构
- 2.1 上下文无关的特征提取
- - 2.1.1 text-CNN 提取文本特征
  - 2.1.2 openSMILE 提取声音特征
  - 2.1.3 3D-CNN 提取图像特征
- 2.2 上下文有关的特征提取
- - 2.2.1 Contextual LSTM 结构
- 2.3 特征融合
- - 2.3.1 非层次化的框架结
  - 2.3.1 层次化的框架结
3. 结论
4. 总结

1. 总览

这是2017年的一篇文章，ACL的会议论文。

这篇文章讲的是多模态的情感分析，在当前的研究中，通常把话语当成一个独立的部分，而不考虑话语前后的视频画面的关系，但其实对于一句话，他前后的画面变化其实也有一定的内在联系。

这篇文章提议出了一个基于lstm的模型，来使得这个话语能够捕捉他们环境中的上下文信息。

结果显示相较于之前的结果，此方法能够提升5%~10%的准确率，并且稳定性和鲁莽性更好。

2. 模型结构

模型包含两部分，第一部分是单模态的上下文无关的特征提取，第二部分是将第1部分提取到的特征喂入到一个lstm（称为Contextual LSTM ）网络中，使之能够在特征提取的时候运用到上下文的关系。最后将三个模态提取到的特征进行特征融合，最终预测得到结果。

2.1 上下文无关的特征提取

2.1.1 text-CNN 提取文本特征

文本的这些文本来自于这些说话的脚本，为了去提取文本的特征，作者引用了2014年Wrapped.提出的一个用于提取文本的CNN结构，首先将每一个句子都变成每一个单词向量的集合，这些词向量维度为300维，使用word2vec进行编码。然后经过多层卷积，+多个不同规格的卷积，最终得到特征结果。

2.1.2 openSMILE 提取声音特征

对于声音特征的提取使用Eyben 提出的openSMILE软件进行特征提取。他可以提取出声音的强度和声音亮度等特点，

2.1.3 3D-CNN 提取图像特征

作者使用Ji在2013年提出的3D-CNN（三维卷积）结构，用于提取视频画面的特征，作者假定这个模型不仅能够识别每一帧的特点，还能够有效的去，识别给定帧数范围画面的改变。

视频表示为（c， f， h， w）的四维向量 c表示颜色的通道数目，设置为3（RGB颜色三个通道）， f表示帧的数目，代表确定的帧， h 和 w 代表高和宽，确定像素点的位置。

使用三维的卷积进行特征提取，然后使用max-pooling 进行降维，得到一个300维度的向量。

2.2 上下文有关的特征提取

通过上面的上下文无关的特征提取，我们提取到了每一个语句对应的文字，语音和视频的单独特征表示，作者认为这些语句之间的前后上下文关系需要被提取出来，于是对每一个模态提取出来的句子，再输入到一个Contextual LSTM结构中得到一个上下文有关的特征，并预测得到结果，

2.2.1 Contextual LSTM 结构

Contextual LSTM 首先将数据输入到lstm中，得到了一个上下文有关的特征，然后再经过全连接层得到一个预测结果，然后再进行一个solfmax得到预测概率。

其中作者尝试了不同的LSTM，并分别进行了实验。同时在细节上Dropout, 以防止过拟合。

2.3 特征融合

对于特征的融合也有两种不同的方法，第1种是非层次化的框架结构，第2种是层次化的框架结构，

2.3.1 非层次化的框架结

在非层次化的框架结构中，我们直接将之前三个模态分别提取出的特征联合起来，然后喂入一个LSTM中。

2.3.1 层次化的框架结

图中显示是第2种方法，是一个层次化的结构。

一共分为两个级别，第1个级别，我们将每一个模态提取出的特征，单独放入LSTM中，得到一个上下文有关的单模态的特征向量表示，在第2个级别中，我们将第1个级别提出来的单模态的特征向量表示进行连接，然后再喂入到一个LSTM中，最终得到预测结果

这里模型的训练，级别1和级别2是单独分开的，不会相互影响，所以这并不是一个端对端的模型。

3. 结论

层次化模型相较于非层次化模型结果要好
模态更多准确率提升也越高
在lstm网络的选择中，bc-lstm结果最好

模型结果的准确率相较于最新模型准确率有提升，幅度较大
作者打算后面使用加入attention的lstm来进一步进行优化

4. 总结

此模型使用了一个层次化的结构。模型也是分为三个层次，第1个层次是单个模态之间的特征提取，它提取的是一些上下文无关的特征，这样的话简便了计算，同时也便于进行层次化处理。
当我们把每一个语句的每一个模态得到了一个上下文无关的特征向量时，我们需要探索语句之间的上下文关系，这里用到了lstm结构，这是一种常用的用于处理时序化数据以及探究语句之间的上下文关系的神经网络结构。
在特征融合方面，同样使用层次化，使用一个更高层次也就是多模态层次，将每一个模态得出的结果，再喂lstm结构，然后得到一个最后的预测结果。但是这里的话其实还是有一点小问题的，因为不同模态之间他们之间并没有先后关系。但是作者使用lstm，具体的原因没有说到。
层次化的思想值得借鉴、
同时相较于之前的论文模型，模型对于视频的处理也有了进一步的提高，增加了上下文的信息。
在文字语音视频方面的底层的特征提取方法，仍有提高的空间，例如在文字方面可以使用，bert模型进行一个无关上下文的特征提取

Context-Dependent Sentiment Analysis in User-Generated Videos 多模态个性分析阅读笔记相关推荐

Sentiment Classification towards Question-Answering with Hierarchical Matching Network 论文阅读笔记
Sentiment Classification towards Question-Answering with Hierarchical Matching Network 论文阅读笔记这篇论文介绍 ...
Gated Mechanism For Attention Based Multimodal Sentiment Analysis基于注意力的多模式情感分析的门控机制——阅读笔记
文章目录 1.摘要 2.导论 3. 提出的方法 3.1 上下文话语表示 3.2 自注意力 3.3 交叉注意 3.5 深度多模态融合 4.实验 4.1 实施细节 4.2 实验结果 5. 结论 1.摘要 ...
Multimodal Sentiment Analysis论文汇总
多模态情绪分析论文 Year Title Network Publish Paper Code Read 2019 Multimodal Transformer for Unaligned Multi ...
Sentiment Analysis at SEPLN (TASS)-2019: Sentiment Analysis at Tweet Level Using Deep Learning
Abstract 本文描述了Sentiment Analysis at SEPLN (TASS)-2019这个任务的系统,这个任务包括对西班牙语tweet进行情感分析,这些tweet包含了使用不同西班 ...
2020 CM-BERT: Cross-Modal BERT for Text-Audio Sentiment Analysis
abstract 多模态情感分析是一个新兴的研究领域,旨在使机器能够识别.解释和表达情感.通过跨模态互动,我们可以得到说话者更全面的情绪特征.来自Transformers(BERT)的双向Encode ...
Aspect Based Sentiment Analysis经典模型
本文转载自:https://zhuanlan.zhihu.com/p/81542002 Different from document- and sentence-level sentiment an ...
【论文笔记】A comprehensive survey on sentiment analysis: Approaches, challenges and trends（中）
文章目录 3. sentiment analysis pre-processing(情感分析预处理步骤) 3.1 Data extraction(数据提取) 3.1.1 数据收集和提取 3.2 数据预 ...
细粒度情感分析（Aspect Based Sentiment Analysis, ABSA），一个从零开始的案例教程【Python实现】
目录前言数据和源码你要了解的基础 1. 细粒度情感分析(ABSA)案例背景 1.1 任务介绍 1.2 数据基本介绍 1.3 如何评估ABSA的结果 2. 任务一:Aspect Term Extr ...
方面级paper8Progressive Self-Supervised Attention Learning for Aspect-Level Sentiment Analysis(2019ACL)
Paper link: https://arxiv.org/pdf/1906.01213v1.pdf Code link: Source:2019 ACL Author:Jasminexjf Time ...

Context-Dependent Sentiment Analysis in User-Generated Videos 多模态个性分析阅读笔记

文章目录

1. 总览

2. 模型结构