【多模态】《GATED MULTIMODAL UNITS FOR INFORMATION FUSION》论文阅读笔记
一、概述
这篇文章做的是多模态分类任务——也就是融合视觉和文本特征,并进行分类。这篇文章主要的亮点在于使用了类似于LSTM中的gate机制,提出了一种基于门控神经网络的多模态学习新模型。 门控多模态单元 (GMU) 模型旨在用作神经网络架构中的内部单元,其目的是根据来自不同模态的数据的组合找到中间表示。 GMU 学习使用乘法门来决定模态如何影响单元的激活。
我们提出的模块基于门的想法,用于选择输入的哪些部分更有可能有助于正确生成所需的输出。 我们使用同时为各种特征分配重要性的乘法门,创建不需要手动调整的丰富的多模态表示,而是直接从训练数据中学习。
这项工作的主要假设是,与手动编码的多模态融合架构相比,使用门控单元的模型将能够学习一种依赖于输入的门控激活模式,该模式决定了每种模态如何对隐藏单元的输出做出贡献 .
二、模型
每个 xi 对应一个与模态 i 相关的特征向量。 每个特征向量都为神经元提供一个 tanh 激活函数,该函数旨在根据特定的模态对内部表示特征进行编码。 对于每个输入模态 xi,都有一个门神经元(在图中由 σ 节点表示),它控制从 xi 计算的特征对单元整体输出的贡献。 当一个新样本被馈送到网络时,与模态 i 相关的门神经元接收来自所有模态的特征向量作为输入,并使用它们来决定模态 i 是否有助于特定输入的内部编码 样本。
图 2.b 显示了用于两种输入模态 xv(视觉模态)和 xt(文本模态)的 GMU 的简化版本,将在本文的其余部分中使用。 应该注意的是,这两个模型并不完全等效,因为在双峰情况下,门是绑定的。 这种权重绑定限制了模型,因此单元在两种模式之间进行权衡,同时它们使用的参数少于多模式情况。 控制这个 GMU 的方程如下:
这里要说明一下之所以用两种激活函数,即tanh和sigmoid的原因:
- sigmoid 用在了各种gate上,产生0~1之间的值,这个一般只有sigmoid最直接了。
- tanh 用在了状态和输出上,是对数据的处理,这个用其他激活函数或许也可以。
【多模态】《GATED MULTIMODAL UNITS FOR INFORMATION FUSION》论文阅读笔记相关推荐
- Open-Domain Question Answering相关部分论文阅读摘要
主要内容 Open-Domain Question Answering相关部分论文阅读摘要 DrQA(Reading Wikipedia to Answer Open-Domain Questions ...
- 视频问答与推理(Video Question Answering and Reasoning)——论文调研
文章目录 0. 前言 1. ACM MM 2. CVPR 3. ICCV 4. AAAI 更新时间--2019.12 首稿 0. 前言 学习 VQA 的第一步--前期论文调研. 调研近几年在各大会议上 ...
- 语音情感识别领域-论文阅读笔记1:融合语音和文字的句段级别情感识别技术
语音情感识别领域-论文阅读笔记1 Fusion Techniques for Utterance-Level Emotion Recognition Combining Speech and Tran ...
- [论文阅读笔记26]MRC4NER:使用阅读理解方法来解决NER任务
题目 A Unified MRC Framework for Named Entity Recognition 命名实体识别的统一MRC框架 论文URL:https://www.semanticsch ...
- Sentiment Classification towards Question-Answering with Hierarchical Matching Network 论文阅读笔记
Sentiment Classification towards Question-Answering with Hierarchical Matching Network 论文阅读笔记 这篇论文介绍 ...
- 【SOD论文阅读笔记】Visual Saliency Transformer
[SOD论文阅读笔记]Visual Saliency Transformer 一.摘要 Motivation: Method: Experimental results 二.Introduction ...
- 论文阅读笔记(3):A Nullspace Property for Subspace-Preserving Recovery
论文阅读笔记(3):保子空间恢复的零空间性质 前言 摘要 1. 简介 2. 准备工作和问题提出 2.1. 符号表示和序言 2.2. 稀疏子空间分类与聚类 3. 保子空间恢复的零空间性质 定义1: 定理 ...
- PolyFormer: Referring Image Segmentation as Sequential Polygon Generation 论文阅读笔记
PolyFormer: Referring Image Segmentation as Sequential Polygon Generation 论文阅读笔记 一.Abstract 二.引言 三.相 ...
- Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记
Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记 一.Abstract 二.引言 ...
- Fast R-CNN论文阅读笔记
文章目录 Fast R-CNN论文阅读笔记2015 Abstract 1. Introduction 1.1 R-CNN and SPPnet 1.2 Contributions 2.Fast R-C ...
最新文章
- matlab 线模式密度,环形腔窄线宽光纤激光器的研究
- SD卡FAT32文件系统格式
- [转]linux(centos)搭建SVN服务器
- 第1章 数据库系统概述
- 新闻 | 聚焦技术领域现状与发展阿里巴巴知识图谱专场亮相云栖大会 阿里知识图谱亮相云栖大会产学深度交流推进业务创新
- java调用shell脚本及注意事项
- 如何限制创建子网站时只能使用指定的模板
- canvas绘图数学知识总结
- Ubuntu 安装 OpenCV(亲测有效)
- 拉格朗日乘数法,一种计算条件极值的方式
- MySQL3_外键及查询
- 罗杨美慧 20190919-4 单元测试,结对
- 计算机校准颜色,直观:如何在Win7计算机中校准显示器|计算机显示器颜色校准...
- html中的文本在指定位置换行
- Win10使用FTP实现手机访问电脑FTP服务
- 齐向东透露工信部检测360浏览器
- 大蟒蛇python头像_程序员用Python获取了自己以前的QQ历史头像,以前的非主流形象简直不忍直视...
- 电商再赶“穿戴设备潮”易迅网推出智能手环
- 安装配置MP-SPDZ以及创建MP-SPDZ库的docker镜像
- ​JavaScript私有属性的多种实现方式总汇