一、概述

这篇文章做的是多模态分类任务——也就是融合视觉和文本特征,并进行分类。这篇文章主要的亮点在于使用了类似于LSTM中的gate机制,提出了一种基于门控神经网络的多模态学习新模型。 门控多模态单元 (GMU) 模型旨在用作神经网络架构中的内部单元,其目的是根据来自不同模态的数据的组合找到中间表示。 GMU 学习使用乘法门来决定模态如何影响单元的激活。

我们提出的模块基于门的想法,用于选择输入的哪些部分更有可能有助于正确生成所需的输出。 我们使用同时为各种特征分配重要性的乘法门,创建不需要手动调整的丰富的多模态表示,而是直接从训练数据中学习。

这项工作的主要假设是,与手动编码的多模态融合架构相比,使用门控单元的模型将能够学习一种依赖于输入的门控激活模式,该模式决定了每种模态如何对隐藏单元的输出做出贡献 .

二、模型


每个 xi 对应一个与模态 i 相关的特征向量。 每个特征向量都为神经元提供一个 tanh 激活函数,该函数旨在根据特定的模态对内部表示特征进行编码。 对于每个输入模态 xi,都有一个门神经元(在图中由 σ 节点表示),它控制从 xi 计算的特征对单元整体输出的贡献。 当一个新样本被馈送到网络时,与模态 i 相关的门神经元接收来自所有模态的特征向量作为输入,并使用它们来决定模态 i 是否有助于特定输入的内部编码 样本。

图 2.b 显示了用于两种输入模态 xv(视觉模态)和 xt(文本模态)的 GMU 的简化版本,将在本文的其余部分中使用。 应该注意的是,这两个模型并不完全等效,因为在双峰情况下,门是绑定的。 这种权重绑定限制了模型,因此单元在两种模式之间进行权衡,同时它们使用的参数少于多模式情况。 控制这个 GMU 的方程如下:

这里要说明一下之所以用两种激活函数,即tanh和sigmoid的原因:

  1. sigmoid 用在了各种gate上,产生0~1之间的值,这个一般只有sigmoid最直接了。
  2. tanh 用在了状态和输出上,是对数据的处理,这个用其他激活函数或许也可以。

【多模态】《GATED MULTIMODAL UNITS FOR INFORMATION FUSION》论文阅读笔记相关推荐

  1. Open-Domain Question Answering相关部分论文阅读摘要

    主要内容 Open-Domain Question Answering相关部分论文阅读摘要 DrQA(Reading Wikipedia to Answer Open-Domain Questions ...

  2. 视频问答与推理(Video Question Answering and Reasoning)——论文调研

    文章目录 0. 前言 1. ACM MM 2. CVPR 3. ICCV 4. AAAI 更新时间--2019.12 首稿 0. 前言 学习 VQA 的第一步--前期论文调研. 调研近几年在各大会议上 ...

  3. 语音情感识别领域-论文阅读笔记1:融合语音和文字的句段级别情感识别技术

    语音情感识别领域-论文阅读笔记1 Fusion Techniques for Utterance-Level Emotion Recognition Combining Speech and Tran ...

  4. [论文阅读笔记26]MRC4NER:使用阅读理解方法来解决NER任务

    题目 A Unified MRC Framework for Named Entity Recognition 命名实体识别的统一MRC框架 论文URL:https://www.semanticsch ...

  5. Sentiment Classification towards Question-Answering with Hierarchical Matching Network 论文阅读笔记

    Sentiment Classification towards Question-Answering with Hierarchical Matching Network 论文阅读笔记 这篇论文介绍 ...

  6. 【SOD论文阅读笔记】Visual Saliency Transformer

    [SOD论文阅读笔记]Visual Saliency Transformer 一.摘要 Motivation: Method: Experimental results 二.Introduction ...

  7. 论文阅读笔记(3):A Nullspace Property for Subspace-Preserving Recovery

    论文阅读笔记(3):保子空间恢复的零空间性质 前言 摘要 1. 简介 2. 准备工作和问题提出 2.1. 符号表示和序言 2.2. 稀疏子空间分类与聚类 3. 保子空间恢复的零空间性质 定义1: 定理 ...

  8. PolyFormer: Referring Image Segmentation as Sequential Polygon Generation 论文阅读笔记

    PolyFormer: Referring Image Segmentation as Sequential Polygon Generation 论文阅读笔记 一.Abstract 二.引言 三.相 ...

  9. Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记

    Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记 一.Abstract 二.引言 ...

  10. Fast R-CNN论文阅读笔记

    文章目录 Fast R-CNN论文阅读笔记2015 Abstract 1. Introduction 1.1 R-CNN and SPPnet 1.2 Contributions 2.Fast R-C ...

最新文章

  1. matlab 线模式密度,环形腔窄线宽光纤激光器的研究
  2. SD卡FAT32文件系统格式
  3. [转]linux(centos)搭建SVN服务器
  4. 第1章 数据库系统概述
  5. 新闻 | 聚焦技术领域现状与发展阿里巴巴知识图谱专场亮相云栖大会 阿里知识图谱亮相云栖大会产学深度交流推进业务创新
  6. java调用shell脚本及注意事项
  7. 如何限制创建子网站时只能使用指定的模板
  8. canvas绘图数学知识总结
  9. Ubuntu 安装 OpenCV(亲测有效)
  10. 拉格朗日乘数法,一种计算条件极值的方式
  11. MySQL3_外键及查询
  12. 罗杨美慧 20190919-4 单元测试,结对
  13. 计算机校准颜色,直观:如何在Win7计算机中校准显示器|计算机显示器颜色校准...
  14. html中的文本在指定位置换行
  15. Win10使用FTP实现手机访问电脑FTP服务
  16. 齐向东透露工信部检测360浏览器
  17. 大蟒蛇python头像_程序员用Python获取了自己以前的QQ历史头像,以前的非主流形象简直不忍直视...
  18. 电商再赶“穿戴设备潮”易迅网推出智能手环
  19. 安装配置MP-SPDZ以及创建MP-SPDZ库的docker镜像
  20. ​JavaScript私有属性的多种实现方式总汇

热门文章

  1. Git分布式版本控制工具(Git命令基本操作)
  2. html自动适应分辨率,自适应分辨率html
  3. K-means聚类算法编程实践
  4. vs代码自动补全快捷键html,VSCode 自动补全(智能提示)
  5. wireshark的简单使用
  6. Safari 浏览器对日期处理的注意事项
  7. Pro JavaScript Techniques (Pro)
  8. HFish蜜罐的介绍和简单测试(三)
  9. uniapp实现头像上传功能
  10. Mysql事务是什么