多模态深度学习综述.PDF

37 6 Vol. 37 No. 6

第 卷第 期 计算机应用研究

录用定稿 Application Research of Computers Accepted Paper

多模态深度学习综述

刘建伟,丁熙浩,罗雄麟

( 中国石油大学(北京) 自动化系, 北京 102249)

摘 要:模态是指事物发生或存在的方式,如文字、语言、声音、图形等。多模态学习是指学习多个模态中各个模

态的信息,并且实现各个模态的信息的交流和转换。多模态深度学习是指建立可以完成多模态学习任务的神经网络

模型。多模态学习的普遍性和深度学习的热度赋予了多模态深度学习鲜活的生命力和发展潜力。旨在多模态深度学

习的发展前期,总结当前的多模态深度学习,发现在不同的多模态组合和学习目标下,多模态深度学习实现过程中

的共有问题,并对共有问题进行分类,叙述解决各类问题的方法。具体来说,从涉及自然语言、视觉、听觉的多模

态学习中考虑了语言翻译、事件探测、信息描述、情绪识别、声音识别和合成,以及多媒体检索等方面研究,将多

模态深度学习实现过程中的共有问题分为模态表示、模态传译、模态融合和模态对齐四类,并对各问题进行子分类

和论述,同时列举了为解决各问题产生的神经网络模型。最后论述了实际多模态系统,多模态深度学习研究中常用

的数据集和评判标准,并展望了多模态深度学习的发展趋势。

关键词:多模态;深度学习;神经网络;模态表示;模态传译;模态融合;模态对齐

中图分类号:TP181 doi: 10.19734/j.issn.1001-3695.2018.12.0857

Survey of multimodal deep learning

Liu Jianwei, Ding Xihao, Luo Xionglin

(Dept . of Automation , China University of Petroleum, Beijing 102249, China)

Abstract: A modality refers to the way in which something happens or is experienced, such as word, language, sound,

picture and so on . Multimodality is a combination of two or more modalities. Multimodal learning refers to learning the

information of each modality in the multimodality, and realizing the exchange and conversion of information of each

modality. Thus, Multimodal deep learning is the establishment of a neural network model that can accomplish multimodal

learning tasks. The universality of multimodal learning and the intensification of deep learning lead t

深度学习多模态融合_多模态深度学习综述.PDF相关推荐

  1. 深度学习多模态融合_多模态深度学习:用深度学习的方式融合各种信息

    作者:Purvanshi Mehta 编译:ronghuaiyang 原文链接多模态深度学习:用深度学习的方式融合各种信息​mp.weixin.qq.com 导读 使用深度学习融合各种来源的信息. 多 ...

  2. 深度学习图像融合_基于深度学习的图像超分辨率最新进展与趋势【附PDF】

    因PDF资源在微信公众号关注公众号:人工智能前沿讲习回复"超分辨"获取文章PDF 1.主题简介 图像超分辨率是计算机视觉和图像处理领域一个非常重要的研究问题,在医疗图像分析.生物特 ...

  3. 深度学习 情感分析_使用深度学习进行情感分析

    深度学习 情感分析 介绍 (Introduction) The growth of the internet due to social networks such as Facebook, Twit ...

  4. 深度学习实现象棋_使用深度学习创建国际象棋人工智能

    深度学习实现象棋 When Gary Kasparov was dethroned by IBM's Deep Blue chess algorithm, the algorithm did not ...

  5. 深度学习基础知识_数学基础(学习笔记)

    线性代数 向量.矩阵.矩阵计算,矩阵的秩,范数 了解更多可以参考: 哔哩哔哩: 晓之车高山老师 https://space.bilibili.com/138962930/channel/collect ...

  6. 深度相机 物体三维重建_基于深度相机进行室内完整场景三维重建的方法及系统_2017100513665_说明书_专利查询_专利网_钻瓜专利网...

    S121:采用Kintinuous框架,进行视觉里程计估计,得到每帧深度图像下的相机位姿信息. S122:根据相机位姿信息,将由每帧深度图像对应的点云数据反投影到初始坐标系下,用投影后得到的深度图像与 ...

  7. 深度相机 物体三维重建_基于深度相机的实时物体三维重建方法与流程

    本发明涉及三维成像领域,特别是一种能够实时地对物体或人体进行三维重建的方法. 背景技术: 三维重建技术一直是计算机图形学和计算机视觉领域的热点课题.三维重建就是从输入数据中建立3D模型.随着各种面向普 ...

  8. 深度学习图像融合_深度学习图像分割必看的12篇文章

    图像分割 Author:孙叔桥 From:有三AI 1 FCN Fully Convolutional Network(FCN)是神经网络用于图像分割任务的鼻祖,后续提出的大部分基于编解码结构的图像分 ...

  9. 深度学习 相机标定_基于深度学习的多传感器标定

    标定是确定不同坐标系的相互转换关系,是传感器数据融合的前提,特别是激光雷达和图像数据.这里以深度学习的方法训练CNN模型去回归坐标系转换的参数. 主要是两个CNN模型:RegNet和CalibNet. ...

最新文章

  1. 用户数年增长 300%,BitMax如何把握数字资产时代机遇?
  2. 8大领域、6大机遇!读懂2020年AI医疗新风向
  3. 在 Ubuntu 14.04/15.04 上配置 Node JS v4.0.0
  4. 【Android 高性能音频】hello-oboe 示例解析 ( Oboe 源代码依赖 | CMakeList.txt 构建脚本分析 | Oboe 源代码构建脚本分析 )
  5. Java7中的ForkJoin并发框架初探(上)——需求背景和设计原理
  6. 在Windows里备份Linux分区,在Windows里分出Linux分区(Linux分区).pdf
  7. wxWidgets:编写非英语应用程序
  8. 常用贴片三极管参数于常见三极管型号对照表
  9. java 控制台输入字符串_Java控制台输入字符串及字符串比较
  10. python课程水平测试成绩查询_学业水平考试成绩查询系统入口
  11. 搞学术离不开的那些数学—概率论与数理统计
  12. AcWing 889. 满足条件的01序列(卡特兰数)
  13. python两数相加有进退位_Python 之父透露退位隐情,与核心开发团队产生隔阂
  14. 大数据可视化(一)数据可视化概述
  15. My Fifty-Sixth Page - 子集Ⅱ - By Nicolas
  16. 零代码工具推荐 八爪鱼采集器
  17. Linux命令删除find,浅谈Linux下通过find命令进行rm文件删除的小技巧
  18. UART(一)裸机编程
  19. android开发-指纹识别
  20. 老调重弹之ffmpeg解码音频

热门文章

  1. PS的自由转换功能使用
  2. Midjourney V5太炸裂:逼真到颤抖!“有图有真相”时代彻底过去 画画创作者 模特一键淘汰
  3. java .do是什么文件_.do是什么文件
  4. 关于安卓系统文件权限的一个问题
  5. 微信支付退款解析 对加密串B做AES-256-ECB解密(PKCS7Padding)
  6. 【ASE入门学习】ASE入门系列二十五——努努冰球材质复刻
  7. 怎样设置及使用代理服务器
  8. 广点通sdk接入 _应用墙广告
  9. 鸿蒙开发实例 | 鸿蒙原子化服务卡片开发完美体验
  10. Swing算法介绍、实现与在阿里飞猪的实战应用