文章目录

Multimodal
- motivation
- problem
- 研究方向
- - 多模态表示学习 Multimodal Representation
  - 模态转化 Translation
  - 对齐 Alignment
  - 多模态融合 Multimodal Fusion\多源信息融合（Multi-source Information Fusion）\多传感器融合（Multi-sensor Fusion)
  - - method
  - 协同学习 Co-learning

Multimodal

https://zhuanlan.zhihu.com/p/53511144
《多源信息融合》（韩崇昭等著）
Multimodal machine learning: A survey and taxonomy, 2018

motivation

可以把两种不同的语言当做是两种模态，甚至在两种不同情况下采集到的数据集
通过利用多模态之间的互补性，剔除模态间的冗余性，从而学习到更好的特征表示

problem

open-ended，即未知结束位，例如实时翻译中，在还未得到句尾的情况下，必须实时的对句子进行翻译
subjective，即主观评判性，是指很多模态转换问题的效果没有一个比较客观的评判标准，也就是说目标函数的确定是非常主观的。例如，在图片描述中，形成怎样的一段话才算是对图片好的诠释
如何判断每个模态的置信水平、如何判断模态间的相关性、如何对多模态的特征信息进行降维以及如何对非同步采集的多模态数据进行配准等。

研究方向

多模态表示学习 Multimodal Representation

联合表示（Joint Representations）: 映射到一个统一的多模态向量空间
协同表示（Coordinated Representations）: 分别映射到各自的表示空间，但映射后的向量之间满足一定的相关性约束（例如线性相关）
- 狗的图片特征向量 - 狗的文本特征向量 + 猫的文本特征向量 = 猫的图片特征向量 -> 在特征向量空间，根据最近邻距离，检索得到猫的图片 (《Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models》)

模态转化 Translation

机器翻译（Machine Translation）
对给定的图片/视频形成一段文字描述：秒读论文
语音合成（Speech Synthesis）

对齐 Alignment

来自同一个实例的不同模态信息的子分支/元素寻找对应关系。这个对应关系可以是时间维度的，比如下图所示的 Temporal sequence alignment，将一组动作对应的视频流同骨骼图片对齐。类似的还有电影画面-语音-字幕的自动对齐。
空间维度: 图片语义分割（Image Semantic Segmentation）
- 尝试将图片的每个像素对应到某一种类型标签，实现视觉-词汇对齐。

多模态融合 Multimodal Fusion\多源信息融合（Multi-source Information Fusion）\多传感器融合（Multi-sensor Fusion)

联合多个模态的信息，进行目标预测（分类或者回归）
按照融合的层次，分为 pixel level对原始数据进行融合，feature level 抽象的特征进行融合和 decision level对决策结果进行融合三类。
- 而 feature level 又可以分为 early 和 late 两个大类，代表了融合发生在特征抽取的早期和晚期。当然还有将多种融合层次混合的 hybrid 方法。

method

视觉-音频识别（Visual-Audio Recognition）：综合源自同一个实例的视频信息和音频信息，进行识别工作。
多模态情感分析（Multimodal sentiment analysis）：综合利用多个模态的数据（例如下图中的文字、面部表情、声音），通过互补，消除歧义和不确定性，得到更加准确的情感类型判断结果。
手机身份认证（Mobile Identity Authentication）：综合利用手机的多传感器信息，认证手机使用者是否是注册用户。

协同学习 Co-learning

使用一个资源丰富的模态信息来辅助另一个资源相对贫瘠的模态进行学习

Multi-Modal相关推荐

Gated Mechanism for Attention Based Multi Modal Sentiment Analysis 阅读笔记
GATED MECHANISM FOR ATTENTION BASED MULTIMODAL SENTIMENT ANALYSIS 阅读笔记最近在跟进多模态的情感分析发现多模态榜一又被刷下来了,这篇 ...
自动驾驶任务|基于概率的3D多模态多目标跟踪（ICRA2021）
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达标题:Probabilistic 3D MultiModal,MultiObject Tracki ...
AI之HCI：人机交互Human-Computer Interaction的简介、发展历史、案例应用之详细攻略
AI之HCI:人机交互Human-Computer Interaction的简介.发展历史.案例应用之详细攻略目录人机交互Human-Computer Interaction的简介 1.人机交互的 ...
Simulated Binary Crossover（SBX）的学习
最近在做作业遇到一个Dejong's fifth function的multi modal的问题,用传统的GA方法尝试了很多次,的确没办法搞定,随机很多次也不一定在global optimum的地方得 ...
人脸识别相关资源大列表
之前逛爱可可老师微博看到的一个人脸识别资源,还是比较全面的,跟大家分享一下. github链接:https://github.com/ChanChiChoi/awesome-Face_Recognit ...
人脸表情数据集集合整理——数据集构建新的体会
1. XM2VTSDB 人脸多模态数据库 (including high quality colour images, 32 KHz 16-bit sound files, video sequenc ...
[论文阅读]用于车辆轨迹预测的卷积社交池Convolutional Social Pooling for Vehicle Trajectory Prediction
文章目录一.摘要二.介绍三.相关研究 3.1 基于机动的模型 3.2 交互感知模型 3.3 运动预测的递归网络四.问题制定 4.1 参照系 4.2 输入输出 4.3 概率运动预测 4.4 操作 ...
清华张钹院士专刊文章：迈向第三代人工智能（全文收录）
来源:清华大学人工智能研究院作者:张钹.朱军.苏航人工智能(ArtificialIntelligence,简称 AI)在 60 多年的发展历史中,一直存在两个相互竞争的范式,即符号主义与连接主义( ...
【张钹院士 | 大师谈AI】迈向第三代人工智能「AI核心算法」
关注:决策智能与机器学习,深耕AI脱水干货作者:张钹, 朱军, 苏航报道:中国科学杂志社如需转载,请联系作者摘要人工智能 (artificial intelligence, AI) 自1 ...
自动驾驶之点云与图像融合综述
本文来源:韦心雕龙 / 导读 / 这几天偷懒,也确实没有时间来进行更新(更新频率越来越低了),这里接着一篇去年的综述来开始中断的学习之旅<Deep Learning for Image and ...

Multi-Modal

文章目录

Multimodal

motivation

problem

研究方向

多模态表示学习 Multimodal Representation

模态转化 Translation

对齐 Alignment

多模态融合 Multimodal Fusion\多源信息融合（Multi-source Information Fusion）\多传感器融合（Multi-sensor Fusion)

method

协同学习 Co-learning

Multi-Modal相关推荐

最新文章

热门文章