Multi-Modal
文章目录
- Multimodal
- motivation
- problem
- 研究方向
- 多模态表示学习 Multimodal Representation
- 模态转化 Translation
- 对齐 Alignment
- 多模态融合 Multimodal Fusion\多源信息融合(Multi-source Information Fusion)\多传感器融合(Multi-sensor Fusion)
- method
- 协同学习 Co-learning
Multimodal
- https://zhuanlan.zhihu.com/p/53511144
- 《多源信息融合》(韩崇昭等著)
- Multimodal machine learning: A survey and taxonomy, 2018
motivation
- 可以把两种不同的语言当做是两种模态,甚至在两种不同情况下采集到的数据集
- 通过利用多模态之间的互补性,剔除模态间的冗余性,从而学习到更好的特征表示
problem
- open-ended,即未知结束位,例如实时翻译中,在还未得到句尾的情况下,必须实时的对句子进行翻译
- subjective,即主观评判性,是指很多模态转换问题的效果没有一个比较客观的评判标准,也就是说目标函数的确定是非常主观的。例如,在图片描述中,形成怎样的一段话才算是对图片好的诠释
- 如何判断每个模态的置信水平、如何判断模态间的相关性、如何对多模态的特征信息进行降维以及如何对非同步采集的多模态数据进行配准等。
研究方向
多模态表示学习 Multimodal Representation
- 联合表示(Joint Representations): 映射到一个统一的多模态向量空间
- 协同表示(Coordinated Representations): 分别映射到各自的表示空间,但映射后的向量之间满足一定的相关性约束(例如线性相关)
- 狗的图片特征向量 - 狗的文本特征向量 + 猫的文本特征向量 = 猫的图片特征向量 -> 在特征向量空间,根据最近邻距离,检索得到猫的图片 (《Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models》)
模态转化 Translation
- 机器翻译(Machine Translation)
- 对给定的图片/视频形成一段文字描述: 秒读论文
- 语音合成(Speech Synthesis)
对齐 Alignment
- 来自同一个实例的不同模态信息的子分支/元素寻找对应关系。这个对应关系可以是时间维度的,比如下图所示的 Temporal sequence alignment,将一组动作对应的视频流同骨骼图片对齐。类似的还有电影画面-语音-字幕的自动对齐。
- 空间维度: 图片语义分割 (Image Semantic Segmentation)
- 尝试将图片的每个像素对应到某一种类型标签,实现视觉-词汇对齐。
多模态融合 Multimodal Fusion\多源信息融合(Multi-source Information Fusion)\多传感器融合(Multi-sensor Fusion)
- 联合多个模态的信息,进行目标预测(分类或者回归)
- 按照融合的层次,分为 pixel level对原始数据进行融合,feature level 抽象的特征进行融合和 decision level对决策结果进行融合 三类。
- 而 feature level 又可以分为 early 和 late 两个大类,代表了融合发生在特征抽取的早期和晚期。当然还有将多种融合层次混合的 hybrid 方法。
method
- 视觉-音频识别(Visual-Audio Recognition): 综合源自同一个实例的视频信息和音频信息,进行识别工作。
- 多模态情感分析(Multimodal sentiment analysis): 综合利用多个模态的数据(例如下图中的文字、面部表情、声音),通过互补,消除歧义和不确定性,得到更加准确的情感类型判断结果。
- 手机身份认证(Mobile Identity Authentication): 综合利用手机的多传感器信息,认证手机使用者是否是注册用户。
协同学习 Co-learning
- 使用一个资源丰富的模态信息来辅助另一个资源相对贫瘠的模态进行学习
Multi-Modal相关推荐
- Gated Mechanism for Attention Based Multi Modal Sentiment Analysis 阅读笔记
GATED MECHANISM FOR ATTENTION BASED MULTIMODAL SENTIMENT ANALYSIS 阅读笔记 最近在跟进多模态的情感分析发现多模态榜一又被刷下来了,这篇 ...
- 自动驾驶任务|基于概率的3D多模态多目标跟踪(ICRA2021)
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 标题:Probabilistic 3D MultiModal,MultiObject Tracki ...
- AI之HCI:人机交互Human-Computer Interaction的简介、发展历史、案例应用之详细攻略
AI之HCI:人机交互Human-Computer Interaction的简介.发展历史.案例应用之详细攻略 目录 人机交互Human-Computer Interaction的简介 1.人机交互的 ...
- Simulated Binary Crossover(SBX)的学习
最近在做作业遇到一个Dejong's fifth function的multi modal的问题,用传统的GA方法尝试了很多次,的确没办法搞定,随机很多次也不一定在global optimum的地方得 ...
- 人脸识别相关资源大列表
之前逛爱可可老师微博看到的一个人脸识别资源,还是比较全面的,跟大家分享一下. github链接:https://github.com/ChanChiChoi/awesome-Face_Recognit ...
- 人脸表情数据集集合整理——数据集构建新的体会
1. XM2VTSDB 人脸多模态数据库 (including high quality colour images, 32 KHz 16-bit sound files, video sequenc ...
- [论文阅读]用于车辆轨迹预测的卷积社交池Convolutional Social Pooling for Vehicle Trajectory Prediction
文章目录 一.摘要 二.介绍 三.相关研究 3.1 基于机动的模型 3.2 交互感知模型 3.3 运动预测的递归网络 四.问题制定 4.1 参照系 4.2 输入输出 4.3 概率运动预测 4.4 操作 ...
- 清华张钹院士专刊文章:迈向第三代人工智能(全文收录)
来源:清华大学人工智能研究院 作者:张钹.朱军.苏航 人工智能(ArtificialIntelligence,简称 AI)在 60 多年的发展历史中,一直存在两个相互竞争的范式,即符号主义与连接主义( ...
- 【张钹院士 | 大师谈AI】迈向第三代人工智能「AI核心算法」
关注:决策智能与机器学习,深耕AI脱水干货 作者:张钹, 朱军, 苏航 报道:中国科学杂志社 如需转载,请联系作者 摘 要 人工智能 (artificial intelligence, AI) 自1 ...
- 自动驾驶之点云与图像融合综述
本文来源:韦心雕龙 / 导读 / 这几天偷懒,也确实没有时间来进行更新(更新频率越来越低了),这里接着一篇去年的综述来开始中断的学习之旅<Deep Learning for Image and ...
最新文章
- Angular 如何根据一个 class 的定义和数据,动态创建一个该类的实例
- koa --- 自制简易的koa-router
- element的分页怎么改中文配置_vue想改变element分页样式
- (转)java中的 | ^ 分别是什么?
- MFC中的文件读写技术
- 剑指offer(一):二维数组中的查找
- c语言设计一维数组,一维数组 (1)C语言程序设计.pdf
- excel 字符串拼接_Python|处理字符串
- 40XXX队技术员交接事项(1):基本资料交接
- 1.OAuth 简介
- C++中类的三种继承方式public(公有继承)、protected(保护继承)、private(私有继承)之间的差别(附思维导图)
- 西门子代理商 上海西纪帮您选型刚刚好
- 在LUAT中使用MQTT客户端
- win10家庭版启用远程桌面
- 你的声音价值百万,教你六个利用声音赚钱的方法
- linux 访问西数网盘,西数不认盘,无法访问固件
- 零成本的互联网赚钱项目,都是怎么做的?
- 什么是restful,什么是rest风格
- 色彩转换系列之RGB格式与HSV格式互转原理及实现
- C++使用FFmpeg库实现图片转视频