原标题:即将不再只是图像的CVer,计算机视觉要变天

计算机视觉CV发展了一定阶段,尤其是在机器学习、深度学习在计算机视觉领域的广泛应用,使得图像无论是在传统的工业领域,还是自动驾驶、AI医疗影像等新兴领域都备受瞩目,取得成果突出。

但是,要想在该领域取得更加长足的发展,时代迫使我们进入了下一个阶段,也就是多种信息的融合阶段,从单一的图像信号的连接,到声音、触觉、语义的融合。此时出了一个新名词,就是“多模态”。

首先,什么叫做模态(Modality)呢?

每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉,听觉,视觉,嗅觉;信息的媒介,有语音、视频、文字等;多种多样的传感器,如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。

同时,模态也可以有非常广泛的定义,比如我们可以把两种不同的语言当做是两种模态,甚至在两种不同情况下采集到的数据集,亦可认为是两种模态。

因此,多模态机器学习,英文全称 MultiModal Machine Learning (MMML),旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。

多模态学习从1970年代起步,经历了几个发展阶段,在2010后全面步入Deep Learning阶段。

人其实是一个多模态学习的总和,所以也有”砖家“说了,多模态学习才是真正的人工智能发展方向。

本文将针对多模态学习在深度学习发面的研究方向和应用做相关介绍,主要参考了来自ACL 2017的《Tutorial on Multimodal Machine Learning》。

PDF原地址:https://www.cs.cmu.edu/~morency/MMML-Tutorial-ACL2017.pdf

如果对文档的获取是方便快捷的,建议直接下载下来查看,这里也将PPT版本以分页的形式贴出了完整版本,供阅读。一文让你对多模态是个什么做一次深入的了解,在之后的文章中,也将对多模态的使用,不同模态的融合做一些自己的动手实践过程,小白与你一起进步。

(温馨提示:篇幅较长,建议抽空静心阅读+理解)

责任编辑:

图像处理与计算机视觉用c语言吗,即将不再只是图像的CVer,计算机视觉要变天...相关推荐

  1. 【matlab图像处理笔记4】【图像变换】(三)图像的霍夫变换

    文章目录 推荐阅读 前言 霍夫变换概述 霍夫变换直线检测原理 从笛卡尔坐标系到霍夫空间 两点一线的霍夫空间形式 寻找共线的点 直角坐标系存在的问题 极坐标参数空间下的霍夫变换 matlab霍夫变换直线 ...

  2. 计算机图形图像学,计算机视觉 (图形、图像和视频)

    图像学,图形学:图像算法,图形算法? > 计算机图形学 opengl ,directx 计算机图形学(Computer Graphics,简称CG)是一种使用数学算法将二维或三维图形转化为计算机 ...

  3. R语言ggplot2可视化:为图像中的均值竖线、中位数竖线、 geom_vline添加图例(legend)

    R语言ggplot2可视化:为图像中的均值竖线.中位数竖线. geom_vline添加图例(legend) 目录

  4. R语言ggplot2可视化在可视化图像中添加上限线条、下限线条、添加上下限图例实战

    R语言ggplot2可视化在可视化图像中添加上限线条.下限线条.添加上下限图例实战 目录

  5. R语言layout函数处理可视化图像布局实战

    R语言layout函数处理可视化图像布局实战 目录 R语言layout函数处理可视化图像布局实战 #基本语法 #layout定义

  6. 【matlab图像处理笔记5】【图像变换】(四)图像的正交变换

    文章目录 推荐阅读 前言 图像正交变换简介 离散傅里叶变换 对图像进行离散傅里叶变换的作用 二维离散傅里叶变换 频谱图 示例 离散余弦变换 简介 基本原理 示例 推荐阅读 本系列其他文章 [matla ...

  7. R语言geodetector包基于栅格图像实现地理探测器操作

      本文介绍基于R语言中的geodetector包,依据多张栅格图像数据,实现地理探测器(Geodetector)操作的详细方法.   需要说明的是,在R语言中进行地理探测器操作,可以分别通过geod ...

  8. R语言GD包基于栅格图像实现地理探测器与连续参数的自动离散化

      本文介绍基于R语言中的GD包,依据栅格影像数据,实现自变量最优离散化方法选取与执行,并进行地理探测器(Geodetector)操作的方法.   首先,在R语言中进行地理探测器操作,可通过geode ...

  9. 计算机视觉第四次实验--基于RANSAC的图像全景拼接

    计算机视觉第四次实验–基于RANSAC的图像全景拼接 文章目录 计算机视觉第四次实验--基于RANSAC的图像全景拼接 一.明确图像拼接整体流程 二.APAP算法 三.算法流程: 四.最小割问题(最大 ...

最新文章

  1. Fragment 和 FragmentActivity的使用
  2. BCH钱包的“现金”支持比特币现金NFC交易
  3. python 3.6
  4. Win11再被吐槽,文件管理器居然都有广告了?
  5. Wireshark抓包工具使用
  6. 《计算机网络》| 时隔两年,再次发布
  7. php gbk json_encode,php中json_encode处理gbk与gb2312中文乱码问题的解决方法
  8. JavaScript操作HTML 元素
  9. 总线全称_一篇文章讲透I2C总线协议
  10. 关于进程与线程的讲解 最最最生动的理解
  11. redis的持久化相关操纵
  12. 康华光电子技术基础第六版习题答案
  13. 【python实战】top4 华氏度与摄氏度互转
  14. 【论文阅读】Attention-based Deep Multiple Instance Learning
  15. 软件测试工程师必备技能(初中高)
  16. 国内外需求管理工具使用感悟!
  17. JAVA的stream流操作详细解析
  18. NameError: name 'raw_input' is not defined
  19. 危骆邦油邦快讯|一分钟看懂山东地炼成品油报价
  20. 用月壤实现太阳能发电,人类离「定居月球」又近一步 | 来自贝索斯蓝色起源...

热门文章

  1. 【网络文摘】一个大神程序员的使命感究竟应该是什么
  2. 用 Python 爬取股票实时数据
  3. echarts 调色盘、渐变色
  4. python实现解数独程序代码
  5. IDE创建vue项目
  6. PDF文档如何在线分割成多个PDF小文件
  7. 苹果手机怎么多开微信 苹果微信双开分身教程
  8. 安全防御——IDS(入侵检测系统)
  9. (1)机器视觉检测的必备知识,要牢记!
  10. Zencart网站搭建与配置教程