前言:本篇博文为译文,翻译自Parth Chokhra 发表在Medium的博文 “Guide to Multimodal Machine Learning”

原博文链接:https://towardsdatascience.com/guide-to-multimodal-machine-learning-b9b4f8e43cf7

原博文撰写时间:2020-09-27


最近从Facebook在Driven Data网举办的厌恶表情包检测挑战赛(Hateful Meme Challenge 2020)关注到多模态学习。该挑战赛是关于如何制造出一种检测厌恶言论的有效工具,以及它如何能够像人们那样理解言论内容。这似乎是一个很酷的挑战,因为它利用文本和图像来分析内容,就像人类所做的那样。让我们深入了解一下多模态机器学习到底是什么。

图1 具有相同文本但不同意义的表情包(Meme)

1. 多模态学习(Multimodal Learning)

多模态是指面向对同一对象,在同一时间,我们通过两种及以上的信息收集方式,获得的两种或两种以上的多种数据(此处为译者对“多模态”的定义,为个人观点,可能有不妥之处)。原博文为(Multimodal means that we have two and or more than two modes of communication through combinations of two or more modes.)模态(Modes)包括书面语言、口头语言以及视觉、听觉、手势、触觉和空间等模式。

为了创造一个与人类相当的人工智能,我们需要人工智能去理解、解释和推理多模态信息。多模态机器学习(Multimodal machine learning)的目的是建立能够处理和关联来自多种模态信息的模型。

为了理解如何处理这个问题,我们必须首先理解在多模态机器学习中需要解决的挑战。

2. 多模态人工智能的挑战(The challenge of Multimodal AI)

表示(Representation):第一个且最重要的困难是如何表示和结合多种模态的数据,使我们能够利用它们的互补性和冗余性。我们需要明白,通常我们考虑的所有信息模式都指向相同的信息,比如唇读和我们从一个人那里听到的声音代表着相同的东西。但同时使用这两种东西提升了交流的鲁棒性,可帮助我们理解对方想表达什么。所以第一个挑战是我们如何结合多模态数据。语言(文本)通常是符号化的,而听觉和视觉模态则以信号的形式表现出来。我们如何将它们结合起来?

对齐(Alignment):其次,我们需要从不同的模态来识别子要素(sub-elements)之间的直接关系。让我们通过一个真实的例子来形象化这个过程。我们有一个关于如何完成烹饪的视频,以及包含制作步骤的食谱(subscript)。我们可能想要将食谱中的步骤与正在制作的菜肴视频对齐,以让读者理解这一步到底是如何操作的。这就是所谓的对齐。我们需要考虑如何对齐不同的模式并处理可能存在的长期依赖和歧义?

转换(Translation):将数据从一种模态转换为另一种模态的过程,这种转换关系通常可以是开放式的,也可以是主观的。在某些时候,我们可能需要将一种形式的信息转换为另一种形式。图片字幕(Image captioning)就是一个很好的例子。但是,描述一幅图像的正确方法有很多,而且一个完美的模态转换可能并不存在。那么,我们如何将数据从一种模态映射到另一种模态呢?

融合(Fusion):第四个挑战是连接来自两种或两种以上模态的信息进行预测。通常,我们将融合技术分为早期融合(Early Fusion)和晚期融合(Late Fusion)两部分。

图2 早期融合(Early Fusion)和晚期融合(Late Fusion)

协同学习(Co-Learning):在不同模态之间转移知识,包括它们的表征和预测模型。这是一个有趣的问题,因为有时在训练时从其他模态中得到的一些额外信息,有助于我们的系统在测试时表现更好。

读完这篇文章后,如果多模态机器学习让你着迷了,建议你去学习CMU的多模态机器学习课程。链接在参考列表中。


参考列表:

  1. Multimodal Machine Learning: A Survey and Taxonomy [2017]. https://arxiv.org/abs/1705.09406
  2. CMU 11-777 course. https://www.youtube.com/channel/UCqlHIJTGYhiwQpNuPU5e2gg
  3. Hateful Memes Challenge and data set. https://ai.facebook.com/blog/hateful-memes-challenge-and-data-set/

多模态机器学习简述(Guide to Multimodal Machine Learning)相关推荐

  1. Multimodal Machine Learning: A Survey and Taxonomy/多模态机器学习综述

    该笔记基于:Multimodal Machine Learning:A Survey and Taxonomy 该论文是一篇对多模态机器学习领域的总结和分类,且发表于2017年,算是相当新的综述了.老 ...

  2. Paper:《Multimodal Machine Learning: A Survey and Taxonomy,多模态机器学习:综述与分类》翻译与解读

    Paper:<Multimodal Machine Learning: A Survey and Taxonomy,多模态机器学习:综述与分类>翻译与解读 目录 <Multimoda ...

  3. Multimodal Machine Learning: A Survey and Taxonomy多模态综述论文笔记

    文章目录 第一遍:快速预览,把握概要 1. 仔细阅读标题.摘要和简介. 1 INTRODUCTION 2. 先忽略内容,读一读文章中的每个小标题. 3. 如果有数学内容,先大致浏览,确定其理论基础. ...

  4. 多模态机器学习入门——文献阅读(一)Multimodal Machine Learning: A Survey and Taxonomy

    文章目录 说明 论文阅读 Abstract Introduction Introduction总结 Applications:A Historical Perspective 补充与总结 3 MULT ...

  5. Multimodal Machine Learning:A Survey and Taxonomy 多模态机器学习:综述与分类

    模态是指某种事物发生或经历的方式,每一种信息的来源或者形式,都可以称为一种模态.当研究问题包括多种这样的形态时,研究问题被描述为多模态.多模态机器学习,旨在通过机器学习的方法实现处理和理解多源模态信息 ...

  6. 机器学习与优化基础(Machine Learning and Optimization)

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转自|新机器视觉 引用大佬Pedro Domingos的说法: ...

  7. 机器学习神书推荐 Hands on Machine Learning

    欢迎点击「算法与编程之美」↑关注我们! 本文首发于微信公众号:"算法与编程之美",欢迎关注,及时了解更多此系列文章. 本次为大家推荐的是一本机器学习神书英文原版<Hands- ...

  8. 量子领域的机器学习人工智能(三)(Machine learning artificial intelligence in the quantum domain)

    Machine learning & artificial intelligence in the quantum domain 摘要( Abstract) Ⅵ.机器学习的量子增强( QUANT ...

  9. 初识机器学习——吴恩达《Machine Learning》学习笔记(八)

    神经网络 人工神经网络(英语:Artificial Neural Network,ANN),简称神经网络(Neural Network,NN)或类神经网络,在机器学习和认知科学领域,是一种模仿生物神经 ...

最新文章

  1. 报名 | 2019年社会计算机国际会议
  2. linux 下 vi 块编辑
  3. JS选中OPTION
  4. 自动升级失败,缺少System.resources.dll?
  5. 语音购票、刷脸进站:上海联手阿里打造全球首个AI地铁之城
  6. JS-JavaScript学习笔记(一)
  7. java将HTML文件转化为pdf文件,如何使用Java将HTML网页转换为PDF文件
  8. esrgan_港中文-商汤联合实验室:ECCV2018 PIRM-SR 超分辨率比赛冠军:ESRGAN(已开源)...
  9. python异常处理与上下文管理器
  10. Delphi Access Violation错误的分析
  11. 360极速浏览器连接远程notebook会出现问题,403 GET /api/kernels/
  12. Atitit 长距离无线通信法 LoRa NB-IoT NB-CIoT LoRa是Semtech公司的创新发明,该技术向用户提供显著的长距离、低功耗、安全数据传输机制。使用LoRa技术构建的公用网
  13. mac谷歌浏览器怎么登陆账户_Mac如何安装谷歌浏览器 Mac安装谷歌浏览器的方法...
  14. 螺旋桨k线是什么意思?底部螺旋桨k线形态特征是什么
  15. Docker 常用镜像
  16. 瓷片电容、钽电容、电解电容区别---电源设计中的去耦电容应用实例
  17. 成功的软件工程师共有的10个习惯和技能
  18. 两年网罗13位扫地僧,阿里达摩院最新架构完整曝光
  19. 机器视觉中坐标系转换
  20. 算法设计与分析:Minimum Number of Refueling Stops(Week 11)

热门文章

  1. APP开发流程实例讲解-儒释道网络电台八天开发全程-百度云深度兼容测试并进一步优化排错
  2. 0X01 ——位运算
  3. 长轮询和短轮询的区别
  4. php安装和环境配置
  5. 系统的学习网络编程,这篇就够了!(来收藏夹里吃灰)
  6. (学习日志)MAYA基础设置
  7. 初次爬虫:读取PDF转成图片,再提取图片里的文字信息
  8. mysql pga_PGA概述
  9. 修改MySQL密码策略
  10. 【JavaScript】offset、client、scroll