视觉问答(Visual Question Answering,VQA)是一个需要理解文本和视觉的新领域。由于深度学习技术显著地改善了自然语言处理和计算机视觉结果,我们可以合理地预期VQA将在未来几年变得越来越准确。视觉问答主要涉及图像文本俩种模态信息。

目前的方法一般来说,我们可以概述VQA中的方法如下:

  • 从问题中提取特征。
  • 从图像中提取特征。
  • 结合这些特征来生成答案。
    对于文本特征,可以使用诸如Bag-Of-Words(BOW)或Long Short Term Memory(LSTM)编码器等技术。就图像特征而言,在ImageNet上预先训练的CNN是最常用的选择。关于答案的生成,这些方法通常将问题建模为分类任务。


因此,几种方法的主要区别在于它们如何将文本特征和图像特征结合起来。例如,它们可以简单地使用串联将它们组合,然后提供一个线性分类器。或者它们可以使用贝叶斯模型来推断问题,图像和答案的特征分布之间的基础关系。
建议阅读由Kafle和Kanan撰写的关于VQA的优秀调查

基于关注(attention)的方法

基于关注的方法的目标是将算法的重点放在输入的最相关部分上。例如,如果问题是“球是什么颜色?”,则包含球的图像区域比其他球体更相关。用同样的方式,“颜色”和“球”这两个词,比其他的词更加attention。
VQA中最常见的选择是利用空间注意力来生成特定区域的特征来训练CNN。有两种常见的方法来获取图像的空间区域。首先,通过在图像上投射网格。


使用网格将注意力集中到一起
网格应用后,每个区域的相关性由具体问题决定。

提出自动生成的边界框。

详细内容如下:

VQA视觉问答

深度学习中的VQA(视觉问答)技术相关推荐

  1. 深度学习中的隐私保护技术综述

    摘要:如今机器学习以及深度学习在各个领域广泛应用,包括医疗领域.金融领域.网络安全领域等等.深度学习的首要任务在于数据收集,然而在数据收集的过程中就可能产生隐私泄露的风险,而隐私泄露将导致用户不再信任 ...

  2. DrugVQA | 用视觉问答技术预测药物蛋白质相互作用

    1.研究背景 鉴定新的药物-蛋白质相互作用对于药物发现至关重要,基于机器学习的方法利用药物描述符和一维(1D)蛋白质序列已经开发了许多鉴定方法.这些方法一般都是通过将配体,蛋白质及其相互作用的信息整合 ...

  3. 深度学习 正则化 正则化率_何时以及如何在深度学习中使用正则化

    深度学习 正则化 正则化率 介绍: (Introduction:) The key role of Regularization in deep learning models is to reduc ...

  4. 如何系统性掌握深度学习中的数据使用

    数据是深度学习系统的输入,对深度学习的发展起着至关重要的作用,但是又容易被很多人忽视,尤其是缺少实战的理论派. 今天便来谈谈这个问题,同时介绍一个好的学习社区供大家讨论与提升. 文/编辑 | 言有三 ...

  5. 深度学习中的内存管理问题研究综述

    点击上方蓝字关注我们 深度学习中的内存管理问题研究综述 马玮良1,2, 彭轩1,2, 熊倩1,2, 石宣化1,2, 金海1,2 1 华中科技大学计算机科学与技术学院,湖北 武汉 430074 2 华中 ...

  6. 深度学习中的过拟合问题

    1.过拟合问题 欠拟合:根本原因是特征维度过少,模型过于简单,导致拟合的函数无法满足训练集,误差较大. 解决方法:增加特征维度,增加训练数据: 过拟合:根本原因是特征维度过多,模型假设过于复杂,参数过 ...

  7. 基于深度学习的智能车辆视觉里程计技术发展综述*--陈涛

    [1]陈涛, 范林坤, 李旭川,等. 基于深度学习的智能车辆视觉里程计技术发展综述[J]. 汽车技术, 2021(1):10. 本文内容: 介绍了基于模型的里程计研究现状 对比了常用智能车数据集, 将 ...

  8. 深度学习中的正则化技术(附Python代码)

    作者:SHUBHAM JAIN 翻译:和中华 校对:丁楠雅 本文约3500字,建议阅读20分钟. 本文简单介绍了什么是正则化以及在深度学习任务中可以采用哪些正则化技术,并以keras代码具体讲解了一个 ...

  9. 【技术综述】深度学习中的数据增强(下)

    文章首发于微信公众号<有三AI> [技术综述]深度学习中的数据增强(下) 今天带来深度学习中的数据增强方法的下篇.我们将从以下几个方向入手.1,介绍一下什么是无监督的数据增强方法.2,简单 ...

最新文章

  1. Ubuntu 16.04安装unrar解压RAR文件
  2. linux 下邮件服务器,Linux 下搭建Postfix邮件服务器
  3. php中的css类怎么查找,CSS 样式表中的类和伪类
  4. java 动态实例化对象_记录Java中如何动态实例化一个对象
  5. html做偶像图片2048小游戏,一个自制的2048小游戏(一)
  6. 开源项目使用问题集锦
  7. ”在禁用UAC时,无法激活此应用“问题
  8. 6.3 交通工具类
  9. directadmin安装多个php,DirectAdmin安装记录(2018更新)
  10. 基于移动端端vant使用ImagePreview 图片预览的使用的一些问题
  11. Unity 3D模型动画导出为帧序列
  12. 个人关于面试的一些总结
  13. 华中科技大学有计算机科学与技术学院导师,华中科技大学计算机科学与技术学院导师简介-袁平鹏...
  14. 启动weblogic的遇见的一些问题及解决方案(环境为win 10 64位,weblogic 12.2.1)
  15. 爬虫初上手之爬取QQ音乐!
  16. 工业机器人三点工具定位法图文_手把手教你工业机器人三点示教法
  17. 抗锯齿下采样(Anti-aliasing/down-sampling)-python-numpy 实现
  18. matlab字符串表示方法,MATLAB字符和字符串
  19. Vivado 打开之前保存的仿真波形文件
  20. TP屏幕适配--UI篇

热门文章

  1. 常识——windows的tensorflow安装gpu版本,cuda算力只有3.0也可以
  2. 七.【Python3.8+Django3.0从零开始系列】Django3.0+Python3.8连接MySql8.0及遇到的问题解决
  3. 系统性能监控工具ssar实例精选 | 龙蜥SIG
  4. ACCESS查询无重复数据
  5. 计算机英语的职业,职业计算机英语教育思索
  6. C#读取和写入注册表
  7. json数据如何得到所有的value
  8. 伦纳德·里德 《铅笔的故事》
  9. 利用js读取xml文件
  10. 为什么需要云计算机,为什么需要云计算