论文地址: VISUAL SEMANTIC NAVIGATION USING SCENE PRIORS

1. 介绍
  论文的目标是使用场景先验知识来改善陌生场景中未知物体的导航效果,具体地,如下图所示,从以往的经验中要在厨房中找一个苹果那么很有可能在冰箱中找到,那么此时要在厨房中找某一样我们从未见过的水果时,它可能也在冰箱里,这就是基于先验知识的视觉语义导航,在该任务中,环境、目标的位置与出现形式,智能体到目标的路线都是未知的。
  论文提出使用图卷积神经网络集成先验知识到增强学习框架中的方法,由于图卷积神经网络支持任意结构的图以高效的形式进行编码,该方法提出将智能体(agent)的先验知识编码到图谱中,智能体使用知识图谱中的特征来进行预测的同时更新图谱中的内容以获得当前特定环境的先验知识。该方法使用语义知识显著地提升了视觉语义导航的性能,而且在未知场景和未知物体出现的时候泛化能力十分强大。
  论文的主要贡献在于:

  • 集成了一个带有图卷积神经网络的深度增强学习框架使得智能体能够编码任何能够被图结构表征的知识;
  • 论文的研究表明语义先验知识能够显著提升导航性能
  • 通过集合目标的语义和先验信息,论文提出的方法拥有较好的泛化能力(位置场景,位置物体)

2. 相关工作

  基于语义和目标导向的导航是智能体日常生活中最重要的活动,视觉导航中有几个难点,一是环境可能对智能体是未知的,这就需要智能体取探索环境已获得对当前环境更好的理解;二是目标物体可能在场景中不可见,因此智能体需要学习一个高效的搜索方式;第三个难点就是路线的计划,目前已经有多项研究致力于解决这三个问题

  • 基于几何学的导航:要求当前环境已经是先验知识的一部分。论文提出的方法不依赖这种先验并且使用语义先验知识降低环境探索时间;
  • 基于学习的导航 :也就是论文所研究的方向,和以往方法不同的是,该方法继承了语义和功能先验来改善导航性能和对位置场景与物体的泛化能力;
  • 语义与场景先验:虽然语义推理已经被广泛研究,但是大多应用在静态图像的处理中。论文中的方法将语义推理应用到交互式的导航任务中,智能体通过当前的观测更新自己的知识;
  • 知识图谱:知识图谱在计算机视觉任务中应用广泛(提到了图像分类和零样本),论文用在增强学习中
  • 对于未知环境或目标 的推理:零样本推理在语义增强学习中多有应用,但是该论文提到的方法使用场景先验增强对未知物体或在未知场景中的导航,与以往的应用不同。

3. 视觉语义导航

3.1 任务定义

  任务是给定一个以智能体视角的RGB场景,智能体从一个随机起始位置导航至特定类目标物体,其中类别是通过语义标签声明的,所以任务称为视觉语义导航。当目标物体类的一个实例在智能体视线范围且小于某个距离的时候,认为该任务成功。

3.2 Baseline模型

  通过深度增强学习框架对视觉语义导航任务进行形式化的描述。给定一个语义任务目标ggg,智能体在时间ttt处在状态sts_tst​,并且已经根据策略π\piπ从可能的动作集合AAA中选取了一个动作ata_tat​,用如下公式逼近ata_tat​:
π(ϕ(st;u),ψ(g;v);θ)\pi(\phi(s_t;u),\psi(g;v); \theta)π(ϕ(st​;u),ψ(g;v);θ)

  其中u,v,thetau,v,thetau,v,theta都是网络的参数,因为视觉状态和语义目标来自不同的形式,所以论文设计了两个分支即ϕ(⋅;u)\phi(\cdot ;u)ϕ(⋅;u)和ψ(⋅;v)\psi(\cdot;v)ψ(⋅;v)分别映射两个不同的输入到视觉语义特征嵌入模块,方法整体框架如下所示,模型集成语义知识进行语义导航,具体地,首先学习一个policy网络基于当前状态的视觉特征,语义目标类的特征以及从知识图谱中抽取的特征来决定要采取的动作。

视觉网络:如上图顶部所示,视觉网络以 224 x 224的RGB图像作为输入,经过主干网络(ImageNet上预训练的ResNet50)后连接全连接层生成一个512维的视觉语义特征向量
语义网络:语义目标任务通过目标的类别来描述,使用fastText为每一个类别单词计算一个100维的向量然后通过全连接层和ReLU层映射为一个512维的向量(上图中间)
Actor-Critic policy network:应用A3C算法预测每一步的动作。A3C模型的输入是当前视觉状态和语义目标任务的联合表示(1024维向量),有两个输出,policy和值,要采取的动作根据policy获得。A3C模型是一个多层感知机,由输入层,隐藏层和输出层组成。隐藏层是一个带有ReLU激活层的全连接层映射输入到一个512维向量,然后∣A∣|A|∣A∣维policy和值通过网络的这两个分支生成。不同于之前的工作,该论文使用同一个policy网络应对不同的场景,这使得模型泛化能力更强。
奖惩机制:使用奖惩机制最小化到目标物体路线的长度。当智能体走一步的时候目标物体类的一个实例距智能体距离在某个阈值之内,给这一步设置一个较大的奖励比如10,否则设置一个惩罚-0.01。奖励函数的设计与动作集合AAA有关,论文的实验中设置了两个动作集合,一个包含停止动作一个没有。没有停止动作的动作集合中,智能体在环境识别到其接近目标是会得到奖励从而结束这一段的训练。在有停止动作的集合中,训练只有在采取停止动作时才会停止,并且智能体面向目标物体且距离在某一阈值时,才会得到奖励。这使得任务更加具有挑战性。

4. 使用图卷积神经网络进行推广泛化

  论文目标是将语义知识集成到增强学习框架中,为此,论文将语义知识表示为图的形式然后使用图卷积神经网络计算途中的相关特征。图卷积网络可以集成先验知识并且动态更新。
  论文这一节显示简单介绍怎样构建语义知识图谱来表示先验知识,然后介绍图卷积神经网络的北京,最后是应用图卷积神经网络到视觉语义导航任务中的细节并且展示图卷积神经网络在面对未知的场景和陌生的物体时进行泛化。

4.1 知识图谱的构建

  如下图所示

4.2 集成语义知识到Actor-Critic模型中

  用图结构表示信息在不同节点之间的传播,首先基于当前状态初始化每个节点然后进行信息传递来计算一个语义知识向量作为policy函数的另一个输入特征,信息传递就是用了图卷积神经网络。

4.2.1 图卷积神经网络GCN

  输入每个图节点vvv的向量为xvx_vxv​,将所有节点的输入表示为一个矩阵X=[x1,...,x∣V∣]∈R∣V∣×DX=[x_1,...,x_{|V|}] \in R^{|V| \times D}X=[x1​,...,x∣V∣​]∈R∣V∣×D,其中DDD表示输入特征的维度。图结构被标识为一个二维邻近矩阵AAA,对AAA进行规则化处理得到Aˉ\bar AAˉ。GCN输出一个节点层次的表示Z=[z1,...,z∣V∣]∈R∣V∣×FZ=[z_1,...,z_{|V|}] \in R^{|V| \times F}Z=[z1​,...,z∣V∣​]∈R∣V∣×F,令f(⋅)f(\cdot)f(⋅)表示ReLU激活函数,有如下公式:
H(l+1)=f(AˉH(l)W(l))H^(l+1)=f(\bar A H^{(l)}W^{(l)})H(l+1)=f(AˉH(l)W(l))

  且H(0)=Z,H(L)=ZH^{(0)}=Z,H^{(L)}=ZH(0)=Z,H(L)=Z,其中W(l)W^{(l)}W(l)是第lll层的参数L是GCN的层数。

4.2.2 GCN 用于导航

  在视觉语义导航任务中,每个节点都被设计为一个所有语义和视觉线索的联合表示。(语义线索即词向量,视觉线索即集合当前状态sts_tst​的分类的分数),通过之前提到的算法生成一个1024维的向量用于来表征图中的每个节点。

  如上图所示,使用一个三层图卷积神经网络,前两层输出1024维特征,最后一层为每个节点输出单个值也就是一个∣V∣|V|∣V∣维的向量,该特征向量是当前场景的语义先验。
  最后,将特征向量映射为512维然后和之前视觉、语义分支的特征concat获得一个1536维的向量,然后特征输入policynetwork用于预测。

5. 实验

  使用高仿真框架AI2-THOR进行方法的测试,用两个指标来评价,一个是成功率,智能体成功导向目标的次数比上所有尝试的次数;另一个是Success weighted by Path Length(SPL),这个指标同时考虑了步数和距离,SPL=1N∑i=1NSiLimax(Pi,Li)SPL=\frac{1}{N}\sum^N_{i=1}S_i\frac{L_i}{max(P_i,L_i)}SPL=N1​∑i=1N​Si​max(Pi​,Li​)Li​​,其中N是该阶段尝试的次数,SiS_iSi​表示阶段是否成功的二值标志,PiP_iPi​表示路径长度,LiL_iLi​表示阶段i的最短路径。
实验结果如下:
a. with stop acction
b. without stop acction


欢迎扫描二维码关注微信公众号 深度学习与数学   [每天获取免费的大数据、AI等相关的学习资源、经典和最新的深度学习相关的论文研读,算法和其他互联网技能的学习,概率论、线性代数等高等数学知识的回顾]

(ICLR2019)论文阅读-使用深度增强学习框架的基于场景先验知识的视觉语义导航相关推荐

  1. 【论文阅读】深度强化学习的攻防与安全性分析综述

    文章目录 一.论文信息 二.论文结构 三.论文内容 摘要 1 深度强化学习方法 2 深度强化学习的攻击方法 2.1 基于观测的攻击 4 深度强化学习的安全性分析 5 应用平台与安全性评估指标 5.1 ...

  2. 论文浅尝 | ​ADRL:一个基于注意力机制的知识图谱深度强化学习框架

    论文笔记整理:谭亦鸣,东南大学博士. 来源:Knowledge-Based Systems 197 (2020) 105910 链接:https://www.sciencedirect.com/sci ...

  3. 【强化学习文献阅读】DRN:新闻推荐的深度强化学习框架

    Article 作者:Guanjie Zheng, Fuzheng Zhang, Zihan Zheng, Yang Xiang, Nicholas Jing Yuan, Xing Xie, Zhen ...

  4. 【AAAI Oral】利用深度增强学习自动解数学题,准确率提升15%

    [AI科技大本营导读]增强学习和人类学习的机制非常相近,DeepMind已经将增强学习应用于AlphaGo以及Atari游戏等场景当中.作为智能教育领域的引领者,阿凡题研究院首次提出了一种基于DQN( ...

  5. AI体验馆上线!集成业界领先NLP场景深度迁移学习框架EasyTransfer

    简介:2020年10月,阿里云正式开源了深度迁移学习框架EasyTransfer,这是业界首个面向NLP场景的深度迁移学习框架. 目前集合该能力的AI体验馆已正式上线,免费体验:https://wor ...

  6. 深度增强学习:走向通用人工智能之路

    深度增强学习:走向通用人工智能之路 本文是系列文章中的第一篇,是对深度增强学习/深度强化学习的基本介绍以及对实现通用人工智能的探讨. 现在但凡写人工智能的文章,必提Alpha Go.也正是因为Alph ...

  7. 业界首个面向NLP场景深度迁移学习框架

    机器之心发布 机器之心编辑部 阿里云正式开源了深度迁移学习框架 EasyTransfer,本文详细介绍了 EasyTransfer 框架的核心功能 近日,阿里云正式开源了深度迁移学习框架 EasyTr ...

  8. 百度正式发布PaddlePaddle深度强化学习框架PARL

    去年,斯坦福大学神经生物实验室与 EPFL 联合举办了一场强化学习赛事--人工智能假肢挑战赛(AI for Prosthetics Challenge),希望将强化学习应用到人体腿部骨骼仿真模拟模型的 ...

  9. 阿里云开源EasyTransfer:业界首个面向NLP场景深度迁移学习框架

    阿里云开源EasyTransfer:业界首个面向NLP场景深度迁移学习框架 原文链接:https://zhuanlan.zhihu.com/p/267392773 阿里云正式开源了深度迁移学习框架 E ...

最新文章

  1. opencv和halcon标定参数结果对比
  2. nodejs实现的简单接口
  3. boost::adaptors::ref_unwrapped相关的测试程序)
  4. Effective Java之考虑自定义的序列化模式(七十五)
  5. P4338-[ZJOI2018]历史【LCT】
  6. EMR StarRocks 极速数据湖分析原理解析
  7. 数据 3 分钟 | 《数据安全法》即将施行;ACM SIGMOD在西安举办;艾瑞咨询发布数据库行业报告...
  8. 框架中的Blob数据的定义
  9. Subversion under Linux [Reprint]
  10. 花书+吴恩达深度学习(七)优化方法之基本算法(Momentum, Nesterov, AdaGrad, RMSProp, Adam)
  11. 深入理解Java虚拟机:虚拟机类加载机制
  12. Git学习收获(一)
  13. 彻底搞定char/wchar_t/unicode
  14. 爬虫:Python爬虫学习笔记之网页解析基础——爬取360导航栏目
  15. 接收xml参数_如何解决SpringMVC接收到的请求参数为乱码的问题
  16. 分享一个自己写的table表格排序js插件(高效简洁)
  17. 访问器中谨慎返回引用类型对象
  18. b站视频解析php,b站视频解析【调解流程】
  19. exoplay切换全屏_ExoPlayer播放视频的简单使用及播放视频宽高设置的源码分析
  20. 二分类模型性能评价 2.0(ROC曲线,lift曲线,lorenz曲线)

热门文章

  1. JS将秒数换算成时分秒 以及转化为年月日 时分秒以及多长时间以前
  2. utl raw mysql_oracle中utl_raw
  3. 从零开始的自动化测试框架-web自动化篇
  4. Vue中的this.$store.state.xx.xx
  5. 豆瓣电台WP7客户端 开发记录5
  6. Virtualbox 多重加载 高级功能介绍
  7. select中选中option的方法
  8. SpringCloudAlibaba看的某马视频笔记
  9. (转)svn中更新工程出现如下错误:Working copy not locked; this is probably a bug, please report...
  10. 什么叫h5项目_HTML5和H5是一个意思吗