使用基于图形的深度强化学习来玩文本冒险游戏

摘要

基于文本的冒险游戏提供了一个平台,在组合行动空间(如自然语言)的背景下探索强化学习。我们提出了一个深度强化学习架构,将游戏状态表示为探索过程中学习的知识图。此图用于修剪操作空间,使探索更有效。采取哪种行动的问题可以简化为一个回答问题的任务,这是一种预先训练我们架构的某些部分的迁移学习形式。在使用TextWorld框架的实验中,我们表明,我们提出的技术可以比基线替代方法更快地学习控制策略。我们还在https://github.com/rajammanabrolu/KGDQN上开放了我们的代码。

1.介绍

自然语言交流可以用来影响现实世界的变化。在文本冒险游戏中,玩家必须通过文本描述理解世界,并通过自然语言声明行动,这可以为玩家走向更真实的环境提供一个跳板,在这种环境中,代理必须通过交流来理解世界的状态,并间接影响世界的变化。文本冒险游戏对于开发和测试强化学习算法也很有用,这些算法必须处理世界的部分可观察性(Narasimhan等人,2015;He et al., 2016)。

在文本冒险游戏中,代理会收到关于当前世界状态的不完整文本描述。根据这些信息以及之前与游戏世界的互动,玩家必须决定下一个最佳行动以实现某些任务或目标。然后,玩家必须编写他们打算采取的行动的文本描述,并接收行动效果的文本反馈。形式上,基于文本的游戏是一个部分可观察的马尔可夫决策过程(POMDP),表示为

Playing Text-Adventure Games withGraph-Based Deep Reinforcement Learning相关推荐

  1. AAAI 2020使用深度强化学习的MOBA游戏《Towards Playing Full MOBA Games with Deep Reinforcement Learning》打败王者荣耀顶尖选手

    不知道你是否玩过王者荣耀,不知道你是不是经历过被人机疯狂怼在塔下强杀然后嘲讽你的经历?就,真说多了就是泪. 最近,NeurlPS2020会议收录了来自腾讯AI Lab的一篇强化学习的论文<Tow ...

  2. 【强化学习】Playing Atari with Deep Reinforcement Learning (2013)

    Playing Atari with Deep Reinforcement Learning (2013) 这篇文章提出了第一个可以直接用强化学习成功学习控制policies的深度学习模型. 输入是r ...

  3. 论文笔记之:Playing Atari with Deep Reinforcement Learning

    Playing Atari with Deep Reinforcement Learning <Computer Science>, 2013 Abstract: 本文提出了一种深度学习方 ...

  4. [DQN] Playing Atari with Deep Reinforcement Learning

    论文链接:https://arxiv.org/abs/1312.5602 引用:Mnih V, Kavukcuoglu K, Silver D, et al. Playing atari with d ...

  5. 算法笔记:Playing Atari with Deep Reinforcement Learning

    Playing Atari with Deep Reinforcement Learning 比较尴尬,上篇文章不是DQN的来源,这篇才是.上篇Nature文章对于DQN做出的改进上次没读明白,查看其 ...

  6. RL论文阅读【一】Playing Atari with Deep Reinforcement Learning

    1 废话 开始要认真的读论文的,计划每天晚上回宿舍看一半,两天看完一篇,第三天写博客总结,虽然有点慢吧,但是积少成多嘛~ 今天先介绍第一篇,也是深度强化学习的开山之作. 2 动机 一般把这篇论文称作深 ...

  7. 深度强化学习篇2:从Playing Atari with Deep Reinforcement Learning 看神经网络的输入,学习的状态空间

    Introduction:学习直接从高维的感观输入(视觉,语音)去直接控制智能体是强化学习一个长期的挑战.一些成功的RL应用都是依赖于hand-crafted的特征.最近深度学习的进步使提取高水平的特 ...

  8. 基于深度强化学习的车道线检测和定位(Deep reinforcement learning based lane detection and localization) 论文解读+代码复现

    之前读过这篇论文,导师说要复现,这里记录一下.废话不多说,再重读一下论文. 注:非一字一句翻译.个人理解,一定偏颇. 基于深度强化学习的车道检测和定位 官方源码下载:https://github.co ...

  9. 【文献阅读03】Deep Reinforcement Learning Based Resource Allocation for V2V Communications

    Deep Reinforcement Learning Based Resource Allocation for V2V Communications(点击可见原文) p.s.此文19年发表,到20 ...

  10. 【论文翻译】Playing Atari with Deep Reinforcement Learning

    摘要:我们第一个提出了"利用强化学习从高维输入中直接学习控制策略"的深度学习模型.该模型是一个卷积神经网络,经过Q-learning训练,输入为原始像素,输出为:"用来估 ...

最新文章

  1. KDE社区:首个KDialogue正式开放
  2. 安装中文和英文man(c函数)
  3. Cisco网络设备搭建×××服务器的全部过程
  4. 【TypeScript系列教程12】Number对象的基本使用
  5. Android手游《》斗地主完整的源代码(支持单机和网络对战)
  6. 统计内存使用率shell
  7. jsp还能引用项目外的js,css啊
  8. UVA10882 Koerner's Pub【数学】
  9. SQL Server如何清除连接过的服务器名称历史?
  10. python3 协程_Python3 异步神器-协程(Coroutine)
  11. proxmox VE 4.4 增加USB 重定向功能
  12. 初中英语听力计算机考试反馈,【初中英语】英语听说机考,怎样才能有效提高英语听力和口语水平?...
  13. 【系统集成项目管理工程师】考点:挣值管理 (附计算公式及思维导图)
  14. 快速生成文件夹内包含的的所有文件的文件名列表
  15. MemCache与redis
  16. 计算机网络学习笔记 01(更新)
  17. linux下kbhit的头文件,linux下kbhit()使用
  18. intel英特尔无线适配器高级设置
  19. post-processing effects HDR
  20. 计算机选取多个目标按什么键,连续选择多个按什么键

热门文章

  1. phpcms常用代码
  2. Xilinx-ZYNQ7000系列-学习笔记(10):AXI总线
  3. 云时代数据安全才是真正的安全 —— 天空卫士 副总裁 巩文坚
  4. 什么是 pickling 和 unpickling ?
  5. Linux iscsi的磁盘扩容,Linux物理磁盘扩容流程
  6. 数据库学习第五节表的修改和删除
  7. 访问内网弹窗“您的连接不是私密链接“且要输入用户名密码
  8. 10/100Base+1000Base/百兆/千兆网络接线,568A+568B线序,交叉线、直连线意义等的探讨
  9. 小孩护眼灯什么牌子的好?眼科专家推荐的护眼灯品牌
  10. 天科大java web_痛心!失联15天,中科大博士遗体在芦苇荡被发现