罗斯等人[2011]提出了一种名为DAGGER的元算法,该算法试图在学习策略诱导的状态分布下收集专家演示。模仿学习的策略方法[萨顿和巴托,1998]:专家提供正确的行动,但例子的输入分布来自学习者自己的行为。

图显示了DAGGER模仿学习方法的概述。 最简单的DAGGER形式如下。 在第一次迭代时,策略通过专家演示的行为克隆初始化,导致策略 π 1 L π_1^L π1L​。 随后,该策略被用来收集轨迹数据集,这些新获得的轨迹和演示的轨迹被聚合成数据集 D D D,用于训练策略 π 2 L π_2^L π2L​。 在迭代 n n n,使用策略 π n L π_n^L πnL​来收集更多的轨迹,这些轨迹被添加到数据 D D D中。


在每次迭代中,DAGGER使用具有专家提供的修正(标签)的当前策略生成新示例,将新演示添加到演示数据集,并计算一个新策略以优化该数据集的总体性能。这个图显示了DAGGER的一次迭代。DAGGER的基本版本从一组专家演示中初始化演示数据集,然后交错策略优化和数据生成以增长数据集。更一般地说,聚合数据没有什么特别之处——任何方法,如梯度下降或加权大多数在策略生成中足够稳定并且在迭代中平均表现良好(或者更广泛地说,在每个迭代数据集上运行的所有无遗憾算法)都将实现相同的保证,由于计算原因可能非常首选。下一个策略 π n + 1 L π_{n+1}^L πn+1L​训练使 π n + 1 L π_{n+1}^L πn+1L​模拟专家在整个数据集 D D D。

通过收集学习者遇到的状态下的专家演示,DAGGER缓解了由学习者政策引起的状态分布与初始演示数据中的状态分布不同的问题。 这种方法大大减少了获得满意性能所需的训练数据集的大小[Ross等人,2011年],并且通常甚至渐近地获得更好的性能。 DAGGER可以解释为将模仿学习减少到具有交互作用的Bagnell[2015]的监督学习。

至关重要的是,匕首的方法并不局限于对以前所有数据的单纯聚合:事实上,任何算法(如梯度下降、牛顿方法的一些变体、指数梯度方法等)具有no-regret性质的,可以用来对每个新收集的数据集进行迭代学习,并实现相关的形式保证。

数据作为演示者:Venkatraman等人。 [2015]扩展了DAGGER,并提出了一个称为数据演示器(DAD)的框架,其中多步预测问题被表示为模仿学习。 在多步预测中,预测误差将随着时间的推移而级联,就像学习策略一样,并且这种预测误差也可以通过数据聚合方法来改进。 最近的工作表明了DAD在控制问题中的有效性[Venkatraman等人,2016年]。

数据聚合方法:DAGGER相关推荐

  1. Pandas统计分析基础(6):基于groupby的数据分组和分组后的数据可视化数据聚合方法(agg/apply/transform方法)

    ✅作者简介:大家好我是Xlong,一枚正在学习COMSOL.Python的工科研究僧

  2. php数据group去重,MongoDB_Mongodb聚合函数count、distinct、group如何实现数据聚合操作, 上篇文章给大家介绍了Mong - phpStudy...

    Mongodb聚合函数count.distinct.group如何实现数据聚合操作 上篇文章给大家介绍了Mongodb中MapReduce实现数据聚合方法详解,我们提到过Mongodb中进行数据聚合操 ...

  3. 数据可视化 工具_卓越中心和数据可视化工具2020中的组织中的数据聚合

    数据可视化 工具 人工智能 (ARTIFICIAL INTELLIGENCE) Data consumption is rising steadily in 2020 with estimates s ...

  4. R语言进行数据聚合统计(Aggregating transforms)计算滑动窗口统计值(Window Statistics):使用R原生方法、data.table、dplyr等方案、计算滑动分组统计

    R语言进行数据聚合统计(Aggregating transforms)计算滑动窗口统计值(Window Statistics):使用R原生方法.data.table.dplyr等方案.计算滑动分组统计 ...

  5. R语言进行数据聚合统计(Aggregating transforms)实战:使用R原生方法、data.table、dplyr等方案、计算分组均值并添加到可视化结果中

    R语言进行数据聚合统计(Aggregating transforms)实战:使用R原生方法.data.table.dplyr等方案.计算分组均值并添加到可视化结果中 目录

  6. Python之数据聚合——aggregate()方法

    文章目录 使用内置统计方法聚合数据 面向列的聚合方法 aggregate()方法 对每一列数据应用同一个函数 对某列数据应用不同的函数 对不同列数据应用不同函数 使用内置统计方法聚合数据 实现数据拆分 ...

  7. python pandas 拿取表格中两个列_在家憋着也是憋着,不如来学习一下python数据聚合的方法...

    #python打卡##Python数学编程##python##统计##大数据# 在实际工作过程中,我们经常会遇到对数据进行聚合的情况.针对这种数据聚合的结果,我们又称之为透视表.透视表是各种电子表格程 ...

  8. raster | R语言中的空间栅格对象及其基本处理方法(Ⅳ):数据聚合、重采样

    本篇示例数据: library(raster) # 2015年中国人口空间分布公里网格数据集 # 数据来源:https://www.resdc.cn/DOI/DOI.aspx?DOIid=32 pop ...

  9. pandas合并groupby_pandas数据聚合与分组运算——groupby方法

    简介 pandas中一类非常重要的操作是数据聚合与分组运算.通过groupby方法能够实现对数据集的拆分.统计.转换等操作,这个过程一气呵成. 在本文中,你将学到: 选取特定列分组: 对分组进行迭代: ...

最新文章

  1. 不再使用快捷方式打开电脑软件!如何Windows+r 来打开一个你想要打开的软件软件?
  2. mysql触发器运算_在MySQL中使用触发器计算列值?
  3. Leet Code OJ 242. Valid Anagram [Difficulty: Easy]
  4. cascade sqlite 数据库_ON DELETE CASCADE无法正常工作在ios中的sqlite3中
  5. niosii spi 外部_基于Nios_II的DMA传输总结
  6. 谈谈入职新公司1月的体会
  7. java 编译环境不一致_安装多JDK后,java编译环境和运行环境版本(JDK版本) 不一致解决:...
  8. mvn执行编译时使用lib下的jar包
  9. WPS制作甘特图实操(带图超详细)
  10. 【Circulation love恋爱循环】MMD镜头+动作打包下载.zip
  11. Java_定义一个圆类,提供输出面积和周长的方法,定义一个测试类使用
  12. 裁剪图片 华为手机显示为圆
  13. Java接入支付宝支付(沙箱)
  14. npm(了解)+Babel转码器+模块化+webpack打包
  15. ZSTU2019校赛 Problem D Lis(线性基dp)
  16. Ubuntu内网穿透搭建网站:设置跳转本地网页服务 6/17
  17. 中国石油大学《化学反应工程》第一阶段在线作业
  18. MinGW-w64 C/C++编译器下载和安装
  19. HDU 1493 QQpet exploratory park(概率DP)
  20. MySQL学生表、老师表、课程表和成绩表查询语句,全部亲测

热门文章

  1. 同步推无需越狱可以安装正版是什么原理?
  2. 评价标准:ROC和AUC
  3. Lecture19_相机、透镜与光场(Cameras, Lenses and Light Fields)_GAMES101 课堂笔记
  4. 面试,你需要掌握的三个问题!
  5. 0404有理函数的积分-不定积分
  6. 水果店水果的保存方法,水果店的水果应该怎么保存
  7. 阿里巴巴笔试题:数据分析与建模测试
  8. 华为mate20出现绿屏问题对京东方是一大利好
  9. 预测贷款用户是否逾期-数据预处理
  10. 遗传算法顺序交叉java,求解旅行商问题的顺序交叉多子代遗传算法