模仿学习笔记:生成判别模仿学习 Generative Adversarial Imitation Learning, GAIL
1 GAN (回顾)
1.1 生成器
1.2 判别器
1.3 训练生成器
将生成器与判别器相连,固定住判别器的参数,只更新生成器的参数 θ,使得生成的图片 x = G(s; θ) 在判别器的眼里更像真的。
对于任意一个随机生成的向量 s,应该改变 θ,使得判别器的输出尽量接近 1
可以用如下函数作为loss function:
我们希望此时D(x;Φ)越大越好,也就是E(s;θ)越小越好
所以我们用梯度下降来更新生成器的θ
1.4 训练判别器
- 判别器的本质是个二分类器,它的输出值 表示对图片真伪的预测;
- 接近 1 表示“真”,
- 接近 0 表示“假”。
- 从真实数据集中抽取一个样本,记作。
- 再随机生成一个向量 s,用生成器生成
- 训练判别器的目标是改进参数 ϕ,让 更接近 1(真),让更接近 0 (假)。
- ——>也就是说让判别器的分类结果更准确,更好区分真实图片和生成的假图片。
此时的损失函数如下所示
不难发现,判别器越准确,损失函数F越小
所以我们也用梯度下降更新判别器的θ
1.5 整体训练流程
2 生成判别模仿学习 Generative Adversarial Imitation Learning, GAIL
2.1 训练数据
2.2 生成器
GAIL 的生成器是策略网络π(a|s; θ)策略网络的输入是状态 s,输出是一个向量:输出向量 f 的维度是动作空间的大小 A,它的每个元素对应一个动作,表示执行该动作的概率。
给定初始状态 s1,并让智能体与环境交互,可以得到一条轨迹:其中动作是根据策略网络抽样得到的,
下一时刻的状态是环境根据状态转移函数计算出来的
2.3 判别器
2.4 GAIL的训练
2.4.1 训练生成器
于是我们的轨迹可以变成
有不同的方法来更新策略网络的参数θ
在GAIL中,使用的是TRPO
强化学习笔记:置信域策略优化 TRPO_UQI-LIUWJ的博客-CSDN博客
即目标函数为
通过解带约束的最大化问题,得到新的参数
2.4.2 训练判别器
同时用策略网络控制智能体和环境交互,得到另一条轨迹,记作
注意real和fake轨迹的长度可能不一样
同样地,我们希望尽量趋近于1,尽量趋近于0
于是我们定义损失函数
我们希望损失函数尽量小,也就是说判别器能区分开真假轨迹。可以做梯度下降来更新判别器的参数Φ
2.4.3 整体训练流程
模仿学习笔记:生成判别模仿学习 Generative Adversarial Imitation Learning, GAIL相关推荐
- 论文精读:Generative Adversarial Imitation Learning(生成对抗模仿学习)
生成对抗模仿学习论文分享(Generative Adversarial Imitation Learning) 1.背景介绍 1.1.论文背景 这篇论文是2016年由斯坦福大学研究团队提出的,两位作者 ...
- 【强化学习】GAIL生成对抗模仿学习详解《Generative adversarial imitation learning》
前文是一些针对IRL,IL综述性的解释,后文是针对<Generative adversarial imitation learning>文章的理解及公式的推导. 通过深度强化学习,我们能够 ...
- Generative Adversarial Imitation Learning分析
目录 Generative Adversarial Imitation Learning论文分析 Abstract Introduction Background Characterizing the ...
- 从《西部世界》到GAIL(Generative Adversarial Imitation Learning)算法
原文链接:https://blog.csdn.net/jinzhuojun/article/details/85220327 一.背景 看过美剧<西部世界>肯定对里边的真实性(fideli ...
- AAAI 2021-TextGAIL:Generative Adversarial Imitation Learning for Text Generation
原文链接https://arxiv.org/abs/2004.13796 介绍motivation 1)Exposure bias problem of MLE 2)The text generat ...
- 生成对抗网络 – Generative Adversarial Networks | GAN
生成对抗网络 – Generative Adversarial Networks | GAN 生成对抗网络 – GAN 是最近2年很热门的一种无监督算法,他能生成出非常逼真的照片,图像甚至视频.我们手 ...
- 生成对抗网络(Generative Adversarial Networks)
参考 生成对抗网络(Generative Adversarial Networks) - 云+社区 - 腾讯云 目录 一.生成对抗网络原理 1.模型的起源 2.模型的结构和损失函数 二.对GAN的改 ...
- 论文理解【IL - 数据增广】 —— Adversarial Imitation Learning with Trajectorial Augmentation and Correction
标题:Adversarial Imitation Learning with Trajectorial Augmentation and Correction 发表:ICRA 2021 文章链接:Ad ...
- 论文翻译 —— Adversarial Imitation Learning with Trajectorial Augmentation and Correction
标题:Adversarial Imitation Learning with Trajectorial Augmentation and Correction 会议:ICRA 2021 文章链接:Ad ...
最新文章
- MySQL 5.7 中TIMESTAMP with implicit DEFAULT value is deprecated错误
- day-44mysql
- 关于 SAP 电商云首页加载时触发的 OCC API 请求
- Discuz!NT博客非官方升级!!
- uniapp /deep/设置uni-app组件样式时 h5生效 小程序失效问题解决
- 面试项目亮点_当面试官谈到项目经验的时候,你知道怎么回答吗?怎么反过来控制面试流程?...
- MySQL Online DDL 方案剖析
- 文件怎么更新_iOS屏蔽更新描述文件以及超级详细安装方法分享
- 【算法】非线性动力学混沌、分岔图、最大李雅普诺夫指数等
- intel AVX / AVX2指令学习资源
- 你想要的宏基因组-微生物组知识全在这(1905)
- Ajax请求前显示的等待图标
- 请为横线处选择合适的程序使得程序的运行结果是123 ( )
- 祝愿天下所有运维的服务器永不宕机!
- 让你的Linux支持WEB修改密码(转)
- 数据挖掘十大经典算法个人总结
- 由点及面,一叶知秋——集合大家族
- 解决pip install (包名)报错问题
- Aspose.PDF for Java 20.x
- iframe嵌入网页的用法
热门文章
- 没文凭能学IT技术吗_学完能找到工作吗?能的
- dnspod每步nat123及3322动态域名同类网络辅助软件对比
- Struts2中关于There is no Action mapped for namespace / and action name的错误解决
- 高考415分能上计算机网络的学校吗,2021年高考415分文科能上什么学校 文科415分左右的大学有哪些...
- AI医药方向论文总结(包含DDI和DDS,重点分析药物联合预测)
- React 源碼解析 - Fiber/Reconcile 系列:Fiber 與 Diff
- 极域卸载就不能安装显示错误码2083
- 红色景点,纪念馆打卡拍照小程序,打卡完成任务,JavaScript 循环 i < cars.length;
- CODE【VS】1553 互斥的数(hash表+map函数)
- 计算机考试准考证打印时间