1. 强化学习的定义

强化学习(reinforcement learning)是机器学习的一个重要分支,是一门多领域交叉学科,它的本质是自行解决决策问题,并且能进行连续决策。
强化学习有四个主要组成部分∶
1.代理(Agent)reward action state
2.环境(Environment)
3.行动(Action Environment)
4.奖励(Reward)

简而言之,强化学习是一个让代理在环境中不断尝试各种行动,并能通过奖励来影响行动模式,使得奖励最优化(或者趋近于最优)的一种算法。

2. 两种学习任务

两种学习RL的方式
Value Based
写出一个value function,这个value function可以告诉我们每一步的未来rewards会有多大

3. Policy Based

在这里,我们希望最优化一个policy function而不是一个value function

有两种policy可以选择∶
Deterministic∶相同state下,永远给出相同的action,简单来说就是每次在同样的情况下做出一样的选择
Stochastic∶给出一个所有action的可能性的distribution,意思是在选择具有随机性,在某些对抗性游戏中,随机决策是必须的

4. 生成模型

5. 生成模型大家族

6. DCGAN


强化学习和生成对抗网络相关推荐

  1. 2021-01-24过去十年十大AI研究热点,分别为深度神经网络、特征抽取、图像分类、目标检测、语义分割、表示学习、生成对抗网络、语义网络、协同过滤和机器翻译。

    专利申请量全球第一!清华人工智能发展报告:国内215所高校成立相关本科专业 发布时间:01-2415:20万象大会年度获奖创作者,东方财富网官方帐号 1月20日,清华大学人工智能研究院.清华-中国工程 ...

  2. 深度学习之生成对抗网络(8)WGAN-GP实战

    深度学习之生成对抗网络(8)WGAN-GP实战 代码修改 完整代码 WGAN WGAN_train 代码修改  WGAN-GP模型可以在原来GAN代码实现的基础上仅做少量修改.WGAN-GP模型的判别 ...

  3. 深度学习之生成对抗网络(7)WGAN原理

    深度学习之生成对抗网络(7)WGAN原理 1. JS散度的缺陷 2. EM距离 3. WGAN-GP  WGAN算法从理论层面分析了GAN训练不稳定的原因,并提出了有效的解决方法.那么是什么原因导致了 ...

  4. 深度学习之生成对抗网络(6)GAN训练难题

    深度学习之生成对抗网络(6)GAN训练难题 1. 超参数敏感 2. 模式崩塌  尽管从理论层面分析了GAN网络能够学习到数据的真实分布,但是在工程实现中,常常出现GAN网络训练困难的问题,主要体现在G ...

  5. 深度学习之生成对抗网络(4)GAN变种

    深度学习之生成对抗网络(4)GAN变种 1. DCGAN 2. InfoGAN 3. CycleGAN 4. WGAN 5. Equal GAN 6. Self-Attention GAN 7. Bi ...

  6. 深度学习之生成对抗网络(2)GAN原理

    深度学习之生成对抗网络(2)GAN原理 1. 网络结构 生成网络G(z)\text{G}(\boldsymbol z)G(z) 判别网络D(x)\text{D}(\boldsymbol x)D(x) ...

  7. 深度学习之生成对抗网络(1)博弈学习实例

    深度学习之生成对抗网络(1)博弈学习实例 博弈学习实例  在 生成对抗网络(Generative Adversarial Network,简称GAN)发明之前,变分自编码器被认为是理论完备,实现简单, ...

  8. 【深度学习】生成对抗网络(GAN)的tensorflow实现

    [深度学习]生成对抗网络(GAN)的tensorflow实现 一.GAN原理 二.GAN的应用 三.GAN的tensorflow实现 参考资料 GAN( Generative Adversarial ...

  9. 深度学习之生成对抗网络(5)纳什均衡

    深度学习之生成对抗网络(5)纳什均衡 1. 判别器状态 2. 生成器状态 3. 纳什均衡点  现在我们从理论层面进行分析,通过博弈学习的训练方式,生成器G和判别器D分别会达到什么平衡状态.具体地,我们 ...

最新文章

  1. socket 服务器浏览器与服务器客户端实例
  2. windows10下 tensorflow2.0 gpu 安装
  3. jakarta_迁移到Jakarta EE 9
  4. Server Tomcat v8.0 Server at localhost was unable to start within 45 seconds. 报错详细
  5. (软件工程复习核心重点)第十章面向对象设计-第二节:启发规则和软件重用
  6. python123程序设计题答案第三周_Python 3 程序设计学习指导与习题解答
  7. LeetCode:10.regular-expression-matching(正则式表达)
  8. tomcat https 启用8443加证书
  9. Android架构纵横谈之——软件自愈能力(转载)
  10. C#初学者教程系列3:Hello World:第一个控制台应用程序
  11. SQL Server默认周日为每周第一天,如何让周一变为每周的第一天
  12. mysql大于等于号
  13. 悲!企业软件被360误认木马病毒!
  14. Axure原型|天猫、京东、拉钩等网站banner原型分享
  15. destoon ajax调用,destoon if else 的常见使用方法
  16. 引流脚本有没有效果,引流脚本是什么
  17. 手机装linux无root权限,linux无root权限安装screen(示例代码)
  18. uniapp实战项目 (仿知识星球App) - - 配置开发工具和全局css样式
  19. Swagger2生成在线接口文档并导出pdf文件
  20. 简练网软考知识点整理-蒙特卡洛模拟

热门文章

  1. 软件版本的划分及含义alpha、Beta、RELEASE、Stable等
  2. 学会了玩街霸Ⅱ的AI,你怕不怕?
  3. 水质检测c语言程序,基于51单片机的水质监测系统的设计.doc
  4. 包装行业智慧供应链系统:加快产业周转效率,改善业务处理流程
  5. 很多蓝牙设备搜到不到,怎么办
  6. vue使用vue-video-player实现视频播放:
  7. 孕妇有什么副业做?孕妇在家有哪些兼职可以做?
  8. NetVideoHunter Video Downloader
  9. 自然语言处理 2.形态分析
  10. 【MAPBOX基础功能】29、mapbox地图基础工具 - 获取当前地图层级